Raspagem de Dados com Pandas

  Рет қаралды 2,931

Hashtag Programação

Hashtag Programação

Күн бұрын

Quer saber mais sobre o nosso Curso Completo de Ciência de Dados? Clique no link abaixo para garantir sua vaga na próxima turma:
blp.hashtagtreinamentos.com/c...
PARA BAIXAR O MINICURSO GRATUITO DE ANÁLISE DE DADOS:
pages.hashtagtreinamentos.com...
-----------------------------------------------------------------------
► Arquivos Utilizados no Vídeo:
pages.hashtagtreinamentos.com...
-----------------------------------------------------------------------
Caso prefira o vídeo em formato de texto:
www.hashtagtreinamentos.com/r...
-----------------------------------------------------------------------
Playlist Pandas Python:
• 7 Maneiras de Criar Da...
-----------------------------------------------------------------------
PARA CONTRATAR A HASHTAG PARA SUA EMPRESA:
www.hashtagtreinamentos.com/t...
-----------------------------------------------------------------------
Fala Impressionadores! Hoje eu vou falar sobre um assunto muito interessante que é a raspagem de dados com pandas ou webscraping, como você já deve ter ouvido por aí.
A raspagem de dados, nada mais é do que uma maneira de obter dados da internet (usando o read_html do pandas), então você pode obter tabelas por exemplo e fazer o tratamento de dados no pandas normalmente.
Só que o que poucas pessoas falam é quando podemos fazer a raspagem de dados! Sim, não é porque os dados estão livres na internet que podemos fazer esse processo de raspagem de dados.
Por isso eu vou te explicar sobre o robots.txt que é um documento que mostra quais as páginas de um site você está apto a fazer essa raspagem de dados.
Alguns sites proíbem essa raspagem em diversas das suas páginas, o que pode gerar um bloqueio para o usuário que fizer isso.
Então é importante que você saiba se de fato pode obter aqueles dados. Outro ponto importante é verificar se o site já não oferece as informações que você precisa para download ou até mesmo se não oferece uma API para obter essas informações!
Com isso fica tudo mais fácil e você evita qualquer tipo de bloquei. Lembrando que a raspagem de dados seria o último recurso, então vamos verificar se existem os arquivos para download, depois se temos API e só aí partimos para a raspagem, caso esteja disponível!
-----------------------------------------------------------------------
Hashtag Programação
► Inscreva-se em nosso canal: bit.ly/3c0LJQi
► Ative as notificações (clica no sininho)!
► Curta o nosso vídeo!
-----------------------------------------------------------------------
Redes Sociais
► Blog: bit.ly/2MRUZs0
► KZfaq: bit.ly/3c0LJQi
► Instagram: bit.ly/3o6dw42
► Facebook: bit.ly/3qGtaF2
Aqui nos vídeos do canal da Hashtag Programação ensinamos diversas dicas de Ciência de Dados para que você consiga se desenvolver e até mesmo mudar de área mesmo sem nenhuma experiência!
-----------------------------------------------------------------------
Conteúdo da Aula
00:00 Introdução
01:15 O que vamos simular nessa aula?
03:00 Importação do Pandas + Link do site
03:14 O que a função read_html retorna?
03:44 Obtendo as tabelas do site
05:12 Verificando o comprimento da lista de tabelas
05:37 Obtendo o primeiro item de uma coleção de itens
06:39 Tratamento de dados no Pandas
08:30 Trabalhando com os dados
10:30 Entendo o funcionamento do read_html (documentação)
11:56 O que é HTML
13:55 Fonte da Página de Exibição (busca por tabela)
17:25 Quando podemos fazer a raspagem de dados?
18:57 Protocolo de exclusão de robôs (robots.txt)
23:11 Como acessar o robots.txt
28:04 Exemplos do robots.txt de alguns sites
29:23 Site da Globo (robots.txt)
32:02 Site da Record (robots.txt)
33:40 Site do Censo 2022 do IBGE (robots.txt)
36:33 Site do GitHub (robots.txt)
39:13 Conclusão
#cienciadedados #cienciadados #hashtagprogramacao

Пікірлер: 6
@moderacaohashtag
@moderacaohashtag 18 күн бұрын
Fala galera! Gostou do vídeo? Deixa a sua curtida e se inscreve no canal! ► Para baixar o Minicurso Básico de Ciência de Dados, acesse: pages.hashtagtreinamentos.com/inscricao-curso-basico-cienciadados?origemurl=hashtag_yt_org_minicd_bIEMsaKkqbk ► Para baixar os arquivos da aula, acesse: pages.hashtagtreinamentos.com/arquivo-cienciadados-1xiJciRXkxt_WoB0KWH0O2owkZuOv6OmF?origemurl=hashtag_yt_org_planilhacd_bIEMsaKkqbk ► Para instalar o Jupyter, acesse: kzfaq.info/get/bejne/lct7Y91mtsjUe3U.html ► Blog: bit.ly/2MRUZs0 ► KZfaq: bit.ly/3c0LJQi ► Instagram: bit.ly/3o6dw42 ► Facebook: bit.ly/3qGtaF2
@HugoSilva666
@HugoSilva666 27 күн бұрын
Cara, muito bom! a biblioteca pandas é incrível, poderia fazer um mini curso de pandas
@thiagocc84
@thiagocc84 28 күн бұрын
Mais um ótimo vídeo sobre Pandas =DD pô faz uns vídeos falando tudo sobre datetime que seria ótimo.
@MrDionmar
@MrDionmar 28 күн бұрын
Muiito bom 👍 Parabéns
@ddiogomainardi
@ddiogomainardi 25 күн бұрын
Sou aluno do curso Ciencia de dados Impressionador. O curso é muito e com uma didática incrivel, vale cada centavo.
@thiagopbento
@thiagopbento 26 күн бұрын
Se tiver que fazer raspagem em um ambiente logado, alguém sabe como faz?
Melhores Formatos para Salvar seus Dados csv x parquet x feather
42:00
Hashtag Programação
Рет қаралды 1,7 М.
Pandas Python - O que é, para que Serve e Como Instalar
18:28
Hashtag Programação
Рет қаралды 4,5 М.
Looks realistic #tiktok
00:22
Анастасия Тарасова
Рет қаралды 98 МЛН
🤔Какой Орган самый длинный ? #shorts
00:42
A clash of kindness and indifference #shorts
00:17
Fabiosa Best Lifehacks
Рет қаралды 52 МЛН
3M❤️ #thankyou #shorts
00:16
ウエスP -Mr Uekusa- Wes-P
Рет қаралды 15 МЛН
Tratando Bases de Dados com ChatGPT: Exemplo Petrobrás
14:30
Hashtag Treinamentos
Рет қаралды 16 М.
O que é NaN ou Null Dentro do Python e Como Tratar?
27:57
Hashtag Programação
Рет қаралды 3,5 М.
QUAL a MELHOR LINGUAGEM para PROGRAMAÇÃO?
6:44
Cortes do Ciência Sem Fim [OFICIAL]
Рет қаралды 479 М.
7 Essential Command Line Tools (2022)
9:12
Tech Craft
Рет қаралды 199 М.
My favorite Rust design pattern
7:00
Let's Get Rusty
Рет қаралды 21 М.
Python Poetry in 8 Minutes
8:27
ArjanCodes
Рет қаралды 55 М.
Looks realistic #tiktok
00:22
Анастасия Тарасова
Рет қаралды 98 МЛН