Рет қаралды 2,931
Quer saber mais sobre o nosso Curso Completo de Ciência de Dados? Clique no link abaixo para garantir sua vaga na próxima turma:
blp.hashtagtreinamentos.com/c...
PARA BAIXAR O MINICURSO GRATUITO DE ANÁLISE DE DADOS:
pages.hashtagtreinamentos.com...
-----------------------------------------------------------------------
► Arquivos Utilizados no Vídeo:
pages.hashtagtreinamentos.com...
-----------------------------------------------------------------------
Caso prefira o vídeo em formato de texto:
www.hashtagtreinamentos.com/r...
-----------------------------------------------------------------------
Playlist Pandas Python:
• 7 Maneiras de Criar Da...
-----------------------------------------------------------------------
PARA CONTRATAR A HASHTAG PARA SUA EMPRESA:
www.hashtagtreinamentos.com/t...
-----------------------------------------------------------------------
Fala Impressionadores! Hoje eu vou falar sobre um assunto muito interessante que é a raspagem de dados com pandas ou webscraping, como você já deve ter ouvido por aí.
A raspagem de dados, nada mais é do que uma maneira de obter dados da internet (usando o read_html do pandas), então você pode obter tabelas por exemplo e fazer o tratamento de dados no pandas normalmente.
Só que o que poucas pessoas falam é quando podemos fazer a raspagem de dados! Sim, não é porque os dados estão livres na internet que podemos fazer esse processo de raspagem de dados.
Por isso eu vou te explicar sobre o robots.txt que é um documento que mostra quais as páginas de um site você está apto a fazer essa raspagem de dados.
Alguns sites proíbem essa raspagem em diversas das suas páginas, o que pode gerar um bloqueio para o usuário que fizer isso.
Então é importante que você saiba se de fato pode obter aqueles dados. Outro ponto importante é verificar se o site já não oferece as informações que você precisa para download ou até mesmo se não oferece uma API para obter essas informações!
Com isso fica tudo mais fácil e você evita qualquer tipo de bloquei. Lembrando que a raspagem de dados seria o último recurso, então vamos verificar se existem os arquivos para download, depois se temos API e só aí partimos para a raspagem, caso esteja disponível!
-----------------------------------------------------------------------
Hashtag Programação
► Inscreva-se em nosso canal: bit.ly/3c0LJQi
► Ative as notificações (clica no sininho)!
► Curta o nosso vídeo!
-----------------------------------------------------------------------
Redes Sociais
► Blog: bit.ly/2MRUZs0
► KZfaq: bit.ly/3c0LJQi
► Instagram: bit.ly/3o6dw42
► Facebook: bit.ly/3qGtaF2
Aqui nos vídeos do canal da Hashtag Programação ensinamos diversas dicas de Ciência de Dados para que você consiga se desenvolver e até mesmo mudar de área mesmo sem nenhuma experiência!
-----------------------------------------------------------------------
Conteúdo da Aula
00:00 Introdução
01:15 O que vamos simular nessa aula?
03:00 Importação do Pandas + Link do site
03:14 O que a função read_html retorna?
03:44 Obtendo as tabelas do site
05:12 Verificando o comprimento da lista de tabelas
05:37 Obtendo o primeiro item de uma coleção de itens
06:39 Tratamento de dados no Pandas
08:30 Trabalhando com os dados
10:30 Entendo o funcionamento do read_html (documentação)
11:56 O que é HTML
13:55 Fonte da Página de Exibição (busca por tabela)
17:25 Quando podemos fazer a raspagem de dados?
18:57 Protocolo de exclusão de robôs (robots.txt)
23:11 Como acessar o robots.txt
28:04 Exemplos do robots.txt de alguns sites
29:23 Site da Globo (robots.txt)
32:02 Site da Record (robots.txt)
33:40 Site do Censo 2022 do IBGE (robots.txt)
36:33 Site do GitHub (robots.txt)
39:13 Conclusão
#cienciadedados #cienciadados #hashtagprogramacao