No video

COMO LER ARQUIVO PDF COM PYTHON

  Рет қаралды 17,390

Nerd dos Dados

Nerd dos Dados

Жыл бұрын

Neste vídeo de hoje eu quero mostrar pra vocês como ler arquivo PDF com Python.
Você sabia que com o Python da pra gente ler arquivos PDF, tanto arquivos que possuam texto como tabelas ? É possível e de uma forma bem simples e fácil. Eu vou te mostrar passo a passo nesse vídeo.
A primeira coisa que a gente precisa fazer é importar os pacotes e bibliotecas do python pra ler esses arquivos PDF.
Iremos utilizar o pacote Tabula e o pacote PyPDF2, vou explicar pra vocês como instalar e importar esses pacotes.
Também vou mostrar pra vocês como fazer um tratamento de dados nas informações que forem importadas, pois em alguns casos é necessário fazermos um tratamento de dados para ajustar os campos e como estes dados são importados e salvo como um DataFrame do Pandas então é bem simples também trata-los.
Então você não pode deixar de assistir esse vídeo por completo pra você aprender como ler arquivo PDF com Python e também vou deixar disponível todo material apresentado no vídeo pra você poder simular em seu computador e ter todo esse código passo a passo do arquivo do Jupyter Notebook do Python com todos os comandos utilizados.
Compartilhe esse vídeo: • COMO LER ARQUIVO PDF C...
Vídeos que também possam te ajudar bastante:
Como fazer EXPRESSÃO REGULAR e Análise de Texto com Python
• Como fazer EXPRESSÃO R...
Como trabalhar com LISTAS em Python
• COMO TRABALHAR COM LIS...
Como trabalhar com STRINGS em Python
• COMO TRABALHAR COM STR...
Os links abaixo são de afiliados, comprando através desses links eu ganho uma pequena comissão do site. É uma forma de você me ajudar a continuar produzindo esses excelentes conteúdos.
📚 Livros que me ajudam a aprimorar meus conhecimentos
📚 Python para data science e machine learning descomplicado: amzn.to/42yVldb
📚 Microsoft SQL Server 2016 express edition interativo: amzn.to/3SQRipA
📚 Inteligência Artificial - Uma Abordagem de Aprendizado de Máquina: amzn.to/3uDwjgq
📚 Business Intelligence e Análise de Dados para Gestão do Negócio: amzn.to/3ukNcg3
📚 Estatística prática para cientistas de dados (50 conceitos essenciais): amzn.to/496v1tx
📚 Projetos Ciência de Dados com Python: amzn.to/4buvPtP
📚 Estatística e Ciência de Dados: amzn.to/3OF53VT
📚 Python para Análise de Dados: amzn.to/490bQBz
👍 Equipamentos que utilizo no meu dia a dia
🖥️ Monitor Dell: amzn.to/3SSO4So
💻 Notebook Dell: amzn.to/3we2W52
🖱️ Mouse Microsoft: amzn.to/4br3Qv7
🖲️ Mouse Pad: amzn.to/3uq5Rad
⚙️ Pen Drive 32Gb: amzn.to/3HTrItD
🔌 Filtro de linha: amzn.to/3STo3Cn
🔋 Smart Plug Wi-Fi: amzn.to/3SPV56m
🙂 Maquina de Barbear Philips: amzn.to/48ayRka
⚙️ Novo Echo Dot 5ª geração: amzn.to/3UAGXPL
🪑 Cadeira Gamer: amzn.to/3SAYvbT
📺 Smart TV 4k Sansung: amzn.to/48c1MUE
Link para download do material apresentado no vídeo:
docs.google.co...
#cienciadedados
#python
#machinelearning

Пікірлер: 57
@rodrigoniederauer
@rodrigoniederauer Жыл бұрын
Excelente! Ganhou um inscrito. Direto ao ponto, sem novelinha de YT, mas mantendo uma boa didática.
@luisaldodecarvalho8081
@luisaldodecarvalho8081 6 ай бұрын
Show de bola, simples e objetivo!
@gilissantos6532
@gilissantos6532 Жыл бұрын
Ótimo conteúdo como sempre, vamos ajudar compartilhando para aumentar essa rede de ensino.
@AmadeusRockBand
@AmadeusRockBand Жыл бұрын
Excelente Conteúdo! Parabéns
@pedrovic12
@pedrovic12 Жыл бұрын
Excelente vídeo!!!! Muito bom seu conteúdo! 🌠
@venancioblack
@venancioblack 6 ай бұрын
Ótimas explicações. obrigado
@mauriciobarreto1553
@mauriciobarreto1553 9 ай бұрын
Excelente aula. Parabéns.
@irkbailoni
@irkbailoni 6 ай бұрын
Muito obrigado por tudo irmão, vive salvando
@nerddosdados
@nerddosdados 6 ай бұрын
Já voltei rs essa semana já teve vídeo novo
@NorBeSil
@NorBeSil 7 ай бұрын
Excelente conteúdo...! 😃👍
@limkf2009
@limkf2009 Жыл бұрын
Ganhou um inscrito, conteudo top
@vaniaformagio385
@vaniaformagio385 Жыл бұрын
Excelente conteúdo. Gostara de saber se vc tem video explicando como ler arquivo PPT com Python.
@nerddosdados
@nerddosdados Жыл бұрын
Olá Vania, no canal não tenho ainda mas pretendo fazer em breve, porém não sei se te ajudaria mas existe uma biblioteca que é para leitura de arquivos PPT. o nome dela é aspose.slides
@user-to1qy2kd2v
@user-to1qy2kd2v Жыл бұрын
Top o conteúdo, já me ajudou muito! Uma dúvida, como eu pego os dados de uma coluna e como eu pego um dados específico tipo da linha 2 coluna 3. Seria possível?
@raphaelignacio6956
@raphaelignacio6956 5 ай бұрын
Muito bom o vídeo parabéns, já tô inscrito, me tira uma dúvida ao importar o PDF, como eu apresentaria os dados específicos que eu preciso em uma tabela, ex a data, o título, o assunto.
@nerddosdados
@nerddosdados 5 ай бұрын
Você pode inserir os dados em um dataframe e depois salvar em Excel por exemplo
@jonathanrodriguessales6391
@jonathanrodriguessales6391 Жыл бұрын
Excelente vídeo, como sempre! Fiquei apenas com uma dúvida, quando usei o tabula para abrir uma tabela em um pdf, ele pegou somente as linhas, portanto a primeira linha se tornou o nome das colunas. Tem alguma forma, mesmo que com pandas, de transformar o nome de colunas na primeira linha? Pois se eu conseguir descer esses dados para primeira linha, posso só acrescentar um título para as linhas normalmente.
@nerddosdados
@nerddosdados Жыл бұрын
Olá Jonathan, tente utilizar a opção para não incluir um header e depois você inclui o nome das colunas de forma separada. Exemplo: tabelas = tabula.read_pdf(nome_arquivo, pages='all', pandas_options={'header': None})
@pauloxavier8473
@pauloxavier8473 27 күн бұрын
Bom dia, o comando "tabula.read_pdf" não funciona mais no meu computador. recebe o mensagem de que: AttributeError: module 'tabula' has no attribute 'read_pdf''. Consegue me ajudar?
@nerddosdados
@nerddosdados 26 күн бұрын
Tenta reinstalar o pacote pode ser algum bug desse pacote
@pauloxavier8473
@pauloxavier8473 26 күн бұрын
@@nerddosdados ótima lembrança. Eu tinha tentando dar outro pip install por cima e não deu certo. Agora dei o uninstall e RESOLVEU! Obrigado.
@conexaorobson
@conexaorobson 8 ай бұрын
Excelente vídeo porém eu consegui alterar um texto com o comando em python replace só que o arquivo não fica salvo a alteração como faço para salvar o arquivo PDF?
@nerddosdados
@nerddosdados 8 ай бұрын
Pra salvar o arquivo pode utilizar o save_pdf
@m0132273719
@m0132273719 25 күн бұрын
Parabéns
@unpoditalia5437
@unpoditalia5437 11 ай бұрын
Olá. Como transfomo material impresso, com campos a serem preenchidos, em editável, onde eu consiga tanto digitar na tela do PC, como imprimir e preencher à mão? Pode ser em PDF, quanto docx.
@nerddosdados
@nerddosdados 11 ай бұрын
Dessa forma que você questionou não consegui entender muito bem o que você precisa, se puder detalhar mais tento te ajudar
@marcao8820
@marcao8820 11 ай бұрын
Gostei muito do seu vídeo. Eu gostaria de saber se é possível extrair dados de uma parte específica do PDF. Tipo de algum título de seção, por exemplo
@nerddosdados
@nerddosdados 11 ай бұрын
E possível você extrair o pdf completo depois filtrar somente os dados que você precisa
@julialeal6090
@julialeal6090 6 ай бұрын
@@nerddosdados como fazer isso?
@nelson8483
@nelson8483 3 ай бұрын
fiquei com uma Dúvida. qual o caminho pra ele buscar o arquivo e ler não vi isso estou tentando fazer um programa que vai, buscar uma falha um uma apostila em pdf e retornar com a descrição do defeito e a sua solução essa apostila de 3000 pg me ajuda ai
@nerddosdados
@nerddosdados 3 ай бұрын
Ele busca por padrão no diretório que está seu Jupyter notebook mas você pode indicar o caminho também
@nelson8483
@nelson8483 3 ай бұрын
@@nerddosdados consegui me mostrar como faço isso, não sei muita coisa estou aprendendo ainda, tenho em meu computador um arquivo em PDF e estou tentando fazer ele buscar, mais o ideia seria melhor colocar esse arquivo dentro do Python e fazer o programa buscar. Me ajude por favor se puder.
@gilcimarmatias
@gilcimarmatias Жыл бұрын
Tenho um PDF com questões de física, é possível usar esse pacote, para buscar o número de cada questão para separar elas no PDF e montar um banco de dados para formulação de provas?
@nerddosdados
@nerddosdados Жыл бұрын
E possível sim
@fabiodosanjos2310
@fabiodosanjos2310 Жыл бұрын
Amigo, dai-me uma luz. Pode me dar um caminho para ler uma imagem dinâmica, por exemplo: O Vídeo de um relógio. Queria pegar os dados desse relógio e tratar depois. Identificar os caracteres. Obrigado.
@nerddosdados
@nerddosdados Жыл бұрын
Olá Fábio. Nesse caso você poderia tentar usar a biblioteca OpenCV essa biblioteca do Python tem muitos recursos para trabalhar com imagens dinâmicas
@feliperodrigues1549
@feliperodrigues1549 Жыл бұрын
Parabéns pelo video meu amigo, sabe me dizer se funciona com notas fiscais ? tentei mas não funcionou :(
@nerddosdados
@nerddosdados Жыл бұрын
Olá Felipe, obrigado. Com notas fiscais nunca tentei, porém se o PDF tiver a mesma estrutura de documento com tabelas e textos deve funcionar sim.
@Miguel3091
@Miguel3091 25 күн бұрын
Outra coisa como juntar dois ou maus arquivos de restos em PDF?
@nerddosdados
@nerddosdados 21 күн бұрын
Pode utilizar o merge tem um vídeo no canal explicando sobre merge
@user-sl9sb9vn3n
@user-sl9sb9vn3n 10 ай бұрын
Não roda, aparece erro a seguir: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.
@nerddosdados
@nerddosdados 10 ай бұрын
Nesse caso pode ser que quando configurou o JVM vc não tenha marcado a opção de atualizar as variáveis de ambiente
@user-sl9sb9vn3n
@user-sl9sb9vn3n 10 ай бұрын
Obrigado@@nerddosdados
@brunolimatabet3570
@brunolimatabet3570 9 ай бұрын
E como fazer isso?@@nerddosdados
@Miguel3091
@Miguel3091 25 күн бұрын
E is códigos fontes como você passa?
@nerddosdados
@nerddosdados 21 күн бұрын
Link está na descrição do vídeo
@maoliveira80
@maoliveira80 10 ай бұрын
Ganhou mais um inscrito para a lista... Excelente vídeo. É possível replicar esse método no google colab? Pergunto, pois, a empresa que trabalho tem um TI jurássico que parou no MS Dos, tudo que vamos pedir não pode instalar, ou ainda, se houver abertura tem que pedir autorização para uns 25 níveis distintos e a aprovação sair em um eclíse lunar ou alinhamento dos planetas. Pergunto, pois, se for possível, posso implementar umas soluções que facilitarão o meu trabalho de baixar e transferir informações de PDFs para uma planilha e subir diretamente para o sistema
@nerddosdados
@nerddosdados 10 ай бұрын
E possível fazer pelo Google colab sim
@alexzidani
@alexzidani Жыл бұрын
Excelente vídeo, mas no PyCharm o display não funciona!
@nerddosdados
@nerddosdados Жыл бұрын
Nesse caso pode ser alguma configuração do pycharm mesmo
@LuizCarlosUriarte
@LuizCarlosUriarte Жыл бұрын
Minha duvida é quando o arquivo PDF tem texto e tabelas. Há um método que consegue extrair os dois?
@nerddosdados
@nerddosdados Жыл бұрын
Nesse caso você precisa fazer o tratamento diferente utilizando de forma separada
@LuizCarlosUriarte
@LuizCarlosUriarte Жыл бұрын
@@nerddosdados Obrigado, irei fazer alguns testes levando isso em conta. Há alguma maneira de otimizar este processo?
@romainesantos1825
@romainesantos1825 6 ай бұрын
o problema é ler arquivo grande, trava
@nerddosdados
@nerddosdados 6 ай бұрын
Pode ler por páginas e assim separar o arquivo em partes
@romainesantos1825
@romainesantos1825 6 ай бұрын
@@nerddosdados eu tentei dessa forma de 100 em 100 mais deu problema de strings. são 3000 paginas
COMO CRIAR UM BANCO DE DADOS COM PYTHON
16:03
Nerd dos Dados
Рет қаралды 9 М.
Lehanga 🤣 #comedy #funny
00:31
Micky Makeover
Рет қаралды 26 МЛН
WHO CAN RUN FASTER?
00:23
Zhong
Рет қаралды 24 МЛН
Son ❤️ #shorts by Leisi Show
00:41
Leisi Show
Рет қаралды 10 МЛН
Como Ler Tabelas em PDF Usando o Python [Extrair Tabelas de um Arquivo PDF]
27:32
Audio Data Processing in Python
19:52
Rob Mulla
Рет қаралды 154 М.
Como extrair QUALQUER informação de um PDF com o PYTHON em SEGUNDOS!
7:51
Brenno Sullivan - VAROS Quant
Рет қаралды 2,9 М.
Extração de dados em arquivo PDF com Python
14:12
F3Loc
Рет қаралды 12 М.
Extraindo dados de Arquivos PDF com Python
31:03
PyAjudeMe
Рет қаралды 12 М.
Como Ler Tabelas em PDF Usando o VBA [Extrair Tabelas de um Arquivo PDF]
34:38
Hashtag Treinamentos
Рет қаралды 22 М.
É o fim do Power BI? Criando Dashboard com Python em 15 minutos
17:46
Asimov Academy
Рет қаралды 316 М.
Lehanga 🤣 #comedy #funny
00:31
Micky Makeover
Рет қаралды 26 МЛН