No video

Extraindo dados de Arquivos PDF com Python

  Рет қаралды 12,484

PyAjudeMe

PyAjudeMe

Күн бұрын

Se você já se perguntou como automatizar, de maneira organizada, a extração de informações valiosas de arquivos PDF, este tutorial é para você! No vídeo de hoje, vou mostrar passo a passo como extrair dados de um PDF usando programação Python. Vamos explorar um código prático e eficiente que tornará a extração de dados de PDFs uma tarefa simples.
🔗 Código e Recursos:
github.com/han...
📑 Conteúdo do Tutorial:
Importando as bibliotecas necessárias: PrettyColorPrinter, pdferli, numpy e pandas.
Carregando um PDF para um DataFrame usando a biblioteca pdferli.
Filtrando e organizando os dados extraídos para melhor análise.
Demonstração passo a passo de como o código funciona.
Explicação sobre como as etapas de extração de dados foram implementadas.
Salvar os resultados da extração em um DataFrame e manipulá-los conforme necessário.
Se você está interessado em automação, análise de dados ou simplesmente quer aprender mais sobre programação Python aplicada a situações do mundo real, este tutorial é perfeito para você. Não se esqueça de se inscrever no canal e ativar o sininho para receber mais conteúdo de programação e tecnologia.
👍 Gostou deste tutorial?
Deixe um comentário abaixo compartilhando sua opinião! Se você tiver alguma dúvida ou sugestão, fique à vontade para perguntar. Espero que você ache esse tutorial útil e que ele facilite suas futuras tarefas de extração de dados de PDF.
🚀 Inscreva-se no Canal:
Se você ainda não é inscrito, inscreva-se no canal para receber mais conteúdo de programação, tutoriais de codificação e dicas tecnológicas.
Obrigado por assistir! Espero ver você nos próximos vídeos. Até lá, continue explorando, codificando e inovando! 💻🌟

Пікірлер: 119
@GabrielBonfimData
@GabrielBonfimData 4 ай бұрын
Você merece um pix, pois ajudou muito. Não pare nunca esse canal!
@pyajudeme9245
@pyajudeme9245 4 ай бұрын
rs vlw!
@CalebeTutogames
@CalebeTutogames 7 ай бұрын
Finalmente encontrei o vídeo que eu tanto queria, com base no seu vídeo vou estudar agora pra fazer o meu projeto, MUITO OBRIGADO!!
@pyajudeme9245
@pyajudeme9245 7 ай бұрын
De nada :)
@Kerbberuss
@Kerbberuss 5 ай бұрын
Amém....um unico video nessse youtube que tem a solução
@pyajudeme9245
@pyajudeme9245 5 ай бұрын
Por isso, gravei esse vídeo rs
@Leoandro2000
@Leoandro2000 18 күн бұрын
Esse Alemão é top! Parabéns, cara!
@GabrielBonfimData
@GabrielBonfimData 4 ай бұрын
Você é um gênio. Muito obrigado, me ajudou muito! Você é top demais, cara.
@pyajudeme9245
@pyajudeme9245 4 ай бұрын
de nada :)
@josedealencar8846
@josedealencar8846 4 ай бұрын
Caramba, muito massa , obrigado por compartilha esse conteúdo, muito bom
@pyajudeme9245
@pyajudeme9245 4 ай бұрын
Vlw!! Que bom que te ajudou!
@antonioribeiro1988
@antonioribeiro1988 7 ай бұрын
Parabéns! Aula incrível!
@pyajudeme9245
@pyajudeme9245 7 ай бұрын
vlw!!
@denisbrunomoraisneves2471
@denisbrunomoraisneves2471 8 ай бұрын
To apanhando pra fazer com modelos de extratos bancarios. não to conseguindo organizar tudo. mas uma hora sai, aula ajudou muito.
@pyajudeme9245
@pyajudeme9245 8 ай бұрын
Que bom!! Entre no discord, talvez a gente te possa ajudar lá (se não forem dados muito sensíveis)
@denisbrunomoraisneves2471
@denisbrunomoraisneves2471 8 ай бұрын
@@pyajudeme9245 To usando um meu mesmo como teste, acho que é de boa. kk vou entrar la.
@asgard9643
@asgard9643 6 ай бұрын
Conseguiu?
@CarlosMachado-oh1md
@CarlosMachado-oh1md 5 ай бұрын
Conseguiu fazer ?
@adilsonresendedev
@adilsonresendedev 11 ай бұрын
Cara, simplesmente incrível!
@pyajudeme9245
@pyajudeme9245 11 ай бұрын
Bem útil, né? rs
@joaoarthurbandeira
@joaoarthurbandeira 28 күн бұрын
Muito show seu video, parabéns! Conseguiria nos ensinar a fazer isso mas extraindo dados de identidades (em diferentes formatos/posições/qualidade) por exemplo? Ajudaria muuuuito! O que eu queria era permitir ao usuário, por exemplo, fazer o upload da identidade e o sistema devolver para ele os dados estruturados para ele usar como quiser, como copiar e colar etc. Valeuuu, tmj!
@carlosedulira
@carlosedulira 9 ай бұрын
Muito obrigado pelo conteúdo. Estou apanhando faz alguns dias para extrair de alguns pdfs não copiaveis, isso aqui abriu uma janela muito boa :)
@pyajudeme9245
@pyajudeme9245 9 ай бұрын
Dá para remover qualquer restrição (tirando senhas) tranquilamente.
@carlosedulira
@carlosedulira 9 ай бұрын
@@pyajudeme9245 no meu caso, eu quero extrair alíquotas de impostos de PDFs de livros tributários digitalizados (Antigos). Uma hora consigo kkkk
@pyajudeme9245
@pyajudeme9245 9 ай бұрын
o PDF é uma imagem ou texto "verdadeiro"?
@carlosedulira
@carlosedulira 9 ай бұрын
@@pyajudeme9245 imagem
@carlosedulira
@carlosedulira 9 ай бұрын
@pyajudeme9245 kzfaq.info/get/bejne/ndJ6nJZ9p83SaYk.html achei a solução aqui, só compartilhando esse método :)
@HelitomSilva
@HelitomSilva 3 ай бұрын
Muito bom, muito obrigado, me ajudou muito!
@pyajudeme9245
@pyajudeme9245 3 ай бұрын
Que bom!!
@fabriciosoares964
@fabriciosoares964 11 ай бұрын
showww parabéns mano!
@pyajudeme9245
@pyajudeme9245 11 ай бұрын
Vlw! :)
@todoosdiastemteclado2106
@todoosdiastemteclado2106 3 ай бұрын
Você usou neste video o VSCODE? Ou o Jupyter notebook?
@pyajudeme9245
@pyajudeme9245 3 ай бұрын
PyCharm, mas recomendo VSCode hoje: kzfaq.info/get/bejne/p5qIpNF9t5izcoE.html
@SeuEmanoel
@SeuEmanoel 6 ай бұрын
Rapaz, não briga comigo. Assisti o video e sensacional o resultado. Mas fiquei na dúvida: eu tenho que ir nesse github e fazer o que? tenho que instalar quais libs, ou tenho que fazer o que com aqueles codigos la do github para eu poder fazer isso. To com uma demanda aqui que é justamente extração de arquivo PDF e você foi o único que deu solução.
@SeuEmanoel
@SeuEmanoel 6 ай бұрын
@PyAjudeMe é so dar um pip install pdferli? rapaz to perdendo os cabelos rsrs
@pyajudeme9245
@pyajudeme9245 6 ай бұрын
Escrevi o modulo porque não achei outra solução na época rs
@pyajudeme9245
@pyajudeme9245 6 ай бұрын
Primeiro tem que instalar Python: kzfaq.info/get/bejne/f5xpadylqdHIiKM.html Depois, você segue o tutorial. No final, você tenta com seus documentos. Se não conseguir, escreva um comentário ou entre no grupo do Discord
@slashoffire1
@slashoffire1 10 ай бұрын
Sensacional, Danke pelo conteúdo!
@pyajudeme9245
@pyajudeme9245 10 ай бұрын
De nada. Bom que gostou! :)
@fernandodosreisflora4960
@fernandodosreisflora4960 2 ай бұрын
como você interage com o print utilizando códigos para depois subir o código para o .py? para mim o console python está apenas como visualização
@fernandodosreisflora4960
@fernandodosreisflora4960 2 ай бұрын
aaaaaaaaa consegui. clique direito em algum lugar do código > Run file in Python Console
@pyajudeme9245
@pyajudeme9245 Ай бұрын
isso rs
@pietrovinicius
@pietrovinicius 4 ай бұрын
Caramba. Aula espetacular, vou instalar k vscode e o anaconda como voce falou em outro video, pois preciso fazer algo semelhante em um pdf de varias paginas e não consigo..
@pyajudeme9245
@pyajudeme9245 4 ай бұрын
Vlw!!!
@BALHADODOSCRAQUES
@BALHADODOSCRAQUES 5 ай бұрын
excelente!!! é possível customizar para a estrutura de um informe de rendimentos?
@pyajudeme9245
@pyajudeme9245 5 ай бұрын
Claro, para qualquer coisa tirando PDFs com páginas escaneados. É um pouco de trabalho, como se pode ver no vídeo, mas, quando tiver feito, você consegue fazer um parsing em milhões de informes de rendimentos em alguns minutos.
@matheussilva6202
@matheussilva6202 4 ай бұрын
Top de mais!
@pyajudeme9245
@pyajudeme9245 4 ай бұрын
vlw!!
@fernandoflora3441
@fernandoflora3441 2 ай бұрын
se a separação não ocorrer igual o momento kzfaq.info/get/bejne/gLefg6qZu7y0ep8.html, o que posso fazer?
@pyajudeme9245
@pyajudeme9245 Ай бұрын
Suba um screenshot para eu ver.
@JoaoPedro-px8sj
@JoaoPedro-px8sj 28 күн бұрын
Faz um tool de conversa com pdf tipo um chat gpt por favor
@divinobrito
@divinobrito 11 ай бұрын
parabéns
@pyajudeme9245
@pyajudeme9245 11 ай бұрын
Obrigado!
@joaoricardo306
@joaoricardo306 3 ай бұрын
Irmão blz? Gostei muito da sua biblioteca pdferli, saberia me dizer qual é a unidade da posição dos caracteres que sai no DataFrame? “aa_x0” , “aa_x1”, “aa_y0” e “aa_y1” estão em milímetros?
@pyajudeme9245
@pyajudeme9245 3 ай бұрын
Putz, não lembro mais rs. Mas aqui deveria ter: o módulo que uso para obter os dados: pdfminersix.readthedocs.io/en/latest/
@joaoricardo306
@joaoricardo306 3 ай бұрын
@@pyajudeme9245 tranquilo! Rs Eu acabei descobrindo fazendo algumas contas, estão pixels 72 DPI
@pyajudeme9245
@pyajudeme9245 2 ай бұрын
Vlw!
@cr7raposo
@cr7raposo 5 ай бұрын
mto bom, mas to vendo que irei demorar pra chegar nesse nível de conhecimenot. Eu já utilizo o tabula para extrair tabelas mesmo.
@pyajudeme9245
@pyajudeme9245 5 ай бұрын
Não vai demorar não. Importante é começar. rs
@nubiamaria9864
@nubiamaria9864 Ай бұрын
Achei o conteúdo extraordinário, porém preciso entender o início do vídeo, para iniciantes é confuso e não consegui enxergar a tela de acessos, muito escuro. Ressalto para iniciantes mesmo que deve ter muita dificuldades.
@pyajudeme9245
@pyajudeme9245 Ай бұрын
Vlw! Vou te ajudar com o início. Você já instalou Python? Você sabe um pouco de Python? Em primeiro lugar, gravei esse vídeo para documentar para mim mesmo como usar o módulo que escrevi para não esquecer. Hoje é o vídeo mais assistido no meu canal. Eu sabia que ia interessar algumas pessoas, mas não tantas. Se eu soubesse, teria explicado o início com mais detalhes.
@bZLxcz
@bZLxcz 2 ай бұрын
Eu preciso automatizar a extração de dados de uma fatura e passar esses dados para o excel, tem alguma dica? Sou novo com programação
@pyajudeme9245
@pyajudeme9245 Ай бұрын
Com esse tutorial vai conseguir!
@bZLxcz
@bZLxcz Ай бұрын
@@pyajudeme9245 obrigado, estou tentando fazer de acordo com o video mas to tendo um pouco de dificuldades kkk mas vou conseguir
@todoosdiastemteclado2106
@todoosdiastemteclado2106 4 ай бұрын
No meu aparece que o documento PDF nao foi localizado mesmo estando na pasta As bibliotecas também estao instaladas
@pyajudeme9245
@pyajudeme9245 4 ай бұрын
Coloque o full path...
@todoosdiastemteclado2106
@todoosdiastemteclado2106 4 ай бұрын
@@pyajudeme9245 como faco isso?
@pyajudeme9245
@pyajudeme9245 4 ай бұрын
Deixa ver o código que está executando atualmente.
@todoosdiastemteclado2106
@todoosdiastemteclado2106 3 ай бұрын
Desinstalei e instalei de novo porque sou muito leigo nesta parte
@Anthurie
@Anthurie 4 ай бұрын
Eu sou leigo em programação, comecei a me aventurar faz pouco tempo, eu gostaria de saber se teria algum outro video explicando a sequencia logica das colunas ? Por exemplo, qual o momento de utilizar aa_x0 ou aa_x1... Com base nesta aula até consegui fazer algo, mas nada muito funcional. Eu trabalho com contabilidade, na area fiscal, e costumo receber algumas declarações de importação para conferencia, e faço o lançamento manual em uma planilha, o problema é que tem algumas DI's com mais de 100 itens, então queria tentar automatizar este processo
@pyajudeme9245
@pyajudeme9245 4 ай бұрын
Obrigado pelo comentário. Você usa no momento em que esses valores sirvam para você poder distinguir de outros valores. Infelizmente, não há uma solução universal. Mas treinando um pouco, é tranquilo extrair quaisquer dados de qualquer pdf. Acho que vou fazer mais uns vídeos sobre esse assunto. Esse vídeo foi um daqueles que fiz mais para mim, para não esquecer como usar o que montei rs, e agora é o terceiro mais assistido no canal.
@Anthurie
@Anthurie 4 ай бұрын
@@pyajudeme9245 Sem sombra de dúvidas essa é a melhor forma de extrair dados de pdf, pesquisei muito até vir parar no seu canal... Comecei pelo regex, mas logo vi que seria impossível extrair tudo rs... Já estou super ansioso pelos próximos videos rsrsr... Parabens, seu conteúdo foda, totalmente fora do normal
@pyajudeme9245
@pyajudeme9245 4 ай бұрын
Vlw! Criei esse modulo porque também não achei nada e também tentei com regex rsrs Com pandas/numpy, você consegue fazer tudo. Já que você trabalha como contador e. provavelmente, usa muito Excel, isso: support.microsoft.com/en-au/office/python-in-excel-dataframes-a10495b2-8372-4f0f-9179-32771fe0dc04 pode ser interessante para você
@Anthurie
@Anthurie 4 ай бұрын
Valeu pela dica, vou estudar mais sobre o assunto
@saulomuniz8324
@saulomuniz8324 4 ай бұрын
Boa tarde. Eu Fiz seu condigo oara extrair pdf. Só que o meu deu certo até no df4. Depois os dados não ficam organizados. Meu arquivo pdf nem todos os títulos são negrito. Teria como uma solução
@pyajudeme9245
@pyajudeme9245 4 ай бұрын
Claro que tem como, mas você precisa achar caraterísticas que o texto que você quer extrair tem em comum (distancia x/y funciona bem, fonte do texto, espaço entre as linhas ... ). Qualquer coisa ajuda.
@saulomuniz8324
@saulomuniz8324 4 ай бұрын
Boa Noite. Consegui fazer. Troquei na linha do df3, para ax_y0 e na linha df4.loc[:, x0round] = df4.aa_y0.riund(0). Resumindo troquei onde era x por y. Aí deu certo. Queria saber agora se eu tive vários arquivos iguais, como fazer para juntar em uma planilha só e manter só o cabeçalho e extrair os dados dos pdf, tipo colocar eles em uma pasta.
@saulomuniz8324
@saulomuniz8324 4 ай бұрын
Em que parte do código eu devo fazer fazer o loop
@pyajudeme9245
@pyajudeme9245 4 ай бұрын
pd.concat - kzfaq.info/get/bejne/atl2ltF4pp2wemQ.html / pandas.pydata.org/docs/reference/api/pandas.concat.html
@saulomuniz8324
@saulomuniz8324 4 ай бұрын
No caso seria primeiro ler todos pdf filtrar os dados conforme seu código e já criar um único arquivo pdf
@lucasmenezes6739
@lucasmenezes6739 10 ай бұрын
Se tiver diversos outros pdf's do mesmo modelo inicial e preciso tirar informações deles, daria para fazer?
@pyajudeme9245
@pyajudeme9245 10 ай бұрын
Claro! É a ideia do módulo! :)
@todoosdiastemteclado2106
@todoosdiastemteclado2106 4 ай бұрын
No meu aparece que o documento PDF nao foi localizado mesmo estando na pasta As bibliotecas também estao instaladas
@well.gsouza
@well.gsouza 4 ай бұрын
Cara tu é Rio Preto mesmo ou foi coincidência esse arquivo? Sou de. Rio Preto e assustei jkkkkk
@pyajudeme9245
@pyajudeme9245 4 ай бұрын
rsrs não
@adelioantonio4626
@adelioantonio4626 6 ай бұрын
Olá amigo, tem como disponibilizar o ficheiro utilizado na aula?
@pyajudeme9245
@pyajudeme9245 6 ай бұрын
O link encontra-se na descrição github.com/hansalemaos/pdferli/tree/main/example
@adelioantonio4626
@adelioantonio4626 6 ай бұрын
Obrigado Sr. Professor.
@pyajudeme9245
@pyajudeme9245 6 ай бұрын
de nada :) Vi que vc tem um canal de Excel. Python (pandas) para Excel já saiu?
@user-gt2uc4hq8k
@user-gt2uc4hq8k 11 ай бұрын
Tenho uma dúvida fora do contexto do vídeo… é possível que usamos o TikTok pelo selenium sem que ele perceba ? Exemplo, o Bot entrar na conta, dar um like, sair ou fechar o selenium e depois entrar só que usando outro loguin e senha. Assim sucessivamente com várias contas sem que o TikTok perceba? Ou seja um auto like full autônomo? Se haver 100 contas ele entrar uma por uma e fazer essa ação sem que o TikTok perceba ? Fiz uma automação assim porém o TikTok percebe que é selenium mesmo ofuscando 😂
@pyajudeme9245
@pyajudeme9245 11 ай бұрын
Dá para fazer com SeleniumBase e, provavelmente, também com undetected Chromedriver, mas precisaria vários endereços IP
@user-gt2uc4hq8k
@user-gt2uc4hq8k 11 ай бұрын
Eu tentei, inclusive existe alguns exemplos no github. Porém em certo momento o TikTok começa a pedir captcha… na verdade acredito que nesse caso um resolver captcha automático e mais lógico nesses caso. Não sei rsrs… parabéns pelos seus vídeos. Asssisti quase todos e olha que conheci o canal a 3 dias 😂
@pyajudeme9245
@pyajudeme9245 11 ай бұрын
Obrigado! Finalmente, uma menina assistindo ao meu canal. rs Qual captcha é? Dê uma olhada aqui: kzfaq.info/get/bejne/bd5lZc1mzsqrYqs.html TikTok, provavelmente, acha suspeito que há tantas contas do mesmo IP. VPNs geralmente não funcionam. O que pode ajudar é algo assim: pt.aliexpress.com/item/32883847484.html
@pyajudeme9245
@pyajudeme9245 11 ай бұрын
Mais uma dica: faça com ADB e emuladores de Android. Daí, você não precisa fazer o login. Já gravei muitos vídeos sobre esse assunto.
@user-gt2uc4hq8k
@user-gt2uc4hq8k 11 ай бұрын
@@pyajudeme9245 SEUS VÍDEOS DE ADB DEI UMA OLHADA, PORÉM NÃO ENCONTREI UM AO QUAL FOSSE MOSTRADO A ALTERAÇÃO ENTRE AS CONTAS. PORQUE NA VERDADE QUERO CRIAR AS CONTAS E REVEZAR ENTRE ELAS PARA CURTIR AS PUBLICAÇÕES DE UM PERFIL ESPECÍFICO. NO CASO DO TELEFONE OU EMULADOR NÃO VI O TIKTOK PEDIR CAPCHA. BUSCO CRIAR ESSA AUTOMAÇÃO OU PARA TIKTOK OU INSTAGRAM.
@daniloqueiroz1143
@daniloqueiroz1143 5 ай бұрын
Olá eu consigo pegar isso converter para um json?
@pyajudeme9245
@pyajudeme9245 5 ай бұрын
Sim, pode colocar tudo num dict e fazer um dump com a biblioteca json
@daniloqueiroz1143
@daniloqueiroz1143 5 ай бұрын
Porém depois eu queria criar isso como um serviço para outras pessoas usarem? Pegar esse pdf converter em json e transformar num serviço?
@pyajudeme9245
@pyajudeme9245 5 ай бұрын
Sem chance, para cada formato, tem que criar um script. A maioria das pessoas que queria que eu fizesse um script, precisava para faturamentos de cartão de crédito. Você poderia preparar para cada banco e vender. Não é tanto trabalho. Mas tome cuidado: tem que ser para cada formato. Se a fatura de Personnalité do Itaú for diferente que "a fatura comum", tem que criar outro script
@daniloqueiroz1143
@daniloqueiroz1143 5 ай бұрын
@@pyajudeme9245 na verdade amigo eu tenho um pdf com informações que é uma declaração de importação.. queria pegar esses dados e converter em um json para pessoas poderem utilizar? Isso sendo um serviço claro. Um lambda com alguma cloud
@MaxJM74
@MaxJM74 10 ай бұрын
👀
@obrigadojesusportudo
@obrigadojesusportudo 9 ай бұрын
Fiz tudo e nao consegui
@pyajudeme9245
@pyajudeme9245 9 ай бұрын
Pode subir um pdf e os queries de pandas que você fez?
@obrigadojesusportudo
@obrigadojesusportudo 9 ай бұрын
fiz de python fiz de python. qundo vc abaixa o pdf vcvai na configuraçao ope in ou local history@@pyajudeme9245
@pyajudeme9245
@pyajudeme9245 9 ай бұрын
Pode explicar melhor?
@obrigadojesusportudo
@obrigadojesusportudo 9 ай бұрын
@@pyajudeme9245 vc tem um email que eu possa mandar uma foto
@obrigadojesusportudo
@obrigadojesusportudo 9 ай бұрын
@@pyajudeme9245 vc tem um email para me explicar melhor quando dabo import pdferli.get_pdfdf() não 🚫 pega está importação aqui no python Tem como configurar isto Python que eu uso e o 3.12 Não consigo abaixar o python 3.9
The Joker saves Harley Quinn from drowning!#joker  #shorts
00:34
Untitled Joker
Рет қаралды 50 МЛН
Comfortable 🤣 #comedy #funny
00:34
Micky Makeover
Рет қаралды 15 МЛН
Extract PDF Content with Python
13:15
NeuralNine
Рет қаралды 204 М.
Extração de dados em arquivo PDF com Python
14:12
F3Loc
Рет қаралды 12 М.
Como extrair QUALQUER informação de um PDF com o PYTHON em SEGUNDOS!
7:51
Brenno Sullivan - VAROS Quant
Рет қаралды 2,9 М.
MEDALHA ENFERRUJADA? Desvendamos a POLÊMICA da OLIMPÍADA!
12:26
Manual do Mundo
Рет қаралды 315 М.
Make Your First AI in 15 Minutes with Python
16:37
Adam Eubanks
Рет қаралды 1,3 МЛН
Como Ler Tabelas em PDF Usando o Python [Extrair Tabelas de um Arquivo PDF]
27:32
É o fim do Power BI? Criando Dashboard com Python em 15 minutos
17:46
Asimov Academy
Рет қаралды 317 М.
Day in the Life of a Data Analyst - SurveyMonkey Data Transformation
1:17:14
Shashank Kalanithi
Рет қаралды 3,4 МЛН