Python Импорт данных №5. Импорт таблиц из PDF

  Рет қаралды 10,794

Товарищ Excel - Power Query, Power Pivot, Python

Товарищ Excel - Power Query, Power Pivot, Python

3 жыл бұрын

Научимся импортировать нужные таблицы из PDF файлов, объединять их по вертикали в одну большую таблицу и записывать результат в CSV файл.
Файлы для спонсоров Boosty: boosty.to/comrade-xl/posts/00...
Файлы для спонсоров ВК: comrade.excel?w=wall-1...
Файлы для спонсоров KZfaq: • Post
Индивидуальное обучение: comrade-xl.ru/pq-training/
Страница: comrade-xl.ru/2021/03/04/py-i...

Пікірлер: 21
@comrade_excel
@comrade_excel 3 жыл бұрын
Файлы для спонсоров Boosty: boosty.to/comrade-xl/posts/0031291f-9b4a-4b34-9d8f-b8c9a1fb8289?share=post_link Файлы для спонсоров ВК: vk.com/comrade.excel?w=wall-185123800_471 Файлы для спонсоров KZfaq: kzfaq.infoUgzyAW2wyN1_wOHruit4AaABCQ Индивидуальное обучение: comrade-xl.ru/pq-training/ Страница: comrade-xl.ru/2021/03/04/py-import-pdf/
@user-dv3nc7fb7o
@user-dv3nc7fb7o 3 жыл бұрын
last checkpoint 21 час. Несколько часов труда, еще и видео ускоренное. Респект Тимур за труд.
@farinsaifutdinov5534
@farinsaifutdinov5534 3 жыл бұрын
Есть еще питоновские библиотеки для извлечения таблиц из PDF-файлов: Camelot, pdfplumber, pdftables, pdf-table-extract. При этом Camelot поддерживает CLI, т.е. для не очень сложных pdf файлов можно обходиться вовсе без программирования процесса извлечения. Также Camelot в большинстве случаев лучше остальных библиотек выполняет извлечение таблиц.
@user-js1kk8er1h
@user-js1kk8er1h 3 жыл бұрын
Спасибо за видео! Мне как раз нужно сделать то же самое, а Excel на работе нет. Только Libre Office.
@user-xg4pd7en9d
@user-xg4pd7en9d 2 жыл бұрын
Тимур, огромное спасибо за урок! Настало время переходить на Python! Просьба: можешь показывать уроки Python в VS Code?
@andreyhakobyan5427
@andreyhakobyan5427 2 жыл бұрын
Здравствуйте. tabula.read_pdf() выводит такую ошибку. можете помочь? Error from tabula-java: Error: Error: Header doesn't contain versioninfo
@OmenK0
@OmenK0 3 жыл бұрын
Спасибо за урок, но в какую папку вы складываете PDF файл, чтобы его нашли и отобразили, у меня не находит нужный PDF файл, хотя я все пытаюсь сделать как вы показываете. спасибо
@comrade_excel
@comrade_excel 3 жыл бұрын
Файл лежит там же, где и книга Jupyter.
@user-mv6od3cg3m
@user-mv6od3cg3m 3 жыл бұрын
Как быть, если в PDF есть столбцы объединены, Python разделяет заголовок, но вся таблица рушиться т.к. он переносит данные левее на 1 ячейку
@RunBull
@RunBull 9 ай бұрын
а если таблица разделена на несколько страниц это можно как то детектить ?
@user-zk5pw4hm1w
@user-zk5pw4hm1w 2 жыл бұрын
В блоке №7 "отображения таблицы" выводится ошибка: File "", line 1 for table in pdf_tables; ^ SyntaxError: invalid syntax Что я делаю не так. Ошибки в коде точно нет, т.к. код копировался и сайта и из ролика в один в один. Подскажите пожалуйста.
@comrade_excel
@comrade_excel 2 жыл бұрын
По-моему, у вас точка с запятой в конце строки.
@user-wr5rc5pp8r
@user-wr5rc5pp8r Жыл бұрын
Тимур здравствуйте! Еще раз спасибо за Ваши потрясающие ролики, с удовольствием жду Ваших видео про sql, но вопрос у меня не об этом. Очень долгое время работает ELT процесс на основе tabula но с последними файлами pdf возникает ошибка it/s]Error from tabula-java: Exception in thread "main" java.lang.IllegalArgumentException: lines must be orthogonal, vertical and horizontal at technology.tabula.Ruling.intersectionPoint(Ruling.java:214). Вся соль в том, что со старыми файлами работает. Чат ГПТ говорит, что файл может быть защищён, Сталкивались ли Вы с подобного рода проблемой?
@user-wr5rc5pp8r
@user-wr5rc5pp8r Жыл бұрын
Извините за беспокойство, нашёл причину, характеристика самих файлов поменялась, нужно понастроить
@user-wr5rc5pp8r
@user-wr5rc5pp8r 2 жыл бұрын
Здравствутйе Тимур! Дошел до конца данного плей листа и нашел практически на каждый свой вопрос ответ! Единственное, что вызывает затруднение, что у меня dpf файлы всегда раных форматов (А4, А2 итд) поэтому частенько tabula путается, не могли бы Вы подсказать как в параметре area настроить координаты углов опеределения таблицы?
@comrade_excel
@comrade_excel 2 жыл бұрын
Здравствуйте! К сожалению, не могу ответить на данный вопрос.
@user-wr5rc5pp8r
@user-wr5rc5pp8r Жыл бұрын
@@comrade_excel Как выяснилось, я ошибку в коде допускал.
@user-wr5rc5pp8r
@user-wr5rc5pp8r 2 жыл бұрын
Здравствуйте Тимур. Прекрасное видео и замечательная подача, очень актуальный плейлист. Я поскорей хочу начать работать в этом направлении, но у меня вылетает какая-то странная ошибка. JavaNotFoundError: `java` command is not found from this Python process.Please ensure Java is installed and PATH is set for `java` Блин причем тут вообще Java и где она обитает. гуглю варианты, но выходит только англ форумы где не понятно ничего.
@comrade_excel
@comrade_excel 2 жыл бұрын
Здравствуйте! Попробуйте установить последнюю версию JAVA www.java.com/ru/download/manual.jsp Если не поможет, то выполните инструкции с этой страницы www.java.com/en/download/help/path.html
@user-wr5rc5pp8r
@user-wr5rc5pp8r 2 жыл бұрын
@@comrade_excel все помогло! Спасибо.
@smetnoedelo
@smetnoedelo 3 жыл бұрын
Ставь лайк, если купился на кликбейт с новой ведущей😄
Python Импорт данных №5. Импорт таблиц из PDF (расширенная версия)
26:03
Товарищ Excel - Power Query, Power Pivot, Python
Рет қаралды 3,3 М.
Ouch.. 🤕
00:30
Celine & Michiel
Рет қаралды 12 МЛН
Clowns abuse children#Short #Officer Rabbit #angel
00:51
兔子警官
Рет қаралды 79 МЛН
Red❤️+Green💚=
00:38
ISSEI / いっせい
Рет қаралды 85 МЛН
Best Toilet Gadgets and #Hacks you must try!!💩💩
00:49
Poly Holy Yow
Рет қаралды 20 МЛН
Flet - библиотека для построения интерфейсов
23:31
Extract PDF Content with Python
13:15
NeuralNine
Рет қаралды 200 М.
Импорт табличных данных из PDF в Excel
10:36
Nikolay Pavlov
Рет қаралды 226 М.
Метод GROUPBY. Группировка данных структуры DataFrame. Часть 1
16:00
Аналитик данных Виктория Юферева
Рет қаралды 96
How to Extract Data From Unlimited PDF Forms To An Excel Table IN ONE CLICK
43:41
Excel For Freelancers
Рет қаралды 227 М.
Python Импорт данных №1. Импорт Excel
9:13
Товарищ Excel - Power Query, Power Pivot, Python
Рет қаралды 17 М.
Python Импорт данных №3. Импорт с веб-сайта (HTML)
6:14
Товарищ Excel - Power Query, Power Pivot, Python
Рет қаралды 6 М.
Ouch.. 🤕
00:30
Celine & Michiel
Рет қаралды 12 МЛН