Ключевые факты
- Категория
- Данные и таблицы
- Типы входных данных
- file, select, text, checkbox
- Тип результата
- file
- Покрытие примерами
- 4
- API доступен
- Yes
Обзор
Этот инструмент позволяет автоматически извлекать таблицы из PDF-документов с помощью OpenDataLoader и экспортировать их в удобные форматы: JSON, CSV или HTML. Он идеально подходит для обработки финансовых отчетов, научных статей и любых документов с большим объемом табличных данных, сохраняя структуру, координаты ячеек и номера страниц для дальнейшего анализа или публикации.
Когда использовать
- •Когда нужно перенести финансовые или статистические данные из PDF-отчетов в Excel или базы данных.
- •Для парсинга научных статей и извлечения структурированных данных для последующего машинного анализа.
- •При необходимости конвертировать нередактируемые PDF-таблицы в веб-формат (HTML) для публикации на сайте.
Как это работает
- •Загрузите исходный PDF-файл в инструмент.
- •Выберите нужный формат экспорта: JSON для сохранения структуры, CSV для плоских данных или HTML для визуализации.
- •При необходимости укажите конкретные страницы для обработки и выберите метод распознавания (например, кластерный).
- •Скачайте готовый файл с извлеченными таблицами.
Сценарии использования
Примеры
1. Экспорт финансового отчета в CSV
Финансовый аналитик- Контекст
- Аналитику нужно свести данные из десятков PDF-отчетов компаний в единую таблицу Excel.
- Проблема
- Ручное копирование таблиц из PDF приводит к смещению столбцов и потере данных.
- Как использовать
- Загрузить PDF-отчет, выбрать формат экспорта «CSV» и указать страницы с балансом (например, 10-12).
- Пример конфигурации
-
Формат экспорта: CSV, Страницы: 10-12 - Результат
- Получен готовый CSV-файл с плоской структурой данных, который легко открывается в Excel без искажений.
2. Парсинг научных статей в JSON
Дата-инженер- Контекст
- Для обучения модели машинного обучения требуется собрать датасет из таблиц, опубликованных в PDF-статьях.
- Проблема
- Необходимо не только извлечь текст, но и сохранить точную структуру ячеек, номера страниц и координаты (bbox).
- Как использовать
- Загрузить PDF, выбрать формат «JSON», включить кластерный метод распознавания и использование структуры тегов.
- Пример конфигурации
-
Формат экспорта: JSON, Метод: Кластерный, Использовать структуру тегов: Да - Результат
- Сгенерирован структурированный JSON-файл, содержащий все таблицы с сохранением метаданных и геометрии ячеек для автоматизированной обработки.
Проверить на примерах
json, csv, htmlСвязанные хабы
FAQ
Какие форматы экспорта поддерживаются?
Вы можете выгрузить извлеченные таблицы в форматах JSON, CSV и HTML.
Можно ли извлечь таблицы только с определенных страниц?
Да, в поле «Страницы» можно указать конкретные номера или диапазоны, например, 1,3,5-7.
Что делает опция «Использовать структуру тегов»?
Она помогает точнее определять границы таблиц в PDF-файлах, которые содержат внутреннюю разметку (Tagged PDF).
В чем разница между методами распознавания?
Метод «По умолчанию» подходит для стандартных таблиц, а «Кластерный» лучше справляется со сложной или нестандартной версткой ячеек.
Сохраняются ли координаты таблиц при экспорте?
Да, при экспорте в формат JSON сохраняются номера страниц, координаты (bbox) и полная структура строк и столбцов.