Извлечение таблиц PDF в CSV/JSON

Извлекает таблицы из PDF через OpenDataLoader и экспортирует в JSON, CSV или HTML

После загрузки PDF инструмент использует OpenDataLoader для поиска семантических таблиц, а затем экспортирует их в выбранном формате. JSON сохраняет страницу, bbox и структуру; CSV разворачивает ячейки; HTML строит визуальные таблицы.

Примеры результатов

1 Примеры

Извлечь таблицы из отчета для анализа

Реальный sample извлек 2 таблицы и сохранил их в структурированном JSON.

pdf-table-extractor-to-csv-json-example1.json Показать файл
Показать параметры ввода
{ "pdfFile": "/public/samples/pdf/financial-report-example1.pdf", "exportFormat": "json", "tableMethod": "cluster", "pages": "", "useStructTree": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Ключевые факты

Категория
Данные и таблицы
Типы входных данных
file, select, text, checkbox
Тип результата
file
Покрытие примерами
4
API доступен
Yes

Обзор

Этот инструмент позволяет автоматически извлекать таблицы из PDF-документов с помощью OpenDataLoader и экспортировать их в удобные форматы: JSON, CSV или HTML. Он идеально подходит для обработки финансовых отчетов, научных статей и любых документов с большим объемом табличных данных, сохраняя структуру, координаты ячеек и номера страниц для дальнейшего анализа или публикации.

Когда использовать

  • Когда нужно перенести финансовые или статистические данные из PDF-отчетов в Excel или базы данных.
  • Для парсинга научных статей и извлечения структурированных данных для последующего машинного анализа.
  • При необходимости конвертировать нередактируемые PDF-таблицы в веб-формат (HTML) для публикации на сайте.

Как это работает

  • Загрузите исходный PDF-файл в инструмент.
  • Выберите нужный формат экспорта: JSON для сохранения структуры, CSV для плоских данных или HTML для визуализации.
  • При необходимости укажите конкретные страницы для обработки и выберите метод распознавания (например, кластерный).
  • Скачайте готовый файл с извлеченными таблицами.

Сценарии использования

Извлечение данных из ежеквартальных финансовых отчетов для загрузки в BI-системы.
Конвертация прайс-листов из PDF в CSV для импорта в интернет-магазин или ERP-систему.
Преобразование таблиц из отсканированных или сгенерированных PDF-документов в HTML-код для вставки в блог.

Примеры

1. Экспорт финансового отчета в CSV

Финансовый аналитик
Контекст
Аналитику нужно свести данные из десятков PDF-отчетов компаний в единую таблицу Excel.
Проблема
Ручное копирование таблиц из PDF приводит к смещению столбцов и потере данных.
Как использовать
Загрузить PDF-отчет, выбрать формат экспорта «CSV» и указать страницы с балансом (например, 10-12).
Пример конфигурации
Формат экспорта: CSV, Страницы: 10-12
Результат
Получен готовый CSV-файл с плоской структурой данных, который легко открывается в Excel без искажений.

2. Парсинг научных статей в JSON

Дата-инженер
Контекст
Для обучения модели машинного обучения требуется собрать датасет из таблиц, опубликованных в PDF-статьях.
Проблема
Необходимо не только извлечь текст, но и сохранить точную структуру ячеек, номера страниц и координаты (bbox).
Как использовать
Загрузить PDF, выбрать формат «JSON», включить кластерный метод распознавания и использование структуры тегов.
Пример конфигурации
Формат экспорта: JSON, Метод: Кластерный, Использовать структуру тегов: Да
Результат
Сгенерирован структурированный JSON-файл, содержащий все таблицы с сохранением метаданных и геометрии ячеек для автоматизированной обработки.

Проверить на примерах

json, csv, html

Связанные хабы

FAQ

Какие форматы экспорта поддерживаются?

Вы можете выгрузить извлеченные таблицы в форматах JSON, CSV и HTML.

Можно ли извлечь таблицы только с определенных страниц?

Да, в поле «Страницы» можно указать конкретные номера или диапазоны, например, 1,3,5-7.

Что делает опция «Использовать структуру тегов»?

Она помогает точнее определять границы таблиц в PDF-файлах, которые содержат внутреннюю разметку (Tagged PDF).

В чем разница между методами распознавания?

Метод «По умолчанию» подходит для стандартных таблиц, а «Кластерный» лучше справляется со сложной или нестандартной версткой ячеек.

Сохраняются ли координаты таблиц при экспорте?

Да, при экспорте в формат JSON сохраняются номера страниц, координаты (bbox) и полная структура строк и столбцов.

Документация API

Конечная точка запроса

POST /ru/api/tools/pdf-table-extractor-to-csv-json

Параметры запроса

Имя параметра Тип Обязательно Описание
pdfFile file (Требуется загрузка) Да -
exportFormat select Нет -
tableMethod select Нет -
pages text Нет -
useStructTree checkbox Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/pdf-table-extractor-to-csv-json для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Файл: Файл

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-pdf-table-extractor-to-csv-json": {
      "name": "pdf-table-extractor-to-csv-json",
      "description": "Извлекает таблицы из PDF через OpenDataLoader и экспортирует в JSON, CSV или HTML",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-table-extractor-to-csv-json",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]