PDF в XML

Конвертирует PDF-документы в структурированный XML-формат с сохранением иерархии содержимого

Конвертирует PDF-документы в структурированный XML-формат на чистом Node.js.

Примеры результатов

1 Примеры

PDF-документ в XML

Конвертирует PDF-документ в структурированный XML-формат

pdf-to-xml-output.xml Показать файл
Показать параметры ввода
{ "sourceFile": "/public/samples/pdf/document.pdf", "outputMode": "structured", "includeDeclaration": true }

Click to upload file or drag and drop file here

Maximum file size: 50MB Supported formats: application/pdf

Ключевые факты

Категория
Документы и PDF
Типы входных данных
file, select, checkbox
Тип результата
file
Покрытие примерами
4
API доступен
Yes

Обзор

Онлайн-инвертер PDF в XML позволяет быстро преобразовать текстовые и структурированные PDF-документы в формат XML с сохранением иерархии данных. Инструмент поддерживает компактный или форматированный вывод (pretty-print) и позволяет гибко управлять XML-декларацией для последующей автоматической обработки файлов.

Когда использовать

  • Когда необходимо извлечь текстовые данные и структуру из PDF-отчетов для импорта в базы данных или информационные системы.
  • При подготовке документов для автоматизированного парсинга и анализа с помощью XML-анализаторов.
  • Для миграции текстового содержимого из закрытого формата PDF в открытый структурированный формат XML.

Как это работает

  • Загрузите исходный PDF-файл через форму выбора файлов.
  • Выберите режим вывода: компактный XML (Compact XML) или форматированный с отступами (Pretty-printed XML).
  • Укажите необходимость добавления XML-декларации в начале файла.
  • Запустите конвертацию и скачайте готовый XML-документ.

Сценарии использования

Извлечение табличных данных и текстовых блоков из финансовых PDF-отчетов для интеграции в ERP-системы.
Преобразование научных статей и публикаций из формата PDF в XML для создания структурированных архивов.
Автоматизация разбора счетов-фактур и накладных, сохраненных в формате PDF, для последующего импорта в бухгалтерское ПО.

Примеры

1. Конвертация финансового отчета для импорта в БД

Финансовый аналитик
Контекст
Аналитик получает ежемесячные отчеты от партнеров в формате PDF, данные из которых нужно загрузить в корпоративную базу данных, поддерживающую только XML.
Проблема
Ручной перенос данных занимает много времени и приводит к ошибкам в цифрах.
Как использовать
Загрузите PDF-отчет, выберите режим вывода "Pretty-printed XML" для удобства проверки структуры и оставьте включенной XML-декларацию.
Пример конфигурации
{
  "outputMode": "pretty",
  "includeDeclaration": true
}
Результат
Получен структурированный XML-файл с четкой иерархией данных, готовый к импорту в базу данных без ручной корректировки.

2. Подготовка технической документации для парсера

Разработчик ПО
Контекст
Разработчику необходимо настроить автоматический парсинг инструкций, которые поставляются в формате PDF.
Проблема
Парсить PDF напрямую сложно из-за специфики формата, требуется промежуточный структурированный формат без лишних пробелов.
Как использовать
Загрузите PDF-инструкцию, выберите режим "Compact XML" для уменьшения размера файла и отключите XML-декларацию, если парсер принимает только фрагменты XML.
Пример конфигурации
{
  "outputMode": "structured",
  "includeDeclaration": false
}
Результат
Сгенерирован компактный XML-файл без декларации, который легко обрабатывается скриптом парсинга.

Проверить на примерах

xml, pdf, file

Связанные хабы

FAQ

Сохраняется ли разметка и структура документа при конвертации?

Да, инструмент анализирует иерархию содержимого PDF и преобразует ее в структурированные XML-теги.

Чем отличаются режимы вывода Compact XML и Pretty-printed XML?

Режим Compact XML минимизирует размер файла, удаляя лишние пробелы, а Pretty-printed XML форматирует код с отступами для удобного чтения.

Можно ли отключить XML-декларацию в начале файла?

Да, для этого снимите флажок с опции «Включить XML Декларацию» перед началом конвертации.

Есть ли ограничения на размер загружаемого PDF-файла?

Максимальный размер загружаемого файла составляет 50 МБ.

Безопасно ли загружать конфиденциальные PDF-документы?

Да, обработка выполняется локально в безопасном окружении, и файлы не передаются сторонним сервисам.

Документация API

Конечная точка запроса

POST /ru/api/tools/pdf-to-xml

Параметры запроса

Имя параметра Тип Обязательно Описание
sourceFile file (Требуется загрузка) Да -
outputMode select Нет -
includeDeclaration checkbox Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/pdf-to-xml для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Файл: Файл

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-pdf-to-xml": {
      "name": "pdf-to-xml",
      "description": "Конвертирует PDF-документы в структурированный XML-формат с сохранением иерархии содержимого",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-xml",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]