PDF в текст расширенный

Расширенный конвертер PDF в текст с выбором страниц, параметрами форматирования и извлечением метаданных

Расширенная конвертация PDF в текст с широкими возможностями настройки.

Примеры результатов

2 Примеры

Извлечь текст с диапазоном страниц

Извлекает текст из указанных страниц PDF-документа

pdf-to-text-output.txt Показать файл
Показать параметры ввода
{ "sourceFile": "/public/samples/pdf/document.pdf", "pageRange": "1-5,10", "outputFormat": "structured", "includeMetadata": true }

Экспорт в JSON

Экспортирует содержимое и метаданные PDF в формате JSON

pdf-to-text-output.json Показать файл
Показать параметры ввода
{ "sourceFile": "/public/samples/pdf/book.pdf", "outputFormat": "json", "includeMetadata": true, "pageRange": "all" }

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/pdf

Ключевые факты

Категория
Документы и PDF
Типы входных данных
file, text, select, checkbox
Тип результата
file
Покрытие примерами
4
API доступен
Yes

Обзор

Этот инструмент позволяет выполнять расширенное извлечение текста из PDF-документов с возможностью выбора конкретных страниц, настройки уровня очистки текста и сохранения структуры абзацев. Вы можете экспортировать результат в обычный текст, структурированный формат или JSON, а также извлекать метаданные файла.

Когда использовать

  • Когда необходимо извлечь текстовое содержимое только из определенных страниц или диапазонов страниц крупного PDF-документа.
  • При подготовке текстовых данных из PDF для последующего анализа или импорта в другие системы в формате JSON.
  • Когда требуется очистить извлеченный текст от лишних символов или, наоборот, сохранить исходную структуру абзацев и нумерацию строк.

Как это работает

  • Загрузите исходный PDF-файл через форму выбора файлов.
  • Укажите диапазон страниц, выберите желаемый формат вывода (Plain Text, Structured или JSON) и настройте параметры очистки и структуры.
  • Нажмите кнопку запуска для обработки документа и скачайте готовый текстовый файл с извлеченным содержимым.

Сценарии использования

Извлечение глав или разделов из электронных книг и отчетов для быстрого ознакомления или цитирования.
Преобразование документов PDF в формат JSON для последующей автоматизированной обработки и интеграции в базы данных.
Подготовка текстовых корпусов для машинного обучения и анализа данных с предварительной очисткой текста от шума.

Примеры

1. Выборочное извлечение страниц из отчета

Финансовый аналитик
Контекст
Аналитику нужно извлечь текстовые данные из годового отчета компании, но только из разделов с финансовыми результатами, которые находятся на страницах с 10 по 15 и на странице 20.
Проблема
Ручное копирование текста из PDF занимает много времени и нарушает форматирование.
Как использовать
Загрузить PDF-файл отчета, в поле «Диапазон Страниц» ввести «10-15,20», выбрать формат «Structured» и включить сохранение структуры абзацев.
Пример конфигурации
{
  "pageRange": "10-15,20",
  "outputFormat": "structured",
  "preserveParagraphStructure": true
}
Результат
Получен структурированный текстовый файл, содержащий текст только из указанных страниц с сохраненным делением на абзацы.

2. Конвертация технической документации в JSON

Разработчик ПО
Контекст
Разработчику необходимо импортировать содержимое руководства пользователя PDF в базу данных для поискового движка.
Проблема
Требуется получить структурированные данные с метаданными документа и номерами страниц в машиночитаемом формате.
Как использовать
Загрузить PDF-руководство, выбрать формат вывода «JSON», включить опции «Включить Метаданные PDF» и «Добавить Заголовки Страниц».
Пример конфигурации
{
  "outputFormat": "json",
  "includeMetadata": true,
  "includePageHeaders": true
}
Результат
Сгенерирован JSON-файл, содержащий структурированный текст по страницам вместе с метаданными документа.

Проверить на примерах

pdf, text, barcode

Связанные хабы

FAQ

Какие форматы вывода поддерживает этот конвертер?

Инструмент поддерживает экспорт в обычный текст (Plain Text), структурированный текст с разделителями страниц и формат JSON.

Можно ли извлечь текст только из определенных страниц?

Да, вы можете указать точные номера страниц или диапазоны в поле «Диапазон Страниц», например, «1-5,7,10-12».

Что делает опция «Очистка Текста»?

Она позволяет удалить нежелательные символы и артефакты разметки. Доступны три уровня: мягкая (Gentle), агрессивная (Aggressive) и без очистки (None).

Сохраняются ли метаданные PDF-файла при конвертации?

Да, при включенной опции «Включить Метаданные PDF» информация о документе будет добавлена в итоговый файл.

Можно ли сохранить исходную структуру абзацев?

Да, для этого активируйте параметр «Сохранять Структуру Абзацев», чтобы предотвратить нежелательные разрывы строк внутри абзацев.

Документация API

Конечная точка запроса

POST /ru/api/tools/pdf-to-text-advanced

Параметры запроса

Имя параметра Тип Обязательно Описание
sourceFile file (Требуется загрузка) Да -
pageRange text Нет -
outputFormat select Нет -
cleanLevel select Нет -
includeMetadata checkbox Нет -
includePageHeaders checkbox Нет -
includeLineNumbers checkbox Нет -
preserveParagraphStructure checkbox Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/pdf-to-text-advanced для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Файл: Файл

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-pdf-to-text-advanced": {
      "name": "pdf-to-text-advanced",
      "description": "Расширенный конвертер PDF в текст с выбором страниц, параметрами форматирования и извлечением метаданных",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-text-advanced",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]