Категории

Извлекатель Текста PDF

Извлекает текстовое содержимое из PDF-документов с поддержкой выбора страниц, опций форматирования и многоязычной обработки

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/pdf

Поддерживает PDF файлы до 100MB

Укажите страницы для извлечения (1-5 для диапазона, 3 для одной страницы, 1,3,5 для нескольких). Оставьте пустым для всех страниц.

Сохранять оригинальную разметку, интервалы и форматирование насколько возможно

Очистить избыточные пробелы и переносы строк

Добавить номера строк к извлеченному тексту

Ключевые факты

Категория
Document Tools
Типы входных данных
file, text, select, checkbox
Тип результата
text
Покрытие примерами
4
API доступен
Yes

Обзор

Наш инструмент для извлечения текста из PDF позволяет быстро и точно конвертировать содержимое ваших документов в редактируемый текстовый формат, поддерживая выборочную обработку страниц и гибкие настройки форматирования.

Когда использовать

  • Когда нужно скопировать текст из защищенного или нередактируемого PDF-файла.
  • Если требуется извлечь данные только из определенных страниц многостраничного документа.
  • Когда необходимо преобразовать PDF-контент в Markdown или JSON для дальнейшей программной обработки.

Как это работает

  • Загрузите ваш PDF-файл в поле выбора документа.
  • Укажите нужные страницы в поле диапазона или оставьте его пустым для обработки всего файла.
  • Выберите подходящий формат вывода и настройте параметры очистки текста.
  • Нажмите кнопку обработки, чтобы получить извлеченный текст для скачивания или копирования.

Сценарии использования

Подготовка контента из PDF-отчетов для вставки в текстовые редакторы или CMS.
Извлечение табличных данных или списков для последующего импорта в JSON-структуры.
Очистка отсканированных документов от лишних пробелов и переносов строк для удобного чтения.

Примеры

1. Извлечение данных для отчета

Аналитик
Контекст
Аналитику нужно перенести ключевые выводы из 50-страничного PDF-отчета в рабочую презентацию.
Проблема
Копирование текста вручную приводит к потере форматирования и занимает много времени.
Как использовать
Загрузить PDF, указать диапазон страниц с выводами, выбрать формат 'Markdown' и нажать 'Извлечь'.
Результат
Получен чистый текст в формате Markdown, готовый к вставке в презентацию с сохранением структуры заголовков.

2. Подготовка данных для базы

Разработчик
Контекст
Разработчику необходимо извлечь спецификации товаров из PDF-каталога для импорта в базу данных.
Проблема
Нужно получить структурированные данные, а не просто сплошной текст.
Как использовать
Загрузить файл, выбрать формат вывода 'JSON' и активировать опцию 'Удалить лишние пробелы'.
Результат
Сгенерирован структурированный JSON-файл, который можно напрямую использовать для парсинга и загрузки в БД.

Проверить на примерах

pdf, video, text

Связанные хабы

FAQ

Какой максимальный размер файла поддерживается?

Инструмент поддерживает загрузку PDF-файлов размером до 100 МБ.

Можно ли извлечь текст только из конкретных страниц?

Да, вы можете указать диапазон (например, 1-5), отдельные страницы (3) или их список (1,3,5) в поле «Диапазон страниц».

Сохраняется ли исходное форматирование текста?

Да, опция «Сохранить оригинальное форматирование» позволяет максимально точно передать структуру, интервалы и разметку документа.

В каких форматах можно получить результат?

Вы можете выбрать Plain Text, Formatted Text, Markdown или JSON в зависимости от ваших задач.

Нужно ли устанавливать какое-либо ПО?

Нет, наш инструмент работает полностью онлайн в вашем браузере без необходимости установки дополнительных программ.

Документация API

Конечная точка запроса

POST /ru/api/tools/pdf-text-extractor

Параметры запроса

Имя параметра Тип Обязательно Описание
pdfFile file (Требуется загрузка) Да Поддерживает PDF файлы до 100MB
pageRange text Нет Укажите страницы для извлечения (1-5 для диапазона, 3 для одной страницы, 1,3,5 для нескольких). Оставьте пустым для всех страниц.
outputFormat select Нет -
preserveFormatting checkbox Нет Сохранять оригинальную разметку, интервалы и форматирование насколько возможно
removeExtraWhitespace checkbox Нет Очистить избыточные пробелы и переносы строк
includeLineNumbers checkbox Нет Добавить номера строк к извлеченному тексту
encoding select Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/pdf-text-extractor для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "result": "Processed text content",
  "error": "Error message (optional)",
  "message": "Notification message (optional)",
  "metadata": {
    "key": "value"
  }
}
Текст: Текст

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-pdf-text-extractor": {
      "name": "pdf-text-extractor",
      "description": "Извлекает текстовое содержимое из PDF-документов с поддержкой выбора страниц, опций форматирования и многоязычной обработки",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-text-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]