Извлечение диапазона страниц PDF

Извлекает только выбранный диапазон страниц PDF и экспортирует его в Markdown, JSON или текст

После загрузки PDF укажите выражение страниц вроде 1,3,5-7, и инструмент обработает только эти страницы. Это удобно для длинных отчетов, руководств, статей и договоров, когда нужен только фрагмент.

Примеры результатов

1 Примеры

Извлечь только первые две страницы отчета

Реальный sample экспортировал страницы 1-2 в Markdown для повторного использования.

pdf-page-range-extractor-example1.md Показать файл
Показать параметры ввода
{ "pdfFile": "/public/samples/pdf/financial-report-example1.pdf", "exportFormat": "markdown", "pages": "1-2", "useStructTree": true, "keepLineBreaks": true, "includePageSeparators": true }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Ключевые факты

Категория
Разработка и Web
Типы входных данных
file, select, text, checkbox
Тип результата
file
Покрытие примерами
4
API доступен
Yes

Обзор

Этот инструмент позволяет извлекать текст из определенных страниц PDF-документа и экспортировать его в форматы Markdown, JSON или обычный текст. Укажите нужный диапазон страниц, чтобы быстро получить данные из объемных отчетов, договоров или руководств без необходимости обрабатывать весь файл целиком.

Когда использовать

  • Когда нужно извлечь конкретную главу или раздел из многостраничного руководства.
  • Для подготовки фрагментов юридических договоров или финансовых отчетов к анализу.
  • Если требуется конвертировать только определенные страницы PDF в Markdown для публикации или использования в LLM.

Как это работает

  • Загрузите исходный PDF-файл в инструмент.
  • Укажите нужные страницы через запятую или дефис (например, 1,3,5-7).
  • Выберите формат экспорта: Markdown, JSON или простой текст, а также настройте сохранение переносов строк и разделителей.
  • Запустите обработку и скачайте готовый файл с извлеченным текстом.

Сценарии использования

Извлечение резюме и ключевых показателей из первых страниц годового финансового отчета.
Копирование конкретных статей из объемного юридического контракта для отправки клиенту.
Подготовка обучающих данных для нейросетей путем парсинга выбранных глав из научных статей в формат JSON.

Примеры

1. Извлечение введения из финансового отчета

Финансовый аналитик
Контекст
Аналитику нужно быстро собрать вводные данные из десятков длинных отчетов для сводной базы знаний.
Проблема
Копирование текста вручную из PDF приводит к потере форматирования и занимает много времени.
Как использовать
Загрузите отчет, укажите страницы 1-2, выберите формат Markdown и включите сохранение переносов строк.
Пример конфигурации
pages: 1-2, exportFormat: markdown, keepLineBreaks: true
Результат
Текст первых двух страниц аккуратно извлечен в Markdown-файл с сохранением абзацев для удобного чтения.

2. Парсинг приложения к договору

Юрист
Контекст
В 100-страничном контракте есть важное приложение на страницах 45-47, которое нужно проанализировать программно.
Проблема
Необходимо получить текст только этих трех страниц в структурированном виде без лишней информации.
Как использовать
Загрузите PDF-договор, введите 45-47 в поле «Страницы» и выберите формат JSON.
Пример конфигурации
pages: 45-47, exportFormat: json, useStructTree: true
Результат
Текст приложения экспортирован в JSON-файл, готовый к загрузке во внутреннюю систему юридического отдела.

Проверить на примерах

json, markdown, pdf

Связанные хабы

FAQ

Какие форматы экспорта поддерживаются?

Вы можете сохранить извлеченный текст в форматах Markdown, JSON или как обычный текстовый файл.

Как правильно указать диапазон страниц?

Используйте запятые для отдельных страниц и дефисы для диапазонов. Например: 1,3,5-10.

Сохраняется ли структура документа при извлечении?

Да, если включена опция использования структуры тегов, инструмент постарается сохранить логическую структуру текста.

Можно ли добавить разделители между страницами в итоговом файле?

Да, для этого отметьте опцию «Добавлять разделители страниц» перед началом обработки.

Обрабатывает ли инструмент весь PDF-файл?

Нет, инструмент извлекает и обрабатывает только те страницы, которые вы указали в настройках, что значительно экономит время.

Документация API

Конечная точка запроса

POST /ru/api/tools/pdf-page-range-extractor

Параметры запроса

Имя параметра Тип Обязательно Описание
pdfFile file (Требуется загрузка) Да -
exportFormat select Нет -
pages text Да -
useStructTree checkbox Нет -
keepLineBreaks checkbox Нет -
includePageSeparators checkbox Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/pdf-page-range-extractor для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Файл: Файл

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-pdf-page-range-extractor": {
      "name": "pdf-page-range-extractor",
      "description": "Извлекает только выбранный диапазон страниц PDF и экспортирует его в Markdown, JSON или текст",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-page-range-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]