Извлечение изображений и captions из PDF

Извлекает изображения PDF, сопоставляет ближайшие captions и создает HTML-индекс

После загрузки PDF инструмент экспортирует изображения, анализирует структурированный JSON и сопоставляет ближайшие captions для каждого изображения по странице и позиции, а затем создает HTML-отчет.

Примеры результатов

1 Примеры

Извлечь изображения PDF и соседние подписи

Реальный sample создал HTML-отчет с изображениями и подписями.

pdf-image-caption-extractor-example1.html Показать файл
Показать параметры ввода
{ "pdfFile": "/public/samples/pdf/pdf-image-caption-extractor-source-example1.pdf", "imageFormat": "png", "pages": "", "useStructTree": true }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Ключевые факты

Категория
Изображения, аудио и видео
Типы входных данных
file, select, text, checkbox
Тип результата
html
Покрытие примерами
4
API доступен
Yes

Обзор

Этот инструмент автоматически извлекает изображения из PDF-документов, находит ближайшие к ним текстовые подписи (captions) и генерирует удобный HTML-отчет. Он идеально подходит для работы с учебниками, научными статьями, презентациями и технической документацией, позволяя быстро получить визуальные материалы вместе с их описаниями без ручного копирования и вставки.

Когда использовать

  • Когда нужно быстро собрать все графики и диаграммы из научного отчета вместе с их описаниями.
  • При переносе контента из PDF-презентаций или руководств в веб-формат или другую систему управления контентом.
  • Для создания наглядного каталога изображений из объемной технической документации.

Как это работает

  • Загрузите исходный PDF-файл в инструмент.
  • Укажите нужный формат для сохранения изображений (PNG или JPEG) и, при необходимости, диапазон страниц.
  • Инструмент проанализирует структуру документа, экспортирует графику и сопоставит ее с ближайшим текстом.
  • Скачайте готовый HTML-файл, в котором все извлеченные изображения аккуратно представлены вместе с их подписями.

Сценарии использования

Анализ научных статей: извлечение всех графиков и таблиц с их названиями для написания обзора литературы.
Локализация контента: подготовка изображений и их оригинальных подписей из руководств пользователя для последующего перевода.
Переработка учебных материалов: сбор иллюстраций из PDF-учебников для создания интерактивных онлайн-курсов.

Примеры

1. Извлечение графиков из научного отчета

Аналитик данных
Контекст
Аналитик изучает 50-страничный отраслевой отчет в формате PDF, содержащий множество важных диаграмм.
Проблема
Ручное копирование каждой диаграммы и текста под ней для презентации занимает слишком много времени.
Как использовать
Загрузить PDF-отчет, выбрать формат PNG и оставить включенной опцию использования структуры тегов.
Пример конфигурации
Формат изображения: PNG, Использовать структуру тегов: Да
Результат
Сгенерирован HTML-файл, где каждая диаграмма отображается рядом с ее оригинальным описанием из отчета, готовая к сохранению.

2. Сбор иллюстраций из руководства

Технический писатель
Контекст
Необходимо обновить онлайн-базу знаний, используя старое руководство пользователя в PDF.
Проблема
Нужно вытащить скриншоты интерфейса только из главы по настройке (страницы 15-20) вместе с их названиями.
Как использовать
Загрузить PDF, выбрать формат JPEG и указать диапазон страниц «15-20».
Пример конфигурации
Формат изображения: JPEG, Страницы: 15-20
Результат
Получен компактный HTML-индекс со скриншотами только из указанных страниц и соответствующими подписями.

Проверить на примерах

html, pdf, image

Связанные хабы

FAQ

Какие форматы изображений поддерживаются для экспорта?

Вы можете выбрать сохранение извлеченных изображений в формате PNG или JPEG.

Можно ли извлечь картинки только с определенных страниц?

Да, используйте поле «Страницы», чтобы указать конкретные номера или диапазоны (например, 1,3,5-7).

Что делает опция «Использовать структуру тегов»?

Она помогает более точно определять подписи к изображениям, опираясь на внутреннюю структуру тегов PDF-документа, если файл был создан с ее поддержкой.

В каком виде я получу результат?

Результатом работы является HTML-файл (индекс), который можно открыть в любом браузере для удобного просмотра изображений и связанного с ними текста.

Извлекает ли инструмент фоновые изображения?

Инструмент фокусируется на значимых визуальных элементах (иллюстрациях, графиках), которые имеют контекст и подписи в структуре документа.

Документация API

Конечная точка запроса

POST /ru/api/tools/pdf-image-caption-extractor

Параметры запроса

Имя параметра Тип Обязательно Описание
pdfFile file (Требуется загрузка) Да -
imageFormat select Нет -
pages text Нет -
useStructTree checkbox Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/pdf-image-caption-extractor для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-pdf-image-caption-extractor": {
      "name": "pdf-image-caption-extractor",
      "description": "Извлекает изображения PDF, сопоставляет ближайшие captions и создает HTML-индекс",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-image-caption-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]