Ключевые факты
- Категория
- Документы и PDF
- Типы входных данных
- file, text, select, checkbox
- Тип результата
- file
- Покрытие примерами
- 4
- API доступен
- Yes
Обзор
Этот инструмент позволяет выполнять расширенное извлечение текста из PDF-документов с возможностью выбора конкретных страниц, настройки уровня очистки текста и сохранения структуры абзацев. Вы можете экспортировать результат в обычный текст, структурированный формат или JSON, а также извлекать метаданные файла.
Когда использовать
- •Когда необходимо извлечь текстовое содержимое только из определенных страниц или диапазонов страниц крупного PDF-документа.
- •При подготовке текстовых данных из PDF для последующего анализа или импорта в другие системы в формате JSON.
- •Когда требуется очистить извлеченный текст от лишних символов или, наоборот, сохранить исходную структуру абзацев и нумерацию строк.
Как это работает
- •Загрузите исходный PDF-файл через форму выбора файлов.
- •Укажите диапазон страниц, выберите желаемый формат вывода (Plain Text, Structured или JSON) и настройте параметры очистки и структуры.
- •Нажмите кнопку запуска для обработки документа и скачайте готовый текстовый файл с извлеченным содержимым.
Сценарии использования
Примеры
1. Выборочное извлечение страниц из отчета
Финансовый аналитик- Контекст
- Аналитику нужно извлечь текстовые данные из годового отчета компании, но только из разделов с финансовыми результатами, которые находятся на страницах с 10 по 15 и на странице 20.
- Проблема
- Ручное копирование текста из PDF занимает много времени и нарушает форматирование.
- Как использовать
- Загрузить PDF-файл отчета, в поле «Диапазон Страниц» ввести «10-15,20», выбрать формат «Structured» и включить сохранение структуры абзацев.
- Пример конфигурации
-
{ "pageRange": "10-15,20", "outputFormat": "structured", "preserveParagraphStructure": true } - Результат
- Получен структурированный текстовый файл, содержащий текст только из указанных страниц с сохраненным делением на абзацы.
2. Конвертация технической документации в JSON
Разработчик ПО- Контекст
- Разработчику необходимо импортировать содержимое руководства пользователя PDF в базу данных для поискового движка.
- Проблема
- Требуется получить структурированные данные с метаданными документа и номерами страниц в машиночитаемом формате.
- Как использовать
- Загрузить PDF-руководство, выбрать формат вывода «JSON», включить опции «Включить Метаданные PDF» и «Добавить Заголовки Страниц».
- Пример конфигурации
-
{ "outputFormat": "json", "includeMetadata": true, "includePageHeaders": true } - Результат
- Сгенерирован JSON-файл, содержащий структурированный текст по страницам вместе с метаданными документа.
Проверить на примерах
pdf, text, barcodeСвязанные хабы
FAQ
Какие форматы вывода поддерживает этот конвертер?
Инструмент поддерживает экспорт в обычный текст (Plain Text), структурированный текст с разделителями страниц и формат JSON.
Можно ли извлечь текст только из определенных страниц?
Да, вы можете указать точные номера страниц или диапазоны в поле «Диапазон Страниц», например, «1-5,7,10-12».
Что делает опция «Очистка Текста»?
Она позволяет удалить нежелательные символы и артефакты разметки. Доступны три уровня: мягкая (Gentle), агрессивная (Aggressive) и без очистки (None).
Сохраняются ли метаданные PDF-файла при конвертации?
Да, при включенной опции «Включить Метаданные PDF» информация о документе будет добавлена в итоговый файл.
Можно ли сохранить исходную структуру абзацев?
Да, для этого активируйте параметр «Сохранять Структуру Абзацев», чтобы предотвратить нежелательные разрывы строк внутри абзацев.