Ключевые факты
- Категория
- Разработка и Web
- Типы входных данных
- file, text, checkbox
- Тип результата
- html
- Покрытие примерами
- 4
- API доступен
- Yes
Обзор
Этот инструмент предназначен для автоматического извлечения зачеркнутого текста из PDF-документов, что критически важно при анализе правок в договорах, редакционных материалах и нормативных актах. Он использует технологию OpenDataLoader для точного обнаружения удаленных фрагментов и формирования структурированного отчета в формате HTML.
Когда использовать
- •При проверке юридических договоров, где изменения и удаления отмечены зачеркиванием.
- •Для анализа редакционных правок в книгах или статьях перед их финальной публикацией.
- •При сравнении версий внутренних регламентов компании для быстрого выявления исключенных пунктов.
Как это работает
- •Загрузите PDF-файл, содержащий текстовые пометки или исправления в виде зачеркиваний.
- •Укажите номера страниц или диапазоны, если требуется обработать только определенную часть документа.
- •Система сканирует структуру документа и выявляет текст с атрибутом форматирования 'strikethrough'.
- •Инструмент генерирует HTML-отчет, в котором собраны все найденные удаленные фрагменты текста.
Сценарии использования
Примеры
1. Аудит изменений в договоре аренды
Юрист- Контекст
- Контрагент прислал PDF-файл с правками, где часть пунктов была зачеркнута программным способом.
- Проблема
- Необходимо быстро составить список всех удаленных условий, чтобы оценить риски, не перечитывая весь документ вручную.
- Как использовать
- Загрузите файл договора в поле 'PDF файл' и нажмите кнопку запуска.
- Пример конфигурации
-
useStructTree: true - Результат
- Получен HTML-отчет со всеми исключенными пунктами договора, готовый для обсуждения на совещании.
2. Редакторская проверка рукописи
Литературный редактор- Контекст
- После рецензирования в главе романа объемом 100 страниц появилось множество зачеркнутых предложений.
- Проблема
- Нужно сохранить список всех удаленных фрагментов для последующего согласования с автором.
- Как использовать
- Загрузите PDF рукописи, укажите диапазон страниц в поле 'Страницы' и запустите экстрактор.
- Пример конфигурации
-
pages: "1-100", useStructTree: true - Результат
- Сформирован документ, содержащий только те фразы, которые были помечены как удаленные, с сохранением их последовательности.
Проверить на примерах
pdf, text, fileСвязанные хабы
FAQ
Какие типы PDF-файлов поддерживаются?
Инструмент работает с цифровыми PDF-документами, содержащими текстовый слой и метаданные форматирования.
Можно ли обработать только конкретные страницы?
Да, вы можете указать отдельные страницы или диапазоны, например '1, 3, 5-10', в поле настроек.
Что делает опция «Использовать структуру тегов»?
Она позволяет инструменту опираться на внутреннюю иерархию PDF (StructTree) для более точного определения контекста зачеркнутого текста.
В каком формате я получу извлеченный текст?
Результат предоставляется в виде HTML-файла, который удобно просматривать в любом браузере.
Распознает ли инструмент зачеркивания, сделанные от руки?
Нет, инструмент предназначен для обнаружения программного форматирования текста (strikethrough) в электронных документах.