Инструменты извлечения текста

Изучите 15 инструментов для извлечения ссылок, email адресов, телефонных номеров, дат, эмодзи, HTML атрибутов и других структурированных сигналов из смешанного текста.

Инструменты извлечения текста собирают в одном месте утилиты для получения структурированных данных из сырого текста, Markdown, HTML и логов, чтобы было проще сравнивать сценарии извлечения.

Факты о кластере

Тип задачи
extract
Families
text
Инструменты
15
Подкластеры
1

Почему существует этот хаб

Он собирает инструменты извлечения текста, которые чаще всего нужны при работе с неаккуратными документами, логами, разметкой и вставленным контентом.
Он помогает сравнивать универсальные инструменты извлечения с более точечными средствами для ссылок, дат, телефонных номеров, HTML атрибутов, эмодзи и языковых текстовых сигналов.
Он дает более понятную отправную точку, когда сначала нужно извлечь из текста структурированную информацию, а уже потом переходить к очистке, анализу или конвертации.

Избранные инструменты

Извлекатель текста
Извлекает определенные шаблоны (эл. почта, телефоны, URL, числа)
Массовый Извлекатель Электронной Почты
Извлеките все адреса электронной почты из входного текста, статей, веб-исходного кода или смешанного содержимого. Поддерживает дедупликацию и экспорт в JSON.
Массовый извлекатель URL/ссылок
Извлекает все HTTP/HTTPS ссылки из текста с дедупликацией и опциями экспорта
Извлекатель Номеров Телефонов
Извлекает номера телефонов из смешанного текста с поддержкой нескольких стран и форматов
Извлекатель Хэштегов и Упоминаний
Извлеките хэштеги (#Тема) и упоминания пользователей (@ИмяПользователя) из текста социальных сетей, таких как Twitter, Instagram и т.д.
Извлекатель Источников Изображений
Извлеките URL-адреса изображений (атрибуты src) из HTML-исходного кода. Поддерживает ленивую загрузку изображений и атрибуты srcset.
Извлекатель IP-адресов
Извлеките IPv4 и IPv6 адреса из файлов журналов, серверных журналов, сетевых трассировок или любого текстового содержимого
ИИ Извлекатель Валют и Чисел
Используйте ИИ для интеллектуального извлечения чисел, валют и финансовых сумм
Извлекатель Китайских Символов
Извлекает все китайские символы из текста, отфильтровывая знаки препинания, английские буквы, цифры и некитайские символы
Извлекатель Чисел и Валют
Извлекайте числа из текста с поддержкой символов валют и разделителей тысяч
Извлекатель Эмодзи
Извлеките все Unicode эмодзи из текста или необязательно удалите эмодзи
Извлекатель Дат
Извлекает даты из текста в различных форматах, включая китайский, ISO и американский с подробным анализом
Удалитель HTML-тегов
Удаляет HTML-теги из кода и извлекает чистый текстовый контент
Извлекатель ссылок Markdown
Извлекает встроенные ссылки, справочные ссылки и голые URL-адреса из документов Markdown с базовой проверкой синтаксиса
Извлекатель атрибутов HTML
Извлекает указанные атрибуты (href, src, data-*, и т.д.) из HTML-контента с поддержкой фильтрации по именам тегов

Проверить на примерах

text
Примеры Извлечения Номеров Телефонов
Коллекция смешанного текста, содержащего номера телефонов из различных стран для тестирования извлечения
4 Примеры
text
Текст с Китайскими Образцами
Многоязычный текст, содержащий китайские символы для проверки извлечения китайского
20 Примеры
text
Образцы текста с датами
Текст, содержащий различные форматы дат для тестирования извлечения и анализа дат
18 Примеры
text
Примеры текста с эмодзи
Многоязычный текст, содержащий различные эмодзи Unicode для тестирования извлечения эмодзи
11 Примеры
text
Примеры Анализатора URL-запросов
Полная коллекция параметров URL-запросов для тестирования парсинга, проверки кодирования и извлечения параметров
10 Примеры
text
Примеры Извлечения Ссылок Markdown
Примеры документов Markdown с различными типами ссылок для тестирования инструмента извлечения ссылок Markdown
10 Примеры
text
Файлы журналов с конфиденциальными данными
Примеры файлов журналов, содержащие различные типы PII (личной идентификационной информации) для тестирования инструментов обнаружения PII и очистки журналов
10 Примеры
text

Связанные хабы

FAQ

Что можно сделать с этим хабом?

Этот хаб помогает извлекать email адреса, URL, телефонные номера, даты, эмодзи, HTML атрибуты и другие структурированные поля из неупорядоченного текста, исходного кода и логов.

Для кого подходит этот хаб?

Он подходит разработчикам, аналитикам, SEO командам, поддержке и операциям, которым нужно сначала вытащить полезные сигналы, а потом очищать, проверять или автоматизировать данные.

Как лучше использовать этот хаб?

Сначала попробуйте общие extract инструменты, а затем переходите к более точным средствам для Markdown, HTML, логов, дат, эмодзи и телефонных номеров, когда нужна более строгая структура вывода.