Инструменты для отладки Unicode, emoji и невидимых символов

Проверяйте скрытые символы, нормализуйте fullwidth-текст, декодируйте escape-последовательности, разбирайте IDN punycode и очищайте строки с большим количеством emoji в одном хабе.

Этот хаб посвящен текстовым проблемам, которые выглядят безобидно на экране, но на практике ломают копирование, поиск, домены, формы и последующие парсеры. Он объединяет очистку emoji, поиск гомоглифов, удаление невидимых символов, преобразование Unicode escape, нормализацию ширины и проверку IDN punycode, чтобы странное поведение текста можно было разобрать до того, как оно попадет в рабочие потоки.

Факты о кластере

Тип задачи
debug
Families
unicode, emoji, text-cleanup
Инструменты
16
Подкластеры
3

Зачем нужен этот хаб

Ошибки Unicode часто трудно заметить, потому что текст может выглядеть нормально, хотя в нем остаются невидимые joiner-символы, гомоглифы, варианты ширины или закодированные доменные метки.
Когда инструменты обнаружения, нормализации, преобразования и очистки собраны вместе, проще пройти путь от ощущения “здесь что-то не так” до точной причины на уровне символов.
Включенные примеры с emoji, специальными символами, Unicode escape и смешанным текстом помогают воспроизводить реальные пограничные случаи до применения инструментов к формам, скопированному контенту или многоязычным конвейерам.

Избранные инструменты

Конвертер Брайля
Преобразовать текст в символы Брайля или декодировать Брайля в текст
Извлекатель Китайских Символов
Извлекает все китайские символы из текста, отфильтровывая знаки препинания, английские буквы, цифры и некитайские символы
Извлекатель Эмодзи
Извлеките все Unicode эмодзи из текста или необязательно удалите эмодзи
Преобразователь Полноширинных в Полуширинные
Преобразование полноширинных символов в полуширинные для правильного форматирования текста
Преобразователь Полуширинных в Полноширинные
Преобразование полуширинных символов в полноширинные для форматирования текста CJK
Конвертер Hex/Unicode
Преобразование символов в/из hex (\xXX) и Unicode (\uXXXX) escape-последовательностей
Очистка Неалфавитно-цифровых Символов
Удаляет все специальные неалфавитно-цифровые символы из текста с гибкими параметрами сохранения
Punycode Декодировщик
Декодировать доменные имена Punycode (ASCII) в международные (IDN)
Punycode Кодировщик
Кодировать международные доменные имена (IDN) в ASCII (Punycode)
Сортировка символов в тексте
Быстро сортировать все символы в тексте по алфавиту
Валидатор Специальных Символов
Проверяет, содержит ли строка специальные символы (например, !@#$%^&*()_+) и определяет какие из них присутствуют
Удалитель Эмодзи из Текста
Удаляет эмодзи и специальные символы из текстового содержимого
Проверить, является ли текст фейковым
Быстро проверить, является ли данный текст поддельным (содержит омоглифы)
Создать фейковый текст
Быстро создает фейковый текст используя похожие символы
Нормализовать фейковый текст
Быстро преобразует фейковый текст с фейковыми символами в обычный текст
Удалитель Символов Нулевой Ширины
Удаляет символы нулевой ширины, невидимые и скрытые символы из текста с подробной статистикой

Проверить на примерах

unicode, emoji, text-cleanup

Связанные хабы

FAQ

Какие проблемы с текстом помогает разбирать этот хаб?

Он охватывает невидимые символы, текст с большим количеством emoji, Unicode escape-последовательности, fullwidth и halfwidth формы, подмену гомоглифами, очистку специальных символов и международные доменные строки, которые ведут себя не так, как выглядят.

Кому полезен этот хаб?

Он полезен разработчикам, командам локализации, SEO- и контент-редакторам, инженерам поддержки и всем, кому нужно очистить или диагностировать текст до того, как он попадет в формы, URL, базы данных или поисковые индексы.

Как лучше использовать эти инструменты вместе?

Сначала найдите подозрительные символы или различия в письменностях, затем нормализуйте ширину или escape-формат, удалите невидимые и ненужные символы, а после этого проверьте очищенный результат перед повторным использованием.