Ключевые факты
- Категория
- Данные и таблицы
- Типы входных данных
- textarea, file, text, number
- Тип результата
- html
- Покрытие примерами
- 4
- API доступен
- Yes
Обзор
Профилировщик качества датасетов — это инструмент для быстрого анализа CSV и JSON файлов перед их загрузкой в BI-системы, ETL-процессы или модели машинного обучения. Он автоматически проверяет данные на наличие пропусков, дубликатов, числовых выбросов и дрейфа форматов, предоставляя наглядный HTML-отчет с общей оценкой качества (Quality score) и детализацией по каждой колонке.
Когда использовать
- •Перед импортом сырых данных в хранилище или BI-инструмент для предотвращения ошибок загрузки и искажения метрик.
- •При получении нового датасета от стороннего поставщика для быстрой оценки его полноты, структуры и консистентности.
- •На этапе подготовки данных для машинного обучения, чтобы выявить аномалии, пустые значения и несоответствия типов в признаках.
Как это работает
- •Вставьте текст в формате CSV в поле ввода или загрузите готовый CSV/JSON файл с вашего устройства.
- •При необходимости укажите через запятую названия колонок (например, id,email) для поиска дубликатов по конкретным бизнес-ключам.
- •Задайте количество строк для предпросмотра (от 3 до 20) и запустите анализ.
- •Изучите сгенерированный HTML-отчет, где указаны общий балл качества, количество пропусков, уникальных значений, выбросов и дрейф форматов по каждому столбцу.
Сценарии использования
Примеры
1. Проверка клиентской базы перед email-рассылкой
Маркетолог- Контекст
- Маркетолог выгрузил список клиентов из старой базы данных для запуска новой кампании.
- Проблема
- В базе могут быть дублирующиеся контакты и пустые адреса электронной почты, что приведет к ошибкам рассылки и искажению статистики.
- Как использовать
- Загрузите файл clients.csv в поле «Файл данных» и укажите email в поле «Колонки для дублей».
- Пример конфигурации
-
email - Результат
- Отчет покажет количество пустых ячеек в колонке email и выделит строки с одинаковыми адресами, снизив Quality score до исправления ошибок.
2. Очистка данных о транзакциях для BI-отчета
Дата-аналитик- Контекст
- Аналитик получил выгрузку продаж за месяц, где суммы покупок и даты вводились из разных филиалов.
- Проблема
- Необходимо быстро найти опечатки в суммах (например, лишние нули) и неверные форматы дат перед загрузкой в хранилище.
- Как использовать
- Вставьте CSV-текст с транзакциями в «Ввод датасета», установите 8 строк для примера и запустите профилирование.
- Пример конфигурации
-
id,date,amount 1,2026-01-01,150 2,01/02/2026,150000 3,2026-01-03,145 - Результат
- Инструмент подсветит сумму 150000 как числовой выброс (Anomalies) и укажет на дрейф формата в колонке date из-за смешения стилей записи дат.
Проверить на примерах
json, csv, textСвязанные хабы
FAQ
Какие форматы файлов поддерживает инструмент?
Инструмент поддерживает текстовый ввод CSV, а также загрузку файлов в форматах CSV и JSON. JSON должен представлять собой массив объектов или объект с массивом rows.
Как работает поиск дубликатов?
По умолчанию инструмент ищет полные дубликаты строк. Если заполнить поле «Колонки для дублей» (например, id,email), он найдет строки с одинаковыми значениями только в указанных столбцах.
Что такое дрейф формата (Format drift)?
Это ситуация, когда значения в одной колонке структурно неоднородны. Например, когда в столбце с датами используются разные форматы записи или текст смешан с числовыми кодами.
Как рассчитывается Quality score?
Это балл от 0 до 100, который служит быстрым операционным индикатором. Чем больше в датасете пропущенных значений, дубликатов и аномалий, тем ниже итоговая оценка.
Как определяются числовые выбросы (Anomalies)?
Инструмент использует правило, похожее на межквартильный размах (IQR), для выявления аномально больших или маленьких числовых значений в колонках.