Профилировщик качества датасетов

Строит профиль качества CSV или JSON, выявляя пропуски, дубли, дрейф форматов и выбросы.

Вставьте CSV в поле "Ввод датасета" или загрузите CSV/JSON-файл. Профилировщик проверяет каждую колонку и дает быстрый снимок качества до передачи данных в BI, ETL или ML.

Что проверяется:

  • Пропуски по каждой колонке
  • Дубли строк или дубли по комбинации колонок из поля "Колонки для дублей"
  • Определение типа колонки: number, boolean, date, string или empty
  • Числовые выбросы по правилу, похожему на IQR
  • Дрейф формата в строковых и датовых колонках, например смешанные форматы дат или коды вперемешку со свободным текстом

Как заполнять поля:

  • Ввод датасета: вставьте CSV-текст для быстрого анализа
  • Файл данных: загрузите CSV или JSON, если набор больше или уже сохранен локально
  • Колонки для дублей: необязательно; укажите столбцы через запятую, например id,email, чтобы искать дубли по бизнес-ключу
  • Строк для примера: задает число строк, показываемых в предпросмотре отчета

Как читать отчет:

  • Quality score — это быстрый итог 0-100; чем больше пропусков, дублей и аномалий, тем ниже балл
  • Missing показывает количество пустых/null ячеек в колонке
  • Distinct показывает количество уникальных значений
  • Anomalies выделяет числовые выбросы
  • Format drift показывает колонки, где значения структурно неоднородны

Текущие границы:

  • Поддерживаются CSV и JSON
  • JSON должен быть массивом объектов или объектом с массивом rows
  • Этот балл предназначен для быстрого операционного сигнала, а не для формальной оценки data governance

Примеры результатов

1 Примеры

Профилировать транзакционный CSV до BI

Находит пропуски, выбросы, дубли и дрейф типов до загрузки в отчеты.

Dataset quality report
Показать параметры ввода
{ "datasetInput": "id,name,email,amount,created_at\n1,Alice,[email protected],120,2026-03-01\n2,Bob,,85,2026-03-02\n2,Bob,[email protected],85,03/02/2026\n3,Charlie,[email protected],9999,2026-03-03", "datasetFile": "", "duplicateKeyColumns": "id", "sampleRows": 8 }

Click to upload file or drag and drop file here

Maximum file size: 15MB Supported formats: text/csv, application/json, text/plain

Ключевые факты

Категория
Данные и таблицы
Типы входных данных
textarea, file, text, number
Тип результата
html
Покрытие примерами
4
API доступен
Yes

Обзор

Профилировщик качества датасетов — это инструмент для быстрого анализа CSV и JSON файлов перед их загрузкой в BI-системы, ETL-процессы или модели машинного обучения. Он автоматически проверяет данные на наличие пропусков, дубликатов, числовых выбросов и дрейфа форматов, предоставляя наглядный HTML-отчет с общей оценкой качества (Quality score) и детализацией по каждой колонке.

Когда использовать

  • Перед импортом сырых данных в хранилище или BI-инструмент для предотвращения ошибок загрузки и искажения метрик.
  • При получении нового датасета от стороннего поставщика для быстрой оценки его полноты, структуры и консистентности.
  • На этапе подготовки данных для машинного обучения, чтобы выявить аномалии, пустые значения и несоответствия типов в признаках.

Как это работает

  • Вставьте текст в формате CSV в поле ввода или загрузите готовый CSV/JSON файл с вашего устройства.
  • При необходимости укажите через запятую названия колонок (например, id,email) для поиска дубликатов по конкретным бизнес-ключам.
  • Задайте количество строк для предпросмотра (от 3 до 20) и запустите анализ.
  • Изучите сгенерированный HTML-отчет, где указаны общий балл качества, количество пропусков, уникальных значений, выбросов и дрейф форматов по каждому столбцу.

Сценарии использования

Проверка выгрузки транзакций из CRM-системы на наличие дублирующихся ID клиентов и пустых email-адресов.
Анализ логов событий в формате JSON для выявления сбоев в форматах дат и времени перед парсингом.
Оценка качества набора данных о продажах для выявления аномальных сумм чеков (выбросов) перед построением дашборда.

Примеры

1. Проверка клиентской базы перед email-рассылкой

Маркетолог
Контекст
Маркетолог выгрузил список клиентов из старой базы данных для запуска новой кампании.
Проблема
В базе могут быть дублирующиеся контакты и пустые адреса электронной почты, что приведет к ошибкам рассылки и искажению статистики.
Как использовать
Загрузите файл clients.csv в поле «Файл данных» и укажите email в поле «Колонки для дублей».
Пример конфигурации
email
Результат
Отчет покажет количество пустых ячеек в колонке email и выделит строки с одинаковыми адресами, снизив Quality score до исправления ошибок.

2. Очистка данных о транзакциях для BI-отчета

Дата-аналитик
Контекст
Аналитик получил выгрузку продаж за месяц, где суммы покупок и даты вводились из разных филиалов.
Проблема
Необходимо быстро найти опечатки в суммах (например, лишние нули) и неверные форматы дат перед загрузкой в хранилище.
Как использовать
Вставьте CSV-текст с транзакциями в «Ввод датасета», установите 8 строк для примера и запустите профилирование.
Пример конфигурации
id,date,amount
1,2026-01-01,150
2,01/02/2026,150000
3,2026-01-03,145
Результат
Инструмент подсветит сумму 150000 как числовой выброс (Anomalies) и укажет на дрейф формата в колонке date из-за смешения стилей записи дат.

Проверить на примерах

json, csv, text

Связанные хабы

FAQ

Какие форматы файлов поддерживает инструмент?

Инструмент поддерживает текстовый ввод CSV, а также загрузку файлов в форматах CSV и JSON. JSON должен представлять собой массив объектов или объект с массивом rows.

Как работает поиск дубликатов?

По умолчанию инструмент ищет полные дубликаты строк. Если заполнить поле «Колонки для дублей» (например, id,email), он найдет строки с одинаковыми значениями только в указанных столбцах.

Что такое дрейф формата (Format drift)?

Это ситуация, когда значения в одной колонке структурно неоднородны. Например, когда в столбце с датами используются разные форматы записи или текст смешан с числовыми кодами.

Как рассчитывается Quality score?

Это балл от 0 до 100, который служит быстрым операционным индикатором. Чем больше в датасете пропущенных значений, дубликатов и аномалий, тем ниже итоговая оценка.

Как определяются числовые выбросы (Anomalies)?

Инструмент использует правило, похожее на межквартильный размах (IQR), для выявления аномально больших или маленьких числовых значений в колонках.

Документация API

Конечная точка запроса

POST /ru/api/tools/dataset-quality-profiler

Параметры запроса

Имя параметра Тип Обязательно Описание
datasetInput textarea Нет -
datasetFile file (Требуется загрузка) Нет -
duplicateKeyColumns text Нет -
sampleRows number Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/dataset-quality-profiler для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-dataset-quality-profiler": {
      "name": "dataset-quality-profiler",
      "description": "Строит профиль качества CSV или JSON, выявляя пропуски, дубли, дрейф форматов и выбросы.",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=dataset-quality-profiler",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]