Инструменты качества данных, дедупликации и поиска аномалий

Профилируйте CSV/JSON-наборы данных, сравнивайте версии таблиц и находите дубликаты, выбросы, пропуски, разрывы связей и аномалии временных рядов в одном тематическом hub.

Этот hub посвящен проверкам, которые обычно выполняют до того, как доверить набор данных BI, ETL, отчетности, миграции или задачам machine learning. Здесь собраны профилирование, дедупликация, сравнение таблиц, проверка внешних ключей, обработка граничных значений, восполнение пропусков и анализ аномалий, чтобы быстрее перейти от подозрительной выгрузки к более пригодному датасету.

Факты о кластере

Тип задачи
analyze
Families
data-quality, anomaly, csv
Инструменты
13
Подкластеры
3

Зачем нужен этот hub

Проверка качества данных редко ограничивается одним тестом. Перед повторным использованием набора обычно нужно вместе оценить дубликаты, пропуски, выбросы и разорванные связи.
Когда инструменты профилирования, поиска аномалий и исправления собраны в одном месте, проще решить, что фильтровать, ограничивать, заполнять или отправлять на ручную проверку.
Это дает более быстрый старт аналитикам, операционным командам и проектам миграции, когда CSV или JSON-выгрузка выглядит подозрительно, но причина проблемы еще неочевидна.

Избранные инструменты

Профилировщик качества датасетов
Строит профиль качества CSV или JSON, выявляя пропуски, дубли, дрейф форматов и выбросы.
Дедупликатор Данных CSV
Удаление дублирующихся записей на основе комбинаций столбцов
CSV Фильтр
Фильтрация данных CSV по значениям столбцов с множественными условиями и операторами. Поддерживает 12 операторов фильтрации включая equals, contains, greater_than, less_than и проверки пустых значений. Примеры Дополнительных Фильтров: [{"column": "возраст", "operator": "greater_than", "value": "25"}] [{"column": "статус", "operator": "equals", "value": "активный"}, {"column": "очки", "operator": "greater_equal", "value": "80"}] [{"column": "имя", "operator": "contains", "value": "иван"}, {"column": "email", "operator": "is_not_empty"}]
Инструмент сравнения CSV / Excel
Сравнивает два CSV или XLSX и экспортирует PDF-отчет с различиями по строкам, столбцам и ячейкам
Валидатор Внешних Ключей
Проверить отношения внешних ключей между несколькими наборами данных. Идеально для проверки целостности данных.
Обработчик Границ Данных
Продвинутый инструмент обработки границ, который определяет и обрабатывает минимальные и максимальные значения в числовых данных. Идеально подходит для валидации данных, проверки диапазонов, статистического анализа и предварительной обработки данных.
Интерполятор Данных
Продвинутый инструмент интерполяции данных, который заполняет отсутствующие значения и генерирует точки данных с использованием различных математических методов. Идеально подходит для анализа временных рядов, завершения данных, обработки сигналов и научных вычислений. Возможности: - Множественные методы интерполяции (линейная, полиномиальная, сплайн, кубическая) - Интерполяция временных рядов с поддержкой даты/времени - Опции прямого и обратного заполнения - Интерполяция ближайшего соседа - Пользовательские параметры интерполяции - Обнаружение и отчет об отсутствующих значениях - Генерация и уплотнение точек данных - Одновременная поддержка нескольких столбцов - Интерактивная визуализация интерполяции Общие случаи использования: - Заполнение пробелов в данных датчиков - Завершение финансовых данных - Обработка данных научных экспериментов - Подготовка для прогнозирования временных рядов - Обработка изображений и сигналов - Импутация статистических данных
Детектор Выбросов
Обнаруживает выбросы в числовых данных с использованием различных статистических методов, включая IQR, Z-score и модифицированный Z-score
Детектор аномалий временных рядов
Загружает временной ряд в CSV или JSON, находит аномалии по Z-Score и IQR и возвращает отчет с графиком
Генератор Ящика с Усами
Создание ящиков с усами для статистического анализа распределения с квартилями, усами и выбросами
Калькулятор Z-оценки
Вычисляет Z-оценку по исходному значению, данным или заданным параметрам
Калькулятор усеченного среднего
Вычисляет усеченное среднее после удаления одинаковой доли нижних и верхних значений
Калькулятор винзоризованного среднего
Вычисляет винзоризованное среднее, ограничивая нижние и верхние экстремальные значения перед усреднением

Проверить на примерах

data-quality, anomaly, csv

Связанные хабы

Инструменты для очистки CSV и перестройки таблиц
Соберите в одном хабе инструменты для очистки CSV, фильтрации, сортировки, группировки, объединения, разделения и перестройки таблиц для табличных и import/export сценариев.
Инструменты для статистического анализа, тестов и распределений
Считайте описательную статистику, перцентили, z-оценки, доверительные интервалы, тесты значимости и показатели регрессии в одном статистическом хабе.
Инструменты для схем баз данных, миграций и SQL-процессов
Планируйте схемы таблиц, генерируйте SQL, сравнивайте изменения базы данных, проверяйте связи и подготавливайте табличные данные к загрузке в одном хабе.
Инструменты автоматизации данных Excel и XLSX
Конвертируйте, очищайте, перестраивайте, импортируйте, экспортируйте и создавайте отчеты из Excel или XLSX для табличного ETL и повторяемой отчетности.

FAQ

Чем помогает этот hub?

Он помогает профилировать табличные данные, сравнивать версии таблиц, удалять дубликаты строк, проверять выбросы, валидировать связи, закрывать пропуски и просматривать сигналы аномалий до передачи данных дальше по процессу.

Кому полезен этот hub?

Он полезен аналитикам, командам ETL и data platform, операционным владельцам, миграционным проектам, QA-ревьюерам и всем, кому нужно понять, достаточно ли надежен CSV или JSON-набор данных.

С чего начать, если данные уже выглядят неправильно?

Начните с профайлера качества данных для общей картины, а затем переходите к дедупликации, сравнению таблиц, просмотру аномалий или проверке связей в зависимости от того, похожа ли проблема на дубли, дрейф, пропуски или сломанные join-связи.