Herramientas de calidad de datos, deduplicacion y deteccion de anomalías

Perfila datasets CSV/JSON, compara versiones de hojas de calculo y detecta duplicados, valores atipicos, faltantes, rupturas relacionales y anomalias temporales en un solo hub de calidad de datos.

Este hub se centra en las comprobaciones que suelen hacerse antes de confiar en un dataset para BI, ETL, reporting, migraciones o trabajo de machine learning. Reune perfilado, deduplicacion, comparacion de hojas, validacion de claves foraneas, limpieza de limites, reparacion de faltantes y revision de anomalias para que puedas pasar de una exportacion sospechosa a un conjunto de datos mas limpio sin saltar entre herramientas no relacionadas.

Datos del cluster

Tipo de tarea
analyze
Families
data-quality, anomaly, csv
Herramientas
13
Subclusters
3

Por que existe este hub

El trabajo de calidad de datos rara vez termina con una sola comprobacion. A menudo hay que revisar duplicados, faltantes, outliers y relaciones rotas al mismo tiempo antes de confiar en el dataset.
Tener juntas las herramientas de perfilado, deteccion de anomalías y reparacion facilita decidir que conviene filtrar, limitar, completar o enviar a revision manual.
Ofrece un punto de partida mas rapido para analistas, equipos operativos y proyectos de migracion cuando una exportacion CSV o JSON parece sospechosa pero la causa aun no es clara.

Herramientas destacadas

Perfilador de calidad de datasets
Perfila datasets CSV o JSON para detectar faltantes, duplicados, drift de formato, tipos y outliers.
Eliminador de Duplicados de CSV
Eliminar filas duplicadas basadas en combinaciones de columnas
Filtrador CSV
Filtrar datos CSV por valores de columna con múltiples condiciones y operadores. Soporta 12 operadores de filtro incluyendo equals, contains, greater_than, less_than y verificaciones de valores vacíos. Ejemplos de Filtros Adicionales: [{"column": "edad", "operator": "greater_than", "value": "25"}] [{"column": "estado", "operator": "equals", "value": "activo"}, {"column": "puntuacion", "operator": "greater_equal", "value": "80"}] [{"column": "nombre", "operator": "contains", "value": "juan"}, {"column": "email", "operator": "is_not_empty"}]
Herramienta de diferencias CSV / Excel
Compara dos fuentes CSV o XLSX y exporta un informe PDF con diferencias por fila, columna y celda
Validador de Claves Foráneas
Validar relaciones de claves foráneas entre múltiples conjuntos de datos. Perfecto para verificar integridad de datos.
Procesador de Límites de Datos
Herramienta avanzada de procesamiento de límites que identifica y maneja valores mínimos y máximos en datos numéricos. Perfecta para validación de datos, verificación de rangos, análisis estadístico y preprocesamiento de datos.
Interpolador de Datos
Herramienta avanzada de interpolación de datos que llena valores faltantes y genera puntos de datos usando varios métodos matemáticos. Perfecto para análisis de series temporales.
Detector de Valores Atípicos
Detecta valores atípicos en datos numéricos usando varios métodos estadísticos incluyendo IQR, Z-score y Z-score modificado
Detector de anomalias en series temporales
Sube datos de series temporales en CSV o JSON, detecta anomalías con Z-Score e IQR y devuelve un informe con grafico
Generador de Gráficos de Caja
Generar gráficos de caja para análisis de distribución estadística con cuartiles, bigotes y valores atípicos
Calculadora de z-score
Calcula z-scores desde un valor bruto, datos o media y desviacion manuales
Calculadora de media recortada
Calcula una media recortada eliminando el mismo porcentaje de valores bajos y altos
Calculadora de media winsorizada
Calcula una media winsorizada limitando valores extremos bajos y altos antes de promediar

Probar con muestras

data-quality, anomaly, csv

Hubs relacionados

Preguntas frecuentes

En que puede ayudar este hub?

Te ayuda a perfilar datos tabulares, comparar versiones de hojas, eliminar filas duplicadas, revisar outliers, validar relaciones, reparar faltantes y revisar señales de anomalía antes de que los datos sigan su flujo.

Para quien es util este hub?

Es util para analistas, equipos de ETL y plataforma de datos, responsables operativos, proyectos de migracion, revisores de QA y cualquier persona que necesite decidir si un dataset CSV o JSON es suficientemente confiable.

Por donde empiezo si los datos ya se ven mal?

Empieza con el perfilador de calidad para obtener una vista general y luego pasa a deduplicacion, diff de hojas, revision de anomalias o validacion relacional segun si el problema principal parece ser duplicados, drift, faltantes o joins rotos.