Datos clave
- Categoría
- Datos y tablas
- Tipos de entrada
- textarea, file, text, number
- Tipo de salida
- html
- Cobertura de muestras
- 4
- API disponible
- Yes
Resumen
El Perfilador de calidad de datasets es una herramienta analítica diseñada para evaluar rápidamente archivos CSV y JSON antes de integrarlos en procesos de BI, ETL o Machine Learning. Con solo pegar o subir sus datos, genera un reporte detallado que identifica valores faltantes, filas duplicadas, anomalías numéricas y desviaciones de formato, proporcionando una puntuación de calidad operativa al instante.
Cuándo usarlo
- •Antes de cargar un nuevo conjunto de datos en un dashboard de Business Intelligence para evitar métricas erróneas.
- •Al recibir archivos CSV o JSON de proveedores externos para validar su estructura y completitud.
- •Durante la fase de preparación de datos en proyectos de Machine Learning para detectar valores atípicos (outliers) y ruido.
Cómo funciona
- •Pegue el texto de su dataset en formato CSV o suba directamente un archivo CSV o JSON desde su equipo.
- •Opcionalmente, defina las 'Columnas para duplicados' (como id o email) para identificar registros repetidos según sus claves de negocio.
- •Ajuste el número de 'Filas de muestra' que desea visualizar y ejecute el análisis.
- •Revise el reporte HTML generado, que incluye una puntuación general de calidad, recuento de valores nulos, detección de anomalías y alertas de drift de formato por cada columna.
Casos de uso
Ejemplos
1. Auditoría de un reporte de ventas mensual
Analista de Datos- Contexto
- El analista recibe un archivo CSV con las transacciones mensuales de diferentes sucursales y necesita asegurar que los datos estén limpios antes de subirlos a su herramienta de visualización.
- Problema
- Detectar transacciones duplicadas, montos de venta anómalos y fechas mal formateadas.
- Cómo usarlo
- Sube el archivo CSV de ventas, escribe 'transaction_id' en el campo 'Columnas para duplicados' y deja 8 filas de muestra.
- Configuración de ejemplo
-
Columnas para duplicados: transaction_id Filas de muestra: 8 - Resultado
- El reporte revela 3 transacciones duplicadas por ID, detecta 2 valores atípicos en la columna de montos y asigna un Quality Score de 85/100.
2. Limpieza de base de datos de usuarios
Ingeniero de Datos- Contexto
- Se extrajo un listado de usuarios en formato JSON desde una API de terceros, pero se sospecha que hay registros incompletos.
- Problema
- Identificar rápidamente cuántos usuarios no tienen correo electrónico y si hay formatos de fecha de registro inconsistentes.
- Cómo usarlo
- Sube el archivo JSON y ejecuta el perfilador sin configurar claves de duplicados para obtener un resumen general de las columnas.
- Resultado
- La columna 'email' muestra un 15% de valores faltantes (Missing) y la columna 'created_at' marca una alerta de 'Format drift' por mezclar formatos ISO y DD/MM/YYYY.
Probar con muestras
json, csv, textHubs relacionados
Preguntas frecuentes
¿Qué formatos de archivo soporta el perfilador?
La herramienta soporta texto plano en formato CSV y archivos subidos con extensión .csv o .json. Los archivos JSON deben ser un arreglo de objetos o contener un arreglo llamado 'rows'.
¿Cómo calcula la herramienta los valores atípicos (outliers)?
Utiliza una regla estadística basada en el rango intercuartílico (IQR) para detectar y resaltar anomalías numéricas en las columnas correspondientes.
¿Qué significa el 'Quality score' en el reporte?
Es una métrica operativa de 0 a 100. Disminuye a medida que la herramienta encuentra más celdas vacías, filas duplicadas o señales de anomalías en el dataset.
¿Para qué sirve el campo 'Columnas para duplicados'?
Permite especificar claves de negocio separadas por comas (por ejemplo, 'id,email'). Si se llena, la herramienta buscará duplicados basados solo en esas columnas en lugar de comparar la fila completa.
¿Qué es el 'Format drift' o desviación de formato?
Es una alerta que se activa cuando los valores de una columna de texto o fecha son estructuralmente inconsistentes, como mezclar distintos formatos de fecha o combinar códigos con texto libre.