Perfilador de calidad de datasets

Perfila datasets CSV o JSON para detectar faltantes, duplicados, drift de formato, tipos y outliers.

Pegue un CSV en "Entrada de dataset" o suba un archivo CSV/JSON. El perfilador revisa cada columna y entrega una vista rapida de calidad antes de pasar el dato a BI, ETL o ML.

Que revisa:

  • Valores faltantes por columna
  • Filas duplicadas o combinaciones duplicadas segun las columnas indicadas en "Columnas para duplicados"
  • Inferencia de tipos: number, boolean, date, string o empty
  • Outliers numericos con una regla tipo IQR
  • Drift de formato en columnas de texto/fecha, como fechas mezcladas o codigos mezclados con texto libre

Como llenar los campos:

  • Entrada de dataset: pega texto CSV para un perfil rapido
  • Archivo de datos: sube CSV o JSON si el dataset es mas grande o ya esta guardado
  • Columnas para duplicados: opciona; usa claves separadas por comas como id,email para detectar duplicados por clave de negocio
  • Filas de muestra: controla cuantas filas ejemplo se muestran en el reporte

Como leer el reporte:

  • Quality score es un resumen 0-100; mas faltantes, duplicados y senales anomalias reducen el puntaje
  • Missing indica cuantas celdas vacias/null hay en la columna
  • Distinct muestra cuantas variantes unicas aparecen
  • Anomalies resalta outliers numericos
  • Format drift marca columnas con valores estructuralmente inconsistentes

Alcance actual:

  • Soporta CSV y JSON
  • JSON debe ser un arreglo de objetos o un objeto con un arreglo rows
  • El puntaje es una senal operativa rapida, no una nota formal de gobierno de datos

Resultados de ejemplo

1 Ejemplos

Perfilar un CSV transaccional antes de BI

Detecta faltantes, atipicos, duplicados y drift de tipos antes del dashboard.

Dataset quality report
Ver parámetros de entrada
{ "datasetInput": "id,name,email,amount,created_at\n1,Alice,[email protected],120,2026-03-01\n2,Bob,,85,2026-03-02\n2,Bob,[email protected],85,03/02/2026\n3,Charlie,[email protected],9999,2026-03-03", "datasetFile": "", "duplicateKeyColumns": "id", "sampleRows": 8 }

Click to upload file or drag and drop file here

Maximum file size: 15MB Supported formats: text/csv, application/json, text/plain

Datos clave

Categoría
Datos y tablas
Tipos de entrada
textarea, file, text, number
Tipo de salida
html
Cobertura de muestras
4
API disponible
Yes

Resumen

El Perfilador de calidad de datasets es una herramienta analítica diseñada para evaluar rápidamente archivos CSV y JSON antes de integrarlos en procesos de BI, ETL o Machine Learning. Con solo pegar o subir sus datos, genera un reporte detallado que identifica valores faltantes, filas duplicadas, anomalías numéricas y desviaciones de formato, proporcionando una puntuación de calidad operativa al instante.

Cuándo usarlo

  • Antes de cargar un nuevo conjunto de datos en un dashboard de Business Intelligence para evitar métricas erróneas.
  • Al recibir archivos CSV o JSON de proveedores externos para validar su estructura y completitud.
  • Durante la fase de preparación de datos en proyectos de Machine Learning para detectar valores atípicos (outliers) y ruido.

Cómo funciona

  • Pegue el texto de su dataset en formato CSV o suba directamente un archivo CSV o JSON desde su equipo.
  • Opcionalmente, defina las 'Columnas para duplicados' (como id o email) para identificar registros repetidos según sus claves de negocio.
  • Ajuste el número de 'Filas de muestra' que desea visualizar y ejecute el análisis.
  • Revise el reporte HTML generado, que incluye una puntuación general de calidad, recuento de valores nulos, detección de anomalías y alertas de drift de formato por cada columna.

Casos de uso

Auditoría rápida de bases de datos de clientes para identificar correos electrónicos faltantes o IDs duplicados.
Validación de reportes de ventas mensuales en CSV para asegurar que no haya valores numéricos atípicos antes de consolidar los ingresos.
Revisión de logs exportados en JSON para detectar inconsistencias en los formatos de fecha y hora.

Ejemplos

1. Auditoría de un reporte de ventas mensual

Analista de Datos
Contexto
El analista recibe un archivo CSV con las transacciones mensuales de diferentes sucursales y necesita asegurar que los datos estén limpios antes de subirlos a su herramienta de visualización.
Problema
Detectar transacciones duplicadas, montos de venta anómalos y fechas mal formateadas.
Cómo usarlo
Sube el archivo CSV de ventas, escribe 'transaction_id' en el campo 'Columnas para duplicados' y deja 8 filas de muestra.
Configuración de ejemplo
Columnas para duplicados: transaction_id
Filas de muestra: 8
Resultado
El reporte revela 3 transacciones duplicadas por ID, detecta 2 valores atípicos en la columna de montos y asigna un Quality Score de 85/100.

2. Limpieza de base de datos de usuarios

Ingeniero de Datos
Contexto
Se extrajo un listado de usuarios en formato JSON desde una API de terceros, pero se sospecha que hay registros incompletos.
Problema
Identificar rápidamente cuántos usuarios no tienen correo electrónico y si hay formatos de fecha de registro inconsistentes.
Cómo usarlo
Sube el archivo JSON y ejecuta el perfilador sin configurar claves de duplicados para obtener un resumen general de las columnas.
Resultado
La columna 'email' muestra un 15% de valores faltantes (Missing) y la columna 'created_at' marca una alerta de 'Format drift' por mezclar formatos ISO y DD/MM/YYYY.

Probar con muestras

json, csv, text

Hubs relacionados

Preguntas frecuentes

¿Qué formatos de archivo soporta el perfilador?

La herramienta soporta texto plano en formato CSV y archivos subidos con extensión .csv o .json. Los archivos JSON deben ser un arreglo de objetos o contener un arreglo llamado 'rows'.

¿Cómo calcula la herramienta los valores atípicos (outliers)?

Utiliza una regla estadística basada en el rango intercuartílico (IQR) para detectar y resaltar anomalías numéricas en las columnas correspondientes.

¿Qué significa el 'Quality score' en el reporte?

Es una métrica operativa de 0 a 100. Disminuye a medida que la herramienta encuentra más celdas vacías, filas duplicadas o señales de anomalías en el dataset.

¿Para qué sirve el campo 'Columnas para duplicados'?

Permite especificar claves de negocio separadas por comas (por ejemplo, 'id,email'). Si se llena, la herramienta buscará duplicados basados solo en esas columnas en lugar de comparar la fila completa.

¿Qué es el 'Format drift' o desviación de formato?

Es una alerta que se activa cuando los valores de una columna de texto o fecha son estructuralmente inconsistentes, como mezclar distintos formatos de fecha o combinar códigos con texto libre.

Documentación de la API

Punto final de la solicitud

POST /es/api/tools/dataset-quality-profiler

Parámetros de la solicitud

Nombre del parámetro Tipo Requerido Descripción
datasetInput textarea No -
datasetFile file (Subida requerida) No -
duplicateKeyColumns text No -
sampleRows number No -

Los parámetros de tipo archivo necesitan ser subidos primero vía POST /upload/dataset-quality-profiler para obtener filePath, luego pasar filePath al campo de archivo correspondiente.

Formato de respuesta

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentación de MCP

Agregue este herramienta a su configuración de servidor MCP:

{
  "mcpServers": {
    "elysiatools-dataset-quality-profiler": {
      "name": "dataset-quality-profiler",
      "description": "Perfila datasets CSV o JSON para detectar faltantes, duplicados, drift de formato, tipos y outliers.",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=dataset-quality-profiler",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Puede encadenar múltiples herramientas, por ejemplo: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máximo 20 herramientas.

Soporte para enlaces de archivos URL o codificación Base64 para parámetros de archivo.

Si encuentra algún problema, por favor, póngase en contacto con nosotros en [email protected]