Perfilador de calidad de datasets

Perfila datasets CSV o JSON para detectar faltantes, duplicados, drift de formato, tipos y outliers.

Etiquetas relacionadas

JSON 83 CSV 62 Análisis de Datos 24 Valores Faltantes 6

Pegue un CSV en "Entrada de dataset" o suba un archivo CSV/JSON. El perfilador revisa cada columna y entrega una vista rapida de calidad antes de pasar el dato a BI, ETL o ML.

Que revisa:

Valores faltantes por columna
Filas duplicadas o combinaciones duplicadas segun las columnas indicadas en "Columnas para duplicados"
Inferencia de tipos: number, boolean, date, string o empty
Outliers numericos con una regla tipo IQR
Drift de formato en columnas de texto/fecha, como fechas mezcladas o codigos mezclados con texto libre

Como llenar los campos:

Entrada de dataset: pega texto CSV para un perfil rapido
Archivo de datos: sube CSV o JSON si el dataset es mas grande o ya esta guardado
Columnas para duplicados: opciona; usa claves separadas por comas como id,email para detectar duplicados por clave de negocio
Filas de muestra: controla cuantas filas ejemplo se muestran en el reporte

Como leer el reporte:

Quality score es un resumen 0-100; mas faltantes, duplicados y senales anomalias reducen el puntaje
Missing indica cuantas celdas vacias/null hay en la columna
Distinct muestra cuantas variantes unicas aparecen
Anomalies resalta outliers numericos
Format drift marca columnas con valores estructuralmente inconsistentes

Alcance actual:

Soporta CSV y JSON
JSON debe ser un arreglo de objetos o un objeto con un arreglo rows
El puntaje es una senal operativa rapida, no una nota formal de gobierno de datos

Resultados de ejemplo

1 Ejemplos

Perfilar un CSV transaccional antes de BI

Detecta faltantes, atipicos, duplicados y drift de tipos antes del dashboard.

Dataset quality report

Ver parámetros de entrada

{ "datasetInput": "id,name,email,amount,created_at\n1,Alice,[email protected],120,2026-03-01\n2,Bob,,85,2026-03-02\n2,Bob,[email protected],85,03/02/2026\n3,Charlie,[email protected],9999,2026-03-03", "datasetFile": "", "duplicateKeyColumns": "id", "sampleRows": 8 }

Entrada de dataset

Archivo de datos

Click to upload file or drag and drop file here

Maximum file size: 15MB Supported formats: text/csv, application/json, text/plain

Columnas para duplicados

Filas de muestra

Datos clave

Categoría: Datos y tablas
Tipos de entrada: textarea, file, text, number
Tipo de salida: html
Cobertura de muestras: 4
API disponible: Yes

Resumen

El Perfilador de calidad de datasets es una herramienta analítica diseñada para evaluar rápidamente archivos CSV y JSON antes de integrarlos en procesos de BI, ETL o Machine Learning. Con solo pegar o subir sus datos, genera un reporte detallado que identifica valores faltantes, filas duplicadas, anomalías numéricas y desviaciones de formato, proporcionando una puntuación de calidad operativa al instante.

Cuándo usarlo

•Antes de cargar un nuevo conjunto de datos en un dashboard de Business Intelligence para evitar métricas erróneas.
•Al recibir archivos CSV o JSON de proveedores externos para validar su estructura y completitud.
•Durante la fase de preparación de datos en proyectos de Machine Learning para detectar valores atípicos (outliers) y ruido.

Cómo funciona

•Pegue el texto de su dataset en formato CSV o suba directamente un archivo CSV o JSON desde su equipo.
•Opcionalmente, defina las 'Columnas para duplicados' (como id o email) para identificar registros repetidos según sus claves de negocio.
•Ajuste el número de 'Filas de muestra' que desea visualizar y ejecute el análisis.
•Revise el reporte HTML generado, que incluye una puntuación general de calidad, recuento de valores nulos, detección de anomalías y alertas de drift de formato por cada columna.

Casos de uso

Auditoría rápida de bases de datos de clientes para identificar correos electrónicos faltantes o IDs duplicados.

Validación de reportes de ventas mensuales en CSV para asegurar que no haya valores numéricos atípicos antes de consolidar los ingresos.

Revisión de logs exportados en JSON para detectar inconsistencias en los formatos de fecha y hora.

Ejemplos

1. Auditoría de un reporte de ventas mensual

Analista de Datos

Contexto: El analista recibe un archivo CSV con las transacciones mensuales de diferentes sucursales y necesita asegurar que los datos estén limpios antes de subirlos a su herramienta de visualización.
Problema: Detectar transacciones duplicadas, montos de venta anómalos y fechas mal formateadas.
Cómo usarlo: Sube el archivo CSV de ventas, escribe 'transaction_id' en el campo 'Columnas para duplicados' y deja 8 filas de muestra.
Configuración de ejemplo: Columnas para duplicados: transaction_id Filas de muestra: 8
Resultado: El reporte revela 3 transacciones duplicadas por ID, detecta 2 valores atípicos en la columna de montos y asigna un Quality Score de 85/100.

2. Limpieza de base de datos de usuarios

Ingeniero de Datos

Contexto: Se extrajo un listado de usuarios en formato JSON desde una API de terceros, pero se sospecha que hay registros incompletos.
Problema: Identificar rápidamente cuántos usuarios no tienen correo electrónico y si hay formatos de fecha de registro inconsistentes.
Cómo usarlo: Sube el archivo JSON y ejecuta el perfilador sin configurar claves de duplicados para obtener un resumen general de las columnas.
Resultado: La columna 'email' muestra un 15% de valores faltantes (Missing) y la columna 'created_at' marca una alerta de 'Format drift' por mezclar formatos ISO y DD/MM/YYYY.

Probar con muestras

json, csv, text

Ejemplos CSV

Archivos CSV de muestra con varios tipos de datos, tamaños y niveles de complejidad

preferred input family csv,json

csv, json

Ejemplos Python

Ejemplos de código Python y demostraciones Hello World

preferred input family csv,json

csv, json

Ejemplos JSON de Chat

Ejemplos JSON para transcripciones de chat multirrol

preferred input family json,text

json, text

Muestras JWT

Ejemplos completos de JWT desde la estructura básica de tokens hasta implementaciones de seguridad avanzadas

preferred input family json,text

json, text

Hubs relacionados

Herramientas de formato, diff y normalización de JSON

Compara herramientas de formato JSON, diff, revisión de logs, comparación de configuración y normalización de datos en un solo hub para flujos de revisión de JSON.

Herramientas de redacción, resaltado y formato de presentación de texto

Compara herramientas para enmascarar texto sensible, detectar PII, normalizar teléfonos, resaltar frases, centrar texto y formatear diffs en un solo hub.

Herramientas de intercambio JSON y traduccion de formatos

Compara herramientas de conversion JSON para CSV, YAML, TOML, GraphQL, XML, Markdown, Excel, BSON, EDN y otros formatos estructurados en un solo hub.

Herramientas de conversión de texto, codificación y normalización

Compara conversión de mayúsculas y minúsculas, conversión de ancho de caracteres, conversión de codificación, manejo de quoted-printable y normalización de texto en un solo hub.

Preguntas frecuentes

¿Qué formatos de archivo soporta el perfilador?

La herramienta soporta texto plano en formato CSV y archivos subidos con extensión .csv o .json. Los archivos JSON deben ser un arreglo de objetos o contener un arreglo llamado 'rows'.

¿Cómo calcula la herramienta los valores atípicos (outliers)?

Utiliza una regla estadística basada en el rango intercuartílico (IQR) para detectar y resaltar anomalías numéricas en las columnas correspondientes.

¿Qué significa el 'Quality score' en el reporte?

Es una métrica operativa de 0 a 100. Disminuye a medida que la herramienta encuentra más celdas vacías, filas duplicadas o señales de anomalías en el dataset.

¿Para qué sirve el campo 'Columnas para duplicados'?

Permite especificar claves de negocio separadas por comas (por ejemplo, 'id,email'). Si se llena, la herramienta buscará duplicados basados solo en esas columnas en lugar de comparar la fila completa.

¿Qué es el 'Format drift' o desviación de formato?

Es una alerta que se activa cuando los valores de una columna de texto o fecha son estructuralmente inconsistentes, como mezclar distintos formatos de fecha o combinar códigos con texto libre.

Documentación de la API

Punto final de la solicitud

POST /es/api/tools/dataset-quality-profiler

Parámetros de la solicitud

Nombre del parámetro	Tipo	Requerido	Descripción
datasetInput	textarea	No	-
datasetFile	file (Subida requerida)	No	-
duplicateKeyColumns	text	No	-
sampleRows	number	No	-

Los parámetros de tipo archivo necesitan ser subidos primero vía POST /upload/dataset-quality-profiler para obtener filePath, luego pasar filePath al campo de archivo correspondiente.

Formato de respuesta

{
  "result": "Processed HTML content",
  "error": "Error message (optional)",
  "message": "Notification message (optional)",
  "metadata": {
    "key": "value"
  }
}

HTML: HTML

Documentación de MCP

Agregue este herramienta a su configuración de servidor MCP:

{
  "mcpServers": {
    "elysiatools-dataset-quality-profiler": {
      "name": "dataset-quality-profiler",
      "description": "Perfila datasets CSV o JSON para detectar faltantes, duplicados, drift de formato, tipos y outliers.",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=dataset-quality-profiler",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Puede encadenar múltiples herramientas, por ejemplo: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máximo 20 herramientas.

Soporte para enlaces de archivos URL o codificación Base64 para parámetros de archivo.

Si encuentra algún problema, por favor, póngase en contacto con nosotros en [email protected]