Detector de desbalance y remuestreo

Detecta desbalance de clases en datasets CSV o JSON, compara estrategias y previsualiza una salida balanceada

Pega un dataset CSV o sube un archivo CSV/JSON y luego indica la columna de etiqueta. La herramienta cuenta cada clase, mide el ratio de desbalance, sugiere si conviene oversampling o undersampling y genera una vista previa balanceada.

Como usar:

  • Entrada de dataset: pega CSV para un analisis rapido
  • Archivo de datos: sube CSV o JSON
  • Columna de etiqueta: elige la clase objetivo
  • Estrategia de remuestreo: usa none, oversample o undersample
  • Formato de exportacion: vista previa en JSON o CSV
  • Filas de vista previa: limita cuantas filas balanceadas se muestran

Notas:

  • Oversample duplica filas minoritarias hasta alcanzar la clase mayoritaria
  • Undersample recorta la clase mayoritaria hasta el tamano minoritario
  • El reporte compara ambas estrategias
  • Puede ayudarte a decidir si luego vale la pena aplicar SMOTE

Resultados de ejemplo

1 Ejemplos

Inspeccionar un dataset de fraude 95:5

Mide el sesgo de clases, compara estrategias y exporta una vista balanceada.

Original distribution
Ver parámetros de entrada
{ "datasetInput": "id,label,amount\n1,normal,20\n2,normal,21\n3,normal,19\n4,normal,22\n5,fraud,300", "labelColumn": "label", "strategy": "oversample", "exportFormat": "json", "previewRows": 10 }

Click to upload file or drag and drop file here

Maximum file size: 20MB Supported formats: text/csv, application/json, text/plain, .csv, .json

Datos clave

Categoría
Datos y tablas
Tipos de entrada
textarea, file, text, select, number
Tipo de salida
html
Cobertura de muestras
4
API disponible
Yes

Resumen

Esta herramienta analiza conjuntos de datos en formato CSV o JSON para detectar desbalances en las clases de una columna objetivo. Calcula automáticamente la proporción de cada categoría, sugiere la mejor estrategia de remuestreo y genera una vista previa del dataset balanceado utilizando técnicas de oversampling o undersampling, facilitando la preparación de datos para modelos de machine learning.

Cuándo usarlo

  • Cuando entrenas modelos de clasificación y notas que la clase mayoritaria domina las predicciones.
  • Antes de aplicar técnicas avanzadas como SMOTE, para evaluar si un remuestreo básico es suficiente.
  • Al explorar un nuevo dataset para comprender rápidamente la distribución de sus etiquetas.

Cómo funciona

  • Pega tu dataset en formato CSV o sube un archivo CSV/JSON directamente en la herramienta.
  • Escribe el nombre exacto de la columna que contiene las etiquetas o clases a analizar.
  • Selecciona una estrategia de remuestreo (oversample o undersample) y el formato de salida deseado.
  • La herramienta genera un reporte visual con la distribución original y una vista previa de los datos balanceados.

Casos de uso

Detección de fraudes financieros donde las transacciones legítimas superan ampliamente a las fraudulentas.
Diagnóstico médico predictivo donde los casos positivos de una enfermedad son una pequeña fracción del dataset.
Análisis de abandono de clientes (churn) para equilibrar los usuarios retenidos frente a los que cancelaron.

Ejemplos

1. Balanceo de dataset de detección de fraude

Científico de Datos
Contexto
Un modelo de machine learning está clasificando todas las transacciones como 'normales' debido a que el 95% de los datos pertenecen a esa clase.
Problema
Equilibrar las clases 'normal' y 'fraud' para que el modelo aprenda a detectar las anomalías sin sesgos.
Cómo usarlo
Sube el archivo transactions.csv, indica 'label' como columna de etiqueta y selecciona la estrategia 'oversample'.
Configuración de ejemplo
Columna de etiqueta: label
Estrategia: oversample
Formato: json
Resultado
El reporte muestra la distribución original 95:5 y genera una vista previa donde las transacciones de fraude se duplican hasta igualar a las normales.

2. Reducción de clase mayoritaria en análisis de Churn

Analista de Datos
Contexto
Se tiene un archivo JSON con miles de registros de clientes, pero solo una pequeña fracción ha cancelado su suscripción.
Problema
Reducir el tamaño del dataset para iterar modelos rápidamente sin perder la proporción de la clase minoritaria.
Cómo usarlo
Carga el archivo JSON, escribe 'churn_status' en la columna de etiqueta y elige 'undersample'.
Configuración de ejemplo
Columna de etiqueta: churn_status
Estrategia: undersample
Formato: csv
Resultado
La herramienta recorta los clientes activos para igualar la cantidad de cancelaciones, entregando una vista previa balanceada en formato CSV.

Probar con muestras

json, csv, text

Hubs relacionados

Preguntas frecuentes

¿Qué formatos de archivo soporta la herramienta?

Puedes pegar texto directamente en formato CSV o subir archivos con extensión .csv y .json.

¿Cuál es la diferencia entre oversample y undersample?

Oversample duplica las filas de la clase minoritaria para igualar a la mayoritaria, mientras que undersample recorta aleatoriamente las filas de la clase mayoritaria hasta alcanzar el tamaño de la minoritaria.

¿Es seguro usar oversample con datasets muy grandes?

Sí, pero ten en cuenta que aumentará el tamaño total de tu dataset, lo que podría requerir más memoria durante el entrenamiento de tu modelo.

¿Puedo exportar el dataset balanceado completo?

La herramienta genera una vista previa en JSON o CSV según el número de filas configurado, ideal para validar la estrategia antes de procesar todo en tu entorno local.

¿Qué pasa si mi dataset tiene más de dos clases?

La herramienta identificará todas las clases únicas en la columna indicada y ajustará las cantidades basándose en la clase mayoritaria o minoritaria según la estrategia elegida.

Documentación de la API

Punto final de la solicitud

POST /es/api/tools/dataset-imbalance-detector-resampler

Parámetros de la solicitud

Nombre del parámetro Tipo Requerido Descripción
datasetInput textarea No -
datasetFile file (Subida requerida) No -
labelColumn text -
strategy select No -
exportFormat select No -
previewRows number No -

Los parámetros de tipo archivo necesitan ser subidos primero vía POST /upload/dataset-imbalance-detector-resampler para obtener filePath, luego pasar filePath al campo de archivo correspondiente.

Formato de respuesta

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentación de MCP

Agregue este herramienta a su configuración de servidor MCP:

{
  "mcpServers": {
    "elysiatools-dataset-imbalance-detector-resampler": {
      "name": "dataset-imbalance-detector-resampler",
      "description": "Detecta desbalance de clases en datasets CSV o JSON, compara estrategias y previsualiza una salida balanceada",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=dataset-imbalance-detector-resampler",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Puede encadenar múltiples herramientas, por ejemplo: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máximo 20 herramientas.

Soporte para enlaces de archivos URL o codificación Base64 para parámetros de archivo.

Si encuentra algún problema, por favor, póngase en contacto con nosotros en [email protected]