Datos clave
- Categoría
- Datos y tablas
- Tipos de entrada
- textarea, file, text, select, number
- Tipo de salida
- html
- Cobertura de muestras
- 4
- API disponible
- Yes
Resumen
Esta herramienta analiza conjuntos de datos en formato CSV o JSON para detectar desbalances en las clases de una columna objetivo. Calcula automáticamente la proporción de cada categoría, sugiere la mejor estrategia de remuestreo y genera una vista previa del dataset balanceado utilizando técnicas de oversampling o undersampling, facilitando la preparación de datos para modelos de machine learning.
Cuándo usarlo
- •Cuando entrenas modelos de clasificación y notas que la clase mayoritaria domina las predicciones.
- •Antes de aplicar técnicas avanzadas como SMOTE, para evaluar si un remuestreo básico es suficiente.
- •Al explorar un nuevo dataset para comprender rápidamente la distribución de sus etiquetas.
Cómo funciona
- •Pega tu dataset en formato CSV o sube un archivo CSV/JSON directamente en la herramienta.
- •Escribe el nombre exacto de la columna que contiene las etiquetas o clases a analizar.
- •Selecciona una estrategia de remuestreo (oversample o undersample) y el formato de salida deseado.
- •La herramienta genera un reporte visual con la distribución original y una vista previa de los datos balanceados.
Casos de uso
Ejemplos
1. Balanceo de dataset de detección de fraude
Científico de Datos- Contexto
- Un modelo de machine learning está clasificando todas las transacciones como 'normales' debido a que el 95% de los datos pertenecen a esa clase.
- Problema
- Equilibrar las clases 'normal' y 'fraud' para que el modelo aprenda a detectar las anomalías sin sesgos.
- Cómo usarlo
- Sube el archivo transactions.csv, indica 'label' como columna de etiqueta y selecciona la estrategia 'oversample'.
- Configuración de ejemplo
-
Columna de etiqueta: label Estrategia: oversample Formato: json - Resultado
- El reporte muestra la distribución original 95:5 y genera una vista previa donde las transacciones de fraude se duplican hasta igualar a las normales.
2. Reducción de clase mayoritaria en análisis de Churn
Analista de Datos- Contexto
- Se tiene un archivo JSON con miles de registros de clientes, pero solo una pequeña fracción ha cancelado su suscripción.
- Problema
- Reducir el tamaño del dataset para iterar modelos rápidamente sin perder la proporción de la clase minoritaria.
- Cómo usarlo
- Carga el archivo JSON, escribe 'churn_status' en la columna de etiqueta y elige 'undersample'.
- Configuración de ejemplo
-
Columna de etiqueta: churn_status Estrategia: undersample Formato: csv - Resultado
- La herramienta recorta los clientes activos para igualar la cantidad de cancelaciones, entregando una vista previa balanceada en formato CSV.
Probar con muestras
json, csv, textHubs relacionados
Preguntas frecuentes
¿Qué formatos de archivo soporta la herramienta?
Puedes pegar texto directamente en formato CSV o subir archivos con extensión .csv y .json.
¿Cuál es la diferencia entre oversample y undersample?
Oversample duplica las filas de la clase minoritaria para igualar a la mayoritaria, mientras que undersample recorta aleatoriamente las filas de la clase mayoritaria hasta alcanzar el tamaño de la minoritaria.
¿Es seguro usar oversample con datasets muy grandes?
Sí, pero ten en cuenta que aumentará el tamaño total de tu dataset, lo que podría requerir más memoria durante el entrenamiento de tu modelo.
¿Puedo exportar el dataset balanceado completo?
La herramienta genera una vista previa en JSON o CSV según el número de filas configurado, ideal para validar la estrategia antes de procesar todo en tu entorno local.
¿Qué pasa si mi dataset tiene más de dos clases?
La herramienta identificará todas las clases únicas en la columna indicada y ajustará las cantidades basándose en la clase mayoritaria o minoritaria según la estrategia elegida.