Datos clave
- Categoría
- Data Processing
- Tipos de entrada
- textarea, select, text, checkbox, number
- Tipo de salida
- text
- Cobertura de muestras
- 4
- API disponible
- Yes
Resumen
El Normalizador Z-Score es una herramienta esencial para estandarizar datos numéricos, transformándolos para que tengan una media de 0 y una desviación estándar de 1. Este proceso es fundamental para comparar variables con diferentes escalas, preparar conjuntos de datos para modelos de machine learning y realizar análisis estadísticos precisos.
Cuándo usarlo
- •Cuando necesitas comparar variables que utilizan unidades de medida o escalas completamente diferentes.
- •Al preparar datos para algoritmos de machine learning que son sensibles a la magnitud de las características.
- •Para identificar valores atípicos (outliers) en un conjunto de datos mediante la desviación estándar.
Cómo funciona
- •Carga tus datos en formato CSV en el área de entrada.
- •Selecciona las columnas que deseas normalizar o deja el campo vacío para la detección automática.
- •Elige el tipo de estandarización (Z-Score estándar o Robusto) y configura el manejo de valores faltantes.
- •Ejecuta la herramienta para obtener los datos transformados junto con un resumen estadístico opcional.
Casos de uso
Ejemplos
1. Preparación de datos para Machine Learning
Científico de datos- Contexto
- Un conjunto de datos contiene columnas de 'Edad' (0-100) y 'Salario' (20k-200k). Los modelos de aprendizaje automático se ven sesgados por la mayor magnitud del salario.
- Problema
- Las diferencias de escala impiden que el modelo converja correctamente.
- Cómo usarlo
- Subir el archivo CSV, seleccionar las columnas 'Edad' y 'Salario', y aplicar la estandarización Z-Score.
- Configuración de ejemplo
-
standardizationType: zscore, handleMissing: fill_mean - Resultado
- Ambas columnas quedan centradas en 0 con una desviación de 1, permitiendo que el modelo trate ambas variables con la misma importancia relativa.
2. Detección de valores atípicos en sensores
Ingeniero de calidad- Contexto
- Se monitorea la temperatura de una maquinaria industrial. La mayoría de los datos son estables, pero existen picos erráticos que deben ser identificados.
- Problema
- Identificar lecturas que se desvían significativamente del comportamiento normal.
- Cómo usarlo
- Cargar las lecturas del sensor, activar la detección de valores atípicos y establecer el umbral en 2.5 desviaciones estándar.
- Configuración de ejemplo
-
detectOutliers: true, outlierThreshold: 2.5 - Resultado
- El sistema genera una lista de lecturas marcadas como atípicas, facilitando la inspección técnica de los momentos de falla.
Probar con muestras
csv, video, barcodeHubs relacionados
Preguntas frecuentes
¿Qué es la estandarización Z-Score?
Es un método estadístico que ajusta los datos para que tengan una media de 0 y una desviación estándar de 1, facilitando la comparación entre diferentes distribuciones.
¿Cuál es la diferencia entre Z-Score estándar y Robusto?
El Z-Score estándar usa la media y la desviación estándar, mientras que el Robusto utiliza la mediana y la desviación absoluta de la mediana (MAD), siendo más resistente a valores atípicos.
¿Cómo maneja la herramienta los valores faltantes?
Puedes optar por omitir las filas con valores faltantes o rellenarlos automáticamente usando la media, mediana, moda o cero.
¿Puedo conservar mis columnas originales?
Sí, al activar la opción 'Preservar Columnas Originales', el resultado incluirá tanto los datos normalizados como los valores originales.
¿Qué hace la función de detección de valores atípicos?
Identifica y marca los valores que superan un umbral específico de desviaciones estándar respecto a la media, ayudándote a limpiar tu conjunto de datos.