Datos clave
- Categoría
- Data Processing
- Tipos de entrada
- textarea, select, number, checkbox
- Tipo de salida
- text
- Cobertura de muestras
- 4
- API disponible
- Yes
Resumen
El Procesador de Valores Atípicos es una herramienta avanzada diseñada para identificar, limpiar y gestionar anomalías en conjuntos de datos numéricos. Utilizando métodos estadísticos robustos como IQR, Z-Score y algoritmos de aprendizaje automático, permite normalizar tus datos eliminando o reemplazando valores extremos que podrían sesgar tus análisis o modelos predictivos.
Cuándo usarlo
- •Antes de realizar análisis estadísticos donde los valores extremos puedan distorsionar los resultados.
- •Al preparar datasets para modelos de machine learning que son sensibles a la presencia de ruido.
- •Para validar la integridad de datos provenientes de sensores o registros financieros donde ocurren errores de medición.
Cómo funciona
- •Carga tus datos en formato CSV y selecciona las columnas que deseas analizar.
- •Elige un método de detección, como el Rango Intercuartílico (IQR) o Z-Score, y ajusta el umbral de sensibilidad.
- •Define la estrategia de manejo, ya sea eliminando las filas afectadas, reemplazando los valores por la mediana o media, o simplemente marcándolos para su revisión.
- •Obtén el archivo procesado junto con un informe estadístico detallado sobre los valores detectados.
Casos de uso
Ejemplos
1. Limpieza de datos de sensores IoT
Ingeniero de Datos- Contexto
- Un conjunto de datos de temperatura con lecturas erróneas causadas por fallos intermitentes en los sensores.
- Problema
- Los valores extremos están arruinando el promedio diario de temperatura.
- Cómo usarlo
- Cargar el CSV, seleccionar la columna 'temperatura', aplicar el método 'IQR' y elegir la estrategia de 'reemplazo' por la mediana.
- Configuración de ejemplo
-
detectionMethod: iqr, handlingStrategy: replace, replacementMethod: median - Resultado
- Los valores atípicos fueron sustituidos por la mediana, permitiendo un cálculo preciso del promedio sin perder las filas de datos.
2. Detección de anomalías en salarios
Analista de RRHH- Contexto
- Una base de datos de salarios con errores de digitación que muestran valores irreales.
- Problema
- Identificar los salarios que se desvían significativamente del estándar sin borrar la información.
- Cómo usarlo
- Subir el archivo, seleccionar la columna 'salario', usar 'Z-Score' y activar 'Marcar Valores Atípicos'.
- Configuración de ejemplo
-
detectionMethod: zscore, handlingStrategy: mark, markOutliers: true - Resultado
- Se generó una nueva columna 'es_atípico' que permite filtrar rápidamente los registros sospechosos para su verificación manual.
Probar con muestras
csv, video, qrHubs relacionados
Preguntas frecuentes
¿Qué métodos de detección están disponibles?
Ofrecemos métodos estadísticos clásicos como IQR, Z-Score, Modified Z-Score, Simple Range y el algoritmo de aprendizaje automático Isolation Forest.
¿Puedo conservar mis datos originales?
Sí, puedes activar la opción 'Preservar Columnas Originales' para comparar los valores procesados con los datos de entrada originales.
¿Qué sucede si elijo la estrategia de reemplazo?
Los valores atípicos se sustituirán por el valor estadístico que elijas, como la media, la mediana, la moda o mediante interpolación lineal.
¿Cómo sé qué umbral de detección es el adecuado?
Puedes usar la función 'Auto-optimize Threshold' para que el sistema determine el umbral óptimo basado en la distribución de tus datos.
¿Es posible marcar los valores sin eliminarlos?
Sí, seleccionando la estrategia 'Mark', el sistema añadirá una columna adicional indicando qué filas contienen valores atípicos sin alterar los datos originales.