Fatos principais
- Categoria
- Data Processing
- Tipos de entrada
- textarea, select, number, checkbox
- Tipo de saída
- text
- Cobertura de amostras
- 4
- API disponível
- Yes
Visão geral
O Processador de Outliers de Dados é uma ferramenta avançada projetada para identificar, remover ou substituir valores anômalos em conjuntos de dados numéricos. Utilizando métodos estatísticos robustos como IQR, Z-score e Isolation Forest, ele garante que seus dados estejam limpos e prontos para análises estatísticas precisas ou modelos de machine learning.
Quando usar
- •Ao preparar conjuntos de dados para treinamento de modelos de machine learning onde valores extremos podem enviesar os resultados.
- •Ao realizar análises estatísticas descritivas que exigem a remoção de ruídos ou erros de medição.
- •Ao monitorar dados de sensores ou transações financeiras para detectar anomalias que indiquem falhas ou atividades suspeitas.
Como funciona
- •Carregue seu arquivo CSV contendo os dados numéricos que deseja analisar.
- •Selecione o método de detecção (como IQR ou Z-score) e ajuste o limiar de sensibilidade conforme a necessidade do seu conjunto de dados.
- •Escolha a estratégia de manejo, como remover as linhas com outliers ou substituí-los pela média ou mediana.
- •Execute o processamento para obter o conjunto de dados limpo, acompanhado de um relatório estatístico detalhado sobre as alterações realizadas.
Casos de uso
Exemplos
1. Limpeza de Dados de Sensores
Engenheiro de Dados- Contexto
- Um conjunto de dados de temperatura de sensores industriais continha picos irreais causados por falhas elétricas momentâneas.
- Problema
- Os picos estavam distorcendo a média diária e prejudicando a análise de tendência.
- Como usar
- Carreguei o CSV, selecionei o método 'IQR' com sensibilidade média e a estratégia 'Substituir' pela mediana.
- Configuração de exemplo
-
detectionMethod: iqr, handlingStrategy: replace, replacementMethod: median - Resultado
- Os picos anômalos foram corrigidos pela mediana, mantendo a continuidade da série temporal para análise.
2. Preparação de Dataset Financeiro
Analista Financeiro- Contexto
- Uma planilha de gastos mensais apresentava valores discrepantes que não condiziam com o padrão de consumo da empresa.
- Problema
- Identificar e remover entradas errôneas que inflavam o orçamento total.
- Como usar
- Utilizei o método 'Z-score' com a estratégia 'Remover' para excluir automaticamente as linhas com valores fora do desvio padrão aceitável.
- Configuração de exemplo
-
detectionMethod: zscore, handlingStrategy: remove, markOutliers: true - Resultado
- O conjunto de dados foi limpo, removendo os registros atípicos e gerando um relatório com os itens excluídos para auditoria.
Testar com amostras
csv, video, qrHubs relacionados
FAQ
Quais métodos de detecção estão disponíveis?
Oferecemos métodos estatísticos clássicos como IQR (Intervalo Interquartil), Z-score, Z-score modificado, Intervalo Simples e o algoritmo de machine learning Isolation Forest.
Posso manter os dados originais e apenas marcar os outliers?
Sim, ao selecionar a estratégia 'Marcar', o sistema adiciona colunas sinalizadoras aos seus dados, permitindo que você identifique os outliers sem alterar os valores originais.
O que acontece se eu escolher a estratégia de substituição?
Os valores detectados como outliers serão substituídos por um valor estatístico calculado, como a média, mediana, moda ou através de interpolação linear entre os vizinhos.
A ferramenta funciona com arquivos grandes?
Sim, a ferramenta foi otimizada para processamento em lote, permitindo lidar com conjuntos de dados extensos de forma eficiente.
Como o limiar de detecção afeta o resultado?
Um limiar menor torna a detecção mais sensível, identificando mais pontos como outliers, enquanto um limiar maior é mais conservador, detectando apenas valores extremos.