Fatos principais
- Categoria
- Data Processing
- Tipos de entrada
- textarea, select, number, checkbox
- Tipo de saída
- text
- Cobertura de amostras
- 4
- API disponível
- Yes
Visão geral
O Processador de Limites de Dados é uma ferramenta avançada projetada para identificar, validar e gerenciar valores mínimos e máximos em conjuntos de dados numéricos, garantindo a integridade e a qualidade das suas informações através de métodos estatísticos e de corte precisos.
Quando usar
- •Para limpar conjuntos de dados removendo ou ajustando valores discrepantes (outliers) que fogem de um intervalo aceitável.
- •Ao preparar dados para modelos de machine learning que exigem que as variáveis estejam dentro de limites específicos.
- •Para validar se leituras de sensores ou métricas financeiras permanecem dentro das faixas operacionais esperadas.
Como funciona
- •Carregue seus dados no formato CSV e selecione as colunas numéricas que deseja processar.
- •Defina os métodos de limite, como valores absolutos, percentis ou desvios padrão, para identificar os pontos de corte.
- •Escolha uma estratégia de manejo, como cortar, remover ou substituir os valores que excedem os limites definidos.
- •Execute o processamento para obter os dados limpos, com a opção de incluir estatísticas detalhadas e marcações de violação.
Casos de uso
Exemplos
1. Limpeza de Dados de Sensores
Engenheiro de Dados- Contexto
- Um sensor de temperatura envia leituras ocasionais com ruído extremo, registrando valores fisicamente impossíveis que distorcem a média diária.
- Problema
- Remover ou corrigir leituras de temperatura que estão fora do intervalo operacional seguro de 10°C a 40°C.
- Como usar
- Selecione a coluna 'temperatura', defina o método como 'absolute', insira 10 como mínimo e 40 como máximo, e escolha a estratégia 'clip'.
- Configuração de exemplo
-
minMethod: absolute, minValue: 10, maxMethod: absolute, maxValue: 40, handlingStrategy: clip - Resultado
- Todas as leituras abaixo de 10°C foram ajustadas para 10°C e as acima de 40°C foram ajustadas para 40°C, mantendo a continuidade da série temporal.
2. Remoção de Outliers em Salários
Analista de RH- Contexto
- Uma planilha de salários contém erros de digitação com valores muito acima da média, o que prejudica o cálculo da folha de pagamento média.
- Problema
- Identificar e remover registros que estão estatisticamente muito distantes da média (acima de 3 desvios padrão).
- Como usar
- Selecione a coluna 'salário', defina o método como 'stddev' com valor 3 e escolha a estratégia 'remove'.
- Configuração de exemplo
-
minMethod: stddev, lowerStdDev: 3, maxMethod: stddev, upperStdDev: 3, handlingStrategy: remove - Resultado
- As linhas contendo salários discrepantes foram automaticamente excluídas, permitindo uma análise estatística precisa da média salarial.
Testar com amostras
csv, video, barcodeHubs relacionados
FAQ
Quais métodos posso usar para definir os limites?
Você pode usar valores absolutos fixos, percentis baseados na distribuição dos dados, desvios padrão ou simplesmente o valor mínimo/máximo real encontrado no conjunto.
O que acontece com os valores que estão fora dos limites?
Dependendo da estratégia escolhida, você pode cortar os valores para o limite, remover a linha inteira, substituir por médias/medianas ou aplicar uma transformação.
Posso aplicar limites diferentes para o mínimo e o máximo?
Sim, ao ativar o 'Modo Assimétrico', você pode configurar estratégias e valores distintos para os limites inferior e superior de forma independente.
A ferramenta altera meus dados originais?
Você pode optar por 'Preservar Colunas Originais' para manter os dados brutos e gerar novas colunas com os valores processados ao lado.
É possível identificar quais linhas foram alteradas?
Sim, ao habilitar a opção 'Marcar Valores Limite', a ferramenta adiciona colunas extras que sinalizam exatamente quais registros violaram as regras de intervalo.