Fatos principais
- Categoria
- Dados e tabelas
- Tipos de entrada
- textarea, file, text, select, number
- Tipo de saída
- html
- Cobertura de amostras
- 4
- API disponível
- Yes
Visão geral
O Detector de Desbalanceamento e Reamostragem é uma ferramenta essencial para analisar conjuntos de dados em CSV ou JSON e identificar disparidades na distribuição de classes. Ao informar a coluna de rótulo, a ferramenta calcula a proporção de desbalanceamento, compara estratégias de oversampling e undersampling e gera uma pré-visualização do dataset balanceado, ajudando a preparar dados mais confiáveis para modelos de machine learning.
Quando usar
- •Quando precisar verificar rapidamente a distribuição de classes em um novo dataset antes de treinar um modelo preditivo.
- •Para decidir se é mais seguro aplicar oversampling ou undersampling em dados de classificação altamente desbalanceados.
- •Quando quiser gerar uma amostra balanceada em formato CSV ou JSON para testes preliminares de algoritmos.
Como funciona
- •Cole os dados do seu dataset em formato CSV ou faça o upload de um arquivo CSV ou JSON.
- •Informe o nome exato da 'Coluna de rótulo' que contém as classes a serem analisadas.
- •Escolha a estratégia de reamostragem desejada (oversample ou undersample) e o formato de exportação.
- •A ferramenta processará os dados, exibirá um relatório comparativo e mostrará uma pré-visualização das linhas balanceadas.
Casos de uso
Exemplos
1. Balanceamento de dataset de fraudes financeiras
Cientista de Dados- Contexto
- Um modelo de detecção de fraudes está ignorando transações fraudulentas porque elas representam apenas 5% do dataset.
- Problema
- Identificar o nível de desbalanceamento e testar uma estratégia de oversampling para igualar as classes.
- Como usar
- Faça o upload do arquivo `transacoes.csv`, defina a coluna de rótulo como `fraude` e selecione a estratégia `oversample`.
- Configuração de exemplo
-
Coluna de rótulo: fraude Estratégia: oversample Formato: json - Resultado
- O relatório mostra a distribuição original de 95:5 e gera uma pré-visualização onde as transações fraudulentas foram duplicadas para igualar as normais.
2. Ajuste de classes em diagnósticos médicos
Pesquisador de Machine Learning- Contexto
- Um estudo possui milhares de exames normais, mas apenas algumas dezenas de casos com uma anomalia específica.
- Problema
- Reduzir a classe majoritária para evitar viés no treinamento do modelo preditivo.
- Como usar
- Cole os dados CSV na entrada de texto, digite `diagnostico` na coluna de rótulo e escolha `undersample`.
- Configuração de exemplo
-
Coluna de rótulo: diagnostico Estratégia: undersample Formato: csv - Resultado
- A ferramenta corta os exames normais aleatoriamente até atingir a mesma quantidade dos casos anômalos, exportando uma amostra CSV balanceada.
Testar com amostras
json, csv, textHubs relacionados
FAQ
Quais formatos de arquivo são suportados?
A ferramenta aceita entrada de texto em CSV e upload de arquivos nos formatos CSV e JSON.
Qual a diferença entre oversample e undersample?
Oversample duplica as linhas da classe minoritária para igualar a majoritária, enquanto undersample corta a classe majoritária para o tamanho da minoritária.
A ferramenta altera meu arquivo original?
Não. Todo o processamento é feito de forma segura no navegador ou servidor temporário, e a ferramenta apenas gera uma pré-visualização baseada nos seus dados.
Posso exportar o dataset completo balanceado?
A ferramenta gera uma pré-visualização em JSON ou CSV baseada no limite de linhas configurado (até 50 linhas) para análise rápida e validação da estratégia.
O que acontece se eu escolher a estratégia 'none'?
A ferramenta apenas exibirá o relatório de distribuição original das classes, sem aplicar nenhuma técnica de reamostragem na pré-visualização.