Detector de desbalanceamento e reamostragem

Detecta desbalanceamento de classes em datasets CSV ou JSON, compara estrategias e previsualiza uma saida balanceada

Cole um dataset CSV ou envie um arquivo CSV/JSON e depois informe a coluna de rotulo. A ferramenta conta cada classe, mede a razao de desbalanceamento, sugere se oversampling ou undersampling e mais seguro e gera uma pre-visualizacao balanceada.

Como usar:

  • Entrada do dataset: cole CSV para uma leitura rapida
  • Arquivo de dados: envie CSV ou JSON
  • Coluna de rotulo: escolha a classe alvo
  • Estrategia de reamostragem: none, oversample ou undersample
  • Formato de exportacao: visualize em JSON ou CSV
  • Linhas de visualizacao: limita quantas linhas balanceadas aparecem

Notas:

  • Oversample duplica linhas minoritarias ate o tamanho da classe majoritaria
  • Undersample corta a classe majoritaria ate o tamanho da minoritaria
  • O relatorio compara as duas estrategias
  • Isso ajuda a decidir se vale a pena adotar SMOTE depois

Exemplos de resultados

1 Exemplos

Inspecionar um dataset de fraude 95:5

Mede o desbalanceamento, compara estrategias e exporta uma pre-visualizacao balanceada.

Original distribution
Ver parâmetros de entrada
{ "datasetInput": "id,label,amount\n1,normal,20\n2,normal,21\n3,normal,19\n4,normal,22\n5,fraud,300", "labelColumn": "label", "strategy": "oversample", "exportFormat": "json", "previewRows": 10 }

Click to upload file or drag and drop file here

Maximum file size: 20MB Supported formats: text/csv, application/json, text/plain, .csv, .json

Fatos principais

Categoria
Dados e tabelas
Tipos de entrada
textarea, file, text, select, number
Tipo de saída
html
Cobertura de amostras
4
API disponível
Yes

Visão geral

O Detector de Desbalanceamento e Reamostragem é uma ferramenta essencial para analisar conjuntos de dados em CSV ou JSON e identificar disparidades na distribuição de classes. Ao informar a coluna de rótulo, a ferramenta calcula a proporção de desbalanceamento, compara estratégias de oversampling e undersampling e gera uma pré-visualização do dataset balanceado, ajudando a preparar dados mais confiáveis para modelos de machine learning.

Quando usar

  • Quando precisar verificar rapidamente a distribuição de classes em um novo dataset antes de treinar um modelo preditivo.
  • Para decidir se é mais seguro aplicar oversampling ou undersampling em dados de classificação altamente desbalanceados.
  • Quando quiser gerar uma amostra balanceada em formato CSV ou JSON para testes preliminares de algoritmos.

Como funciona

  • Cole os dados do seu dataset em formato CSV ou faça o upload de um arquivo CSV ou JSON.
  • Informe o nome exato da 'Coluna de rótulo' que contém as classes a serem analisadas.
  • Escolha a estratégia de reamostragem desejada (oversample ou undersample) e o formato de exportação.
  • A ferramenta processará os dados, exibirá um relatório comparativo e mostrará uma pré-visualização das linhas balanceadas.

Casos de uso

Análise de dados de detecção de fraudes, onde as transações normais superam massivamente as fraudulentas.
Preparação de datasets médicos para diagnóstico de doenças raras, equilibrando casos positivos e negativos.
Classificação de churn de clientes, ajustando a proporção entre clientes que cancelaram e os que permaneceram ativos.

Exemplos

1. Balanceamento de dataset de fraudes financeiras

Cientista de Dados
Contexto
Um modelo de detecção de fraudes está ignorando transações fraudulentas porque elas representam apenas 5% do dataset.
Problema
Identificar o nível de desbalanceamento e testar uma estratégia de oversampling para igualar as classes.
Como usar
Faça o upload do arquivo `transacoes.csv`, defina a coluna de rótulo como `fraude` e selecione a estratégia `oversample`.
Configuração de exemplo
Coluna de rótulo: fraude
Estratégia: oversample
Formato: json
Resultado
O relatório mostra a distribuição original de 95:5 e gera uma pré-visualização onde as transações fraudulentas foram duplicadas para igualar as normais.

2. Ajuste de classes em diagnósticos médicos

Pesquisador de Machine Learning
Contexto
Um estudo possui milhares de exames normais, mas apenas algumas dezenas de casos com uma anomalia específica.
Problema
Reduzir a classe majoritária para evitar viés no treinamento do modelo preditivo.
Como usar
Cole os dados CSV na entrada de texto, digite `diagnostico` na coluna de rótulo e escolha `undersample`.
Configuração de exemplo
Coluna de rótulo: diagnostico
Estratégia: undersample
Formato: csv
Resultado
A ferramenta corta os exames normais aleatoriamente até atingir a mesma quantidade dos casos anômalos, exportando uma amostra CSV balanceada.

Testar com amostras

json, csv, text

Hubs relacionados

FAQ

Quais formatos de arquivo são suportados?

A ferramenta aceita entrada de texto em CSV e upload de arquivos nos formatos CSV e JSON.

Qual a diferença entre oversample e undersample?

Oversample duplica as linhas da classe minoritária para igualar a majoritária, enquanto undersample corta a classe majoritária para o tamanho da minoritária.

A ferramenta altera meu arquivo original?

Não. Todo o processamento é feito de forma segura no navegador ou servidor temporário, e a ferramenta apenas gera uma pré-visualização baseada nos seus dados.

Posso exportar o dataset completo balanceado?

A ferramenta gera uma pré-visualização em JSON ou CSV baseada no limite de linhas configurado (até 50 linhas) para análise rápida e validação da estratégia.

O que acontece se eu escolher a estratégia 'none'?

A ferramenta apenas exibirá o relatório de distribuição original das classes, sem aplicar nenhuma técnica de reamostragem na pré-visualização.

Documentação da API

Ponto final da solicitação

POST /pt/api/tools/dataset-imbalance-detector-resampler

Parâmetros da solicitação

Nome do parâmetro Tipo Requerido Descrição
datasetInput textarea Não -
datasetFile file (Upload necessário) Não -
labelColumn text Sim -
strategy select Não -
exportFormat select Não -
previewRows number Não -

Os parâmetros de tipo arquivo precisam ser carregados primeiro via POST /upload/dataset-imbalance-detector-resampler para obter filePath, depois filePath deve ser passado ao campo de arquivo correspondente.

Formato de resposta

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentação de MCP

Adicione este ferramenta à sua configuração de servidor MCP:

{
  "mcpServers": {
    "elysiatools-dataset-imbalance-detector-resampler": {
      "name": "dataset-imbalance-detector-resampler",
      "description": "Detecta desbalanceamento de classes em datasets CSV ou JSON, compara estrategias e previsualiza uma saida balanceada",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=dataset-imbalance-detector-resampler",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Você pode encadear várias ferramentas, ex: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máx 20 ferramentas.

Suporta links de arquivos URL ou codificação Base64 para parâmetros de arquivo.

Se você encontrar algum problema, por favor, entre em contato conosco em [email protected]