Perfilador de qualidade de datasets

Gera um perfil de qualidade para CSV ou JSON com faltantes, duplicados, drift de formato, tipos e outliers.

Cole um CSV em "Entrada do dataset" ou envie um arquivo CSV/JSON. O profiler inspeciona cada coluna e entrega uma visao rapida de qualidade antes de BI, ETL ou ML.

O que e verificado:

  • Valores faltantes por coluna
  • Linhas duplicadas ou combinacoes duplicadas com base nas colunas informadas em "Colunas para duplicados"
  • Inferencia de tipo da coluna: number, boolean, date, string ou empty
  • Outliers numericos usando uma regra no estilo IQR
  • Drift de formato em colunas de texto/data, como datas misturadas ou codigos junto com texto livre

Como preencher os campos:

  • Entrada do dataset: cole CSV diretamente para um perfil rapido
  • Arquivo de dados: envie CSV ou JSON se o dataset for maior ou ja estiver salvo
  • Colunas para duplicados: opcional; informe chaves separadas por virgula como id,email para detectar duplicados por chave de negocio
  • Linhas de amostra: controla quantas linhas exemplo aparecem no relatorio

Como ler o relatorio:

  • Quality score e um resumo rapido de 0 a 100; mais faltantes, duplicados e sinais anomalos reduzem a pontuacao
  • Missing mostra quantas celulas vazias/null foram encontradas na coluna
  • Distinct mostra quantos valores unicos aparecem
  • Anomalies destaca outliers numericos
  • Format drift marca colunas com valores estruturalmente inconsistentes

Escopo atual:

  • CSV e JSON sao suportados
  • JSON deve ser um array de objetos ou um objeto com array rows
  • A pontuacao serve como sinal operacional rapido, nao como nota formal de governanca de dados

Exemplos de resultados

1 Exemplos

Perfilar um CSV transacional antes do BI

Encontra faltantes, outliers, duplicados e drift de tipo antes do dashboard.

Dataset quality report
Ver parâmetros de entrada
{ "datasetInput": "id,name,email,amount,created_at\n1,Alice,[email protected],120,2026-03-01\n2,Bob,,85,2026-03-02\n2,Bob,[email protected],85,03/02/2026\n3,Charlie,[email protected],9999,2026-03-03", "datasetFile": "", "duplicateKeyColumns": "id", "sampleRows": 8 }

Click to upload file or drag and drop file here

Maximum file size: 15MB Supported formats: text/csv, application/json, text/plain

Fatos principais

Categoria
Dados e tabelas
Tipos de entrada
textarea, file, text, number
Tipo de saída
html
Cobertura de amostras
4
API disponível
Yes

Visão geral

O Perfilador de Qualidade de Datasets é uma ferramenta essencial para analisar arquivos CSV e JSON antes de processos de BI, ETL ou Machine Learning. Ele inspeciona cada coluna automaticamente para identificar valores faltantes, linhas duplicadas, anomalias numéricas e inconsistências de formato, gerando um relatório visual rápido com uma pontuação de qualidade de 0 a 100.

Quando usar

  • Antes de importar dados brutos para um banco de dados ou ferramenta de Business Intelligence (BI).
  • Ao receber arquivos CSV ou JSON de terceiros para validar a integridade e a estrutura das informações.
  • Durante a preparação de dados para modelos de Machine Learning, garantindo a ausência de outliers e valores nulos.

Como funciona

  • Cole o conteúdo do seu CSV no campo de texto ou faça o upload de um arquivo de dados nos formatos CSV ou JSON.
  • Opcionalmente, defina colunas específicas (como 'id' ou 'email') para verificar duplicatas baseadas em chaves de negócio.
  • Ajuste o número de linhas de amostra que deseja visualizar no relatório final.
  • A ferramenta processa os dados e gera um relatório HTML detalhado com a pontuação de qualidade, tipos inferidos e anomalias detectadas.

Casos de uso

Auditoria rápida de bases de clientes para encontrar e-mails duplicados ou dados de contato em branco.
Validação de relatórios financeiros mensais em CSV para detectar valores atípicos (outliers) antes da consolidação.
Inspeção de logs de eventos em JSON para garantir que os formatos de data e os tipos de dados estejam consistentes.

Exemplos

1. Perfilar um CSV transacional antes do BI

Analista de Dados
Contexto
O analista recebe exportações diárias de vendas em CSV que frequentemente contêm erros de digitação e registros duplicados.
Problema
Identificar rapidamente valores faltantes, outliers de vendas e transações duplicadas antes de atualizar o dashboard.
Como usar
Cole o CSV de vendas em 'Entrada do dataset', defina 'id' em 'Colunas para duplicados' e gere o relatório.
Configuração de exemplo
duplicateKeyColumns: "id"
sampleRows: 8
Resultado
O relatório destaca transações com o mesmo ID, aponta valores de vendas anormalmente altos (outliers) e mostra a contagem exata de células vazias.

2. Validação de cadastro de usuários em JSON

Engenheiro de Dados
Contexto
Um novo sistema está exportando dados de usuários em formato JSON, mas há suspeitas de inconsistências nos formatos de data de nascimento.
Problema
Verificar se há 'format drift' nas datas e se existem usuários sem e-mail cadastrado.
Como usar
Faça o upload do arquivo JSON em 'Arquivo de dados' e ajuste as linhas de amostra para 10.
Configuração de exemplo
sampleRows: 10
Resultado
A ferramenta identifica a coluna de data com 'format drift' (mistura de formatos) e sinaliza a quantidade de e-mails faltantes, reduzindo o Quality Score.

Testar com amostras

json, csv, text

Hubs relacionados

FAQ

Quais formatos de arquivo são suportados?

A ferramenta suporta arquivos CSV e JSON. Para JSON, o arquivo deve ser um array de objetos ou um objeto contendo um array chamado 'rows'.

Como a pontuação de qualidade (Quality Score) é calculada?

A pontuação varia de 0 a 100. Ela é reduzida com base na quantidade de células vazias, linhas duplicadas, anomalias numéricas e inconsistências de formato encontradas no dataset.

Posso verificar duplicatas usando apenas algumas colunas?

Sim. No campo 'Colunas para duplicados', você pode informar chaves separadas por vírgula (ex: id,email) para focar apenas nessas colunas em vez de comparar a linha inteira.

O que significa 'Format drift' no relatório?

Indica colunas onde os valores parecem estruturalmente inconsistentes, como a mistura de diferentes formatos de data ou códigos misturados com texto livre.

Como as anomalias numéricas são detectadas?

A ferramenta utiliza uma regra baseada no intervalo interquartil (estilo IQR) para identificar e destacar valores atípicos (outliers) em colunas numéricas.

Documentação da API

Ponto final da solicitação

POST /pt/api/tools/dataset-quality-profiler

Parâmetros da solicitação

Nome do parâmetro Tipo Requerido Descrição
datasetInput textarea Não -
datasetFile file (Upload necessário) Não -
duplicateKeyColumns text Não -
sampleRows number Não -

Os parâmetros de tipo arquivo precisam ser carregados primeiro via POST /upload/dataset-quality-profiler para obter filePath, depois filePath deve ser passado ao campo de arquivo correspondente.

Formato de resposta

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentação de MCP

Adicione este ferramenta à sua configuração de servidor MCP:

{
  "mcpServers": {
    "elysiatools-dataset-quality-profiler": {
      "name": "dataset-quality-profiler",
      "description": "Gera um perfil de qualidade para CSV ou JSON com faltantes, duplicados, drift de formato, tipos e outliers.",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=dataset-quality-profiler",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Você pode encadear várias ferramentas, ex: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máx 20 ferramentas.

Suporta links de arquivos URL ou codificação Base64 para parâmetros de arquivo.

Se você encontrar algum problema, por favor, entre em contato conosco em [email protected]