Perfilador de qualidade de datasets

Gera um perfil de qualidade para CSV ou JSON com faltantes, duplicados, drift de formato, tipos e outliers.

Tags relacionadas

JSON 83 CSV 62 Análise de Dados 24 Valores Ausentes 6

Cole um CSV em "Entrada do dataset" ou envie um arquivo CSV/JSON. O profiler inspeciona cada coluna e entrega uma visao rapida de qualidade antes de BI, ETL ou ML.

O que e verificado:

Valores faltantes por coluna
Linhas duplicadas ou combinacoes duplicadas com base nas colunas informadas em "Colunas para duplicados"
Inferencia de tipo da coluna: number, boolean, date, string ou empty
Outliers numericos usando uma regra no estilo IQR
Drift de formato em colunas de texto/data, como datas misturadas ou codigos junto com texto livre

Como preencher os campos:

Entrada do dataset: cole CSV diretamente para um perfil rapido
Arquivo de dados: envie CSV ou JSON se o dataset for maior ou ja estiver salvo
Colunas para duplicados: opcional; informe chaves separadas por virgula como id,email para detectar duplicados por chave de negocio
Linhas de amostra: controla quantas linhas exemplo aparecem no relatorio

Como ler o relatorio:

Quality score e um resumo rapido de 0 a 100; mais faltantes, duplicados e sinais anomalos reduzem a pontuacao
Missing mostra quantas celulas vazias/null foram encontradas na coluna
Distinct mostra quantos valores unicos aparecem
Anomalies destaca outliers numericos
Format drift marca colunas com valores estruturalmente inconsistentes

Escopo atual:

CSV e JSON sao suportados
JSON deve ser um array de objetos ou um objeto com array rows
A pontuacao serve como sinal operacional rapido, nao como nota formal de governanca de dados

Exemplos de resultados

1 Exemplos

Perfilar um CSV transacional antes do BI

Encontra faltantes, outliers, duplicados e drift de tipo antes do dashboard.

Dataset quality report

Ver parâmetros de entrada

{ "datasetInput": "id,name,email,amount,created_at\n1,Alice,[email protected],120,2026-03-01\n2,Bob,,85,2026-03-02\n2,Bob,[email protected],85,03/02/2026\n3,Charlie,[email protected],9999,2026-03-03", "datasetFile": "", "duplicateKeyColumns": "id", "sampleRows": 8 }

Entrada do dataset

Arquivo de dados

Click to upload file or drag and drop file here

Maximum file size: 15MB Supported formats: text/csv, application/json, text/plain

Colunas para duplicados

Linhas de amostra

Fatos principais

Categoria: Dados e tabelas
Tipos de entrada: textarea, file, text, number
Tipo de saída: html
Cobertura de amostras: 4
API disponível: Yes

Visão geral

O Perfilador de Qualidade de Datasets é uma ferramenta essencial para analisar arquivos CSV e JSON antes de processos de BI, ETL ou Machine Learning. Ele inspeciona cada coluna automaticamente para identificar valores faltantes, linhas duplicadas, anomalias numéricas e inconsistências de formato, gerando um relatório visual rápido com uma pontuação de qualidade de 0 a 100.

Quando usar

•Antes de importar dados brutos para um banco de dados ou ferramenta de Business Intelligence (BI).
•Ao receber arquivos CSV ou JSON de terceiros para validar a integridade e a estrutura das informações.
•Durante a preparação de dados para modelos de Machine Learning, garantindo a ausência de outliers e valores nulos.

Como funciona

•Cole o conteúdo do seu CSV no campo de texto ou faça o upload de um arquivo de dados nos formatos CSV ou JSON.
•Opcionalmente, defina colunas específicas (como 'id' ou 'email') para verificar duplicatas baseadas em chaves de negócio.
•Ajuste o número de linhas de amostra que deseja visualizar no relatório final.
•A ferramenta processa os dados e gera um relatório HTML detalhado com a pontuação de qualidade, tipos inferidos e anomalias detectadas.

Casos de uso

Auditoria rápida de bases de clientes para encontrar e-mails duplicados ou dados de contato em branco.

Validação de relatórios financeiros mensais em CSV para detectar valores atípicos (outliers) antes da consolidação.

Inspeção de logs de eventos em JSON para garantir que os formatos de data e os tipos de dados estejam consistentes.

Exemplos

1. Perfilar um CSV transacional antes do BI

Analista de Dados

Contexto: O analista recebe exportações diárias de vendas em CSV que frequentemente contêm erros de digitação e registros duplicados.
Problema: Identificar rapidamente valores faltantes, outliers de vendas e transações duplicadas antes de atualizar o dashboard.
Como usar: Cole o CSV de vendas em 'Entrada do dataset', defina 'id' em 'Colunas para duplicados' e gere o relatório.
Configuração de exemplo: duplicateKeyColumns: "id" sampleRows: 8
Resultado: O relatório destaca transações com o mesmo ID, aponta valores de vendas anormalmente altos (outliers) e mostra a contagem exata de células vazias.

2. Validação de cadastro de usuários em JSON

Engenheiro de Dados

Contexto: Um novo sistema está exportando dados de usuários em formato JSON, mas há suspeitas de inconsistências nos formatos de data de nascimento.
Problema: Verificar se há 'format drift' nas datas e se existem usuários sem e-mail cadastrado.
Como usar: Faça o upload do arquivo JSON em 'Arquivo de dados' e ajuste as linhas de amostra para 10.
Configuração de exemplo: sampleRows: 10
Resultado: A ferramenta identifica a coluna de data com 'format drift' (mistura de formatos) e sinaliza a quantidade de e-mails faltantes, reduzindo o Quality Score.

Testar com amostras

json, csv, text

Exemplos CSV

Arquivos CSV de exemplo com vários tipos de dados, tamanhos e níveis de complexidade

preferred input family csv,json

csv, json

Exemplos Python

Exemplos de código Python e demonstrações Hello World

preferred input family csv,json

csv, json

Exemplos JSON de Chat

Exemplos JSON para transcricoes de chat multirrole

preferred input family json,text

json, text

Exemplos JWT

Exemplos completos de JWT da estrutura básica de tokens às implementações de segurança avançadas

preferred input family json,text

json, text

Hubs relacionados

Ferramentas de formatação, diff e normalização de JSON

Compare ferramentas de formatação JSON, diff, revisão de logs, comparação de configuração e normalização de dados em um único hub para fluxos de revisão de JSON.

Ferramentas de redação, destaque e formatação de apresentação de texto

Compare ferramentas para mascarar texto sensível, detectar PII, normalizar telefones, destacar frases, centralizar texto e formatar diffs em um único hub.

Ferramentas de intercambio JSON e traducao de formatos

Compare ferramentas de conversao JSON para CSV, YAML, TOML, GraphQL, XML, Markdown, Excel, BSON, EDN e outros formatos estruturados em um unico hub.

Ferramentas de conversão de caixa, codificação e normalização de texto

Compare conversão de caixa de texto, conversão de largura de caracteres, conversão de codificação, tratamento de quoted-printable e normalização de texto em um único hub.

FAQ

Quais formatos de arquivo são suportados?

A ferramenta suporta arquivos CSV e JSON. Para JSON, o arquivo deve ser um array de objetos ou um objeto contendo um array chamado 'rows'.

Como a pontuação de qualidade (Quality Score) é calculada?

A pontuação varia de 0 a 100. Ela é reduzida com base na quantidade de células vazias, linhas duplicadas, anomalias numéricas e inconsistências de formato encontradas no dataset.

Posso verificar duplicatas usando apenas algumas colunas?

Sim. No campo 'Colunas para duplicados', você pode informar chaves separadas por vírgula (ex: id,email) para focar apenas nessas colunas em vez de comparar a linha inteira.

O que significa 'Format drift' no relatório?

Indica colunas onde os valores parecem estruturalmente inconsistentes, como a mistura de diferentes formatos de data ou códigos misturados com texto livre.

Como as anomalias numéricas são detectadas?

A ferramenta utiliza uma regra baseada no intervalo interquartil (estilo IQR) para identificar e destacar valores atípicos (outliers) em colunas numéricas.

Documentação da API

Ponto final da solicitação

POST /pt/api/tools/dataset-quality-profiler

Parâmetros da solicitação

Nome do parâmetro	Tipo	Requerido	Descrição
datasetInput	textarea	Não	-
datasetFile	file (Upload necessário)	Não	-
duplicateKeyColumns	text	Não	-
sampleRows	number	Não	-

Os parâmetros de tipo arquivo precisam ser carregados primeiro via POST /upload/dataset-quality-profiler para obter filePath, depois filePath deve ser passado ao campo de arquivo correspondente.

Formato de resposta

{
  "result": "Processed HTML content",
  "error": "Error message (optional)",
  "message": "Notification message (optional)",
  "metadata": {
    "key": "value"
  }
}

HTML: HTML

Documentação de MCP

Adicione este ferramenta à sua configuração de servidor MCP:

{
  "mcpServers": {
    "elysiatools-dataset-quality-profiler": {
      "name": "dataset-quality-profiler",
      "description": "Gera um perfil de qualidade para CSV ou JSON com faltantes, duplicados, drift de formato, tipos e outliers.",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=dataset-quality-profiler",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Você pode encadear várias ferramentas, ex: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máx 20 ferramentas.

Suporta links de arquivos URL ou codificação Base64 para parâmetros de arquivo.

Se você encontrar algum problema, por favor, entre em contato conosco em [email protected]