Fatos principais
- Categoria
- Dados e tabelas
- Tipos de entrada
- textarea, file, text, number
- Tipo de saída
- html
- Cobertura de amostras
- 4
- API disponível
- Yes
Visão geral
O Perfilador de Qualidade de Datasets é uma ferramenta essencial para analisar arquivos CSV e JSON antes de processos de BI, ETL ou Machine Learning. Ele inspeciona cada coluna automaticamente para identificar valores faltantes, linhas duplicadas, anomalias numéricas e inconsistências de formato, gerando um relatório visual rápido com uma pontuação de qualidade de 0 a 100.
Quando usar
- •Antes de importar dados brutos para um banco de dados ou ferramenta de Business Intelligence (BI).
- •Ao receber arquivos CSV ou JSON de terceiros para validar a integridade e a estrutura das informações.
- •Durante a preparação de dados para modelos de Machine Learning, garantindo a ausência de outliers e valores nulos.
Como funciona
- •Cole o conteúdo do seu CSV no campo de texto ou faça o upload de um arquivo de dados nos formatos CSV ou JSON.
- •Opcionalmente, defina colunas específicas (como 'id' ou 'email') para verificar duplicatas baseadas em chaves de negócio.
- •Ajuste o número de linhas de amostra que deseja visualizar no relatório final.
- •A ferramenta processa os dados e gera um relatório HTML detalhado com a pontuação de qualidade, tipos inferidos e anomalias detectadas.
Casos de uso
Exemplos
1. Perfilar um CSV transacional antes do BI
Analista de Dados- Contexto
- O analista recebe exportações diárias de vendas em CSV que frequentemente contêm erros de digitação e registros duplicados.
- Problema
- Identificar rapidamente valores faltantes, outliers de vendas e transações duplicadas antes de atualizar o dashboard.
- Como usar
- Cole o CSV de vendas em 'Entrada do dataset', defina 'id' em 'Colunas para duplicados' e gere o relatório.
- Configuração de exemplo
-
duplicateKeyColumns: "id" sampleRows: 8 - Resultado
- O relatório destaca transações com o mesmo ID, aponta valores de vendas anormalmente altos (outliers) e mostra a contagem exata de células vazias.
2. Validação de cadastro de usuários em JSON
Engenheiro de Dados- Contexto
- Um novo sistema está exportando dados de usuários em formato JSON, mas há suspeitas de inconsistências nos formatos de data de nascimento.
- Problema
- Verificar se há 'format drift' nas datas e se existem usuários sem e-mail cadastrado.
- Como usar
- Faça o upload do arquivo JSON em 'Arquivo de dados' e ajuste as linhas de amostra para 10.
- Configuração de exemplo
-
sampleRows: 10 - Resultado
- A ferramenta identifica a coluna de data com 'format drift' (mistura de formatos) e sinaliza a quantidade de e-mails faltantes, reduzindo o Quality Score.
Testar com amostras
json, csv, textHubs relacionados
FAQ
Quais formatos de arquivo são suportados?
A ferramenta suporta arquivos CSV e JSON. Para JSON, o arquivo deve ser um array de objetos ou um objeto contendo um array chamado 'rows'.
Como a pontuação de qualidade (Quality Score) é calculada?
A pontuação varia de 0 a 100. Ela é reduzida com base na quantidade de células vazias, linhas duplicadas, anomalias numéricas e inconsistências de formato encontradas no dataset.
Posso verificar duplicatas usando apenas algumas colunas?
Sim. No campo 'Colunas para duplicados', você pode informar chaves separadas por vírgula (ex: id,email) para focar apenas nessas colunas em vez de comparar a linha inteira.
O que significa 'Format drift' no relatório?
Indica colunas onde os valores parecem estruturalmente inconsistentes, como a mistura de diferentes formatos de data ou códigos misturados com texto livre.
Como as anomalias numéricas são detectadas?
A ferramenta utiliza uma regra baseada no intervalo interquartil (estilo IQR) para identificar e destacar valores atípicos (outliers) em colunas numéricas.