Ferramentas de qualidade de dados, deduplicacao e deteccao de anomalias

Perfilhe datasets CSV/JSON, compare versoes de planilhas e encontre duplicatas, outliers, faltas de dados, quebras relacionais e anomalias de series temporais em um unico hub.

Este hub reune as verificacoes que normalmente acontecem antes de confiar em um dataset para BI, ETL, relatorios, migracao ou machine learning. Ele combina perfilamento, deduplicacao, comparacao de planilhas, validacao de chaves estrangeiras, tratamento de limites, preenchimento de faltantes e revisao de anomalias para levar uma exportacao suspeita a um conjunto de dados mais limpo sem trocar de ferramenta o tempo todo.

Fatos do cluster

Tipo de tarefa
analyze
Families
data-quality, anomaly, csv
Ferramentas
13
Subclusters
3

Por que este hub existe

Trabalho de qualidade de dados quase nunca termina em uma unica checagem. Duplicatas, faltantes, outliers e relacoes quebradas costumam precisar de revisao conjunta antes do reuso.
Manter ferramentas de perfilamento, deteccao de anomalias e correcao no mesmo lugar facilita decidir o que deve ser filtrado, limitado, preenchido ou enviado para revisao manual.
Isso oferece um ponto de partida mais rapido para analistas, equipes operacionais e projetos de migracao quando um CSV ou JSON parece suspeito, mas a causa ainda nao esta clara.

Ferramentas em destaque

Perfilador de qualidade de datasets
Gera um perfil de qualidade para CSV ou JSON com faltantes, duplicados, drift de formato, tipos e outliers.
Deduplicador de Dados CSV
Remove registros duplicados baseados em combinações de colunas
Filtro CSV
Filtrar dados CSV por valores de coluna com múltiplas condições e operadores. Suporta 12 operadores de filtro incluindo equals, contains, greater_than, less_than e verificações de valores vazios. Exemplos de Filtros Adicionais: [{"column": "idade", "operator": "greater_than", "value": "25"}] [{"column": "status", "operator": "equals", "value": "ativo"}, {"column": "pontuacao", "operator": "greater_equal", "value": "80"}] [{"column": "nome", "operator": "contains", "value": "joao"}, {"column": "email", "operator": "is_not_empty"}]
Ferramenta de diff CSV / Excel
Compara duas fontes CSV ou XLSX e exporta um relatorio PDF com diferencas por linha, coluna e celula
Validador de Chave Estrangeira
Validar relações de chave estrangeira entre múltiplos conjuntos de dados. Perfeito para verificar integridade de dados.
Processador de Limites de Dados
Ferramenta avançada de processamento de limites que identifica e gerencia valores mínimos e máximos em dados numéricos. Perfeita para validação de dados, verificação de intervalos, análise estatística e pré-processamento de dados.
Interpolador de Dados
Ferramenta avançada de interpolação de dados que preenche valores ausentes e gera pontos de dados usando vários métodos matemáticos. Perfeito para análise de séries temporais, conclusão de dados, processamento de sinais e computação científica. Recursos: - Múltiplos métodos de interpolação (linear, polinomial, spline, cúbico) - Suporte para interpolação de séries temporais com data/hora - Opções de preenchimento para frente e para trás - Interpolação de vizinho mais próximo - Parâmetros de interpolação personalizados - Detecção e relatório de valores ausentes - Geração e densificação de pontos de dados - Suporte para múltiplas colunas simultaneamente - Visualização de interpolação interativa Casos de Uso Comuns: - Preenchimento de lacunas em dados de sensores - Conclusão de dados financeiros - Processamento de dados de experimentos científicos - Preparação para previsão de séries temporais - Processamento de imagem e sinal - Imputação de dados estatísticos
Detector de Outliers
Detecte outliers em dados numéricos usando vários métodos estatísticos incluindo IQR, Z-score e Z-score modificado
Detector de anomalias em series temporais
Envia dados de serie temporal em CSV ou JSON, detecta anomalias com Z-Score e IQR e retorna um relatorio com grafico
Gerador de Box Plot
Gerar box plots para análise de distribuição estatística com quartis, whiskers e outliers
Calculadora de z-score
Calcula z-scores a partir de valor bruto, dados ou parametros manuais
Calculadora de media aparada
Calcula uma media aparada removendo a mesma porcentagem de valores baixos e altos
Calculadora de media winsorizada
Calcula uma media winsorizada limitando extremos baixos e altos antes da media

Testar com amostras

data-quality, anomaly, csv

Hubs relacionados

FAQ

Em que este hub pode ajudar?

Ele ajuda a perfilar dados tabulares, comparar versoes de planilhas, remover linhas duplicadas, revisar outliers, validar relacionamentos, reparar faltas e revisar sinais de anomalia antes que os dados sigam adiante.

Para quem este hub e util?

Ele e util para analistas, equipes de ETL e plataforma de dados, responsaveis operacionais, projetos de migracao, revisores de QA e qualquer pessoa que precise decidir se um dataset CSV ou JSON e confiavel o suficiente.

Por onde comecar se os dados ja parecem errados?

Comece com o perfilador de qualidade para uma visao geral e depois siga para deduplicacao, diff de planilhas, revisao de anomalias ou validacao relacional conforme o problema principal pareca ser duplicidade, drift, faltantes ou joins quebrados.