Categorias

Deduplicador de Dados CSV

Remove registros duplicados baseados em combinações de colunas

0 85 100

Fatos principais

Categoria
Data Processing
Tipos de entrada
textarea, select, checkbox, range
Tipo de saída
text
Cobertura de amostras
4
API disponível
Yes

Visão geral

O Deduplicador de Dados CSV é uma ferramenta eficiente projetada para limpar seus conjuntos de dados, identificando e removendo registros duplicados com base em combinações específicas de colunas para garantir a integridade e a unicidade das suas informações.

Quando usar

  • Ao consolidar listas de contatos ou clientes provenientes de múltiplas fontes.
  • Ao preparar arquivos CSV para importação em sistemas de CRM ou bancos de dados.
  • Ao realizar a limpeza de grandes volumes de dados para eliminar redundâncias.

Como funciona

  • Cole seus dados CSV na área de entrada e especifique as colunas que definem a duplicidade.
  • Escolha uma estratégia de retenção, como manter o primeiro, o último ou o registro mais completo.
  • Ajuste opções adicionais, como correspondência difusa ou sensibilidade a maiúsculas, para refinar o resultado.
  • Clique em processar para gerar um arquivo limpo, mantendo a ordem original dos dados conforme configurado.

Casos de uso

Limpeza de listas de e-mail marketing para evitar envios repetidos.
Unificação de cadastros de produtos em inventários de e-commerce.
Processamento de logs de sistema para remover entradas redundantes de eventos.

Exemplos

1. Limpeza de Lista de Leads

Analista de Marketing
Contexto
Uma lista de leads foi gerada a partir de três campanhas diferentes, resultando em vários contatos repetidos.
Problema
Remover contatos duplicados baseados no e-mail para evitar spam e otimizar a campanha.
Como usar
Cole o CSV, defina a coluna 'email' como critério de deduplicação e selecione 'Manter Primeiro Registro'.
Resultado
Uma lista limpa contendo apenas um registro único por endereço de e-mail, preservando a ordem de chegada.

2. Consolidação de Inventário

Gerente de Estoque
Contexto
Dois arquivos de inventário foram mesclados, criando duplicatas com variações de digitação no nome do produto.
Problema
Identificar e remover produtos duplicados que possuem nomes ligeiramente diferentes devido a erros de digitação.
Como usar
Ative a 'Correspondência Difusa' com um limiar de 90 e selecione a coluna 'nome_produto'.
Resultado
Registros com nomes similares foram unificados, resultando em um inventário preciso e sem duplicidades.

Testar com amostras

csv, video, barcode

Hubs relacionados

FAQ

Como o sistema identifica o que é um duplicado?

O sistema compara os valores nas colunas selecionadas. Se os valores forem idênticos (ou similares, se a correspondência difusa estiver ativa), o registro é considerado duplicado.

Posso manter o registro mais completo?

Sim, ao selecionar a estratégia 'Manter Registro Mais Completo', a ferramenta prioriza a linha que contém o maior número de campos preenchidos.

A ferramenta diferencia maiúsculas de minúsculas?

Sim, você pode ativar a opção 'Correspondência Sensível a Maiúsculas' para tratar 'Exemplo' e 'exemplo' como valores distintos.

O que é a correspondência difusa?

É um recurso que identifica registros que são quase idênticos, corrigindo pequenas variações de digitação ou erros ortográficos com base em um limiar de similaridade.

A ordem original dos meus dados será alterada?

Por padrão, a ferramenta preserva a ordem original dos registros, mantendo apenas a primeira ocorrência encontrada de cada duplicata.

Documentação da API

Ponto final da solicitação

POST /pt/api/tools/data-deduplicator

Parâmetros da solicitação

Nome do parâmetro Tipo Requerido Descrição
inputData textarea Sim -
deduplicationColumns textarea Não -
strategy select Não -
fuzzyMatching checkbox Não -
fuzzyThreshold range Não -
caseSensitive checkbox Não -
trimValues checkbox Não -
preserveOriginalOrder checkbox Não -

Formato de resposta

{
  "result": "Processed text content",
  "error": "Error message (optional)",
  "message": "Notification message (optional)",
  "metadata": {
    "key": "value"
  }
}
Texto: Texto

Documentação de MCP

Adicione este ferramenta à sua configuração de servidor MCP:

{
  "mcpServers": {
    "elysiatools-data-deduplicator": {
      "name": "data-deduplicator",
      "description": "Remove registros duplicados baseados em combinações de colunas",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=data-deduplicator",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Você pode encadear várias ferramentas, ex: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máx 20 ferramentas.

Se você encontrar algum problema, por favor, entre em contato conosco em [email protected]