Категории

Дедупликатор Данных CSV

Удаление дублирующихся записей на основе комбинаций столбцов

0 85 100

Ключевые факты

Категория
Data Processing
Типы входных данных
textarea, select, checkbox, range
Тип результата
text
Покрытие примерами
4
API доступен
Yes

Обзор

Дедупликатор Данных CSV — это эффективный инструмент для быстрой очистки ваших наборов данных от повторяющихся записей. Он позволяет гибко настраивать правила фильтрации, выбирая конкретные столбцы для анализа и стратегии сохранения наиболее актуальных данных.

Когда использовать

  • При подготовке списков рассылки, содержащих дублирующиеся адреса электронной почты.
  • Перед импортом данных в CRM или базу данных для обеспечения уникальности записей.
  • При объединении нескольких файлов CSV в один мастер-список для устранения повторов.

Как это работает

  • Вставьте ваши CSV-данные в поле ввода и укажите столбцы, по которым необходимо искать дубликаты.
  • Выберите стратегию обработки: сохранение первой, последней или наиболее полной записи.
  • Настройте дополнительные параметры, такие как учет регистра или удаление лишних пробелов, для повышения точности.
  • Нажмите кнопку обработки, чтобы мгновенно получить очищенный список уникальных данных.

Сценарии использования

Очистка клиентских баз данных от повторных регистраций.
Удаление дубликатов в списках заказов или инвентарных ведомостях.
Подготовка уникальных списков контактов для маркетинговых кампаний.

Примеры

1. Очистка списка email-адресов

Маркетолог
Контекст
У вас есть список контактов, собранный из разных источников, где один и тот же клиент может встречаться несколько раз.
Проблема
Необходимо отправить рассылку только один раз каждому клиенту, исключив повторные адреса.
Как использовать
Вставьте данные в поле ввода, укажите столбец 'email' в настройках дедупликации и выберите стратегию 'Сохранить первую запись'.
Результат
Инструмент удаляет все повторные строки, оставляя только уникальные email-адреса для вашей рассылки.

2. Слияние баз заказов

Аналитик данных
Контекст
Вы объединили два файла CSV с заказами, в результате чего появились дубликаты с одинаковыми номерами заказов.
Проблема
Нужно оставить только актуальные записи, сохранив при этом наиболее полные данные о заказе.
Как использовать
Укажите столбец 'order_id' для поиска дубликатов и выберите стратегию 'Сохранить наиболее полную запись'.
Результат
Система автоматически выбирает строки с наиболее полным заполнением полей, обеспечивая чистоту итогового отчета.

Проверить на примерах

csv, video, barcode

Связанные хабы

FAQ

Можно ли искать дубликаты по нескольким столбцам одновременно?

Да, вы можете указать комбинацию столбцов через запятую, и инструмент будет считать запись дубликатом только при совпадении значений во всех выбранных полях.

Что делает функция 'Наиболее полная запись'?

Эта стратегия анализирует строки с одинаковыми ключевыми данными и оставляет ту запись, в которой заполнено наибольшее количество ячеек.

Влияет ли регистр символов на поиск дубликатов?

По умолчанию поиск не учитывает регистр, но вы можете включить опцию 'Сопоставление с учетом регистра', чтобы 'Ivan' и 'ivan' считались разными значениями.

Сохраняется ли исходный порядок строк после очистки?

Да, инструмент поддерживает опцию сохранения исходного порядка, что позволяет оставить первую встреченную запись на её первоначальном месте.

Как работает нечеткое сопоставление?

Оно позволяет находить похожие, но не идентичные записи (например, с опечатками) на основе заданного порога схожести от 0 до 100.

Документация API

Конечная точка запроса

POST /ru/api/tools/data-deduplicator

Параметры запроса

Имя параметра Тип Обязательно Описание
inputData textarea Да -
deduplicationColumns textarea Нет -
strategy select Нет -
fuzzyMatching checkbox Нет -
fuzzyThreshold range Нет -
caseSensitive checkbox Нет -
trimValues checkbox Нет -
preserveOriginalOrder checkbox Нет -

Формат ответа

{
  "result": "Processed text content",
  "error": "Error message (optional)",
  "message": "Notification message (optional)",
  "metadata": {
    "key": "value"
  }
}
Текст: Текст

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-data-deduplicator": {
      "name": "data-deduplicator",
      "description": "Удаление дублирующихся записей на основе комбинаций столбцов",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=data-deduplicator",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]