Ключевые факты
- Категория
- Преобразование и кодирование
- Типы входных данных
- text, textarea, number, select, checkbox
- Тип результата
- file
- Покрытие примерами
- 4
- API доступен
- Yes
Обзор
Пакетный процессор XLSX S3 — это инструмент для автоматизированной обработки таблиц непосредственно в облачном хранилище, позволяющий выполнять очистку, фильтрацию и конвертацию данных без необходимости скачивания файлов на локальный компьютер.
Когда использовать
- •Когда нужно отфильтровать данные в десятках XLSX-файлов по заданному критерию.
- •При необходимости массовой очистки таблиц от пустых строк и лишних пробелов перед анализом.
- •Для автоматизации ETL-процессов, где требуется преобразование форматов и обратная загрузка в S3-бакет.
Как это работает
- •Подключитесь к вашему S3-хранилищу, указав учетные данные, регион и имя бакета.
- •Введите список ключей объектов (путей к файлам) и настройте параметры фильтрации или очистки данных.
- •Выберите желаемый формат вывода (XLSX, CSV или JSON) и запустите обработку.
- •Получите архив с результатами или настройте автоматическую загрузку обработанных файлов обратно в облако.
Сценарии использования
Примеры
1. Фильтрация оплаченных счетов
Аналитик данных- Контекст
- В S3-бакете хранятся сотни файлов с ежемесячными счетами, из которых нужно выделить только оплаченные заказы.
- Проблема
- Ручной поиск и копирование данных из каждого файла занимает часы.
- Как использовать
- Укажите пути к файлам в `Object Keys`, установите `Filter Column` на 'status', `Filter Operator` на 'equals' и `Filter Value` на 'paid'.
- Пример конфигурации
-
{"filterColumn": "status", "filterOperator": "equals", "filterValue": "paid", "outputFormat": "xlsx"} - Результат
- Инструмент создает ZIP-архив, содержащий только строки с оплаченными счетами из всех выбранных файлов.
2. Подготовка данных для импорта в БД
Инженер данных- Контекст
- Необходимо привести данные из различных XLSX-файлов к единому формату JSON для загрузки в NoSQL базу.
- Проблема
- Файлы содержат лишние пробелы и пустые строки, которые мешают корректному импорту.
- Как использовать
- Настройте параметры `Trim Whitespace` и `Remove Empty Rows`, выберите `JSON` в качестве формата вывода.
- Пример конфигурации
-
{"outputFormat": "json", "trimWhitespace": true, "removeEmptyRows": true} - Результат
- Чистые и структурированные JSON-файлы, готовые к автоматической загрузке в базу данных.
Проверить на примерах
csv, xlsx, xlsСвязанные хабы
FAQ
Какие форматы файлов поддерживает инструмент?
Инструмент предназначен для чтения файлов формата XLSX и позволяет экспортировать результаты в XLSX, CSV или JSON.
Можно ли загрузить обработанные файлы обратно в S3?
Да, активируйте опцию «Загрузить обработанные файлы обратно», чтобы сохранить результат в указанный бакет с заданным префиксом.
Как работает фильтрация данных?
Вы можете выбрать столбец, оператор (например, «равно», «больше чем», «содержит») и указать значение для отбора нужных строк.
Нужно ли скачивать файлы для обработки?
Нет, обработка происходит на стороне сервера, что экономит ваш трафик и время при работе с большими объемами данных.
Что произойдет с пустыми строками?
По умолчанию инструмент автоматически удаляет пустые строки, но эту опцию можно отключить в настройках.