Ключевые факты
- Категория
- Format Conversion
- Типы входных данных
- file, text, number, select, checkbox
- Тип результата
- file
- Покрытие примерами
- 4
- API доступен
- Yes
Обзор
Экспортер XLSX Parquet преобразует таблицы из Excel в форматы Parquet и NDJSON, автоматически определяя типы данных. Инструмент идеально подходит для подготовки данных к интеграции в пайплайны обработки и хранилища, предлагая гибкие настройки вывода.
Когда использовать
- •Когда необходимо загрузить данные из Excel в хранилище данных, например, Amazon Redshift или Snowflake.
- •При настройке автоматических ETL-процессов для преобразования отчетов в структурированные форматы.
- •Для подготовки таблиц к анализу в системах больших данных, таких как Apache Spark или Hadoop.
Как это работает
- •Загрузите Excel-файл в формате .xlsx или .xls.
- •Укажите параметры: имя листа, строку заголовка и режим вывода (Parquet, NDJSON или оба формата).
- •Инструмент автоматически определяет типы данных и нормализует имена полей при необходимости.
- •Получите результат в виде файла Parquet, NDJSON или ZIP-архива с обоими форматами.
Сценарии использования
Примеры
1. Экспорт данных продаж в Parquet для хранилища
Аналитик данных- Контекст
- Аналитик работает с ежемесячным отчетом по продажам в Excel, который требуется загрузить в облачное хранилище для анализа.
- Проблема
- Ручное преобразование данных из Excel в Parquet занимает время и может привести к ошибкам в типах данных.
- Как использовать
- Загрузите файл `sales_report.xlsx`, укажите имя листа 'Продажи' и выберите режим вывода 'Формат Parquet'.
- Результат
- Получен файл в формате Parquet с автоматически определенными типами данных, готовый для загрузки в хранилище.
2. Конвертация опросных данных в NDJSON для стриминга
- Контекст
- Компания собирает данные опросов в Excel и хочет отправлять их в систему стриминговой обработки в реальном времени.
- Проблема
- Excel не подходит для потоковой передачи данных, требуется преобразование в легковесный формат.
- Как использовать
- Загрузите файл `survey_data.xlsx`, установите строку заголовка на 1 и выберите режим вывода 'Формат NDJSON'.
- Результат
- Данные экспортированы в NDJSON, что позволяет легко интегрировать их с платформами стриминга данных.
Проверить на примерах
json, xml, xlsxСвязанные хабы
FAQ
Какие входные форматы файлов поддерживаются?
Поддерживаются файлы Excel в форматах .xlsx и .xls.
Можно ли выбрать только один формат для экспорта?
Да, в настройках доступен выбор режима: только Parquet, только NDJSON или оба.
Как обрабатываются пустые ячейки в данных?
По умолчанию пустые ячейки преобразуются в null, но эту опцию можно отключить.
Что делает опция 'Нормализовать имена полей'?
Она очищает имена столбцов от специальных символов и пробелов для совместимости с системами данных.
Каков максимальный размер загружаемого файла?
Максимальный размер файла составляет 100 МБ.