Категории

Экспортер XLSX Parquet

Экспортирует таблицы в Parquet/NDJSON для пайплайнов

Автоматически определяет типы и экспортирует Parquet, NDJSON или оба формата.

Примеры результатов

1 Примеры

Экспорт в Parquet и NDJSON

Создает оба формата для пайплайнов

xlsx-parquet-exporter-example1.zip Показать файл
Показать параметры ввода
{ "excelFile": "/public/samples/xlsx/workbook-sales.xlsx", "outputMode": "both" }

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet, application/vnd.ms-excel

Ключевые факты

Категория
Format Conversion
Типы входных данных
file, text, number, select, checkbox
Тип результата
file
Покрытие примерами
4
API доступен
Yes

Обзор

Экспортер XLSX Parquet преобразует таблицы из Excel в форматы Parquet и NDJSON, автоматически определяя типы данных. Инструмент идеально подходит для подготовки данных к интеграции в пайплайны обработки и хранилища, предлагая гибкие настройки вывода.

Когда использовать

  • Когда необходимо загрузить данные из Excel в хранилище данных, например, Amazon Redshift или Snowflake.
  • При настройке автоматических ETL-процессов для преобразования отчетов в структурированные форматы.
  • Для подготовки таблиц к анализу в системах больших данных, таких как Apache Spark или Hadoop.

Как это работает

  • Загрузите Excel-файл в формате .xlsx или .xls.
  • Укажите параметры: имя листа, строку заголовка и режим вывода (Parquet, NDJSON или оба формата).
  • Инструмент автоматически определяет типы данных и нормализует имена полей при необходимости.
  • Получите результат в виде файла Parquet, NDJSON или ZIP-архива с обоими форматами.

Сценарии использования

Подготовка данных продаж для загрузки в облачное хранилище и последующего анализа.
Конвертация опросных данных в NDJSON для интеграции со стриминговыми платформами, такими как Apache Kafka.
Автоматизация экспорта финансовых отчетов из Excel в Parquet для использования в BI-инструментах.

Примеры

1. Экспорт данных продаж в Parquet для хранилища

Аналитик данных
Контекст
Аналитик работает с ежемесячным отчетом по продажам в Excel, который требуется загрузить в облачное хранилище для анализа.
Проблема
Ручное преобразование данных из Excel в Parquet занимает время и может привести к ошибкам в типах данных.
Как использовать
Загрузите файл `sales_report.xlsx`, укажите имя листа 'Продажи' и выберите режим вывода 'Формат Parquet'.
Результат
Получен файл в формате Parquet с автоматически определенными типами данных, готовый для загрузки в хранилище.

2. Конвертация опросных данных в NDJSON для стриминга

Контекст
Компания собирает данные опросов в Excel и хочет отправлять их в систему стриминговой обработки в реальном времени.
Проблема
Excel не подходит для потоковой передачи данных, требуется преобразование в легковесный формат.
Как использовать
Загрузите файл `survey_data.xlsx`, установите строку заголовка на 1 и выберите режим вывода 'Формат NDJSON'.
Результат
Данные экспортированы в NDJSON, что позволяет легко интегрировать их с платформами стриминга данных.

Проверить на примерах

json, xml, xlsx

Связанные хабы

FAQ

Какие входные форматы файлов поддерживаются?

Поддерживаются файлы Excel в форматах .xlsx и .xls.

Можно ли выбрать только один формат для экспорта?

Да, в настройках доступен выбор режима: только Parquet, только NDJSON или оба.

Как обрабатываются пустые ячейки в данных?

По умолчанию пустые ячейки преобразуются в null, но эту опцию можно отключить.

Что делает опция 'Нормализовать имена полей'?

Она очищает имена столбцов от специальных символов и пробелов для совместимости с системами данных.

Каков максимальный размер загружаемого файла?

Максимальный размер файла составляет 100 МБ.

Документация API

Конечная точка запроса

POST /ru/api/tools/xlsx-parquet-exporter

Параметры запроса

Имя параметра Тип Обязательно Описание
excelFile file (Требуется загрузка) Да -
sheetName text Нет -
headerRow number Нет -
outputMode select Нет -
useSanitizedFieldNames checkbox Нет -
nullForEmpty checkbox Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/xlsx-parquet-exporter для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Файл: Файл

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-xlsx-parquet-exporter": {
      "name": "xlsx-parquet-exporter",
      "description": "Экспортирует таблицы в Parquet/NDJSON для пайплайнов",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=xlsx-parquet-exporter",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]