Подсчёт слов PDF

Подсчёт слов, символов, предложений и CJK-символов в PDF документах

Подробный отчёт: латинские слова, CJK-символы, символы, предложения, строки, абзацы, постранично и частые слова.

Примеры результатов

1 Примеры

Подсчёт слов в многостраничном PDF

Слова, символы и статистика по страницам.

{
  "totalWords": 72,
  "latinWords": 72,
  "cjkCharacters": 0,
  "charactersWithSpaces": 420,
  "pages": 6
}
Показать параметры ввода
{ "sourceFile": "/public/samples/pdf/sample-multipage.pdf", "includePageBreakdown": true, "topFrequentWords": 10 }

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/pdf

Количество частых слов в списке (0 — отключить)

Ключевые факты

Категория
Документы и PDF
Типы входных данных
file, checkbox, number
Тип результата
json
Покрытие примерами
4
API доступен
Yes

Обзор

Этот инструмент позволяет быстро и точно подсчитать количество слов, символов, предложений, строк и абзацев в документах PDF. Вы получите подробный статистический отчет с возможностью постраничной разбивки, отдельным учетом CJK-иероглифов и списком наиболее часто встречающихся слов.

Когда использовать

  • Для оценки объема текста в PDF-документе перед переводом, редактированием или публикацией.
  • При необходимости проверить количество CJK-иероглифов или латинских слов в научных и учебных работах.
  • Для анализа частоты использования ключевых слов и общей структуры документа постранично.

Как это работает

  • Загрузите PDF-файл, объем которого необходимо проанализировать.
  • Настройте параметры: включите или отключите постраничную статистику и укажите количество наиболее частых слов для вывода.
  • Запустите анализ и получите структурированный JSON-отчет с подробными метриками текста.

Сценарии использования

Расчет стоимости перевода PDF-документов на основе точного количества слов и символов.
Контроль объема академических статей и эссе на соответствие требованиям издательств.
Анализ текстового содержимого PDF-брошюр и отчетов по списку часто встречающихся слов.

Примеры

1. Анализ объема научной статьи

Аспирант
Контекст
Аспиранту необходимо отправить статью в зарубежный журнал, где установлено строгое ограничение на количество слов и символов.
Проблема
Узнать точное количество латинских слов и символов в готовом PDF-файле статьи.
Как использовать
Загрузить PDF-файл статьи, включить постраничную статистику и установить лимит частых слов на 15.
Пример конфигурации
{
  "includePageBreakdown": true,
  "topFrequentWords": 15
}
Результат
Получен JSON-отчет с точным числом слов, символов с пробелами и списком из 15 самых частых слов для проверки на переспам.

2. Оценка стоимости перевода буклета

Менеджер локализации
Контекст
Менеджер получил рекламный буклет в формате PDF на китайском языке и должен рассчитать стоимость перевода.
Проблема
Быстро определить количество CJK-символов в документе.
Как использовать
Загрузить PDF-файл буклета и запустить подсчет с отключенной постраничной статистикой.
Пример конфигурации
{
  "includePageBreakdown": false,
  "topFrequentWords": 0
}
Результат
Получен отчет, показывающий точное количество CJK-символов, что позволило мгновенно рассчитать бюджет на перевод.

Проверить на примерах

pdf, file

Связанные хабы

FAQ

Учитывает ли инструмент иероглифы (CJK)?

Да, инструмент отдельно подсчитывает латинские слова и CJK-символы (китайские, японские и корейские).

Можно ли увидеть статистику для каждой страницы отдельно?

Да, для этого активируйте опцию «Постраничная статистика» перед запуском анализа.

Как работает подсчет частоты слов?

Инструмент анализирует текст и выводит список наиболее часто встречающихся слов. Вы можете настроить размер этого списка от 0 до 100 слов.

Какие форматы файлов поддерживаются?

Инструмент работает исключительно с файлами формата PDF размером до 100 МБ.

В каком формате я получу результаты анализа?

Результаты предоставляются в виде структурированного JSON-файла, содержащего все метрики текста.

Документация API

Конечная точка запроса

POST /ru/api/tools/pdf-word-count

Параметры запроса

Имя параметра Тип Обязательно Описание
sourceFile file (Требуется загрузка) Да -
includePageBreakdown checkbox Нет -
topFrequentWords number Нет Количество частых слов в списке (0 — отключить)

Параметры типа файл должны быть загружены сначала через POST /upload/pdf-word-count для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "key": {...},
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Данные JSON: Данные JSON

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-pdf-word-count": {
      "name": "pdf-word-count",
      "description": "Подсчёт слов, символов, предложений и CJK-символов в PDF документах",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-word-count",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]