Оценщик AI-токенов

Анализирует смешанные языки и оценивает токены для OpenAI, Codex, Claude и DeepSeek

Оценивает расход токенов для вставленного текста или загруженных файлов TXT/Markdown.

Что делает:

  • Определяет смешанный состав языков и письменностей, включая китайские иероглифы, латиницу, кану, хангыль, кириллицу, арабское письмо, эмодзи, символы и строки, похожие на код
  • Считает OpenAI / Codex o200kbase и OpenAI cl100kbase локальным tokenizer
  • Считает Claude через официальный Anthropic counttokens при наличии CLAUDEAPIKEY или ANTHROPICAPI_KEY и возвращается к эвристике только при ошибке вызова
  • Оценивает DeepSeek прозрачными эвристиками, когда официальный счетчик недоступен
  • Помечает каждый профиль как exact-offline-tokenizer, official-provider-api или heuristic, чтобы не выдавать оценку за точное значение

Примеры результатов

1 Примеры

Оценить смешанный китайско-английский промпт

Анализирует короткую многоязычную инструкцию перед отправкой в несколько AI-моделей

{
  "result": {
    "input": {
      "characters": 37
    },
    "language": {
      "primary": "Latin",
      "mixed": true
    },
    "estimates": [
      {
        "profile": "openai-codex-o200k-base"
      }
    ]
  }
}
Показать параметры ввода
{ "inputText": "请总结 this API design and list 3 risks.", "modelProfile": "All Profiles", "countMode": "raw-text" }

Click to upload file or drag and drop file here

Maximum file size: 20MB Supported formats: text/plain, text/markdown, .txt, .md, .csv, .json, .log

Ключевые факты

Категория
AI
Типы входных данных
textarea, file, select
Тип результата
json
Покрытие примерами
4
API доступен
Yes

Обзор

Оценщик AI-токенов — это специализированный инструмент для анализа структуры текста и точного расчета расхода токенов в моделях OpenAI, Codex, Claude и DeepSeek. Он автоматически определяет смешанные языки, включая кириллицу, латиницу, иероглифы, эмодзи и фрагменты кода, используя локальные токенизаторы для точного офлайн-подсчета или официальные API и прозрачные эвристики для прогнозирования затрат на запросы.

Когда использовать

  • Перед отправкой больших объемов текста или файлов в API языковых моделей для точного прогнозирования финансовых затрат.
  • При работе со смешанными многоязычными промптами, содержащими кириллицу, код и азиатские иероглифы, которые кодируются с разной плотностью.
  • Для оптимизации системных инструкций и контекстного окна путем выявления избыточных символов и токеноемких конструкций.

Как это работает

  • Вы вставляете анализируемый текст в поле ввода или загружаете текстовый файл в формате TXT, MD, CSV, JSON или LOG.
  • Инструмент сканирует лингвистический состав данных, определяя соотношение различных письменностей, спецсимволов и строк кода.
  • Для профилей OpenAI и Codex запускается точный локальный токенизатор (o200k_base или cl100k_base), а для Claude и DeepSeek применяются официальные API-запросы или выверенные эвристические алгоритмы.
  • Результаты выводятся в виде структурированного отчета с четкой маркировкой точности расчета: exact-offline-tokenizer, official-provider-api или heuristic.

Сценарии использования

Оценка стоимости обработки лог-файлов и JSON-ответов перед их пакетной отправкой в GPT-4o или Claude 3.5 Sonnet.
Сравнение эффективности токенизации одного и того же промпта на разных семействах моделей (например, o200k_base против cl100k_base).
Контроль лимитов контекстного окна при проектировании сложных RAG-систем и агентов, работающих с многоязычными базами знаний.

Примеры

1. Оценка многоязычного промпта для локализации

Инженер по локализации
Контекст
Специалист готовит инструкцию для перевода интерфейса, содержащую английский текст, русские пояснения и китайские иероглифы.
Проблема
Необходимо узнать точный расход токенов для разных моделей, так как иероглифы и кириллица расходуют лимиты быстрее латиницы.
Как использовать
Вставьте текст промпта в поле ввода, выберите профиль 'Все профили' и режим 'Обычный текст'.
Пример конфигурации
{
  "inputText": "Переведи интерфейс: \"Cancel\" -> \"Отмена\" (zh: 取消)",
  "modelProfile": "All Profiles",
  "countMode": "raw-text"
}
Результат
Инструмент мгновенно показывает точное число токенов для OpenAI o200k_base и cl100k_base, а также эвристическую оценку для Claude и DeepSeek с указанием типа расчета.

2. Анализ тяжелого JSON-файла конфигурации

Backend-разработчик
Контекст
Разработчик планирует передавать конфигурационные JSON-файлы в LLM для автоматической генерации кода.
Проблема
Файлы содержат много спецсимволов, скобок и кавычек, что может непредсказуемо раздуть токен-сплит.
Как использовать
Загрузите файл config.json через поле 'Текстовый файл', выберите профиль 'OpenAI cl100k_base' и запустите анализ.
Пример конфигурации
{
  "modelProfile": "OpenAI cl100k_base",
  "countMode": "raw-text"
}
Результат
Получен точный офлайн-расчет токенов (exact-offline-tokenizer), позволяющий оптимизировать структуру JSON перед отправкой в API.

Проверить на примерах

json, csv, markdown

Связанные хабы

FAQ

Чем отличается точный подсчет от эвристического?

Точный подсчет (exact-offline-tokenizer) использует реальные алгоритмы токенизации на вашем устройстве, а эвристический (heuristic) — математическую модель оценки для провайдеров без открытых локальных библиотек.

Поддерживает ли инструмент подсчет токенов для сообщений чата?

Да, вы можете переключить режим подсчета (countMode) с обычного текста (raw-text) на формат сообщения чата (chat-message) для более точной симуляции API-запроса.

Какие форматы файлов можно загружать для анализа?

Вы можете загружать текстовые файлы размером до 20 МБ с расширениями .txt, .md, .csv, .json и .log.

Как рассчитываются токены для моделей Claude?

При наличии API-ключа Anthropic расчет выполняется через официальный метод count_tokens. Без ключа инструмент автоматически переключается на надежную эвристическую оценку.

Безопасно ли отправлять конфиденциальный код или текст?

Да, базовый подсчет для OpenAI выполняется локально в вашем браузере без отправки текста на внешние серверы.

Документация API

Конечная точка запроса

POST /ru/api/tools/ai-token-estimator

Параметры запроса

Имя параметра Тип Обязательно Описание
inputText textarea Нет -
textFile file (Требуется загрузка) Нет -
modelProfile select Нет -
countMode select Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/ai-token-estimator для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "key": {...},
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Данные JSON: Данные JSON

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-ai-token-estimator": {
      "name": "ai-token-estimator",
      "description": "Анализирует смешанные языки и оценивает токены для OpenAI, Codex, Claude и DeepSeek",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=ai-token-estimator",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]