Estimador de Tokens de IA

Analiza idiomas mixtos y estima tokens para OpenAI, Codex, Claude y DeepSeek

Estima el uso de tokens para texto pegado o archivos TXT/Markdown cargados.

Qué hace:

  • Detecta composición mixta de idiomas y escrituras, incluidos chino Han, latín, kana, hangul, cirílico, árabe, emoji, símbolos y líneas similares a código
  • Cuenta OpenAI / Codex o200kbase y OpenAI cl100kbase con un tokenizer sin conexión
  • Cuenta Claude con Anthropic counttokens si CLAUDEAPIKEY o ANTHROPICAPI_KEY está disponible, y vuelve a heurística solo si la llamada oficial falla
  • Estima DeepSeek con heurísticas transparentes cuando no hay contador oficial disponible
  • Marca cada perfil como exact-offline-tokenizer, official-provider-api o heuristic para no exagerar la precisión

Resultados de ejemplo

1 Ejemplos

Estimar un prompt mixto en chino e inglés

Analiza una instrucción breve multilingüe antes de enviarla a varios modelos de IA

{
  "result": {
    "input": {
      "characters": 37
    },
    "language": {
      "primary": "Latin",
      "mixed": true
    },
    "estimates": [
      {
        "profile": "openai-codex-o200k-base"
      }
    ]
  }
}
Ver parámetros de entrada
{ "inputText": "请总结 this API design and list 3 risks.", "modelProfile": "All Profiles", "countMode": "raw-text" }

Click to upload file or drag and drop file here

Maximum file size: 20MB Supported formats: text/plain, text/markdown, .txt, .md, .csv, .json, .log

Datos clave

Categoría
AI
Tipos de entrada
textarea, file, select
Tipo de salida
json
Cobertura de muestras
4
API disponible
Yes

Resumen

El Estimador de Tokens de IA es una herramienta diseñada para analizar textos multilingües y estimar con precisión el consumo de tokens en modelos de OpenAI, Codex, Claude y DeepSeek. Permite procesar texto pegado o archivos cargados como TXT, Markdown o JSON, detectando caracteres mixtos, emojis y código para optimizar tus costos y límites de contexto en APIs de inteligencia artificial.

Cuándo usarlo

  • Antes de enviar prompts masivos o documentos extensos a las APIs de OpenAI, Claude o DeepSeek para evitar exceder los límites de contexto.
  • Al trabajar con textos que mezclan múltiples idiomas (como español, chino o japonés) y código de programación, donde la estimación estándar de palabras no es precisa.
  • Para calcular y presupuestar los costos de consumo de tokens en proyectos de desarrollo de software que integran modelos de lenguaje.

Cómo funciona

  • Introduce el texto directamente en el editor o sube un archivo compatible como TXT, Markdown, CSV, LOG o JSON.
  • Selecciona el perfil de modelo específico (como OpenAI cl100k_base, o200k_base, Claude o DeepSeek) y el modo de conteo (texto sin formato o mensaje de chat).
  • La herramienta analiza la composición del idioma y calcula los tokens utilizando tokenizadores locales exactos o heurísticas transparentes según el modelo.
  • Obtén un desglose detallado en formato JSON con el conteo de caracteres, la mezcla de idiomas detectada y la estimación de tokens por perfil.

Casos de uso

Optimización de prompts multilingües para reducir el desperdicio de tokens en consultas repetitivas.
Auditoría de archivos de registro (logs) y conjuntos de datos JSON antes de realizar un ajuste fino (fine-tuning).
Control de costos y estimación de presupuestos para aplicaciones SaaS basadas en APIs de IA.

Ejemplos

1. Estimación de prompt multilingüe para soporte

Ingeniero de Soporte Internacional
Contexto
Un ingeniero necesita procesar correos de clientes que mezclan español, inglés y caracteres chinos para clasificarlos automáticamente con GPT-4o.
Problema
Necesita saber cuántos tokens consumirá cada correo para no sobrepasar el límite de la API de OpenAI.
Cómo usarlo
Pega el texto del correo mixto en el campo de entrada, selecciona 'OpenAI / Codex o200k_base' en los perfiles de modelo y presiona estimar.
Configuración de ejemplo
{
  "inputText": "Cliente reporta error: 无法连接到服务器. Please check the connection status.",
  "modelProfile": "OpenAI / Codex o200k_base",
  "countMode": "raw-text"
}
Resultado
El sistema devuelve un JSON detallando que el texto contiene 83 caracteres, detecta mezcla de latín y chino Han, y calcula exactamente 21 tokens bajo el perfil o200k_base.

2. Análisis de archivo Markdown para documentación

Redactor Técnico
Contexto
Un redactor técnico quiere traducir una guía de usuario en formato Markdown usando Claude Sonnet.
Problema
El archivo es muy extenso y requiere estimar el costo de procesamiento antes de enviarlo a la API de Anthropic.
Cómo usarlo
Sube el archivo 'user_guide.md' en la sección de archivos, selecciona 'Claude Sonnet Estimate' y el modo de conteo 'raw-text'.
Configuración de ejemplo
{
  "textFile": "user_guide.md",
  "modelProfile": "Claude Sonnet Estimate",
  "countMode": "raw-text"
}
Resultado
La herramienta procesa el archivo Markdown y genera un reporte JSON con la estimación heurística de tokens específicos para Claude, permitiendo calcular el costo aproximado del proceso de traducción.

Probar con muestras

json, csv, markdown

Hubs relacionados

Preguntas frecuentes

¿Cómo calcula la herramienta los tokens para OpenAI?

Utiliza un tokenizador local sin conexión para los perfiles o200k_base y cl100k_base, garantizando un conteo exacto y seguro.

¿Qué formatos de archivo puedo subir para analizar?

Puedes cargar archivos en formato de texto plano (.txt), Markdown (.md), CSV (.csv), JSON (.json) y archivos de registro (.log).

¿Cómo se realiza la estimación para Claude y DeepSeek?

Para Claude se utiliza la API oficial si dispones de una clave, o una estimación heurística en su defecto. Para DeepSeek se aplican reglas heurísticas transparentes.

¿Qué significa que un perfil esté marcado como 'heuristic'?

Indica que el conteo es una estimación aproximada basada en patrones de texto y no un cálculo exacto del tokenizador oficial.

¿La herramienta admite textos con múltiples idiomas y código?

Sí, detecta composiciones mixtas que incluyen caracteres latinos, chinos, japoneses, coreanos, cirílicos, árabes, emojis y sintaxis de código.

Documentación de la API

Punto final de la solicitud

POST /es/api/tools/ai-token-estimator

Parámetros de la solicitud

Nombre del parámetro Tipo Requerido Descripción
inputText textarea No -
textFile file (Subida requerida) No -
modelProfile select No -
countMode select No -

Los parámetros de tipo archivo necesitan ser subidos primero vía POST /upload/ai-token-estimator para obtener filePath, luego pasar filePath al campo de archivo correspondiente.

Formato de respuesta

{
  "key": {...},
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Datos JSON: Datos JSON

Documentación de MCP

Agregue este herramienta a su configuración de servidor MCP:

{
  "mcpServers": {
    "elysiatools-ai-token-estimator": {
      "name": "ai-token-estimator",
      "description": "Analiza idiomas mixtos y estima tokens para OpenAI, Codex, Claude y DeepSeek",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=ai-token-estimator",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Puede encadenar múltiples herramientas, por ejemplo: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máximo 20 herramientas.

Soporte para enlaces de archivos URL o codificación Base64 para parámetros de archivo.

Si encuentra algún problema, por favor, póngase en contacto con nosotros en [email protected]