Estimateur de Tokens IA

Analyse les textes multilingues et estime les tokens pour OpenAI, Codex, Claude et DeepSeek

Estime l'utilisation de tokens pour du texte collé ou des fichiers TXT/Markdown téléversés.

Ce que fait l'outil :

  • Détecte la composition multilingue, notamment han chinois, latin, kana, hangul, cyrillique, arabe, emoji, symboles et lignes proches du code
  • Compte OpenAI / Codex o200kbase et OpenAI cl100kbase avec un tokenizer hors ligne
  • Compte Claude avec Anthropic counttokens si CLAUDEAPIKEY ou ANTHROPICAPI_KEY est disponible, puis revient à l’heuristique seulement si l’appel officiel échoue
  • Estime DeepSeek avec des heuristiques transparentes lorsque les compteurs officiels ne sont pas disponibles
  • Marque chaque profil comme exact-offline-tokenizer, official-provider-api ou heuristic afin de ne pas surestimer la précision

Exemples de résultats

1 Exemples

Estimer un prompt mixte chinois et anglais

Analyse une courte instruction multilingue avant de l’envoyer à plusieurs modèles IA

{
  "result": {
    "input": {
      "characters": 37
    },
    "language": {
      "primary": "Latin",
      "mixed": true
    },
    "estimates": [
      {
        "profile": "openai-codex-o200k-base"
      }
    ]
  }
}
Voir paramètres d'entrée
{ "inputText": "请总结 this API design and list 3 risks.", "modelProfile": "All Profiles", "countMode": "raw-text" }

Click to upload file or drag and drop file here

Maximum file size: 20MB Supported formats: text/plain, text/markdown, .txt, .md, .csv, .json, .log

Points clés

Catégorie
AI
Types d’entrée
textarea, file, select
Type de sortie
json
Couverture des échantillons
4
API disponible
Yes

Vue d’ensemble

L'Estimateur de Tokens IA vous permet d'analyser vos textes multilingues et d'estimer précisément la consommation de tokens pour les modèles OpenAI (cl100k_base, o200k_base), Codex, Claude et DeepSeek, que ce soit par saisie directe ou par import de fichiers.

Quand l’utiliser

  • Avant d'envoyer des requêtes volumineuses à des API d'IA pour éviter les dépassements de limites de contexte.
  • Lors de la préparation de prompts multilingues contenant un mélange de français, de langues asiatiques, de code ou d'emojis.
  • Pour estimer et optimiser les coûts de facturation liés à la consommation de tokens sur différents modèles d'IA.

Comment ça marche

  • Saisissez votre texte dans le champ dédié ou téléversez un fichier pris en charge comme un document TXT, Markdown, CSV ou JSON.
  • Sélectionnez le profil de modèle cible (OpenAI, Claude, DeepSeek ou tous les profils) et choisissez le mode de comptage (texte brut ou message de chat).
  • L'outil analyse la composition linguistique et calcule les tokens via un tokenizer hors ligne exact ou des méthodes heuristiques transparentes.

Cas d’usage

Analyse de prompts complexes contenant du code source et des explications en français pour optimiser la taille du contexte.
Estimation du coût d'indexation de documents Markdown ou de fichiers de logs volumineux avant leur intégration dans une base de connaissances RAG.
Comparaison rapide de la consommation de tokens entre les encodeurs o200k_base (GPT-4o) et cl100k_base (GPT-4) pour un même texte multilingue.

Exemples

1. Estimation d'un prompt de traduction multilingue

Développeur IA
Contexte
Un développeur doit envoyer un prompt contenant des instructions en français, des exemples en japonais et du code JSON à GPT-4o.
Problème
Il a besoin de connaître le nombre exact de tokens consommés pour anticiper les coûts d'appel API à grande échelle.
Comment l’utiliser
Coller le prompt mixte dans la zone de texte, sélectionner 'Tous les profils' et choisir le mode 'Message de chat'.
Configuration d’exemple
{
  "inputText": "Traduire ce JSON en japonais : {\"status\": \"success\"}",
  "modelProfile": "All Profiles",
  "countMode": "chat-message"
}
Résultat
L'outil affiche le nombre exact de tokens pour o200k_base et cl100k_base, en identifiant la part de caractères latins, de kanjis et de symboles de code.

2. Analyse de fichiers de logs pour un système RAG

Ingénieur de données
Contexte
Un ingénieur prépare l'intégration de fichiers de logs applicatifs volumineux dans un modèle Claude.
Problème
Les fichiers de logs contiennent de nombreux caractères spéciaux et du code, ce qui peut faire exploser le nombre de tokens.
Comment l’utiliser
Téléverser le fichier app.log dans l'option 'Fichier texte' et sélectionner le profil 'Estimation Claude Sonnet'.
Configuration d’exemple
{
  "modelProfile": "Claude Sonnet Estimate",
  "countMode": "raw-text"
}
Résultat
L'outil fournit une estimation fiable du volume de tokens pour Claude, permettant de découper correctement le fichier avant l'envoi.

Tester avec des échantillons

json, csv, markdown

Hubs associés

FAQ

Comment l'outil calcule-t-il les tokens pour OpenAI ?

Il utilise un tokenizer hors ligne officiel pour les encodages cl100k_base et o200k_base, garantissant un résultat exact.

Quels formats de fichiers puis-je téléverser ?

Vous pouvez importer des fichiers au format .txt, .md, .csv, .json et .log d'une taille maximale de 20 Mo.

Quelle est la différence entre le mode 'Texte brut' et 'Message de chat' ?

Le mode texte brut compte uniquement les caractères saisis, tandis que le mode message de chat simule la structure et les métadonnées d'une requête d'API.

L'estimation pour DeepSeek et Claude est-elle exacte ?

Claude utilise l'API officielle si disponible (sinon une heuristique), et DeepSeek s'appuie sur une heuristique transparente clairement signalée dans les résultats.

Mes données textuelles sont-elles envoyées à des serveurs tiers ?

Non, les calculs principaux et la tokenisation OpenAI s'effectuent localement dans votre navigateur pour garantir la confidentialité de vos données.

Documentation de l'API

Point de terminaison de la requête

POST /fr/api/tools/ai-token-estimator

Paramètres de la requête

Nom du paramètre Type Requis Description
inputText textarea Non -
textFile file (Téléchargement requis) Non -
modelProfile select Non -
countMode select Non -

Les paramètres de type fichier doivent être téléchargés d'abord via POST /upload/ai-token-estimator pour obtenir filePath, puis filePath doit être passé au champ de fichier correspondant.

Format de réponse

{
  "key": {...},
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Données JSON: Données JSON

Documentation de MCP

Ajoutez cet outil à votre configuration de serveur MCP:

{
  "mcpServers": {
    "elysiatools-ai-token-estimator": {
      "name": "ai-token-estimator",
      "description": "Analyse les textes multilingues et estime les tokens pour OpenAI, Codex, Claude et DeepSeek",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=ai-token-estimator",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Vous pouvez chaîner plusieurs outils, par ex.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, max 20 outils.

Prend en charge les liens de fichiers URL ou la codification Base64 pour les paramètres de fichier.

Si vous rencontrez des problèmes, veuillez nous contacter à [email protected]