Bigrammes Improbables : Vulnérabilités dans les Tokenizers BPE au Niveau des Octets

Table des matières

1. Introduction

La tokenisation sert de pont critique entre le texte lisible par l'homme et les tokens discrets traitables par le modèle dans les grands modèles de langage (LLM). Des recherches récentes ont exposé des vulnérabilités significatives dans ce composant fondamental, en particulier dans les tokenizers BPE (Byte-Pair Encoding) au niveau des octets. Cet article étudie les tokens incomplets—des tokens indécodables avec des octets résiduels résultant de la tokenisation BPE au niveau des octets—et leur sensibilité à l'exploitation via des bigrammes improbables.

La vulnérabilité fondamentale provient de la forte dépendance des tokens incomplets vis-à-vis des tokens adjacents pour un décodage correct. Lorsqu'ils sont associés à des tokens non familiers dans des combinaisons hors distribution, ces tokens incomplets deviennent fragiles et susceptibles de déclencher des comportements hallucinatoires dans les LLM. Notre recherche démontre que cette vulnérabilité persiste même lorsque les tokens constitutifs sont bien entraînés, la distinguant des problèmes de tokens défectueux précédemment identifiés.

Réduction de 90%

Réduction des hallucinations dans Llama3.1 avec une tokenisation alternative

1,47 M de Bigrammes

Bigrammes incomplets maximums dans le tokenizer Command-R-v01

6 Modèles

Testés sur plusieurs familles de LLM

2. Principes fondamentaux de la Tokenisation BPE

2.1 Implémentation du BPE au Niveau des Octets

Le BPE au niveau des octets étend l'algorithme BPE traditionnel en opérant directement sur des octets encodés en UTF-8 plutôt que sur des caractères Unicode. L'algorithme fusionne itérativement les paires d'octets ou de séquences d'octets les plus fréquentes selon la formule :

$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$

où $V$ représente le vocabulaire actuel et $\text{count}(x,y)$ désigne la fréquence de la paire d'octets $(x,y)$ dans le corpus d'entraînement.

2.2 Définition des Tokens Incomplets

Les tokens incomplets sont des tokens au niveau des octets qui ne peuvent pas être décodés indépendamment en caractères Unicode valides. Ces tokens contiennent des octets résiduels qui nécessitent une combinaison avec des tokens adjacents spécifiques pour former des séquences UTF-8 légales. La vulnérabilité survient car :

Les tokens incomplets manquent de signification sémantique indépendante
Ils présentent une forte dépendance contextuelle vis-à-vis des tokens voisins
Leurs motifs d'octets créent des ambiguïtés de décodage

3. Méthodologie des Bigrammes Improbables

3.1 Technique de Construction

Les bigrammes improbables sont des combinaisons soigneusement construites de deux tokens incomplets qui forment des paires hors distribution. La construction suit ces principes :

Sélectionner des tokens incomplets du vocabulaire du tokenizer
S'assurer que la combinaison crée des séquences d'octets UTF-8 valides
Maximiser l'improbabilité statistique de l'appariement
Vérifier que le bigramme n'apparaît pas dans les données d'entraînement

3.2 Analyse de Vulnérabilité

Le mécanisme de vulnérabilité opère via trois canaux principaux :

Ambiguïté de Décodage : Les tokens incomplets créent des incertitudes d'analyse qui se propagent à travers les couches du modèle. La représentation mathématique montre comment les vecteurs d'embedding pour les tokens incomplets $e_i$ présentent une variance plus élevée :

$$\text{Var}(e_i | \text{incomplet}) > \text{Var}(e_j | \text{complet})$$

Fragilité Contextuelle : La structure de dépendance rend ces tokens fragiles lorsqu'ils sont retirés de leurs contextes attendus, similaire à l'instabilité observée dans les exemples antagonistes de la recherche en vision par ordinateur.

4. Résultats Expérimentaux

4.1 Taux d'Hallucination

Nos expériences sur plusieurs familles de LLM révèlent des différences spectaculaires dans les taux d'hallucination entre les tokenisations standard et alternatives des mêmes phrases :

Modèle	Tokenisation Standard	Tokenisation Alternative	Réduction
Llama3.1	45,2%	4,5%	90,0%
Qwen2.5	38,7%	6,2%	84,0%
Mistral-Nemo	52,1%	8,9%	82,9%

4.2 Comparaison Inter-Modèles

L'ampleur de la vulnérabilité varie considérablement selon les tokenizers, comme le montre notre analyse complète :

Tokenizer	Taille du Vocabulaire	Tokens Incomplets	Bigrammes Incomplets
Meta-Llama-3.1	128k	1 224	71k
Exaone-3.0	102k	1 222	36k
Qwen2.5	151k	1 320	39k
Command-R-v01	255k	2 956	1,47 M

5. Cadre d'Analyse Technique

Perspective Fondamentale

Le paradigme de tokenisation BPE au niveau des octets, bien qu'efficace sur le plan computationnel, introduit des faiblesses architecturales fondamentales qui créent des angles morts systématiques dans les LLM. Il ne s'agit pas seulement d'un bogue d'implémentation—c'est une faille structurelle dans la manière dont les tokenizers modernes gèrent la complexité Unicode.

Flux Logique

La cascade de vulnérabilité suit un schéma prévisible : Segmentation au niveau des octets → Création de tokens incomplets → Formation de dépendance contextuelle → Exploitation de l'improbabilité statistique → Déclenchement d'hallucination. Cette chaîne révèle que la tokenisation n'est pas qu'un prétraitement—c'est une couche de sécurité critique.

Points Forts & Défauts

Points Forts : La méthodologie de recherche est rigoureuse, avec une validation inter-modèles et des métriques quantitatives. Le concept de bigramme improbable fournit un vecteur d'attaque concret pour tester la robustesse des tokenizers.

Défauts : L'article sous-estime l'angle de la contamination des données d'entraînement. De nombreuses combinaisons « improbables » pourraient en réalité refléter des motifs de texte multilingue rares mais légitimes plutôt que de purs artefacts.

Perspectives Actionnables

Les développeurs de LLM doivent traiter les tokenizers comme des composants critiques pour la sécurité, et non comme de simples utilitaires de prétraitement. Implémentez des vérifications de cohérence de tokenisation en temps d'exécution, adoptez des approches de tokenisation hybrides et effectuez des tests antagonistes ciblant spécifiquement les combinaisons de tokens incomplets.

Analyse Originale : Le Paradigme de Sécurité de la Tokenisation

Cette recherche modifie fondamentalement la manière dont nous devrions conceptualiser la tokenisation dans le paysage de la sécurité des LLM. Les résultats démontrent que les tokenizers BPE au niveau des octets créent des vulnérabilités systématiques qui transcendent les architectures de modèles individuelles, rappelant les failles fondamentales découvertes dans les premiers systèmes cryptographiques. Contrairement aux problèmes bien documentés des tokens défectueux—qui affectent principalement les tokens sous-entraînés—la vulnérabilité des tokens incomplets persiste même dans les modèles bien entraînés, suggérant un problème architectural plus profond.

La réduction de 90 % des taux d'hallucination lors de l'utilisation de tokenisations alternatives pour les mêmes phrases d'entrée est particulièrement accablante. Cette ampleur d'amélioration indique que les implémentations actuelles du BPE au niveau des octets introduisent un bruit substantiel dans le pipeline de traitement du modèle. Comparée à la littérature sur la robustesse antagoniste en vision par ordinateur—où des vulnérabilités architecturales similaires ont été largement étudiées—la couche de tokenisation émerge comme l'équivalent en TALN de la fragilité des frontières de décision dans les classificateurs d'images.

Ce qui rend cette recherche particulièrement convaincante est son lien avec les préoccupations plus larges en matière de sécurité Unicode. Le Consortium Unicode a longtemps alerté sur les caractères confusables et les vulnérabilités de normalisation, mais ce travail étend ces préoccupations au domaine de l'architecture neuronale. La constatation que le vocabulaire plus important de Command-R-v01 corrèle avec considérablement plus de bigrammes incomplets (1,47 M contre 71k dans Llama3.1) suggère qu'augmenter la taille du vocabulaire sans résoudre ce problème fondamental pourrait en réalité accroître la surface d'attaque.

Pour l'avenir, cette recherche devrait catalyser un changement de paradigme vers une « tokenisation axée sur la sécurité », similaire à l'adoption par la communauté cryptographique de primitives prouvées sécurisées. Les approches de tokenisation alternatives qui réduisent considérablement les hallucinations pointent vers des méthodes hybrides qui combinent l'efficacité du BPE au niveau des octets avec la robustesse des approches au niveau des caractères ou des sous-mots. Alors que les LLM sont de plus en plus déployés dans des applications critiques pour la sécurité, traiter ces vulnérabilités au niveau de la tokenisation devient non seulement une préoccupation académique mais aussi une impérative pratique.

6. Orientations Futures & Applications

Applications Défensives

Normes de Tokenisation Robuste : Développement de méthodes de tokenisation qui minimisent les tokens incomplets tout en maintenant l'efficacité
Cadres de Test Antagonistes : Systèmes automatisés pour détecter les vulnérabilités de tokenisation pendant le développement du modèle
Surveillance en Temps Réel : Détection et atténuation des attaques par bigrammes improbables dans les systèmes de production

Opportunités de Recherche

Analyse translinguistique des distributions de tokens incomplets
Intégration avec la génération augmentée par la récupération pour atténuer la fragilité contextuelle
Développement de méthodes de vérification formelle pour les propriétés de sécurité des tokenizers

Impact Industriel

Les résultats ont des implications immédiates pour :

Les benchmarks d'évaluation de la sécurité des LLM
La conception des tokenizers dans les modèles de nouvelle génération
Les cadres réglementaires pour la sécurité des systèmes d'IA

7. Références

Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
Geiping, J., et al. (2024). Jailbreaking through token manipulation.
Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017