Bigramas Improbables: Vulnerabilidades en Tokenizadores BPE a Nivel de Byte

Tabla de Contenidos

1. Introducción

La tokenización sirve como el puente crítico entre el texto legible por humanos y los tokens discretos procesables por modelos en los grandes modelos de lenguaje (LLMs). Investigaciones recientes han expuesto vulnerabilidades significativas en este componente fundamental, particularmente en los tokenizadores de codificación de pares de bytes a nivel de byte (BPE). Este artículo investiga los tokens incompletos—tokens no decodificables con bytes sueltos que resultan de la tokenización BPE a nivel de byte—y su susceptibilidad a la explotación mediante bigramas improbables.

La vulnerabilidad central surge de la fuerte dependencia de los tokens incompletos en tokens adyacentes para una decodificación adecuada. Cuando se combinan con tokens no familiares en combinaciones fuera de distribución, estos tokens incompletos se vuelven frágiles y propensos a desencadenar comportamientos alucinatorios en los LLMs. Nuestra investigación demuestra que esta vulnerabilidad persiste incluso cuando los tokens constituyentes están bien entrenados, distinguiéndola de problemas previamente identificados con tokens defectuosos.

Reducción del 90%

Reducción de alucinaciones en Llama3.1 con tokenización alternativa

1.47M Bigramas

Máximo de bigramas incompletos en el tokenizador Command-R-v01

6 Modelos

Probados en múltiples familias de LLM

2. Fundamentos de Tokenización BPE

2.1 Implementación de BPE a Nivel de Byte

El BPE a nivel de byte extiende el algoritmo BPE tradicional operando directamente en bytes codificados en UTF-8 en lugar de caracteres Unicode. El algoritmo fusiona iterativamente los pares más frecuentes de bytes o secuencias de bytes según la fórmula:

$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$

donde $V$ representa el vocabulario actual y $\text{count}(x,y)$ denota la frecuencia del par de bytes $(x,y)$ en el corpus de entrenamiento.

2.2 Definición de Tokens Incompletos

Los tokens incompletos son tokens a nivel de byte que no pueden ser decodificados independientemente en caracteres Unicode válidos. Estos tokens contienen bytes sueltos que requieren combinación con tokens adyacentes específicos para formar secuencias UTF-8 legales. La vulnerabilidad surge porque:

Los tokens incompletos carecen de significado semántico independiente
Exhiben una fuerte dependencia contextual en tokens vecinos
Sus patrones de bytes crean ambigüedades de decodificación

3. Metodología de Bigramas Improbables

3.1 Técnica de Construcción

Los bigramas improbables son combinaciones cuidadosamente construidas de dos tokens incompletos que forman pares fuera de distribución. La construcción sigue estos principios:

Seleccionar tokens incompletos del vocabulario del tokenizador
Asegurar que la combinación crea secuencias de bytes UTF-8 válidas
Maximizar la improbabilidad estadística del emparejamiento
Verificar que el bigrama no aparezca en los datos de entrenamiento

3.2 Análisis de Vulnerabilidad

El mecanismo de vulnerabilidad opera a través de tres canales principales:

Ambigüedad de Decodificación: Los tokens incompletos crean incertidumbres de análisis que se propagan a través de las capas del modelo. La representación matemática muestra cómo los vectores de embedding para tokens incompletos $e_i$ exhiben una varianza más alta:

$$\text{Var}(e_i | \text{incompleto}) > \text{Var}(e_j | \text{completo})$$

Fragilidad Contextual: La estructura de dependencia hace que estos tokens sean quebradizos cuando se separan de contextos esperados, similar a la inestabilidad observada en ejemplos adversarios de la investigación en visión por computadora.

4. Resultados Experimentales

4.1 Tasas de Alucinación

Nuestros experimentos en múltiples familias de LLM revelan diferencias dramáticas en las tasas de alucinación entre tokenizaciones estándar y alternativas de las mismas frases:

Modelo	Tokenización Estándar	Tokenización Alternativa	Reducción
Llama3.1	45.2%	4.5%	90.0%
Qwen2.5	38.7%	6.2%	84.0%
Mistral-Nemo	52.1%	8.9%	82.9%

4.2 Comparación entre Modelos

La escala de vulnerabilidad varía significativamente entre tokenizadores, como se muestra en nuestro análisis exhaustivo:

Tokenizador	Tamaño de Vocabulario	Tokens Incompletos	Bigramas Incompletos
Meta-Llama-3.1	128k	1,224	71k
Exaone-3.0	102k	1,222	36k
Qwen2.5	151k	1,320	39k
Command-R-v01	255k	2,956	1.47M

5. Marco de Análisis Técnico

Perspectiva Central

El paradigma de tokenización BPE a nivel de byte, aunque computacionalmente eficiente, introduce debilidades arquitectónicas fundamentales que crean puntos ciegos sistemáticos en los LLMs. Esto no es meramente un error de implementación—es una falla estructural en cómo los tokenizadores modernos manejan la complejidad Unicode.

Flujo Lógico

La cascada de vulnerabilidad sigue un patrón predecible: Segmentación a nivel de byte → Creación de tokens incompletos → Formación de dependencia contextual → Explotación de improbabilidad estadística → Desencadenamiento de alucinación. Esta cadena revela que la tokenización no es solo preprocesamiento—es una capa de seguridad crítica.

Fortalezas y Debilidades

Fortalezas: La metodología de investigación es rigurosa, con validación cruzada entre modelos y métricas cuantitativas. El concepto de bigrama improbable proporciona un vector de ataque concreto para probar la robustez del tokenizador.

Debilidades: El artículo subestima el ángulo de contaminación de datos de entrenamiento. Muchas combinaciones "improbables" podrían reflejar patrones de texto multilingüe raros pero legítimos en lugar de artefactos puros.

Perspectivas Accionables

Los desarrolladores de LLM deben tratar los tokenizadores como componentes críticos de seguridad, no como meras utilidades de preprocesamiento. Implementar verificaciones de cordura de tokenización en tiempo de ejecución, adoptar enfoques de tokenización híbridos y realizar pruebas adversarias dirigidas específicamente a combinaciones de tokens incompletos.

Análisis Original: El Paradigma de Seguridad en Tokenización

Esta investigación cambia fundamentalmente cómo debemos conceptualizar la tokenización en el panorama de seguridad de los LLM. Los hallazgos demuestran que los tokenizadores BPE a nivel de byte crean vulnerabilidades sistemáticas que trascienden las arquitecturas de modelos individuales, recordando las fallas fundamentales descubiertas en los sistemas criptográficos tempranos. A diferencia de los problemas bien documentados con tokens defectuosos—que afectan principalmente a tokens poco entrenados—la vulnerabilidad de tokens incompletos persiste incluso en modelos bien entrenados, sugiriendo un problema arquitectónico más profundo.

La reducción del 90% en las tasas de alucinación cuando se usan tokenizaciones alternativas para las mismas frases de entrada es particularmente condenatoria. Esta magnitud de mejora indica que las implementaciones actuales de BPE a nivel de byte están introduciendo ruido sustancial en la pipeline de procesamiento del modelo. Cuando se compara con la literatura de robustez adversaria en visión por computadora—donde vulnerabilidades arquitectónicas similares han sido extensamente estudiadas—la capa de tokenización emerge como el equivalente en PLN de la fragilidad de los límites de decisión en clasificadores de imágenes.

Lo que hace esta investigación particularmente convincente es su conexión con preocupaciones de seguridad Unicode más amplias. El Consorcio Unicode ha advertido durante mucho tiempo sobre caracteres confusibles y vulnerabilidades de normalización, pero este trabajo extiende esas preocupaciones al dominio de la arquitectura neuronal. El hallazgo de que el vocabulario más grande de Command-R-v01 se correlaciona con dramáticamente más bigramas incompletos (1.47M vs 71k en Llama3.1) sugiere que escalar el tamaño del vocabulario sin abordar este problema fundamental puede realmente aumentar la superficie de ataque.

Mirando hacia adelante, esta investigación debería catalizar un cambio de paradigma hacia "tokenización con seguridad primero" similar a la adopción por parte de la comunidad criptográfica de primitivas demostrablemente seguras. Los enfoques de tokenización alternativa que reducen dramáticamente las alucinaciones apuntan hacia métodos híbridos que combinan la eficiencia del BPE a nivel de byte con la robustez de los enfoques a nivel de carácter o pieza de palabra. A medida que los LLMs se despliegan cada vez más en aplicaciones críticas para la seguridad, abordar estas vulnerabilidades a nivel de tokenización se convierte no solo en una preocupación académica sino en un imperativo práctico.

6. Direcciones Futuras y Aplicaciones

Aplicaciones Defensivas

Estándares de Tokenización Robusta: Desarrollo de métodos de tokenización que minimicen los tokens incompletos manteniendo la eficiencia
Marcos de Pruebas Adversarias: Sistemas automatizados para detectar vulnerabilidades de tokenización durante el desarrollo del modelo
Monitoreo en Tiempo de Ejecución: Detección y mitigación de ataques de bigramas improbables en sistemas de producción

Oportunidades de Investigación

Análisis cross-lingüístico de distribuciones de tokens incompletos
Integración con generación aumentada por recuperación para mitigar la fragilidad contextual
Desarrollo de métodos de verificación formal para propiedades de seguridad del tokenizador

Impacto en la Industria

Los hallazgos tienen implicaciones inmediatas para:

Puntos de referencia de evaluación de seguridad de LLM
Diseño de tokenizadores en modelos de próxima generación
Marcos regulatorios para la seguridad de sistemas de IA

7. Referencias

Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
Geiping, J., et al. (2024). Jailbreaking through token manipulation.
Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017