Tabla de Contenidos
1. Introducción
La tokenización sirve como el puente crítico entre el texto legible por humanos y los tokens discretos procesables por modelos en los grandes modelos de lenguaje (LLMs). Investigaciones recientes han expuesto vulnerabilidades significativas en este componente fundamental, particularmente en los tokenizadores de codificación de pares de bytes a nivel de byte (BPE). Este artículo investiga los tokens incompletos—tokens no decodificables con bytes sueltos que resultan de la tokenización BPE a nivel de byte—y su susceptibilidad a la explotación mediante bigramas improbables.
La vulnerabilidad central surge de la fuerte dependencia de los tokens incompletos en tokens adyacentes para una decodificación adecuada. Cuando se combinan con tokens no familiares en combinaciones fuera de distribución, estos tokens incompletos se vuelven frágiles y propensos a desencadenar comportamientos alucinatorios en los LLMs. Nuestra investigación demuestra que esta vulnerabilidad persiste incluso cuando los tokens constituyentes están bien entrenados, distinguiéndola de problemas previamente identificados con tokens defectuosos.
Reducción del 90%
Reducción de alucinaciones en Llama3.1 con tokenización alternativa
1.47M Bigramas
Máximo de bigramas incompletos en el tokenizador Command-R-v01
6 Modelos
Probados en múltiples familias de LLM
2. Fundamentos de Tokenización BPE
2.1 Implementación de BPE a Nivel de Byte
El BPE a nivel de byte extiende el algoritmo BPE tradicional operando directamente en bytes codificados en UTF-8 en lugar de caracteres Unicode. El algoritmo fusiona iterativamente los pares más frecuentes de bytes o secuencias de bytes según la fórmula:
$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$
donde $V$ representa el vocabulario actual y $\text{count}(x,y)$ denota la frecuencia del par de bytes $(x,y)$ en el corpus de entrenamiento.
2.2 Definición de Tokens Incompletos
Los tokens incompletos son tokens a nivel de byte que no pueden ser decodificados independientemente en caracteres Unicode válidos. Estos tokens contienen bytes sueltos que requieren combinación con tokens adyacentes específicos para formar secuencias UTF-8 legales. La vulnerabilidad surge porque:
- Los tokens incompletos carecen de significado semántico independiente
- Exhiben una fuerte dependencia contextual en tokens vecinos
- Sus patrones de bytes crean ambigüedades de decodificación
3. Metodología de Bigramas Improbables
3.1 Técnica de Construcción
Los bigramas improbables son combinaciones cuidadosamente construidas de dos tokens incompletos que forman pares fuera de distribución. La construcción sigue estos principios:
- Seleccionar tokens incompletos del vocabulario del tokenizador
- Asegurar que la combinación crea secuencias de bytes UTF-8 válidas
- Maximizar la improbabilidad estadística del emparejamiento
- Verificar que el bigrama no aparezca en los datos de entrenamiento
3.2 Análisis de Vulnerabilidad
El mecanismo de vulnerabilidad opera a través de tres canales principales:
Ambigüedad de Decodificación: Los tokens incompletos crean incertidumbres de análisis que se propagan a través de las capas del modelo. La representación matemática muestra cómo los vectores de embedding para tokens incompletos $e_i$ exhiben una varianza más alta:
$$\text{Var}(e_i | \text{incompleto}) > \text{Var}(e_j | \text{completo})$$
Fragilidad Contextual: La estructura de dependencia hace que estos tokens sean quebradizos cuando se separan de contextos esperados, similar a la inestabilidad observada en ejemplos adversarios de la investigación en visión por computadora.
4. Resultados Experimentales
4.1 Tasas de Alucinación
Nuestros experimentos en múltiples familias de LLM revelan diferencias dramáticas en las tasas de alucinación entre tokenizaciones estándar y alternativas de las mismas frases:
| Modelo | Tokenización Estándar | Tokenización Alternativa | Reducción |
|---|---|---|---|
| Llama3.1 | 45.2% | 4.5% | 90.0% |
| Qwen2.5 | 38.7% | 6.2% | 84.0% |
| Mistral-Nemo | 52.1% | 8.9% | 82.9% |
4.2 Comparación entre Modelos
La escala de vulnerabilidad varía significativamente entre tokenizadores, como se muestra en nuestro análisis exhaustivo:
| Tokenizador | Tamaño de Vocabulario | Tokens Incompletos | Bigramas Incompletos |
|---|---|---|---|
| Meta-Llama-3.1 | 128k | 1,224 | 71k |
| Exaone-3.0 | 102k | 1,222 | 36k |
| Qwen2.5 | 151k | 1,320 | 39k |
| Command-R-v01 | 255k | 2,956 | 1.47M |
5. Marco de Análisis Técnico
Perspectiva Central
El paradigma de tokenización BPE a nivel de byte, aunque computacionalmente eficiente, introduce debilidades arquitectónicas fundamentales que crean puntos ciegos sistemáticos en los LLMs. Esto no es meramente un error de implementación—es una falla estructural en cómo los tokenizadores modernos manejan la complejidad Unicode.
Flujo Lógico
La cascada de vulnerabilidad sigue un patrón predecible: Segmentación a nivel de byte → Creación de tokens incompletos → Formación de dependencia contextual → Explotación de improbabilidad estadística → Desencadenamiento de alucinación. Esta cadena revela que la tokenización no es solo preprocesamiento—es una capa de seguridad crítica.
Fortalezas y Debilidades
Fortalezas: La metodología de investigación es rigurosa, con validación cruzada entre modelos y métricas cuantitativas. El concepto de bigrama improbable proporciona un vector de ataque concreto para probar la robustez del tokenizador.
Debilidades: El artículo subestima el ángulo de contaminación de datos de entrenamiento. Muchas combinaciones "improbables" podrían reflejar patrones de texto multilingüe raros pero legítimos en lugar de artefactos puros.
Perspectivas Accionables
Los desarrolladores de LLM deben tratar los tokenizadores como componentes críticos de seguridad, no como meras utilidades de preprocesamiento. Implementar verificaciones de cordura de tokenización en tiempo de ejecución, adoptar enfoques de tokenización híbridos y realizar pruebas adversarias dirigidas específicamente a combinaciones de tokens incompletos.
Análisis Original: El Paradigma de Seguridad en Tokenización
Esta investigación cambia fundamentalmente cómo debemos conceptualizar la tokenización en el panorama de seguridad de los LLM. Los hallazgos demuestran que los tokenizadores BPE a nivel de byte crean vulnerabilidades sistemáticas que trascienden las arquitecturas de modelos individuales, recordando las fallas fundamentales descubiertas en los sistemas criptográficos tempranos. A diferencia de los problemas bien documentados con tokens defectuosos—que afectan principalmente a tokens poco entrenados—la vulnerabilidad de tokens incompletos persiste incluso en modelos bien entrenados, sugiriendo un problema arquitectónico más profundo.
La reducción del 90% en las tasas de alucinación cuando se usan tokenizaciones alternativas para las mismas frases de entrada es particularmente condenatoria. Esta magnitud de mejora indica que las implementaciones actuales de BPE a nivel de byte están introduciendo ruido sustancial en la pipeline de procesamiento del modelo. Cuando se compara con la literatura de robustez adversaria en visión por computadora—donde vulnerabilidades arquitectónicas similares han sido extensamente estudiadas—la capa de tokenización emerge como el equivalente en PLN de la fragilidad de los límites de decisión en clasificadores de imágenes.
Lo que hace esta investigación particularmente convincente es su conexión con preocupaciones de seguridad Unicode más amplias. El Consorcio Unicode ha advertido durante mucho tiempo sobre caracteres confusibles y vulnerabilidades de normalización, pero este trabajo extiende esas preocupaciones al dominio de la arquitectura neuronal. El hallazgo de que el vocabulario más grande de Command-R-v01 se correlaciona con dramáticamente más bigramas incompletos (1.47M vs 71k en Llama3.1) sugiere que escalar el tamaño del vocabulario sin abordar este problema fundamental puede realmente aumentar la superficie de ataque.
Mirando hacia adelante, esta investigación debería catalizar un cambio de paradigma hacia "tokenización con seguridad primero" similar a la adopción por parte de la comunidad criptográfica de primitivas demostrablemente seguras. Los enfoques de tokenización alternativa que reducen dramáticamente las alucinaciones apuntan hacia métodos híbridos que combinan la eficiencia del BPE a nivel de byte con la robustez de los enfoques a nivel de carácter o pieza de palabra. A medida que los LLMs se despliegan cada vez más en aplicaciones críticas para la seguridad, abordar estas vulnerabilidades a nivel de tokenización se convierte no solo en una preocupación académica sino en un imperativo práctico.
6. Direcciones Futuras y Aplicaciones
Aplicaciones Defensivas
- Estándares de Tokenización Robusta: Desarrollo de métodos de tokenización que minimicen los tokens incompletos manteniendo la eficiencia
- Marcos de Pruebas Adversarias: Sistemas automatizados para detectar vulnerabilidades de tokenización durante el desarrollo del modelo
- Monitoreo en Tiempo de Ejecución: Detección y mitigación de ataques de bigramas improbables en sistemas de producción
Oportunidades de Investigación
- Análisis cross-lingüístico de distribuciones de tokens incompletos
- Integración con generación aumentada por recuperación para mitigar la fragilidad contextual
- Desarrollo de métodos de verificación formal para propiedades de seguridad del tokenizador
Impacto en la Industria
Los hallazgos tienen implicaciones inmediatas para:
- Puntos de referencia de evaluación de seguridad de LLM
- Diseño de tokenizadores en modelos de próxima generación
- Marcos regulatorios para la seguridad de sistemas de IA
7. Referencias
- Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
- Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
- Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
- Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
- Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
- Geiping, J., et al. (2024). Jailbreaking through token manipulation.
- Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
- Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017