Bigramas Improváveis: Vulnerabilidades em Tokenizadores BPE de Nível de Byte

Índice

1. Introdução

A tokenização serve como a ponte crítica entre o texto legível por humanos e os tokens discretos processáveis por modelos em grandes modelos de linguagem (LLMs). Pesquisas recentes expuseram vulnerabilidades significativas neste componente fundamental, particularmente em tokenizadores de codificação de pares de bytes (BPE) de nível de byte. Este artigo investiga tokens incompletos—tokens indecodificáveis com bytes residuais que resultam da tokenização BPE de nível de byte—e sua suscetibilidade à exploração através de bigramas improváveis.

A vulnerabilidade central decorre da forte dependência dos tokens incompletos em tokens adjacentes para uma decodificação adequada. Quando emparelhados com tokens desconhecidos em combinações fora da distribuição, esses tokens incompletos tornam-se frágeis e propensos a desencadear comportamentos alucinatórios em LLMs. Nossa pesquisa demonstra que essa vulnerabilidade persiste mesmo quando os tokens constituintes são bem treinados, distinguindo-a de problemas de tokens com defeito previamente identificados.

Redução de 90%

Redução de alucinação no Llama3.1 com tokenização alternativa

1,47M Bigramas

Máximo de bigramas incompletos no tokenizador Command-R-v01

6 Modelos

Testados em várias famílias de LLM

2. Fundamentos da Tokenização BPE

2.1 Implementação BPE de Nível de Byte

O BPE de nível de byte estende o algoritmo BPE tradicional operando diretamente em bytes codificados em UTF-8 em vez de caracteres Unicode. O algoritmo funde iterativamente os pares mais frequentes de bytes ou sequências de bytes de acordo com a fórmula:

$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$

onde $V$ representa o vocabulário atual e $\text{count}(x,y)$ denota a frequência do par de bytes $(x,y)$ no corpus de treinamento.

2.2 Definição de Tokens Incompletos

Tokens incompletos são tokens de nível de byte que não podem ser decodificados independentemente em caracteres Unicode válidos. Esses tokens contêm bytes residuais que requerem combinação com tokens adjacentes específicos para formar sequências UTF-8 legais. A vulnerabilidade surge porque:

Tokens incompletos carecem de significado semântico independente
Eles exibem forte dependência contextual em tokens vizinhos
Seus padrões de bytes criam ambiguidades de decodificação

3. Metodologia dos Bigramas Improváveis

3.1 Técnica de Construção

Bigramas improváveis são combinações cuidadosamente construídas de dois tokens incompletos que formam pares fora da distribuição. A construção segue estes princípios:

Selecionar tokens incompletos do vocabulário do tokenizador
Garantir que a combinação crie sequências de bytes UTF-8 válidas
Maximizar a improbabilidade estatística do emparelhamento
Verificar se o bigrama não aparece nos dados de treinamento

3.2 Análise de Vulnerabilidade

O mecanismo de vulnerabilidade opera através de três canais principais:

Ambiguidade de Decodificação: Tokens incompletos criam incertezas de análise que se propagam através das camadas do modelo. A representação matemática mostra como os vetores de incorporação para tokens incompletos $e_i$ exibem variância mais alta:

$$\text{Var}(e_i | \text{incompleto}) > \text{Var}(e_j | \text{completo})$$

Fragilidade Contextual: A estrutura de dependência torna esses tokens quebradiços quando removidos de contextos esperados, semelhante à instabilidade observada em exemplos adversariais da pesquisa em visão computacional.

4. Resultados Experimentais

4.1 Taxas de Alucinação

Nossos experimentos em várias famílias de LLM revelam diferenças dramáticas nas taxas de alucinação entre tokenizações padrão e alternativas das mesmas frases:

Modelo	Tokenização Padrão	Tokenização Alternativa	Redução
Llama3.1	45,2%	4,5%	90,0%
Qwen2.5	38,7%	6,2%	84,0%
Mistral-Nemo	52,1%	8,9%	82,9%

4.2 Comparação entre Modelos

A escala da vulnerabilidade varia significativamente entre tokenizadores, como mostra nossa análise abrangente:

Tokenizador	Tamanho do Vocabulário	Tokens Incompletos	Bigramas Incompletos
Meta-Llama-3.1	128k	1.224	71k
Exaone-3.0	102k	1.222	36k
Qwen2.5	151k	1.320	39k
Command-R-v01	255k	2.956	1,47M

5. Estrutura de Análise Técnica

Perspectiva Central

O paradigma de tokenização BPE de nível de byte, embora computacionalmente eficiente, introduz fraquezas arquiteturais fundamentais que criam pontos cegos sistemáticos em LLMs. Isso não é meramente um bug de implementação—é uma falha estrutural em como os tokenizadores modernos lidam com a complexidade Unicode.

Fluxo Lógico

A cascata de vulnerabilidade segue um padrão previsível: Segmentação de nível de byte → Criação de tokens incompletos → Formação de dependência contextual → Exploração de improbabilidade estatística → Disparo de alucinação. Esta cadeia revela que a tokenização não é apenas pré-processamento—é uma camada de segurança crítica.

Pontos Fortes e Fracos

Pontos Fortes: A metodologia de pesquisa é rigorosa, com validação cruzada entre modelos e métricas quantitativas. O conceito de bigrama improvável fornece um vetor de ataque concreto para testar a robustez do tokenizador.

Pontos Fracos: O artigo subenfatiza o ângulo da contaminação dos dados de treinamento. Muitas combinações "improváveis" podem realmente refletir padrões de texto multilingue raros, mas legítimos, em vez de meros artefatos.

Insights Acionáveis

Os desenvolvedores de LLM devem tratar os tokenizadores como componentes críticos de segurança, não como meros utilitários de pré-processamento. Implementar verificações de sanidade de tokenização em tempo de execução, adotar abordagens de tokenização híbrida e realizar testes adversariais visando especificamente combinações de tokens incompletos.

Análise Original: O Paradigma de Segurança na Tokenização

Esta pesquisa muda fundamentalmente como devemos conceptualizar a tokenização no panorama de segurança de LLM. Os resultados demonstram que os tokenizadores BPE de nível de byte criam vulnerabilidades sistemáticas que transcendem arquiteturas de modelo individuais, reminiscentes das falhas fundamentais descobertas nos primeiros sistemas criptográficos. Ao contrário dos problemas bem documentados com tokens com defeito—que afetam principalmente tokens subtreinados—a vulnerabilidade do token incompleto persiste mesmo em modelos bem treinados, sugerindo um problema arquitetural mais profundo.

A redução de 90% nas taxas de alucinação ao usar tokenizações alternativas para as mesmas frases de entrada é particularmente condenatória. Esta magnitude de melhoria indica que as implementações atuais de BPE de nível de byte estão introduzindo ruído substancial no pipeline de processamento do modelo. Quando comparada à literatura de robustez adversarial em visão computacional—onde vulnerabilidades arquiteturais semelhantes foram extensivamente estudadas—a camada de tokenização emerge como o equivalente em PLN da fragilidade dos limites de decisão em classificadores de imagem.

O que torna esta pesquisa particularmente convincente é sua conexão com preocupações mais amplas de segurança Unicode. O Unicode Consortium há muito alerta sobre confundíveis e vulnerabilidades de normalização, mas este trabalho estende essas preocupações para o domínio da arquitetura neural. A descoberta de que o vocabulário maior do Command-R-v01 correlaciona-se com dramaticamente mais bigramas incompletos (1,47M vs 71k no Llama3.1) sugere que escalar o tamanho do vocabulário sem abordar esta questão fundamental pode realmente aumentar a superfície de ataque.

Olhando para o futuro, esta pesquisa deve catalisar uma mudança de paradigma em direção à "tokenização com prioridade de segurança" semelhante à adoção pela comunidade criptográfica de primitivas comprovadamente seguras. As abordagens de tokenização alternativa que reduzem drasticamente as alucinações apontam para métodos híbridos que combinam a eficiência do BPE de nível de byte com a robustez de abordagens de nível de caractere ou word-piece. À medida que os LLMs são cada vez mais implantados em aplicações críticas para a segurança, abordar essas vulnerabilidades no nível da tokenização torna-se não apenas uma preocupação académica, mas um imperativo prático.

6. Direções Futuras e Aplicações

Aplicações Defensivas

Padrões de Tokenização Robustos: Desenvolvimento de métodos de tokenização que minimizem tokens incompletos mantendo a eficiência
Estruturas de Teste Adversarial: Sistemas automatizados para detetar vulnerabilidades de tokenização durante o desenvolvimento do modelo
Monitorização em Tempo de Execução: Deteção e mitigação de ataques de bigrama improvável em sistemas de produção

Oportunidades de Pesquisa

Análise cross-linguística de distribuições de tokens incompletos
Integração com geração aumentada por recuperação para mitigar a fragilidade contextual
Desenvolvimento de métodos de verificação formal para propriedades de segurança do tokenizador

Impacto na Indústria

As descobertas têm implicações imediatas para:

Benchmarks de avaliação de segurança de LLM
Design de tokenizadores em modelos de próxima geração
Estruturas regulatórias para segurança de sistemas de IA

7. Referências

Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
Geiping, J., et al. (2024). Jailbreaking through token manipulation.
Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017