不可能双元组：字节级BPE分词器中的漏洞分析

1. 引言

在大语言模型（LLMs）中，分词是连接人类可读文本与模型可处理的离散标记的关键桥梁。最近的研究揭示了这一基础组件中的重大漏洞，特别是在字节级字节对编码（BPE）分词器中。本文研究了不完整标记——由字节级BPE分词产生的包含游离字节的不可解码标记——以及它们对不可能双元组攻击的敏感性。

核心漏洞源于不完整标记对相邻标记的强依赖性，需要依赖相邻标记才能正确解码。当与分布外组合中的陌生标记配对时，这些不完整标记变得脆弱，容易触发LLMs的幻觉行为。我们的研究表明，即使组成标记经过充分训练，这种漏洞仍然存在，这使其区别于先前发现的故障标记问题。

降低90%

使用替代分词方法后Llama3.1的幻觉减少率

147万双元组

Command-R-v01分词器中最大不完整双元组数量

6个模型

跨多个LLM系列进行测试

2. BPE分词基础

2.1 字节级BPE实现

字节级BPE通过直接在UTF-8编码字节而非Unicode字符上操作，扩展了传统的BPE算法。该算法根据以下公式迭代合并最频繁的字节或字节序列对：

$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$

其中$V$表示当前词汇表，$\text{count}(x,y)$表示训练语料库中字节对$(x,y)$的频率。

2.2 不完整标记定义

不完整标记是无法独立解码为有效Unicode字符的字节级标记。这些标记包含游离字节，需要与特定的相邻标记组合才能形成合法的UTF-8序列。漏洞产生的原因是：

不完整标记缺乏独立的语义含义
它们对相邻标记表现出强烈的上下文依赖性
它们的字节模式会产生解码歧义

3. 不可能双元组方法

3.1 构建技术

不可能双元组是经过精心构建的两个不完整标记的组合，形成分布外配对。构建遵循以下原则：

从分词器词汇表中选择不完整标记
确保组合创建有效的UTF-8字节序列
最大化配对的统计不可能性
验证双元组未出现在训练数据中

3.2 漏洞分析

漏洞机制通过三个主要渠道运作：

解码歧义：不完整标记产生的解析不确定性会传播到模型各层。数学表示显示不完整标记的嵌入向量$e_i$表现出更高的方差：

$$\text{Var}(e_i | \text{incomplete}) > \text{Var}(e_j | \text{complete})$$

上下文脆弱性：当从预期上下文中移除时，这种依赖结构使得这些标记变得脆弱，类似于计算机视觉研究中对抗样本观察到的不稳定性。

4. 实验结果

4.1 幻觉率

我们在多个LLM系列上的实验揭示了相同短语的标准分词和替代分词之间幻觉率的显著差异：

模型	标准分词	替代分词	减少率
Llama3.1	45.2%	4.5%	90.0%
Qwen2.5	38.7%	6.2%	84.0%
Mistral-Nemo	52.1%	8.9%	82.9%

4.2 跨模型比较

漏洞规模在不同分词器之间存在显著差异，如我们的综合分析所示：

分词器	词汇表大小	不完整标记	不完整双元组
Meta-Llama-3.1	128k	1,224	71k
Exaone-3.0	102k	1,222	36k
Qwen2.5	151k	1,320	39k
Command-R-v01	255k	2,956	1.47M

5. 技术分析框架

核心洞察

字节级BPE分词范式虽然在计算上高效，但引入了基础架构弱点，在LLMs中创建了系统性盲点。这不仅仅是实现错误——而是现代分词器处理Unicode复杂性的结构缺陷。

逻辑流程

漏洞级联遵循可预测的模式：字节级分割→不完整标记创建→上下文依赖形成→统计不可能性利用→幻觉触发。这一链条揭示分词不仅仅是预处理——它是一个关键的安全层。

优势与缺陷

优势：研究方法严谨，具有跨模型验证和定量指标。不可能双元组概念为测试分词器鲁棒性提供了具体的攻击向量。

缺陷：论文对训练数据污染角度的强调不足。许多"不可能"组合实际上可能反映了罕见但合法的多语言文本模式，而非纯粹的伪影。

可操作见解

LLM开发者必须将分词器视为安全关键组件，而不仅仅是预处理工具。实施运行时分词健全性检查，采用混合分词方法，并进行专门针对不完整标记组合的对抗测试。

原创分析：分词安全范式

这项研究从根本上改变了我们在LLM安全领域中概念化分词的方式。研究结果表明，字节级BPE分词器创建了超越单个模型架构的系统性漏洞，让人想起早期密码系统中发现的基础缺陷。与故障标记的已有记录问题——主要影响训练不足的标记——不同，不完整标记漏洞即使在训练良好的模型中仍然存在，表明存在更深层次的架构问题。

当对相同输入短语使用替代分词方法时，幻觉率降低90%尤其具有说服力。这种改进幅度表明当前的字节级BPE实现正在向模型处理流水线引入大量噪声。与计算机视觉中的对抗鲁棒性文献相比——其中类似的架构漏洞已被广泛研究——分词层在NLP中相当于图像分类器中决策边界的脆弱性。

这项研究特别引人注目的是它与更广泛的Unicode安全问题的联系。Unicode联盟长期以来一直警告混淆字符和规范化漏洞，但这项工作将这些担忧扩展到神经架构领域。Command-R-v01更大的词汇表与显著更多的不完整双元组（147万 vs Llama3.1的7.1万）相关的发现表明，在不解决这个基础问题的情况下扩展词汇表大小实际上可能增加攻击面。

展望未来，这项研究应推动向"安全优先分词"的范式转变，类似于密码学界对可证明安全原语的拥抱。显著减少幻觉的替代分词方法指向混合方法，这些方法结合了字节级BPE的效率和字符级或词片方法的鲁棒性。随着LLMs越来越多地部署在安全关键应用中，解决这些分词级漏洞不仅是一个学术关注点，更是一个实际必要。

6. 未来方向与应用

防御应用

鲁棒分词标准：开发在保持效率的同时最小化不完整标记的分词方法
对抗测试框架：在模型开发期间检测分词漏洞的自动化系统
运行时监控：在生产系统中检测和缓解不可能双元组攻击

研究机会

不完整标记分布的跨语言分析
与检索增强生成集成以缓解上下文脆弱性
开发分词器安全属性的形式化验证方法

行业影响

研究结果对以下方面具有直接影响：

LLM安全评估基准
下一代模型中的分词器设计
AI系统安全的监管框架

7. 参考文献

Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
Geiping, J., et al. (2024). Jailbreaking through token manipulation.
Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017

目录