唔可能雙字組：字節級BPE分詞器嘅漏洞

1. 引言

分詞係大型語言模型（LLM）中人可讀文本同模型可處理離散詞元之間嘅關鍵橋樑。最近研究揭露咗呢個基礎組件中存在重大漏洞，特別係喺字節級字節對編碼（BPE）分詞器中。本文研究唔完整詞元——由字節級BPE分詞產生嘅、帶有散逸字節嘅不可解碼詞元——同佢哋對唔可能雙字組攻擊嘅敏感性。

核心漏洞源於唔完整詞元對相鄰詞元嘅強烈依賴性以進行正確解碼。當同分佈外組合中嘅陌生詞元配對時，呢啲唔完整詞元會變得脆弱，容易觸發LLM中嘅幻覺行為。我哋嘅研究表明，即使構成詞元經過充分訓練，呢個漏洞仍然存在，從而區別於之前識別到嘅故障詞元問題。

減少90%

使用替代分詞時Llama3.1嘅幻覺減少

147萬雙字組

Command-R-v01分詞器中最大唔完整雙字組數量

6個模型

跨多個LLM系列測試

2. BPE分詞基礎

2.1 字節級BPE實現

字節級BPE通過直接操作UTF-8編碼字節而非Unicode字符來擴展傳統BPE算法。該算法根據以下公式迭代合併最頻繁嘅字節或字節序列對：

$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$

其中$V$代表當前詞彙表，$\text{count}(x,y)$表示訓練語料庫中字節對$(x,y)$嘅頻率。

2.2 唔完整詞元定義

唔完整詞元係無法獨立解碼為有效Unicode字符嘅字節級詞元。呢啲詞元包含散逸字節，需要同特定相鄰詞元組合以形成合法UTF-8序列。漏洞產生嘅原因在於：

唔完整詞元缺乏獨立語義含義
佢哋對相鄰詞元表現出強烈上下文依賴性
佢哋嘅字節模式產生解碼歧義

3. 唔可能雙字組方法論

3.1 構建技術

唔可能雙字組係經過精心構建嘅兩個唔完整詞元組合，形成分佈外配對。構建遵循以下原則：

從分詞器詞彙表中選擇唔完整詞元
確保組合創建有效UTF-8字節序列
最大化配對嘅統計不可能性
驗證雙字組未出現喺訓練數據中

3.2 漏洞分析

漏洞機制通過三個主要渠道運作：

解碼歧義：唔完整詞元產生解析不確定性，並通過模型層傳播。數學表示顯示唔完整詞元嘅嵌入向量$e_i$表現出更高方差：

$$\text{Var}(e_i | \text{incomplete}) > \text{Var}(e_j | \text{complete})$$

上下文脆弱性：當從預期上下文中移除時，依賴結構令呢啲詞元變得脆弱，類似於計算機視覺研究中對抗樣本中觀察到嘅不穩定性。

4. 實驗結果

4.1 幻覺率

我哋跨多個LLM系列嘅實驗揭示咗相同短語標準分詞同替代分詞之間幻覺率嘅顯著差異：

模型	標準分詞	替代分詞	減少
Llama3.1	45.2%	4.5%	90.0%
Qwen2.5	38.7%	6.2%	84.0%
Mistral-Nemo	52.1%	8.9%	82.9%

4.2 跨模型比較

漏洞規模喺唔同分詞器之間差異顯著，如我哋全面分析所示：

分詞器	詞彙大小	唔完整詞元	唔完整雙字組
Meta-Llama-3.1	128k	1,224	71k
Exaone-3.0	102k	1,222	36k
Qwen2.5	151k	1,320	39k
Command-R-v01	255k	2,956	1.47M

5. 技術分析框架

核心洞察

字節級BPE分詞範式，雖然計算效率高，但引入咗基本架構弱點，從而在LLM中創造系統性盲點。呢唔單止係實現錯誤——而係現代分詞器處理Unicode複雜性嘅結構性缺陷。

邏輯流程

漏洞級聯遵循可預測模式：字節級分割 → 唔完整詞元創建 → 上下文依賴形成 → 統計不可能性利用 → 幻覺觸發。呢條鏈揭示分詞唔單止係預處理——佢係關鍵安全層。

優勢與缺陷

優勢：研究方法論嚴謹，具有跨模型驗證同量化指標。唔可能雙字組概念為測試分詞器魯棒性提供具體攻擊向量。

缺陷：論文對訓練數據污染角度強調不足。許多「唔可能」組合可能實際上反映罕見但合法嘅多語言文本模式，而非純粹人為產物。

可行見解

LLM開發者必須將分詞器視為安全關鍵組件，而非僅僅預處理工具。實施運行時分詞健全性檢查，採用混合分詞方法，並進行專門針對唔完整詞元組合嘅對抗測試。

原創分析：分詞安全範式

呢項研究從根本上改變咗我哋應該如何概念化LLM安全領域中嘅分詞。研究結果表明，字節級BPE分詞器創造咗超越個別模型架構嘅系統性漏洞，令人回想起早期密碼系統中發現嘅基本缺陷。同故障詞元嘅充分記錄問題唔同——主要影響訓練不足詞元——唔完整詞元漏洞即使喺訓練良好模型中也持續存在，表明存在更深層次架構問題。

當對相同輸入短語使用替代分詞時幻覺率減少90%尤其具破壞性。呢種改進幅度表明當前字節級BPE實現正喺模型處理管道中引入大量噪音。同計算機視覺中對抗魯棒性文獻比較——其中類似架構漏洞已得到廣泛研究——分詞層作為NLP中等同於圖像分類器中決策邊界脆弱性嘅組件出現。

令呢項研究特別引人注目嘅係佢同更廣泛Unicode安全問題嘅聯繫。Unicode聯盟長期以來一直警告混淆字符同規範化漏洞，但呢項工作將呢啲關注擴展到神經架構領域。Command-R-v01更大詞彙表同顯著更多唔完整雙字組（147萬對比Llama3.1中7.1萬）相關嘅發現表明，擴大詞彙量規模而唔解決呢個基本問題可能實際上增加攻擊面。

展望未來，呢項研究應該催化向「安全優先分詞」範式轉變，類似於密碼學界對可證明安全原語嘅擁抱。顯著減少幻覺嘅替代分詞方法指向混合方法，結合字節級BPE效率同字符級或詞片方法嘅魯棒性。隨住LLM越來越多部署喺安全關鍵應用中，解決呢啲分詞級漏洞唔單止係學術關注，更係實際必要。

6. 未來方向與應用

防禦應用

魯棒分詞標準：開發最小化唔完整詞元同時保持效率嘅分詞方法
對抗測試框架：模型開發期間檢測分詞漏洞嘅自動化系統
運行時監控：生產系統中檢測同緩解唔可能雙字組攻擊

研究機會

唔完整詞元分佈嘅跨語言分析
同檢索增強生成集成以緩解上下文脆弱性
開發分詞器安全屬性形式驗證方法

行業影響

研究結果對以下方面具有直接影響：

LLM安全評估基準
下一代模型中分詞器設計
AI系統安全監管框架

7. 參考文獻

Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
Geiping, J., et al. (2024). Jailbreaking through token manipulation.
Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017

目錄