目錄
1. 引言
在大型語言模型(LLMs)中,分詞技術扮演著人類可讀文本與模型可處理離散詞元之間的關鍵橋樑。近期研究揭露了這個基礎組件中的重大脆弱性,特別是在位元組級位元組對編碼(BPE)分詞器中。本文研究不完整詞元——由位元組級BPE分詞產生的、包含游離位元組且無法解碼的詞元——及其透過不可能雙連詞被利用的敏感性。
核心脆弱性源自不完整詞元對相鄰詞元的強烈依賴性以進行正確解碼。當與分佈外組合中的陌生詞元配對時,這些不完整詞元會變得脆弱,容易觸發LLMs的幻覺行為。我們的研究證明,即使組成詞元經過充分訓練,這種脆弱性仍然存在,這使其有別於先前發現的故障詞元問題。
降低90%
使用替代分詞方法後Llama3.1的幻覺減少率
147萬組雙連詞
Command-R-v01分詞器中最大不完整雙連詞數量
6個模型
跨多個LLM系列進行測試
2. BPE分詞基礎原理
2.1 位元組級BPE實作
位元組級BPE透過直接操作UTF-8編碼位元組(而非Unicode字元)來擴展傳統BPE演算法。該演算法根據以下公式迭代合併最頻繁的位元組或位元組序列對:
$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$
其中$V$代表當前詞彙表,$\text{count}(x,y)$表示訓練語料庫中位元組對$(x,y)$的出現頻率。
2.2 不完整詞元定義
不完整詞元是無法獨立解碼為有效Unicode字元的位元組級詞元。這些詞元包含游離位元組,需要與特定相鄰詞元組合才能形成合法的UTF-8序列。脆弱性的產生原因在於:
- 不完整詞元缺乏獨立語義意義
- 它們對相鄰詞元表現出強烈的上下文依賴性
- 其位元組模式會產生解碼模糊性
3. 不可能雙連詞方法論
3.1 建構技術
不可能雙連詞是經過精心構建的兩個不完整詞元組合,形成分佈外配對。建構遵循以下原則:
- 從分詞器詞彙表中選取不完整詞元
- 確保組合能建立有效的UTF-8位元組序列
- 最大化配對的統計不可能性
- 驗證該雙連詞未出現在訓練資料中
3.2 脆弱性分析
脆弱性機制透過三個主要途徑運作:
解碼模糊性:不完整詞元產生的解析不確定性會透過模型層傳播。數學表示顯示不完整詞元的嵌入向量$e_i$表現出更高的變異數:
$$\text{Var}(e_i | \text{incomplete}) > \text{Var}(e_j | \text{complete})$$
上下文脆弱性:當脫離預期上下文時,這種依賴結構使得這些詞元變得脆弱,類似於電腦視覺研究中對抗樣本觀察到的不穩定性。
4. 實驗結果
4.1 幻覺發生率
我們跨多個LLM系列的實驗顯示,相同片語的標準分詞與替代分詞在幻覺發生率上存在顯著差異:
| 模型 | 標準分詞 | 替代分詞 | 降低幅度 |
|---|---|---|---|
| Llama3.1 | 45.2% | 4.5% | 90.0% |
| Qwen2.5 | 38.7% | 6.2% | 84.0% |
| Mistral-Nemo | 52.1% | 8.9% | 82.9% |
4.2 跨模型比較
在我們全面分析中顯示,不同分詞器的脆弱性規模存在顯著差異:
| 分詞器 | 詞彙表大小 | 不完整詞元 | 不完整雙連詞 |
|---|---|---|---|
| Meta-Llama-3.1 | 128k | 1,224 | 71k |
| Exaone-3.0 | 102k | 1,222 | 36k |
| Qwen2.5 | 151k | 1,320 | 39k |
| Command-R-v01 | 255k | 2,956 | 1.47M |
5. 技術分析框架
核心洞察
位元組級BPE分詞典範雖然計算效率高,但引入了基礎架構弱點,在LLMs中創造了系統性盲點。這不僅是實作錯誤——更是現代分詞器處理Unicode複雜度的結構性缺陷。
邏輯流程
脆弱性串聯遵循可預測模式:位元組級分割 → 不完整詞元產生 → 上下文依賴性形成 → 統計不可能性利用 → 幻覺觸發。這條鏈揭示分詞不僅是預處理——更是關鍵的安全層。
優勢與缺陷
優勢:研究方法嚴謹,具備跨模型驗證和量化指標。不可能雙連詞概念為測試分詞器穩健性提供了具體攻擊向量。
缺陷:本文對訓練資料污染角度的強調不足。許多「不可能」組合實際上可能反映了罕見但合法的多語言文本模式,而非純粹人為產物。
可行建議
LLM開發者必須將分詞器視為安全關鍵組件,而非僅僅是預處理工具。實作執行時分詞健全性檢查、採用混合分詞方法,並進行專門針對不完整詞元組合的對抗測試。
原創分析:分詞安全典範
這項研究從根本上改變了我們在LLM安全領域中對分詞的概念化方式。研究結果證明,位元組級BPE分詞器創造的系統性脆弱性超越了個別模型架構,讓人回想起早期加密系統中發現的基礎缺陷。與故障詞元(主要影響訓練不足詞元)的充分記錄問題不同,不完整詞元脆弱性即使在訓練良好的模型中仍然存在,暗示了更深層的架構問題。
對相同輸入片語使用替代分詞方法後幻覺發生率降低90%尤其具有批判性。這種程度的改善表明,當前位元組級BPE實作正在模型處理管道中引入大量雜訊。與電腦視覺中對抗穩健性文獻(類似架構脆弱性已被廣泛研究)相比,分詞層在NLP中相當於影像分類器中決策邊界的脆弱性。
這項研究特別引人注目的是其與更廣泛Unicode安全問題的連結。Unicode聯盟長期以來一直警告混淆字元和正規化脆弱性,但這項工作將這些擔憂擴展到神經架構領域。Command-R-v01較大的詞彙表與顯著更多不完整雙連詞(147萬對比Llama3.1的7.1萬)相關的發現表明,在未解決此基礎問題的情況下擴展詞彙表大小實際上可能增加攻擊面。
展望未來,這項研究應催化朝向「安全優先分詞」的典範轉移,類似加密社群對可證明安全原語的擁抱。大幅減少幻覺的替代分詞方法指向混合方法,結合位元組級BPE的效率與字元級或詞片方法的穩健性。隨著LLMs日益部署在安全關鍵應用中,解決這些分詞層級脆弱性不僅是學術關注,更是實際必要。
6. 未來方向與應用
防禦性應用
- 穩健分詞標準:開發在保持效率的同時最小化不完整詞元的分詞方法
- 對抗測試框架:在模型開發期間檢測分詞脆弱性的自動化系統
- 執行時監控:在生產系統中檢測和減緩不可能雙連詞攻擊
研究機會
- 不完整詞元分佈的跨語言分析
- 與檢索增強生成整合以減緩上下文脆弱性
- 開發分詞器安全屬性的形式驗證方法
產業影響
研究結果對以下方面具有立即影響:
- LLM安全評估基準
- 次世代模型中的分詞器設計
- AI系統安全的監管框架
7. 參考文獻
- Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
- Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
- Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
- Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
- Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
- Geiping, J., et al. (2024). Jailbreaking through token manipulation.
- Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
- Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017