目次
1. はじめに
トークン化は、大規模言語モデル(LLM)において、人間が読めるテキストとモデルが処理可能な離散トークンとの間の重要な橋渡し役を果たす。最近の研究により、この基礎的コンポーネント、特にバイトレベルのバイトペア符号化(BPE)トークナイザーに重大な脆弱性が存在することが明らかになった。本論文では、不完全トークン—バイトレベルBPEトークン化によって生じる、不正なバイトを含む復号不可能なトークン—と、ありえないバイグラムを通じた悪用への脆弱性を調査する。
この脆弱性の核心は、不完全トークンが適切な復号のために隣接するトークンに強く依存することにある。分布外の組み合わせで見慣れないトークンと組み合わされると、これらの不完全トークンは脆弱になり、LLMで幻覚的挙動を引き起こしやすくなる。我々の研究は、この脆弱性が構成するトークンが十分に訓練されている場合でも持続することを示しており、これは以前に特定されたグリッチトークンの問題とは区別される。
90% 削減
代替トークン化によるLlama3.1の幻覚削減率
147万 バイグラム
Command-R-v01トークナイザーの不完全バイグラム最大数
6 モデル
複数のLLMファミリーでテスト
2. BPEトークン化の基礎
2.1 バイトレベルBPEの実装
バイトレベルBPEは、従来のBPEアルゴリズムを拡張し、Unicode文字ではなくUTF-8で符号化されたバイトを直接操作する。このアルゴリズムは、以下の式に従って、最も頻繁に出現するバイトまたはバイト列のペアを反復的に結合する:
$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$
ここで、$V$は現在の語彙を表し、$\text{count}(x,y)$は訓練コーパスにおけるバイトペア$(x,y)$の頻度を示す。
2.2 不完全トークンの定義
不完全トークンとは、独立して有効なUnicode文字に復号できないバイトレベルのトークンである。これらのトークンは不正なバイトを含み、適切なUTF-8シーケンスを形成するために特定の隣接トークンとの組み合わせを必要とする。脆弱性が生じる理由は以下の通り:
- 不完全トークンは独立した意味を欠いている
- 隣接するトークンへの強い文脈的依存性を示す
- そのバイトパターンが復号の曖昧さを生み出す
3. ありえないバイグラムの手法
3.1 構築技術
ありえないバイグラムは、2つの不完全トークンを注意深く組み合わせて作成された、分布外のペアである。構築は以下の原則に従う:
- トークナイザーの語彙から不完全トークンを選択する
- 組み合わせが有効なUTF-8バイトシーケンスを生成することを確認する
- ペアリングの統計的なありえなさを最大化する
- バイグラムが訓練データに出現しないことを確認する
3.2 脆弱性分析
脆弱性のメカニズムは、主に3つの経路を通じて作用する:
復号の曖昧さ: 不完全トークンは解析の不確実性を生み出し、それがモデル層を通じて伝播する。数学的表現は、不完全トークンの埋め込みベクトル$e_i$がより高い分散を示すことを示している:
$$\text{Var}(e_i | \text{incomplete}) > \text{Var}(e_j | \text{complete})$$
文脈的脆弱性: この依存構造により、これらのトークンは期待される文脈から外されると脆くなり、コンピュータビジョン研究における敵対的例で観察される不安定性に類似する。
4. 実験結果
4.1 幻覚発生率
複数のLLMファミリーにわたる我々の実験は、同じフレーズの標準的なトークン化と代替トークン化との間で、幻覚発生率に劇的な差があることを明らかにした:
| モデル | 標準トークン化 | 代替トークン化 | 削減率 |
|---|---|---|---|
| Llama3.1 | 45.2% | 4.5% | 90.0% |
| Qwen2.5 | 38.7% | 6.2% | 84.0% |
| Mistral-Nemo | 52.1% | 8.9% | 82.9% |
4.2 モデル間比較
脆弱性の規模はトークナイザーによって大きく異なり、我々の包括的分析により以下のように示されている:
| トークナイザー | 語彙サイズ | 不完全トークン数 | 不完全バイグラム数 |
|---|---|---|---|
| Meta-Llama-3.1 | 128k | 1,224 | 71k |
| Exaone-3.0 | 102k | 1,222 | 36k |
| Qwen2.5 | 151k | 1,320 | 39k |
| Command-R-v01 | 255k | 2,956 | 1.47M |
5. 技術分析フレームワーク
核心的な洞察
バイトレベルBPEトークン化のパラダイムは、計算効率は高いものの、LLMに体系的な盲点を生み出す根本的なアーキテクチャ上の弱点を導入している。これは単なる実装上のバグではなく、現代のトークナイザーがUnicodeの複雑さをどのように扱うかという構造的欠陥である。
論理的流れ
脆弱性の連鎖は予測可能なパターンに従う:バイトレベルの分割 → 不完全トークンの生成 → 文脈的依存性の形成 → 統計的ありえなさの悪用 → 幻覚の引き金。この連鎖は、トークン化が単なる前処理ではなく、重要なセキュリティ層であることを明らかにする。
長所と欠点
長所: 研究手法は厳密であり、モデル間での検証と定量的な指標を備えている。ありえないバイグラムの概念は、トークナイザーの堅牢性をテストするための具体的な攻撃ベクトルを提供する。
欠点: 本論文は、訓練データの汚染という観点を十分に強調していない。多くの「ありえない」組み合わせは、純粋な人工物というよりも、実際には稀ではあるが正当な多言語テキストパターンを反映している可能性がある。
実用的な示唆
LLM開発者は、トークナイザーを単なる前処理ユーティリティではなく、セキュリティ上重要なコンポーネントとして扱わなければならない。実行時のトークン化健全性チェックを実装し、ハイブリッドトークン化アプローチを採用し、不完全トークンの組み合わせを特に標的とした敵対的テストを実施する必要がある。
独自分析:トークン化セキュリティのパラダイム
この研究は、LLMセキュリティの状況においてトークン化をどのように概念化すべきかという考え方を根本的に変えるものである。この発見は、バイトレベルBPEトークナイザーが個々のモデルアーキテクチャを超越した体系的な脆弱性を生み出すことを示しており、初期の暗号システムで発見された根本的な欠陥を想起させる。訓練不足のトークンに主に影響を与えるグリッチトークンのよく知られた問題とは異なり、不完全トークンの脆弱性は十分に訓練されたモデルでも持続し、より深いアーキテクチャ上の問題を示唆している。
同じ入力フレーズに対して代替トークン化を使用した場合の幻覚発生率の90%削減は、特に決定的である。この改善の規模は、現在のバイトレベルBPEの実装がモデル処理パイプラインに実質的なノイズを導入していることを示している。コンピュータビジョンにおける敵対的堅牢性の文献—同様のアーキテクチャ上の脆弱性が広く研究されている—と比較すると、トークン化層は、画像分類器における決定境界の脆弱性に相当するNLPの要素として浮上する。
この研究を特に説得力あるものにしているのは、より広範なUnicodeセキュリティ上の懸念との関連である。Unicodeコンソーシアムは長年にわたり、紛らわしい文字や正規化の脆弱性について警告してきたが、この研究はそれらの懸念をニューラルアーキテクチャの領域に拡張する。Command-R-v01のより大きな語彙サイズが劇的に多くの不完全バイグラム(Llama3.1の71k対147万)と相関するという発見は、この根本的な問題に対処せずに語彙サイズを拡大すると、実際に攻撃対象領域が増加する可能性があることを示唆している。
今後を見据えると、この研究は、暗号コミュニティが証明可能に安全なプリミティブを受け入れたのと同様に、「セキュリティファーストのトークン化」へのパラダイムシフトを促進すべきである。幻覚を劇的に減少させる代替トークン化アプローチは、バイトレベルBPEの効率性と、文字レベルまたはワードピースアプローチの堅牢性を組み合わせたハイブリッド手法への道筋を示している。LLMが安全性が重要なアプリケーションでますます展開されるにつれて、これらのトークン化レベルの脆弱性への対処は、単なる学術的な関心事ではなく、実践的な必須事項となる。
6. 今後の方向性と応用
防御的応用
- 堅牢なトークン化標準: 効率を維持しながら不完全トークンを最小化するトークン化手法の開発
- 敵対的テストフレームワーク: モデル開発中にトークン化の脆弱性を検出する自動化システム
- 実行時監視: 本番システムにおけるありえないバイグラム攻撃の検出と緩和
研究の機会
- 不完全トークン分布の言語横断的分析
- 文脈の脆弱性を緩和するための検索拡張生成との統合
- トークナイザーのセキュリティ特性に対する形式的検証手法の開発
産業への影響
この発見は以下の点に直接的な影響を及ぼす:
- LLM安全性評価ベンチマーク
- 次世代モデルにおけるトークナイザー設計
- AIシステムセキュリティのための規制フレームワーク
7. 参考文献
- Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
- Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
- Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
- Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
- Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
- Geiping, J., et al. (2024). Jailbreaking through token manipulation.
- Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
- Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017