Kandungan
1. Pengenalan
Tokenisasi berfungsi sebagai jambatan kritikal antara teks yang boleh dibaca manusia dan token diskret yang boleh diproses model dalam model bahasa besar (LLM). Penyelidikan terkini telah mendedahkan kerentanan signifikan dalam komponen asas ini, terutamanya dalam tokenizer pengekodan berpasangan bait aras bait (BPE). Kertas kerja ini menyiasat token tidak lengkap—token yang tidak boleh dinyahkod dengan bait sesat yang terhasil daripada tokenisasi BPE aras bait—dan kerentanan mereka terhadap eksploitasi melalui bigram tidak mungkin.
Kerentanan teras berpunca daripada kebergantungan berat token tidak lengkap pada token bersebelahan untuk penyahkodan yang betul. Apabila dipasangkan dengan token yang tidak dikenali dalam kombinasi luar taburan, token tidak lengkap ini menjadi rapuh dan cenderung mencetuskan tingkah laku berhalusinasi dalam LLM. Penyelidikan kami menunjukkan bahawa kerentanan ini berterusan walaupun token konstituen dilatih dengan baik, membezakannya daripada isu token rosak yang telah dikenal pasti sebelum ini.
Pengurangan 90%
Pengurangan halusinasi dalam Llama3.1 dengan tokenisasi alternatif
1.47Juta Bigram
Bigram tidak lengkap maksimum dalam tokenizer Command-R-v01
6 Model
Diuji merentasi pelbagai keluarga LLM
2. Asas Tokenisasi BPE
2.1 Pelaksanaan BPE Aras Bait
BPE aras bait melanjutkan algoritma BPE tradisional dengan beroperasi secara langsung pada bait yang dikodkan UTF-8 dan bukannya aksara Unicode. Algoritma ini secara berulang menggabungkan pasangan bait atau jujukan bait yang paling kerap mengikut formula:
$$\text{gabung}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{kiraan}(x,y)}{\text{kiraan}(x) \cdot \text{kiraan}(y)}$$
di mana $V$ mewakili perbendaharaan kata semasa dan $\text{kiraan}(x,y)$ menandakan kekerapan pasangan bait $(x,y)$ dalam korpus latihan.
2.2 Definisi Token Tidak Lengkap
Token tidak lengkap ialah token aras bait yang tidak boleh dinyahkod secara bebas kepada aksara Unicode yang sah. Token ini mengandungi bait sesat yang memerlukan gabungan dengan token bersebelahan tertentu untuk membentuk jujukan UTF-8 yang sah. Kerentanan timbul kerana:
- Token tidak lengkap kekurangan makna semantik bebas
- Mereka mempamerkan kebergantungan kontekstual yang kuat pada token jiran
- Corak bait mereka mencipta kekaburan penyahkodan
3. Metodologi Bigram Tidak Mungkin
3.1 Teknik Pembinaan
Bigram tidak mungkin ialah kombinasi yang dibina dengan teliti daripada dua token tidak lengkap yang membentuk pasangan luar taburan. Pembinaan mengikut prinsip berikut:
- Pilih token tidak lengkap daripada perbendaharaan kata tokenizer
- Pastikan kombinasi mencipta jujukan bait UTF-8 yang sah
- Maksimumkan ketidakmungkinan statistik pasangan
- Sahkan bigram tidak muncul dalam data latihan
3.2 Analisis Kerentanan
Mekanisme kerentanan beroperasi melalui tiga saluran utama:
Kekaburan Penyahkodan: Token tidak lengkap mencipta ketidakpastian penghuraian yang merambat melalui lapisan model. Perwakilan matematik menunjukkan bagaimana vektor benaman untuk token tidak lengkap $e_i$ mempamerkan varians lebih tinggi:
$$\text{Var}(e_i | \text{tidak lengkap}) > \text{Var}(e_j | \text{lengkap})$$
Kerapuhan Kontekstual: Struktur kebergantungan menjadikan token ini rapuh apabila dikeluarkan daripada konteks yang dijangkakan, serupa dengan ketidakstabilan yang diperhatikan dalam contoh adversial daripada penyelidikan penglihatan komputer.
4. Keputusan Eksperimen
4.1 Kadar Halusinasi
Eksperimen kami merentasi pelbagai keluarga LLM mendedahkan perbezaan dramatik dalam kadar halusinasi antara tokenisasi piawai dan alternatif bagi frasa yang sama:
| Model | Tokenisasi Piawai | Tokenisasi Alternatif | Pengurangan |
|---|---|---|---|
| Llama3.1 | 45.2% | 4.5% | 90.0% |
| Qwen2.5 | 38.7% | 6.2% | 84.0% |
| Mistral-Nemo | 52.1% | 8.9% | 82.9% |
4.2 Perbandingan Antara Model
Skala kerentanan berbeza dengan ketara merentasi tokenizer, seperti yang ditunjukkan dalam analisis komprehensif kami:
| Tokenizer | Saiz Perbendaharaan Kata | Token Tidak Lengkap | Bigram Tidak Lengkap |
|---|---|---|---|
| Meta-Llama-3.1 | 128k | 1,224 | 71k |
| Exaone-3.0 | 102k | 1,222 | 36k |
| Qwen2.5 | 151k | 1,320 | 39k |
| Command-R-v01 | 255k | 2,956 | 1.47M |
5. Kerangka Analisis Teknikal
Inti Teras
Paradigma tokenisasi BPE aras bait, walaupun cekap secara pengiraan, memperkenalkan kelemahan seni bina asas yang mencipta titik buta sistematik dalam LLM. Ini bukan sekadar pepijat pelaksanaan—ia adalah kecacatan struktur dalam cara tokenizer moden mengendalikan kerumitan Unicode.
Aliran Logik
Kaskad kerentanan mengikut corak yang boleh diramal: Segmentasi aras bait → Penciptaan token tidak lengkap → Pembentukan kebergantungan kontekstual → Eksploitasi ketidakmungkinan statistik → Pencetus halusinasi. Rantai ini mendedahkan bahawa tokenisasi bukan sekadar pra-pemprosesan—ia adalah lapisan keselamatan kritikal.
Kekuatan & Kelemahan
Kekuatan: Metodologi penyelidikan adalah ketat, dengan pengesahan antara model dan metrik kuantitatif. Konsep bigram tidak mungkin menyediakan vektor serangan konkrit untuk menguji keteguhan tokenizer.
Kelemahan: Kertas kerja ini kurang menekankan sudut pencemaran data latihan. Banyak kombinasi "tidak mungkin" sebenarnya mungkin mencerminkan corak teks pelbagai bahasa yang jarang tetapi sah dan bukannya artifak tulen.
Wawasan Boleh Tindak
Pembangun LLM mesti menganggap tokenizer sebagai komponen kritikal keselamatan, bukan sekadar utiliti pra-pemprosesan. Melaksanakan semakan kewarasan tokenisasi masa jalan, menerima pakai pendekatan tokenisasi hibrid, dan menjalankan ujian adversial yang khusus mensasarkan kombinasi token tidak lengkap.
Analisis Asal: Paradigma Keselamatan Tokenisasi
Penyelidikan ini secara asasnya mengubah cara kita harus mengkonsepsikan tokenisasi dalam landskap keselamatan LLM. Penemuan menunjukkan bahawa tokenizer BPE aras bait mencipta kerentanan sistematik yang melangkaui seni bina model individu, mengingatkan kembali kepada kecacatan asas yang ditemui dalam sistem kriptografi awal. Tidak seperti isu yang didokumenkan dengan baik mengenai token rosak—yang terutamanya menjejaskan token yang kurang dilatih—kerentanan token tidak lengkap berterusan walaupun dalam model yang dilatih dengan baik, mencadangkan masalah seni bina yang lebih mendalam.
Pengurangan 90% dalam kadar halusinasi apabila menggunakan tokenisasi alternatif untuk frasa input yang sama adalah sangat membimbangkan. Peningkatan magnitud ini menunjukkan bahawa pelaksanaan BPE aras bait semasa memperkenalkan hingar yang besar ke dalam saluran pemprosesan model. Apabila dibandingkan dengan literatur keteguhan adversial dalam penglihatan komputer—di mana kerentanan seni bina serupa telah dikaji secara meluas—lapisan tokenisasi muncul sebagai setara NLP dengan kerapuhan sempadan keputusan dalam pengelas imej.
Apa yang menjadikan penyelidikan ini amat menarik ialah sambungannya kepada kebimbangan keselamatan Unicode yang lebih luas. Konsortium Unicode telah lama memberi amaran tentang kekeliruan dan kerentanan penormalan, tetapi kerja ini melanjutkan kebimbangan tersebut ke dalam domain seni bina neural. Penemuan bahawa perbendaharaan kata lebih besar Command-R-v01 berkorelasi dengan lebih banyak bigram tidak lengkap secara dramatik (1.47Juta berbanding 71k dalam Llama3.1) mencadangkan bahawa penskalaan saiz perbendaharaan kata tanpa menangani isu asas ini sebenarnya mungkin meningkatkan permukaan serangan.
Ke hadapan, penyelidikan ini harus memangkinkan peralihan paradigma ke arah "tokenisasi keselamatan-pertama" serupa dengan penerimaan komuniti kriptografi terhadap primitif yang terbukti selamat. Pendekatan tokenisasi alternatif yang mengurangkan halusinasi secara dramatik menunjuk ke arah kaedah hibrid yang menggabungkan kecekapan BPE aras bait dengan keteguhan pendekatan aras aksara atau kepingan perkataan. Apabila LLM semakin digunakan dalam aplikasi kritikal keselamatan, menangani kerentanan aras tokenisasi ini menjadi bukan sekadar kebimbangan akademik tetapi keperluan praktikal.
6. Hala Tuju & Aplikasi Masa Depan
Aplikasi Pertahanan
- Piawaian Tokenisasi Teguh: Pembangunan kaedah tokenisasi yang meminimumkan token tidak lengkap sambil mengekalkan kecekapan
- Kerangka Ujian Adversial: Sistem automatik untuk mengesan kerentanan tokenisasi semasa pembangunan model
- Pemantauan Masa Jalan: Pengesanan dan mitigasi serangan bigram tidak mungkin dalam sistem pengeluaran
Peluang Penyelidikan
- Analisis antara bahasa tentang taburan token tidak lengkap
- Integrasi dengan penjanaan dipertingkatkan pengambilan untuk mengurangkan kerapuhan konteks
- Pembangunan kaedah pengesahan formal untuk sifat keselamatan tokenizer
Kesan Industri
Penemuan mempunyai implikasi serta-merta untuk:
- Penanda aras penilaian keselamatan LLM
- Reka bentuk tokenizer dalam model generasi seterusnya
- Kerangka peraturan untuk keselamatan sistem AI
7. Rujukan
- Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
- Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
- Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
- Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
- Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
- Geiping, J., et al. (2024). Jailbreaking through token manipulation.
- Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
- Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017