Bigram Tidak Mungkin: Kelemahan dalam Tokenizer BPE Aras Bait

Kandungan

1. Pengenalan

Tokenisasi berfungsi sebagai jambatan kritikal antara teks yang boleh dibaca manusia dan token diskret yang boleh diproses model dalam model bahasa besar (LLM). Penyelidikan terkini telah mendedahkan kerentanan signifikan dalam komponen asas ini, terutamanya dalam tokenizer pengekodan berpasangan bait aras bait (BPE). Kertas kerja ini menyiasat token tidak lengkap—token yang tidak boleh dinyahkod dengan bait sesat yang terhasil daripada tokenisasi BPE aras bait—dan kerentanan mereka terhadap eksploitasi melalui bigram tidak mungkin.

Kerentanan teras berpunca daripada kebergantungan berat token tidak lengkap pada token bersebelahan untuk penyahkodan yang betul. Apabila dipasangkan dengan token yang tidak dikenali dalam kombinasi luar taburan, token tidak lengkap ini menjadi rapuh dan cenderung mencetuskan tingkah laku berhalusinasi dalam LLM. Penyelidikan kami menunjukkan bahawa kerentanan ini berterusan walaupun token konstituen dilatih dengan baik, membezakannya daripada isu token rosak yang telah dikenal pasti sebelum ini.

Pengurangan 90%

Pengurangan halusinasi dalam Llama3.1 dengan tokenisasi alternatif

1.47Juta Bigram

Bigram tidak lengkap maksimum dalam tokenizer Command-R-v01

6 Model

Diuji merentasi pelbagai keluarga LLM

2. Asas Tokenisasi BPE

2.1 Pelaksanaan BPE Aras Bait

BPE aras bait melanjutkan algoritma BPE tradisional dengan beroperasi secara langsung pada bait yang dikodkan UTF-8 dan bukannya aksara Unicode. Algoritma ini secara berulang menggabungkan pasangan bait atau jujukan bait yang paling kerap mengikut formula:

$$\text{gabung}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{kiraan}(x,y)}{\text{kiraan}(x) \cdot \text{kiraan}(y)}$$

di mana $V$ mewakili perbendaharaan kata semasa dan $\text{kiraan}(x,y)$ menandakan kekerapan pasangan bait $(x,y)$ dalam korpus latihan.

2.2 Definisi Token Tidak Lengkap

Token tidak lengkap ialah token aras bait yang tidak boleh dinyahkod secara bebas kepada aksara Unicode yang sah. Token ini mengandungi bait sesat yang memerlukan gabungan dengan token bersebelahan tertentu untuk membentuk jujukan UTF-8 yang sah. Kerentanan timbul kerana:

Token tidak lengkap kekurangan makna semantik bebas
Mereka mempamerkan kebergantungan kontekstual yang kuat pada token jiran
Corak bait mereka mencipta kekaburan penyahkodan

3. Metodologi Bigram Tidak Mungkin

3.1 Teknik Pembinaan

Bigram tidak mungkin ialah kombinasi yang dibina dengan teliti daripada dua token tidak lengkap yang membentuk pasangan luar taburan. Pembinaan mengikut prinsip berikut:

Pilih token tidak lengkap daripada perbendaharaan kata tokenizer
Pastikan kombinasi mencipta jujukan bait UTF-8 yang sah
Maksimumkan ketidakmungkinan statistik pasangan
Sahkan bigram tidak muncul dalam data latihan

3.2 Analisis Kerentanan

Mekanisme kerentanan beroperasi melalui tiga saluran utama:

Kekaburan Penyahkodan: Token tidak lengkap mencipta ketidakpastian penghuraian yang merambat melalui lapisan model. Perwakilan matematik menunjukkan bagaimana vektor benaman untuk token tidak lengkap $e_i$ mempamerkan varians lebih tinggi:

$$\text{Var}(e_i | \text{tidak lengkap}) > \text{Var}(e_j | \text{lengkap})$$

Kerapuhan Kontekstual: Struktur kebergantungan menjadikan token ini rapuh apabila dikeluarkan daripada konteks yang dijangkakan, serupa dengan ketidakstabilan yang diperhatikan dalam contoh adversial daripada penyelidikan penglihatan komputer.

4. Keputusan Eksperimen

4.1 Kadar Halusinasi

Eksperimen kami merentasi pelbagai keluarga LLM mendedahkan perbezaan dramatik dalam kadar halusinasi antara tokenisasi piawai dan alternatif bagi frasa yang sama:

Model	Tokenisasi Piawai	Tokenisasi Alternatif	Pengurangan
Llama3.1	45.2%	4.5%	90.0%
Qwen2.5	38.7%	6.2%	84.0%
Mistral-Nemo	52.1%	8.9%	82.9%

4.2 Perbandingan Antara Model

Skala kerentanan berbeza dengan ketara merentasi tokenizer, seperti yang ditunjukkan dalam analisis komprehensif kami:

Tokenizer	Saiz Perbendaharaan Kata	Token Tidak Lengkap	Bigram Tidak Lengkap
Meta-Llama-3.1	128k	1,224	71k
Exaone-3.0	102k	1,222	36k
Qwen2.5	151k	1,320	39k
Command-R-v01	255k	2,956	1.47M

5. Kerangka Analisis Teknikal

Inti Teras

Paradigma tokenisasi BPE aras bait, walaupun cekap secara pengiraan, memperkenalkan kelemahan seni bina asas yang mencipta titik buta sistematik dalam LLM. Ini bukan sekadar pepijat pelaksanaan—ia adalah kecacatan struktur dalam cara tokenizer moden mengendalikan kerumitan Unicode.

Aliran Logik

Kaskad kerentanan mengikut corak yang boleh diramal: Segmentasi aras bait → Penciptaan token tidak lengkap → Pembentukan kebergantungan kontekstual → Eksploitasi ketidakmungkinan statistik → Pencetus halusinasi. Rantai ini mendedahkan bahawa tokenisasi bukan sekadar pra-pemprosesan—ia adalah lapisan keselamatan kritikal.

Kekuatan & Kelemahan

Kekuatan: Metodologi penyelidikan adalah ketat, dengan pengesahan antara model dan metrik kuantitatif. Konsep bigram tidak mungkin menyediakan vektor serangan konkrit untuk menguji keteguhan tokenizer.

Kelemahan: Kertas kerja ini kurang menekankan sudut pencemaran data latihan. Banyak kombinasi "tidak mungkin" sebenarnya mungkin mencerminkan corak teks pelbagai bahasa yang jarang tetapi sah dan bukannya artifak tulen.

Wawasan Boleh Tindak

Pembangun LLM mesti menganggap tokenizer sebagai komponen kritikal keselamatan, bukan sekadar utiliti pra-pemprosesan. Melaksanakan semakan kewarasan tokenisasi masa jalan, menerima pakai pendekatan tokenisasi hibrid, dan menjalankan ujian adversial yang khusus mensasarkan kombinasi token tidak lengkap.

Analisis Asal: Paradigma Keselamatan Tokenisasi

Penyelidikan ini secara asasnya mengubah cara kita harus mengkonsepsikan tokenisasi dalam landskap keselamatan LLM. Penemuan menunjukkan bahawa tokenizer BPE aras bait mencipta kerentanan sistematik yang melangkaui seni bina model individu, mengingatkan kembali kepada kecacatan asas yang ditemui dalam sistem kriptografi awal. Tidak seperti isu yang didokumenkan dengan baik mengenai token rosak—yang terutamanya menjejaskan token yang kurang dilatih—kerentanan token tidak lengkap berterusan walaupun dalam model yang dilatih dengan baik, mencadangkan masalah seni bina yang lebih mendalam.

Pengurangan 90% dalam kadar halusinasi apabila menggunakan tokenisasi alternatif untuk frasa input yang sama adalah sangat membimbangkan. Peningkatan magnitud ini menunjukkan bahawa pelaksanaan BPE aras bait semasa memperkenalkan hingar yang besar ke dalam saluran pemprosesan model. Apabila dibandingkan dengan literatur keteguhan adversial dalam penglihatan komputer—di mana kerentanan seni bina serupa telah dikaji secara meluas—lapisan tokenisasi muncul sebagai setara NLP dengan kerapuhan sempadan keputusan dalam pengelas imej.

Apa yang menjadikan penyelidikan ini amat menarik ialah sambungannya kepada kebimbangan keselamatan Unicode yang lebih luas. Konsortium Unicode telah lama memberi amaran tentang kekeliruan dan kerentanan penormalan, tetapi kerja ini melanjutkan kebimbangan tersebut ke dalam domain seni bina neural. Penemuan bahawa perbendaharaan kata lebih besar Command-R-v01 berkorelasi dengan lebih banyak bigram tidak lengkap secara dramatik (1.47Juta berbanding 71k dalam Llama3.1) mencadangkan bahawa penskalaan saiz perbendaharaan kata tanpa menangani isu asas ini sebenarnya mungkin meningkatkan permukaan serangan.

Ke hadapan, penyelidikan ini harus memangkinkan peralihan paradigma ke arah "tokenisasi keselamatan-pertama" serupa dengan penerimaan komuniti kriptografi terhadap primitif yang terbukti selamat. Pendekatan tokenisasi alternatif yang mengurangkan halusinasi secara dramatik menunjuk ke arah kaedah hibrid yang menggabungkan kecekapan BPE aras bait dengan keteguhan pendekatan aras aksara atau kepingan perkataan. Apabila LLM semakin digunakan dalam aplikasi kritikal keselamatan, menangani kerentanan aras tokenisasi ini menjadi bukan sekadar kebimbangan akademik tetapi keperluan praktikal.

6. Hala Tuju & Aplikasi Masa Depan

Aplikasi Pertahanan

Piawaian Tokenisasi Teguh: Pembangunan kaedah tokenisasi yang meminimumkan token tidak lengkap sambil mengekalkan kecekapan
Kerangka Ujian Adversial: Sistem automatik untuk mengesan kerentanan tokenisasi semasa pembangunan model
Pemantauan Masa Jalan: Pengesanan dan mitigasi serangan bigram tidak mungkin dalam sistem pengeluaran

Peluang Penyelidikan

Analisis antara bahasa tentang taburan token tidak lengkap
Integrasi dengan penjanaan dipertingkatkan pengambilan untuk mengurangkan kerapuhan konteks
Pembangunan kaedah pengesahan formal untuk sifat keselamatan tokenizer

Kesan Industri

Penemuan mempunyai implikasi serta-merta untuk:

Penanda aras penilaian keselamatan LLM
Reka bentuk tokenizer dalam model generasi seterusnya
Kerangka peraturan untuk keselamatan sistem AI

7. Rujukan

Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
Geiping, J., et al. (2024). Jailbreaking through token manipulation.
Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017