असंभावित बिग्राम: बाइट-लेवल BPE टोकनाइज़र में कमजोरियाँ

विषय सूची

1. परिचय

बड़े भाषा मॉडल (LLM) में टोकनाइज़ेशन मानव-पठनीय पाठ और मॉडल-प्रोसेस करने योग्य असतत टोकन के बीच महत्वपूर्ण सेतु का कार्य करता है। हाल के शोध ने इस आधारभूत घटक में महत्वपूर्ण कमजोरियों को उजागर किया है, विशेष रूप से बाइट-लेवल बाइट-पेयर एन्कोडिंग (BPE) टोकनाइज़र में। यह शोध पत्र अपूर्ण टोकन—बाइट-लेवल BPE टोकनाइज़ेशन से उत्पन्न अवैध बाइट वाले डीकोड न हो सकने वाले टोकन—और असंभावित बिग्राम के माध्यम से उनके शोषण की संवेदनशीलता की जांच करता है।

मूल कमजोरी अपूर्ण टोकन के उचित डीकोडिंग के लिए आसन्न टोकन पर भारी निर्भरता से उत्पन्न होती है। जब वितरण-बाह्य संयोजनों में अपरिचित टोकन के साथ जोड़े जाते हैं, तो ये अपूर्ण टोकन नाजुक हो जाते हैं और LLM में भ्रामक व्यवहार शुरू करने के लिए प्रवृत्त होते हैं। हमारा शोध दर्शाता है कि यह कमजोरी तब भी बनी रहती है जब घटक टोकन अच्छी तरह से प्रशिक्षित होते हैं, जो इसे पहले पहचानी गई ग्लिच टोकन समस्याओं से अलग करता है।

90% कमी

वैकल्पिक टोकनाइज़ेशन के साथ Llama3.1 में भ्रम में कमी

1.47M बिग्राम

Command-R-v01 टोकनाइज़र में अधिकतम अपूर्ण बिग्राम

6 मॉडल

कई LLM परिवारों में परीक्षण किए गए

2. BPE टोकनाइज़ेशन के मूल सिद्धांत

2.1 बाइट-लेवल BPE कार्यान्वयन

बाइट-लेवल BPE पारंपरिक BPE एल्गोरिदम को यूनिकोड वर्णों के बजाय सीधे UTF-8 एन्कोडेड बाइट पर संचालित करके विस्तारित करता है। एल्गोरिदम सूत्र के अनुसार बाइट या बाइट अनुक्रमों के सबसे लगातार जोड़े को पुनरावृत्त रूप से मर्ज करता है:

$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$

जहां $V$ वर्तमान शब्दावली का प्रतिनिधित्व करता है और $\text{count}(x,y)$ प्रशिक्षण कॉर्पस में बाइट जोड़ी $(x,y)$ की आवृत्ति को दर्शाता है।

2.2 अपूर्ण टोकन की परिभाषा

अपूर्ण टोकन बाइट-लेवल टोकन हैं जिन्हें स्वतंत्र रूप से वैध यूनिकोड वर्णों में डीकोड नहीं किया जा सकता है। इन टोकन में अवैध बाइट होते हैं जिन्हें कानूनी UTF-8 अनुक्रम बनाने के लिए विशिष्ट आसन्न टोकन के साथ संयोजन की आवश्यकता होती है। कमजोरी इसलिए उत्पन्न होती है क्योंकि:

अपूर्ण टोकन में स्वतंत्र अर्थपूर्ण अर्थ का अभाव होता है
वे पड़ोसी टोकन पर मजबूत संदर्भात्मक निर्भरता प्रदर्शित करते हैं
उनके बाइट पैटर्न डीकोडिंग अस्पष्टताएं पैदा करते हैं

3. असंभावित बिग्राम मेथडोलॉजी

3.1 निर्माण तकनीक

असंभावित बिग्राम दो अपूर्ण टोकनों के सावधानीपूर्वक निर्मित संयोजन हैं जो वितरण-बाह्य जोड़े बनाते हैं। निर्माण इन सिद्धांतों का पालन करता है:

टोकनाइज़र शब्दावली से अपूर्ण टोकन का चयन करें
सुनिश्चित करें कि संयोजन वैध UTF-8 बाइट अनुक्रम बनाता है
जोड़ी की सांख्यिकीय असंभावना को अधिकतम करें
सत्यापित करें कि बिग्राम प्रशिक्षण डेटा में दिखाई नहीं देता है

3.2 कमजोरी विश्लेषण

कमजोरी तंत्र तीन प्राथमिक चैनलों के माध्यम से संचालित होता है:

डीकोडिंग अस्पष्टता: अपूर्ण टोकन पार्सिंग अनिश्चितताएं पैदा करते हैं जो मॉडल परतों के माध्यम से फैलती हैं। गणितीय प्रतिनिधित्व दर्शाता है कि कैसे अपूर्ण टोकन $e_i$ के लिए एम्बेडिंग वेक्टर उच्च विचरण प्रदर्शित करते हैं:

$$\text{Var}(e_i | \text{incomplete}) > \text{Var}(e_j | \text{complete})$$

संदर्भात्मक नाजुकता: निर्भरता संरचना इन टोकनों को अपेक्षित संदर्भों से हटाए जाने पर भंगुर बना देती है, जो कंप्यूटर विजन शोध में प्रतिकूल उदाहरणों में देखी गई अस्थिरता के समान है।

4. प्रायोगिक परिणाम

4.1 भ्रम दर

कई LLM परिवारों में हमारे प्रयोग एक ही वाक्यांशों के मानक और वैकल्पिक टोकनाइज़ेशन के बीच भ्रम दर में नाटकीय अंतर प्रकट करते हैं:

मॉडल	मानक टोकनाइज़ेशन	वैकल्पिक टोकनाइज़ेशन	कमी
Llama3.1	45.2%	4.5%	90.0%
Qwen2.5	38.7%	6.2%	84.0%
Mistral-Nemo	52.1%	8.9%	82.9%

4.2 क्रॉस-मॉडल तुलना

हमारे व्यापक विश्लेषण में दिखाया गया है कि कमजोरी का पैमाना टोकनाइज़र में काफी भिन्न होता है:

टोकनाइज़र	शब्दावली आकार	अपूर्ण टोकन	अपूर्ण बिग्राम
Meta-Llama-3.1	128k	1,224	71k
Exaone-3.0	102k	1,222	36k
Qwen2.5	151k	1,320	39k
Command-R-v01	255k	2,956	1.47M

5. तकनीकी विश्लेषण फ्रेमवर्क

मुख्य अंतर्दृष्टि

बाइट-लेवल BPE टोकनाइज़ेशन प्रतिमान, हालांकि कम्प्यूटेशनल रूप से कुशल है, मौलिक आर्किटेक्चरल कमजोरियां पेश करता है जो LLM में व्यवस्थित अंध धब्बे पैदा करते हैं। यह केवल एक कार्यान्वयन बग नहीं है—यह एक संरचनात्मक दोष है कि आधुनिक टोकनाइज़र यूनिकोड जटिलता को कैसे संभालते हैं।

तार्किक प्रवाह

कमजोरी कैस्केड एक अनुमानित पैटर्न का पालन करता है: बाइट-लेवल विभाजन → अपूर्ण टोकन निर्माण → संदर्भात्मक निर्भरता गठन → सांख्यिकीय असंभावना शोषण → भ्रम ट्रिगरिंग। यह श्रृंखला प्रकट करती है कि टोकनाइज़ेशन केवल प्रीप्रोसेसिंग नहीं है—यह एक महत्वपूर्ण सुरक्षा परत है।

शक्तियां और दोष

शक्तियां: शोध पद्धति क्रॉस-मॉडल सत्यापन और मात्रात्मक मेट्रिक्स के साथ कठोर है। असंभावित बिग्राम अवधारणा टोकनाइज़र मजबूती का परीक्षण करने के लिए एक ठोस हमला वेक्टर प्रदान करती है।

दोष: पेपर प्रशिक्षण डेटा संदूषण पहलू पर पर्याप्त जोर नहीं देता है। कई "असंभावित" संयोजन वास्तव में शुद्ध आर्टिफैक्ट्स के बजाय दुर्लभ लेकिन वैध बहुभाषी पाठ पैटर्न को प्रतिबिंबित कर सकते हैं।

कार्रवाई योग्य अंतर्दृष्टि

LLM डेवलपर्स को टोकनाइज़र को सुरक्षा-महत्वपूर्ण घटकों के रूप में मानना चाहिए, न कि केवल प्रीप्रोसेसिंग उपयोगिताओं के रूप में। रनटाइम टोकनाइज़ेशन सैनिटी चेक लागू करें, हाइब्रिड टोकनाइज़ेशन दृष्टिकोण अपनाएं, और विशेष रूप से अपूर्ण टोकन संयोजन को लक्षित करने वाले प्रतिकूल परीक्षण आयोजित करें।

मूल विश्लेषण: टोकनाइज़ेशन सुरक्षा प्रतिमान

यह शोध मौलिक रूप से बदलता है कि हमें LLM सुरक्षा परिदृश्य में टोकनाइज़ेशन को कैसे समझना चाहिए। निष्कर्ष दर्शाते हैं कि बाइट-लेवल BPE टोकनाइज़र व्यवस्थित कमजोरियां पैदा करते हैं जो व्यक्तिगत मॉडल आर्किटेक्चर को पार कर जाती हैं, जो शुरुआती क्रिप्टोग्राफिक सिस्टम में खोजे गए मौलिक दोषों की याद दिलाती हैं। ग्लिच टोकन के साथ अच्छी तरह से प्रलेखित मुद्दों के विपरीत—जो मुख्य रूप से कम प्रशिक्षित टोकन को प्रभावित करते हैं—अपूर्ण टोकन कमजोरी अच्छी तरह से प्रशिक्षित मॉडल में भी बनी रहती है, जो एक गहरी आर्किटेक्चरल समस्या का सुझाव देती है।

एक ही इनपुट वाक्यांशों के लिए वैकल्पिक टोकनाइज़ेशन का उपयोग करने पर भ्रम दर में 90% की कमी विशेष रूप से निंदनीय है। सुधार की यह परिमाण इंगित करती है कि वर्तमान बाइट-लेवल BPE कार्यान्वयन मॉडल प्रोसेसिंग पाइपलाइन में पर्याप्त शोर पेश कर रहे हैं। कंप्यूटर विजन में प्रतिकूल मजबूती साहित्य की तुलना करने पर—जहां समान आर्किटेक्चरल कमजोरियों का व्यापक रूप से अध्ययन किया गया है—टोकनाइज़ेशन परत इमेज क्लासिफायर में निर्णय सीमा नाजुकता के NLP समकक्ष के रूप में उभरती है।

इस शोध को विशेष रूप से आकर्षक बनाने वाली बात यह है कि इसका व्यापक यूनिकोड सुरक्षा चिंताओं से संबंध है। यूनिकोड कंसोर्टियम लंबे समय से भ्रमित करने वाले और सामान्यीकरण कमजोरियों के बारे में चेतावनी देता रहा है, लेकिन यह कार्य उन चिंताओं को तंत्रिका आर्किटेक्चर डोमेन में विस्तारित करता है। यह खोज कि Command-R-v01 की बड़ी शब्दावली नाटकीय रूप से अधिक अपूर्ण बिग्राम (Llama3.1 में 71k बनाम 1.47M) से संबंधित है, सुझाव देती है कि इस मौलिक मुद्दे को संबोधित किए बिना शब्दावली आकार को स्केल करना वास्तव में हमला सतह बढ़ा सकता है।

आगे देखते हुए, इस शोध को क्रिप्टोग्राफिक समुदाय के सिद्ध सुरक्षित आदिमों को अपनाने के समान "सुरक्षा-प्रथम टोकनाइज़ेशन" की ओर एक प्रतिमान बदलाव को उत्प्रेरित करना चाहिए। वैकल्पिक टोकनाइज़ेशन दृष्टिकोण जो नाटकीय रूप से भ्रम को कम करते हैं, हाइब्रिड विधियों की ओर इशारा करते हैं जो बाइट-लेवल BPE की दक्षता को वर्ण-स्तर या वर्ड-पीस दृष्टिकोण की मजबूती के साथ जोड़ते हैं। जैसे-जैसे LLM सुरक्षा-महत्वपूर्ण अनुप्रयोगों में तैनात होते जा रहे हैं, इन टोकनाइज़ेशन-स्तरीय कमजोरियों को संबोधित करना केवल एक शैक्षणिक चिंता नहीं बल्कि एक व्यावहारिक अनिवार्यता बन जाती है।

6. भविष्य की दिशाएं और अनुप्रयोग

रक्षात्मक अनुप्रयोग

मजबूत टोकनाइज़ेशन मानक: दक्षता बनाए रखते हुए अपूर्ण टोकन को कम करने वाली टोकनाइज़ेशन विधियों का विकास
प्रतिकूल परीक्षण फ्रेमवर्क: मॉडल विकास के दौरान टोकनाइज़ेशन कमजोरियों का पता लगाने के लिए स्वचालित सिस्टम
रनटाइम मॉनिटरिंग: प्रोडक्शन सिस्टम में असंभावित बिग्राम हमलों का पता लगाना और शमन

शोध अवसर

अपूर्ण टोकन वितरण का क्रॉस-भाषाई विश्लेषण
संदर्भ नाजुकता को कम करने के लिए पुनर्प्राप्ति-वर्धित जनरेशन के साथ एकीकरण
टोकनाइज़र सुरक्षा गुणों के लिए औपचारिक सत्यापन विधियों का विकास

उद्योग प्रभाव

निष्कर्षों के तत्काल निहितार्थ हैं:

LLM सुरक्षा मूल्यांकन बेंचमार्क
अगली पीढ़ी के मॉडल में टोकनाइज़र डिजाइन
AI सिस्टम सुरक्षा के लिए नियामक ढांचे

7. संदर्भ

Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
Geiping, J., et al. (2024). Jailbreaking through token manipulation.
Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017