فهرست مطالب
1. مقدمه
توکنسازی به عنوان پل حیاتی بین متن قابل خواندن توسط انسان و توکنهای گسسته قابل پردازش توسط مدل در مدلهای زبانی بزرگ (LLMs) عمل میکند. پژوهشهای اخیر آسیبپذیریهای قابل توجهی در این مولفه بنیادی، به ویژه در توکنسازهای BPE سطح بایت، آشکار کردهاند. این مقاله به بررسی توکنهای ناقص—توکنهای غیرقابل رمزگشایی با بایتهای سرگردان که ناشی از توکنسازی BPE سطح بایت هستند—و حساسیت آنها به بهرهبرداری از طریق بیگرامهای نامحتمل میپردازد.
آسیبپذیری اصلی ناشی از وابستگی شدید توکنهای ناقص به توکنهای مجاور برای رمزگشایی صحیح است. هنگامی که این توکنها با توکنهای ناآشنا در ترکیبهای خارج از توزیع جفت میشوند، شکننده شده و مستعد ایجاد رفتارهای توهمزا در LLMها میگردند. پژوهش ما نشان میدهد که این آسیبپذیری حتی زمانی که توکنهای تشکیلدهنده به خوبی آموزش دیدهاند نیز باقی میماند و آن را از مسائل شناسایی شده قبلی توکنهای گلیچ متمایز میسازد.
کاهش ۹۰ درصدی
کاهش توهم در Llama3.1 با توکنسازی جایگزین
۱.۴۷ میلیون بیگرام
حداکثر بیگرامهای ناقص در توکنساز Command-R-v01
۶ مدل
آزمایش شده در چندین خانواده LLM
2. مبانی توکنسازی BPE
2.1 پیادهسازی BPE سطح بایت
BPE سطح بایت، الگوریتم BPE سنتی را با عمل مستقیم روی بایتهای کدگذاری شده UTF-8 به جای کاراکترهای یونیکد گسترش میدهد. این الگوریتم به صورت تکراری، پرتکرارترین جفتهای بایت یا دنبالههای بایت را بر اساس فرمول زیر ادغام میکند:
$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$
که در آن $V$ نشاندهنده واژگان فعلی و $\text{count}(x,y)$ نشاندهنده فراوانی جفت بایت $(x,y)$ در پیکره آموزشی است.
2.2 تعریف توکنهای ناقص
توکنهای ناقص، توکنهای سطح بایتی هستند که نمیتوانند به طور مستقل به کاراکترهای یونیکد معتبر رمزگشایی شوند. این توکنها حاوی بایتهای سرگردانی هستند که برای تشکیل دنبالههای UTF-8 قانونی نیاز به ترکیب با توکنهای مجاور خاص دارند. آسیبپذیری به این دلیل ایجاد میشود که:
- توکنهای ناقص فاقد معنای مستقل معنایی هستند
- آنها وابستگی متنی قوی به توکنهای همسایه نشان میدهند
- الگوهای بایتی آنها ابهامات رمزگشایی ایجاد میکنند
3. روششناسی بیگرامهای نامحتمل
3.1 تکنیک ساخت
بیگرامهای نامحتمل، ترکیبهای ساخته شده دقیق از دو توکن ناقص هستند که جفتهای خارج از توزیع تشکیل میدهند. ساخت از این اصول پیروی میکند:
- توکنهای ناقص را از واژگان توکنساز انتخاب کنید
- اطمینان حاصل کنید که ترکیب، دنبالههای بایتی UTF-8 معتبر ایجاد میکند
- نامحتمل بودن آماری جفتسازی را به حداکثر برسانید
- تأیید کنید که بیگرام در دادههای آموزشی ظاهر نمیشود
3.2 تحلیل آسیبپذیری
مکانیسم آسیبپذیری از طریق سه کانال اصلی عمل میکند:
ابهام رمزگشایی: توکنهای ناقص عدم قطعیتهای تجزیه ایجاد میکنند که از طریق لایههای مدل انتشار مییابند. نمایش ریاضی نشان میدهد که چگونه بردارهای تعبیه برای توکنهای ناقص $e_i$ واریانس بالاتری نشان میدهند:
$$\text{Var}(e_i | \text{incomplete}) > \text{Var}(e_j | \text{complete})$$
شکنندگی متنی: ساختار وابستگی، این توکنها را زمانی که از زمینههای مورد انتظار حذف میشوند، شکننده میسازد، مشابه ناپایداری مشاهده شده در مثالهای متخاصم از پژوهش بینایی کامپیوتر.
4. نتایج تجربی
4.1 نرخهای توهم
آزمایشهای ما در چندین خانواده LLM تفاوتهای چشمگیری در نرخهای توهم بین توکنسازی استاندارد و جایگزین همان عبارات نشان میدهد:
| مدل | توکنسازی استاندارد | توکنسازی جایگزین | کاهش |
|---|---|---|---|
| Llama3.1 | ۴۵.۲٪ | ۴.۵٪ | ۹۰.۰٪ |
| Qwen2.5 | ۳۸.۷٪ | ۶.۲٪ | ۸۴.۰٪ |
| Mistral-Nemo | ۵۲.۱٪ | ۸.۹٪ | ۸۲.۹٪ |
4.2 مقایسه بین مدلی
مقیاس آسیبپذیری در بین توکنسازها به طور قابل توجهی متفاوت است، همانطور که در تحلیل جامع ما نشان داده شده است:
| توکنساز | اندازه واژگان | توکنهای ناقص | بیگرامهای ناقص |
|---|---|---|---|
| Meta-Llama-3.1 | ۱۲۸k | ۱,۲۲۴ | ۷۱k |
| Exaone-3.0 | ۱۰۲k | ۱,۲۲۲ | ۳۶k |
| Qwen2.5 | ۱۵۱k | ۱,۳۲۰ | ۳۹k |
| Command-R-v01 | ۲۵۵k | ۲,۹۵۶ | ۱.۴۷M |
5. چارچوب تحلیل فنی
بینش اصلی
الگوی توکنسازی BPE سطح بایت، در حالی که از نظر محاسباتی کارآمد است، ضعفهای معماری بنیادی معرفی میکند که نقاط کور سیستماتیک در LLMها ایجاد میکند. این تنها یک اشکال پیادهسازی نیست—این یک نقص ساختاری در نحوه برخورد توکنسازهای مدرن با پیچیدگی یونیکد است.
جریان منطقی
آسیبپذیری آبشاری از یک الگوی قابل پیشبینی پیروی میکند: تقسیمبندی سطح بایت → ایجاد توکن ناقص → تشکیل وابستگی متنی → بهرهبرداری از نامحتمل بودن آماری → راهاندازی توهم. این زنجیره نشان میدهد که توکنسازی تنها پیشپردازش نیست—این یک لایه امنیتی حیاتی است.
نقاط قوت و ضعف
نقاط قوت: روششناسی پژوهش دقیق است، با اعتبارسنجی بین مدلی و معیارهای کمی. مفهوم بیگرام نامحتمل یک بردار حمله مشخص برای آزمایش استحکام توکنساز فراهم میکند.
نقاط ضعف: مقاله بر زاویه آلودگی دادههای آموزشی تأکید کافی نمیکند. بسیاری از ترکیبهای "نامحتمل" ممکن است در واقع منعکسکننده الگوهای متنی چندزبانه نادر اما مشروع باشند تا صرفاً مصنوعات.
بینشهای قابل اجرا
توسعهدهندگان LLM باید توکنسازها را به عنوان مولفههای امنیتی حیاتی در نظر بگیرند، نه صرفاً ابزارهای پیشپردازش. بررسیهای سلامت توکنسازی زمان اجرا را پیادهسازی کنید، رویکردهای توکنسازی ترکیبی را اتخاذ کنید و آزمایش متخاصم را به طور خاص هدفگیری ترکیبهای توکن ناقص انجام دهید.
تحلیل اصلی: پارادایم امنیتی توکنسازی
این پژوهش اساساً نحوه مفهومسازی توکنسازی در چشمانداز امنیتی LLM را تغییر میدهد. یافتهها نشان میدهند که توکنسازهای BPE سطح بایت آسیبپذیریهای سیستماتیک ایجاد میکنند که فراتر از معماریهای مدل فردی است، که یادآور نقایص بنیادی کشف شده در سیستمهای رمزنگاری اولیه است. برخلاف مسائل مستند شده با توکنهای گلیچ—که عمدتاً بر توکنهای کمآموزش دیده تأثیر میگذارند—آسیبپذیری توکن ناقص حتی در مدلهای به خوبی آموزش دیده نیز باقی میماند، که نشاندهنده یک مشکل معماری عمیقتر است.
کاهش ۹۰ درصدی نرخهای توهم هنگام استفاده از توکنسازیهای جایگزین برای همان عبارات ورودی به ویژه محکومکننده است. این مقدار بهبود نشان میدهد که پیادهسازیهای فعلی BPE سطح بایت نویز قابل توجهی به خط پردازش مدل وارد میکنند. هنگامی که با ادبیات استحکام متخاصم در بینایی کامپیوتر مقایسه میشود—جایی که آسیبپذیریهای معماری مشابه به طور گسترده مورد مطالعه قرار گرفتهاند—لایه توکنسازی به عنوان معادل NLP شکنندگی مرز تصمیم در طبقهبندهای تصویر ظاهر میشود.
آنچه این پژوهش را به ویژه قانعکننده میسازد، ارتباط آن با نگرانیهای امنیتی گستردهتر یونیکد است. کنسرسیوم یونیکد مدتها است که در مورد اشتباهگیریها و آسیبپذیریهای عادیسازی هشدار داده است، اما این کار آن نگرانیها را به حوزه معماری عصبی گسترش میدهد. یافتهای که واژگان بزرگتر Command-R-v01 با بیگرامهای ناقص بسیار بیشتر (۱.۴۷M در مقابل ۷۱k در Llama3.1) همبستگی دارد، نشان میدهد که مقیاسگذاری اندازه واژگان بدون پرداختن به این مسئله بنیادی ممکن است در واقع سطح حمله را افزایش دهد.
با نگاه به آینده، این پژوهش باید یک تغییر پارادایم به سمت "توکنسازی امنیت-اول" مشابه پذیرش اولیههای امنیتی اثباتشده توسط جامعه رمزنگاری کاتالیز کند. رویکردهای توکنسازی جایگزین که به طور چشمگیری توهم را کاهش میدهند، به سمت روشهای ترکیبی اشاره میکنند که کارایی BPE سطح بایت را با استحکام رویکردهای سطح کاراکتر یا قطعه کلمه ترکیب میکنند. همانطور که LLMها به طور فزایندهای در کاربردهای ایمنی-حیاتی مستقر میشوند، پرداختن به این آسیبپذیریهای سطح توکنسازی نه تنها یک نگرانی آکادمیک، بلکه یک ضرورت عملی میشود.
6. جهتهای آینده و کاربردها
کاربردهای دفاعی
- استانداردهای توکنسازی مستحکم: توسعه روشهای توکنسازی که توکنهای ناقص را به حداقل میرسانند در حالی که کارایی را حفظ میکنند
- چارچوبهای آزمایش متخاصم: سیستمهای خودکار برای تشخیص آسیبپذیریهای توکنسازی در طول توسعه مدل
- نظارت زمان اجرا: تشخیص و کاهش حملات بیگرام نامحتمل در سیستمهای تولید
فرصتهای پژوهشی
- تحلیل بینزبانی توزیع توکنهای ناقص
- ادغام با تولید تقویت شده بازیابی برای کاهش شکنندگی متنی
- توسعه روشهای تأیید رسمی برای ویژگیهای امنیتی توکنساز
تأثیر صنعت
یافتهها پیامدهای فوری برای موارد زیر دارند:
- معیارهای ارزیابی ایمنی LLM
- طراحی توکنساز در مدلهای نسل بعدی
- چارچوبهای نظارتی برای امنیت سیستم هوش مصنوعی
7. مراجع
- Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
- Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
- Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
- Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
- Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
- Geiping, J., et al. (2024). Jailbreaking through token manipulation.
- Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
- Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017