بی‌گرام‌های نامحتمل: آسیب‌پذیری‌ها در توکن‌سازهای BPE سطح بایت

فهرست مطالب

1. مقدمه

توکن‌سازی به عنوان پل حیاتی بین متن قابل خواندن توسط انسان و توکن‌های گسسته قابل پردازش توسط مدل در مدل‌های زبانی بزرگ (LLMs) عمل می‌کند. پژوهش‌های اخیر آسیب‌پذیری‌های قابل توجهی در این مولفه بنیادی، به ویژه در توکن‌سازهای BPE سطح بایت، آشکار کرده‌اند. این مقاله به بررسی توکن‌های ناقص—توکن‌های غیرقابل رمزگشایی با بایت‌های سرگردان که ناشی از توکن‌سازی BPE سطح بایت هستند—و حساسیت آن‌ها به بهره‌برداری از طریق بی‌گرام‌های نامحتمل می‌پردازد.

آسیب‌پذیری اصلی ناشی از وابستگی شدید توکن‌های ناقص به توکن‌های مجاور برای رمزگشایی صحیح است. هنگامی که این توکن‌ها با توکن‌های ناآشنا در ترکیب‌های خارج از توزیع جفت می‌شوند، شکننده شده و مستعد ایجاد رفتارهای توهم‌زا در LLMها می‌گردند. پژوهش ما نشان می‌دهد که این آسیب‌پذیری حتی زمانی که توکن‌های تشکیل‌دهنده به خوبی آموزش دیده‌اند نیز باقی می‌ماند و آن را از مسائل شناسایی شده قبلی توکن‌های گلیچ متمایز می‌سازد.

کاهش ۹۰ درصدی

کاهش توهم در Llama3.1 با توکن‌سازی جایگزین

۱.۴۷ میلیون بی‌گرام

حداکثر بی‌گرام‌های ناقص در توکن‌ساز Command-R-v01

۶ مدل

آزمایش شده در چندین خانواده LLM

2. مبانی توکن‌سازی BPE

2.1 پیاده‌سازی BPE سطح بایت

BPE سطح بایت، الگوریتم BPE سنتی را با عمل مستقیم روی بایت‌های کدگذاری شده UTF-8 به جای کاراکترهای یونیکد گسترش می‌دهد. این الگوریتم به صورت تکراری، پرتکرارترین جفت‌های بایت یا دنباله‌های بایت را بر اساس فرمول زیر ادغام می‌کند:

$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$

که در آن $V$ نشان‌دهنده واژگان فعلی و $\text{count}(x,y)$ نشان‌دهنده فراوانی جفت بایت $(x,y)$ در پیکره آموزشی است.

2.2 تعریف توکن‌های ناقص

توکن‌های ناقص، توکن‌های سطح بایتی هستند که نمی‌توانند به طور مستقل به کاراکترهای یونیکد معتبر رمزگشایی شوند. این توکن‌ها حاوی بایت‌های سرگردانی هستند که برای تشکیل دنباله‌های UTF-8 قانونی نیاز به ترکیب با توکن‌های مجاور خاص دارند. آسیب‌پذیری به این دلیل ایجاد می‌شود که:

توکن‌های ناقص فاقد معنای مستقل معنایی هستند
آن‌ها وابستگی متنی قوی به توکن‌های همسایه نشان می‌دهند
الگوهای بایتی آن‌ها ابهامات رمزگشایی ایجاد می‌کنند

3. روش‌شناسی بی‌گرام‌های نامحتمل

3.1 تکنیک ساخت

بی‌گرام‌های نامحتمل، ترکیب‌های ساخته شده دقیق از دو توکن ناقص هستند که جفت‌های خارج از توزیع تشکیل می‌دهند. ساخت از این اصول پیروی می‌کند:

توکن‌های ناقص را از واژگان توکن‌ساز انتخاب کنید
اطمینان حاصل کنید که ترکیب، دنباله‌های بایتی UTF-8 معتبر ایجاد می‌کند
نامحتمل بودن آماری جفت‌سازی را به حداکثر برسانید
تأیید کنید که بی‌گرام در داده‌های آموزشی ظاهر نمی‌شود

3.2 تحلیل آسیب‌پذیری

مکانیسم آسیب‌پذیری از طریق سه کانال اصلی عمل می‌کند:

ابهام رمزگشایی: توکن‌های ناقص عدم قطعیت‌های تجزیه ایجاد می‌کنند که از طریق لایه‌های مدل انتشار می‌یابند. نمایش ریاضی نشان می‌دهد که چگونه بردارهای تعبیه برای توکن‌های ناقص $e_i$ واریانس بالاتری نشان می‌دهند:

$$\text{Var}(e_i | \text{incomplete}) > \text{Var}(e_j | \text{complete})$$

شکنندگی متنی: ساختار وابستگی، این توکن‌ها را زمانی که از زمینه‌های مورد انتظار حذف می‌شوند، شکننده می‌سازد، مشابه ناپایداری مشاهده شده در مثال‌های متخاصم از پژوهش بینایی کامپیوتر.

4. نتایج تجربی

4.1 نرخ‌های توهم

آزمایش‌های ما در چندین خانواده LLM تفاوت‌های چشمگیری در نرخ‌های توهم بین توکن‌سازی استاندارد و جایگزین همان عبارات نشان می‌دهد:

مدل	توکن‌سازی استاندارد	توکن‌سازی جایگزین	کاهش
Llama3.1	۴۵.۲٪	۴.۵٪	۹۰.۰٪
Qwen2.5	۳۸.۷٪	۶.۲٪	۸۴.۰٪
Mistral-Nemo	۵۲.۱٪	۸.۹٪	۸۲.۹٪

4.2 مقایسه بین مدلی

مقیاس آسیب‌پذیری در بین توکن‌سازها به طور قابل توجهی متفاوت است، همانطور که در تحلیل جامع ما نشان داده شده است:

توکن‌ساز	اندازه واژگان	توکن‌های ناقص	بی‌گرام‌های ناقص
Meta-Llama-3.1	۱۲۸k	۱,۲۲۴	۷۱k
Exaone-3.0	۱۰۲k	۱,۲۲۲	۳۶k
Qwen2.5	۱۵۱k	۱,۳۲۰	۳۹k
Command-R-v01	۲۵۵k	۲,۹۵۶	۱.۴۷M

5. چارچوب تحلیل فنی

بینش اصلی

الگوی توکن‌سازی BPE سطح بایت، در حالی که از نظر محاسباتی کارآمد است، ضعف‌های معماری بنیادی معرفی می‌کند که نقاط کور سیستماتیک در LLMها ایجاد می‌کند. این تنها یک اشکال پیاده‌سازی نیست—این یک نقص ساختاری در نحوه برخورد توکن‌سازهای مدرن با پیچیدگی یونیکد است.

جریان منطقی

آسیب‌پذیری آبشاری از یک الگوی قابل پیش‌بینی پیروی می‌کند: تقسیم‌بندی سطح بایت → ایجاد توکن ناقص → تشکیل وابستگی متنی → بهره‌برداری از نامحتمل بودن آماری → راه‌اندازی توهم. این زنجیره نشان می‌دهد که توکن‌سازی تنها پیش‌پردازش نیست—این یک لایه امنیتی حیاتی است.

نقاط قوت و ضعف

نقاط قوت: روش‌شناسی پژوهش دقیق است، با اعتبارسنجی بین مدلی و معیارهای کمی. مفهوم بی‌گرام نامحتمل یک بردار حمله مشخص برای آزمایش استحکام توکن‌ساز فراهم می‌کند.

نقاط ضعف: مقاله بر زاویه آلودگی داده‌های آموزشی تأکید کافی نمی‌کند. بسیاری از ترکیب‌های "نامحتمل" ممکن است در واقع منعکس‌کننده الگوهای متنی چندزبانه نادر اما مشروع باشند تا صرفاً مصنوعات.

بینش‌های قابل اجرا

توسعه‌دهندگان LLM باید توکن‌سازها را به عنوان مولفه‌های امنیتی حیاتی در نظر بگیرند، نه صرفاً ابزارهای پیش‌پردازش. بررسی‌های سلامت توکن‌سازی زمان اجرا را پیاده‌سازی کنید، رویکردهای توکن‌سازی ترکیبی را اتخاذ کنید و آزمایش متخاصم را به طور خاص هدف‌گیری ترکیب‌های توکن ناقص انجام دهید.

تحلیل اصلی: پارادایم امنیتی توکن‌سازی

این پژوهش اساساً نحوه مفهوم‌سازی توکن‌سازی در چشم‌انداز امنیتی LLM را تغییر می‌دهد. یافته‌ها نشان می‌دهند که توکن‌سازهای BPE سطح بایت آسیب‌پذیری‌های سیستماتیک ایجاد می‌کنند که فراتر از معماری‌های مدل فردی است، که یادآور نقایص بنیادی کشف شده در سیستم‌های رمزنگاری اولیه است. برخلاف مسائل مستند شده با توکن‌های گلیچ—که عمدتاً بر توکن‌های کم‌آموزش دیده تأثیر می‌گذارند—آسیب‌پذیری توکن ناقص حتی در مدل‌های به خوبی آموزش دیده نیز باقی می‌ماند، که نشان‌دهنده یک مشکل معماری عمیق‌تر است.

کاهش ۹۰ درصدی نرخ‌های توهم هنگام استفاده از توکن‌سازی‌های جایگزین برای همان عبارات ورودی به ویژه محکوم‌کننده است. این مقدار بهبود نشان می‌دهد که پیاده‌سازی‌های فعلی BPE سطح بایت نویز قابل توجهی به خط پردازش مدل وارد می‌کنند. هنگامی که با ادبیات استحکام متخاصم در بینایی کامپیوتر مقایسه می‌شود—جایی که آسیب‌پذیری‌های معماری مشابه به طور گسترده مورد مطالعه قرار گرفته‌اند—لایه توکن‌سازی به عنوان معادل NLP شکنندگی مرز تصمیم در طبقه‌بندهای تصویر ظاهر می‌شود.

آنچه این پژوهش را به ویژه قانع‌کننده می‌سازد، ارتباط آن با نگرانی‌های امنیتی گسترده‌تر یونیکد است. کنسرسیوم یونیکد مدت‌ها است که در مورد اشتباه‌گیری‌ها و آسیب‌پذیری‌های عادی‌سازی هشدار داده است، اما این کار آن نگرانی‌ها را به حوزه معماری عصبی گسترش می‌دهد. یافته‌ای که واژگان بزرگتر Command-R-v01 با بی‌گرام‌های ناقص بسیار بیشتر (۱.۴۷M در مقابل ۷۱k در Llama3.1) همبستگی دارد، نشان می‌دهد که مقیاس‌گذاری اندازه واژگان بدون پرداختن به این مسئله بنیادی ممکن است در واقع سطح حمله را افزایش دهد.

با نگاه به آینده، این پژوهش باید یک تغییر پارادایم به سمت "توکن‌سازی امنیت-اول" مشابه پذیرش اولیه‌های امنیتی اثبات‌شده توسط جامعه رمزنگاری کاتالیز کند. رویکردهای توکن‌سازی جایگزین که به طور چشمگیری توهم را کاهش می‌دهند، به سمت روش‌های ترکیبی اشاره می‌کنند که کارایی BPE سطح بایت را با استحکام رویکردهای سطح کاراکتر یا قطعه کلمه ترکیب می‌کنند. همانطور که LLMها به طور فزاینده‌ای در کاربردهای ایمنی-حیاتی مستقر می‌شوند، پرداختن به این آسیب‌پذیری‌های سطح توکن‌سازی نه تنها یک نگرانی آکادمیک، بلکه یک ضرورت عملی می‌شود.

6. جهت‌های آینده و کاربردها

کاربردهای دفاعی

استانداردهای توکن‌سازی مستحکم: توسعه روش‌های توکن‌سازی که توکن‌های ناقص را به حداقل می‌رسانند در حالی که کارایی را حفظ می‌کنند
چارچوب‌های آزمایش متخاصم: سیستم‌های خودکار برای تشخیص آسیب‌پذیری‌های توکن‌سازی در طول توسعه مدل
نظارت زمان اجرا: تشخیص و کاهش حملات بی‌گرام نامحتمل در سیستم‌های تولید

فرصت‌های پژوهشی

تحلیل بین‌زبانی توزیع توکن‌های ناقص
ادغام با تولید تقویت شده بازیابی برای کاهش شکنندگی متنی
توسعه روش‌های تأیید رسمی برای ویژگی‌های امنیتی توکن‌ساز

تأثیر صنعت

یافته‌ها پیامدهای فوری برای موارد زیر دارند:

معیارهای ارزیابی ایمنی LLM
طراحی توکن‌ساز در مدل‌های نسل بعدی
چارچوب‌های نظارتی برای امنیت سیستم هوش مصنوعی

7. مراجع

Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
Geiping, J., et al. (2024). Jailbreaking through token manipulation.
Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017