البيغرامات غير المحتملة: الثغرات الأمنية في مقسمات الرموز من نوع BPE على مستوى البايت

جدول المحتويات

1. المقدمة

يُعد تقسيم الرموز الجسر الحاسم بين النص المقروء للإنسان والرموز المنفصلة القابلة للمعالجة في النماذج اللغوية الكبيرة. كشفت الأبحاث الحديثة عن ثغرات كبيرة في هذا المكون الأساسي، خاصة في مقسمات الرموز من نوع BPE على مستوى البايت. تبحث هذه الورقة في الرموز غير المكتملة—وهي رموز غير قابلة للفك تحتوي على وحدات بايت شاردة ناتجة عن تقسيم الرموز من نوع BPE على مستوى البايت—وحساسيتها للاستغلال عبر البيغرامات غير المحتملة.

تنبع الثغرة الأساسية من اعتماد الرموز غير المكتملة بشكل كبير على الرموز المجاورة للفك السليم. عند اقترانها برموز غير مألوفة في تركيبات خارج التوزيع الطبيعي، تصبح هذه الرموز غير المكتملة هشة وعرضة لإثارة سلوكيات الهلوسة في النماذج اللغوية الكبيرة. يظهر بحثنا أن هذه الثغرة تظل قائمة حتى عندما تكون الرموز المكونة مدربة جيداً، مما يميزها عن مشكلات الرموز المعطلة التي تم تحديدها سابقاً.

90% تخفيض

تخفيض الهلوسة في Llama3.1 باستخدام تقسيم رموز بديل

1.47 مليون بيغرام

الحد الأقصى للبيغرامات غير المكتملة في مقسم Command-R-v01

6 نماذج

تم اختبارها عبر عائلات متعددة من النماذج اللغوية الكبيرة

2. أساسيات تقنية BPE لتقسيم الرموز

2.1 تنفيذ BPE على مستوى البايت

يمتد BPE على مستوى البايت ليشمل خوارزمية BPE التقليدية من خلال العمل مباشرة على وحدات البايت المشفرة بـ UTF-8 بدلاً من أحرف Unicode. تدمج الخوارزمية بشكل تكراري أكثر أزواج البايت أو تسلسلات البايت تكراراً وفقاً للصيغة:

$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$

حيث تمثل $V$ المفردات الحالية و$\text{count}(x,y)$ تشير إلى تكرار زوج البايت $(x,y)$ في مجموعة البيانات التدريبية.

2.2 تعريف الرموز غير المكتملة

الرموز غير المكتملة هي رموز على مستوى البايت لا يمكن فكها بشكل مستقل إلى أحرف Unicode صالحة. تحتوي هذه الرموز على وحدات بايت شاردة تتطلب الدمج مع رموز مجاورة محددة لتشكيل تسلسلات UTF-8 قانونية. تنشأ الثغرة لأن:

تفتقر الرموز غير المكتملة إلى المعنى الدلالي المستقل
تظهر اعتماداً سياقياً قوياً على الرموز المجاورة
تخلق أنماط البايت الخاصة بها غموضاً في الفك

3. منهجية البيغرامات غير المحتملة

3.1 تقنية البناء

البيغرامات غير المحتملة هي تركيبات مُعدة بعناية لرمزين غير مكتملين يشكلان أزواجاً خارج التوزيع الطبيعي. يتبع البناء هذه المبادئ:

اختيار الرموز غير المكتملة من مفردات مقسم الرموز
ضمان إنشاء التركيب لتسلسلات بايت UTF-8 صالحة
تعظيم عدم الاحتمال الإحصائي للاقتران
التحقق من عدم ظهور البيغرام في بيانات التدريب

3.2 تحليل الثغرات الأمنية

تعمل آلية الثغرة عبر ثلاث قنوات رئيسية:

غموض الفك: تخلق الرموز غير المكتملة حالات عدم يقين في التحليل تنتشر عبر طبقات النموذج. يظهر التمثيل الرياضي كيف أن متجهات التضمين للرموز غير المكتملة $e_i$ تظهر تبايناً أعلى:

$$\text{Var}(e_i | \text{incomplete}) > \text{Var}(e_j | \text{complete})$$

هشاشة السياق: يجعل هيكل الاعتماد هذه الرموز هشة عند إزالتها من السياقات المتوقعة، على غرار عدم الاستقرار الملاحظ في الأمثلة العدائية من أبحاث رؤية الحاسوب.

4. النتائج التجريبية

4.1 معدلات الهلوسة

تكشف تجاربنا عبر عائلات متعددة من النماذج اللغوية الكبيرة عن اختلافات كبيرة في معدلات الهلوسة بين تقسيمات الرموز القياسية والبديلة لنفس العبارات:

النموذج	تقسيم الرموز القياسي	تقسيم الرموز البديل	التخفيض
Llama3.1	45.2%	4.5%	90.0%
Qwen2.5	38.7%	6.2%	84.0%
Mistral-Nemo	52.1%	8.9%	82.9%

4.2 المقارنة بين النماذج

يختلف حجم الثغرة بشكل كبير عبر مقسمات الرموز، كما هو موضح في تحليلنا الشامل:

مقسم الرموز	حجم المفردات	الرموز غير المكتملة	البيغرامات غير المكتملة
Meta-Llama-3.1	128k	1,224	71k
Exaone-3.0	102k	1,222	36k
Qwen2.5	151k	1,320	39k
Command-R-v01	255k	2,956	1.47M

5. إطار التحليل التقني

البصيرة الأساسية

نموذج تقسيم الرموز من نوع BPE على مستوى البايت، على الرغم من كفاءته الحسابية، يقدم نقاط ضعف معمارية أساسية تخلق بقعاً عمياء منهجية في النماذج اللغوية الكبيرة.这不是这不是 مجرد خطأ في التنفيذ—بل هو عيب هيكلي في كيفية تعامل مقسمات الرموز الحديثة مع تعقيد Unicode.

التدفق المنطقي

تتبع شلال الثغرة نمطاً يمكن التنبؤ به: التقسيم على مستوى البايت → إنشاء الرموز غير المكتملة → تشكيل الاعتماد السياقي → استغلال عدم الاحتمال الإحصائي → إثارة الهلوسة. يكشف هذا السلسلة أن تقسيم الرموز ليس مجرد معالجة مسبقة—بل هو طبقة أمنية حرجة.

نقاط القوة والضعف

نقاط القوة: منهجية البحث صارمة، مع التحقق عبر النماذج والمقاييس الكمية. توفر فكرة البيغرامات غير المحتملة ناقلاً هجومياً ملموساً لاختبار متانة مقسم الرموز.

نقاط الضعف: تهمش الورقة زاوية تلوث بيانات التدريب. قد تعكس العديد من التركيبات "غير المحتملة" في الواقع أنماط نصية متعددة اللغات نادرة ولكن شرعية بدلاً من كونها مجرد آثار صنعية.

رؤى قابلة للتنفيذ

يجب على مطوري النماذج اللغوية الكبيرة التعامل مع مقسمات الرموز كمكونات أمنية حرجة، وليس مجرد أدوات معالجة مسبقة. تنفيذ فحوصات سلامة تقسيم الرموز في وقت التشغيل، واعتماد أساليب تقسيم رموز هجينة، وإجراء اختبارات عدائية تستهدف على وجه التحديد تركيبات الرموز غير المكتملة.

التحليل الأصلي: نموذج أمنية تقسيم الرموز

يغير هذا البحث بشكل أساسي كيفية تصورنا لتقسيم الرموز في مشهد أمنية النماذج اللغوية الكبيرة. تظهر النتائج أن مقسمات الرموز من نوع BPE على مستوى البايت تخلق ثغرات منهجية تتجاوز البنى المعمارية الفردية للنماذج، مما يذكرنا بالعيوب الأساسية التي تم اكتشافها في الأنظمة التشفيرية المبكرة. على عكس المشكلات الموثقة جيداً مع الرموز المعطلة—التي تؤثر primarily على الرموز غير المدربة جيداً—تبقى ثغرة الرموز غير المكتملة قائمة حتى في النماذج المدربة جيداً، مما يشير إلى مشكلة معمارية أعمق.

إن تخفيض 90% في معدلات الهلوسة عند استخدام تقسيمات رموز بديلة لنفس عبارات الإدخال مدين بشكل خاص. يشير حجم التحسن هذا إلى أن تنفيذات BPE الحالية على مستوى البايت تقدم ضوضاء substantial في خط معالجة النموذج. عند المقارنة بأدبيات المتانة العدائية في رؤية الحاسوب—حيث تمت دراسة ثغرات معمارية مماثلة على نطاق واسع—تظهر طبقة تقسيم الرموز كمكافئ لمعالجة اللغة الطبيعية لهشاشة حدود القرار في مصنفات الصور.

ما يجعل هذا البحث مقنعاً بشكل خاص هو ارتباطه بمخاوف أمنية أوسع نطاقاً لـ Unicode. حذر اتحاد Unicode منذ فترة طويلة من العناصر القابلة للالتباس وثغرات التطبيع، لكن هذا العمل يمتد بهذه المخاوف إلى مجال البنية العصبية. تشير النتيجة التي مفادها أن المفردات الأكبر لـ Command-R-v01 ترتبط بعدد أكبر بشكل كبير من البيغرامات غير المكتملة (1.47 مليون مقابل 71 ألف في Llama3.1) إلى أن تحجيم حجم المفردات دون معالجة هذه المشكلة الأساسية قد يزيد في الواقع من سطح الهجوم.

بالنظر إلى المستقبل، يجب أن يحفز هذا البحث تحولاً نموذجياً نحو "تقسيم الرموز بأولوية الأمنية" similar to تبني مجتمع التشفير للبدائيم المثبتة أمنياً. تشير أساليب تقسيم الرموز البديلة التي تقلل الهلوسة بشكل كبير إلى الأساليب الهجينة التي تجمع بين كفاءة BPE على مستوى البايت ومتانة الأساليب على مستوى الحرف أو قطعة الكلمة. مع نشر النماذج اللغوية الكبيرة بشكل متزايد في التطبيقات الحرجة للسلامة، تصبح معالجة ثغرات مستوى تقسيم الرموز هذه ليس مجرد قلق أكاديمي بل ضرورة عملية.

6. الاتجاهات المستقبلية والتطبيقات

التطبيقات الدفاعية

معايير تقسيم رموز قوية: تطوير طرق تقسيم رموز تقلل من الرموز غير المكتملة مع الحفاظ على الكفاءة
أطر اختبار عدائية: أنظمة آلية للكشف عن ثغرات تقسيم الرموز أثناء تطوير النموذج
المراقبة في وقت التشغيل: الكشف عن هجمات البيغرامات غير المحتملة والتخفيف منها في أنظمة الإنتاج

فرص البحث

التحليل عبر اللغات لتوزيعات الرموز غير المكتملة
التكامل مع التوليد المعزز بالاسترجاع للتخفيف من هشاشة السياق
تطوير طرق التحقق الرسمي لخصائص أمنية مقسم الرموز

التأثير على الصناعة

للنتائج آثار فورية على:

معايير تقييم سلامة النماذج اللغوية الكبيرة
تصميم مقسم الرموز في نماذج الجيل التالي
الأطر التنظيمية لأمنية أنظمة الذكاء الاصطناعي

7. المراجع

Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
Geiping, J., et al. (2024). Jailbreaking through token manipulation.
Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017