অসম্ভব বিগ্রাম: বাইট-লেভেল BPE টোকেনাইজারে দুর্বলতা

সূচিপত্র

1. ভূমিকা

বড় ভাষা মডেল (এলএলএম) এ মানুষের পাঠযোগ্য টেক্সট এবং মডেল-প্রক্রিয়াযোগ্য বিচ্ছিন্ন টোকেনের মধ্যে টোকেনাইজেশন গুরুত্বপূর্ণ সেতু হিসেবে কাজ করে। সাম্প্রতিক গবেষণা এই মৌলিক উপাদানে উল্লেখযোগ্য দুর্বলতা প্রকাশ করেছে, বিশেষ করে বাইট-লেভেল বাইট-জোড়া এনকোডিং (BPE) টোকেনাইজারে। এই গবেষণাপত্র অসম্পূর্ণ টোকেন—বাইট-লেভেল BPE টোকেনাইজেশন থেকে উদ্ভূত ভাসমান বাইট সহ ডিকোড অযোগ্য টোকেন—এবং অসম্ভব বিগ্রাম এর মাধ্যমে তাদের শোষণের সংবেদনশীলতা তদন্ত করে।

মূল দুর্বলতা উদ্ভূত হয় অসম্পূর্ণ টোকেনের সঠিক ডিকোডিংয়ের জন্য সংলগ্ন টোকেনের উপর প্রবল নির্ভরতা থেকে। বিতরণ-বহির্ভূত সংমিশ্রণে অপরিচিত টোকেনের সাথে জোড়া হলে, এই অসম্পূর্ণ টোকেনগুলি ভঙ্গুর হয়ে পড়ে এবং এলএলএম-এ হ্যালুসিনেটরি আচরণ ট্রিগার করতে প্রবণ হয়। আমাদের গবেষণা দেখায় যে এই দুর্বলতা তখনও বিদ্যমান থাকে যখন উপাদান টোকেনগুলি ভালোভাবে প্রশিক্ষিত হয়, যা পূর্বে চিহ্নিত গ্লিচ টোকেন সমস্যা থেকে এটিকে আলাদা করে।

৯০% হ্রাস

বিকল্প টোকেনাইজেশন সহ Llama3.1-এ হ্যালুসিনেশন হ্রাস

১.৪৭M বিগ্রাম

Command-R-v01 টোকেনাইজারে সর্বোচ্চ অসম্পূর্ণ বিগ্রাম

৬টি মডেল

একাধিক এলএলএম পরিবারে পরীক্ষিত

2. BPE টোকেনাইজেশন মৌলিক বিষয়

2.1 বাইট-লেভেল BPE বাস্তবায়ন

বাইট-লেভেল BPE ঐতিহ্যগত BPE অ্যালগরিদমকে ইউনিকোড অক্ষরের পরিবর্তে সরাসরি UTF-8 এনকোডেড বাইটে পরিচালনা করে প্রসারিত করে। অ্যালগরিদমটি পুনরাবৃত্তভাবে সবচেয়ে ঘন ঘন জোড়া বাইট বা বাইট সিকোয়েন্স নিম্নলিখিত সূত্র অনুসারে একত্রিত করে:

$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$

যেখানে $V$ বর্তমান শব্দভাণ্ডারকে উপস্থাপন করে এবং $\text{count}(x,y)$ প্রশিক্ষণ কর্পাসে বাইট জোড়া $(x,y)$ এর ফ্রিকোয়েন্সি নির্দেশ করে।

2.2 অসম্পূর্ণ টোকেন সংজ্ঞা

অসম্পূর্ণ টোকেন হল বাইট-লেভেল টোকেন যা স্বাধীনভাবে বৈধ ইউনিকোড অক্ষরে ডিকোড করা যায় না। এই টোকেনগুলিতে ভাসমান বাইট থাকে যেগুলির বৈধ UTF-8 সিকোয়েন্স গঠনের জন্য নির্দিষ্ট সংলগ্ন টোকেনের সাথে সংমিশ্রণের প্রয়োজন হয়। দুর্বলতা উদ্ভূত হয় কারণ:

অসম্পূর্ণ টোকেনের স্বাধীন শব্দার্থিক অর্থের অভাব রয়েছে
তারা প্রতিবেশী টোকেনের উপর শক্তিশালী প্রাসঙ্গিক নির্ভরতা প্রদর্শন করে
তাদের বাইট প্যাটার্ন ডিকোডিং অস্পষ্টতা সৃষ্টি করে

3. অসম্ভব বিগ্রাম পদ্ধতি

3.1 গঠন কৌশল

অসম্ভব বিগ্রাম হল দুটি অসম্পূর্ণ টোকেনের সাবধানে নির্মিত সংমিশ্রণ যা বিতরণ-বহির্ভূত জোড়া গঠন করে। নির্মাণ এই নীতিগুলি অনুসরণ করে:

টোকেনাইজার শব্দভাণ্ডার থেকে অসম্পূর্ণ টোকেন নির্বাচন করুন
নিশ্চিত করুন যে সংমিশ্রণটি বৈধ UTF-8 বাইট সিকোয়েন্স তৈরি করে
জোড়ার পরিসংখ্যানগত অসম্ভাব্যতা সর্বাধিক করুন
যাচাই করুন যে বিগ্রামটি প্রশিক্ষণ ডেটাতে উপস্থিত নেই

3.2 দুর্বলতা বিশ্লেষণ

দুর্বলতা প্রক্রিয়াটি তিনটি প্রাথমিক চ্যানেলের মাধ্যমে কাজ করে:

ডিকোডিং অস্পষ্টতা: অসম্পূর্ণ টোকেন পার্সিং অনিশ্চয়তা সৃষ্টি করে যা মডেল স্তরগুলির মাধ্যমে প্রচারিত হয়। গাণিতিক উপস্থাপনা দেখায় যে কীভাবে অসম্পূর্ণ টোকেন $e_i$ এর জন্য এমবেডিং ভেক্টর উচ্চতর ভ্যারিয়েন্স প্রদর্শন করে:

$$\text{Var}(e_i | \text{incomplete}) > \text{Var}(e_j | \text{complete})$$

প্রাসঙ্গিক ভঙ্গুরতা: নির্ভরতা কাঠামো এই টোকেনগুলিকে ভঙ্গুর করে তোলে যখন প্রত্যাশিত প্রসঙ্গ থেকে সরানো হয়, কম্পিউটার ভিশন গবেষণা থেকে প্রতিকূল উদাহরণগুলিতে পর্যবেক্ষণকৃত অস্থিরতার অনুরূপ।

4. পরীক্ষামূলক ফলাফল

4.1 হ্যালুসিনেশন হার

একাধিক এলএলএম পরিবারে আমাদের পরীক্ষাগুলি একই বাক্যাংশের স্ট্যান্ডার্ড এবং বিকল্প টোকেনাইজেশনের মধ্যে হ্যালুসিনেশন হারে নাটকীয় পার্থক্য প্রকাশ করে:

মডেল	স্ট্যান্ডার্ড টোকেনাইজেশন	বিকল্প টোকেনাইজেশন	হ্রাস
Llama3.1	৪৫.২%	৪.৫%	৯০.০%
Qwen2.5	৩৮.৭%	৬.২%	৮৪.০%
Mistral-Nemo	৫২.১%	৮.৯%	৮২.৯%

4.2 ক্রস-মডেল তুলনা

আমাদের ব্যাপক বিশ্লেষণে দেখা গেছে যে দুর্বলতার মাত্রা টোকেনাইজার জুড়ে উল্লেখযোগ্যভাবে পরিবর্তিত হয়:

টোকেনাইজার	শব্দভাণ্ডার আকার	অসম্পূর্ণ টোকেন	অসম্পূর্ণ বিগ্রাম
Meta-Llama-3.1	১২৮k	১,২২৪	৭১k
Exaone-3.0	১০২k	১,২২২	৩৬k
Qwen2.5	১৫১k	১,৩২০	৩৯k
Command-R-v01	২৫৫k	২,৯৫৬	১.৪৭M

5. প্রযুক্তিগত বিশ্লেষণ কাঠামো

মূল অন্তর্দৃষ্টি

বাইট-লেভেল BPE টোকেনাইজেশন প্যারাডাইম, যদিও গণনাগতভাবে দক্ষ, মৌলিক স্থাপত্য দুর্বলতা প্রবর্তন করে যা এলএলএম-এ পদ্ধতিগত অন্ধ স্পট তৈরি করে। এটি কেবল একটি বাস্তবায়ন বাগ নয়—এটি একটি কাঠামোগত ত্রুটি যেভাবে আধুনিক টোকেনাইজারগুলি ইউনিকোড জটিলতা পরিচালনা করে।

লজিক্যাল ফ্লো

দুর্বলতা ক্যাসকেড একটি পূর্বাভাসযোগ্য প্যাটার্ন অনুসরণ করে: বাইট-লেভেল সেগমেন্টেশন → অসম্পূর্ণ টোকেন সৃষ্টি → প্রাসঙ্গিক নির্ভরতা গঠন → পরিসংখ্যানগত অসম্ভাব্যতা শোষণ → হ্যালুসিনেশন ট্রিগারিং। এই চেইন প্রকাশ করে যে টোকেনাইজেশন কেবল প্রিপ্রসেসিং নয়—এটি একটি গুরুত্বপূর্ণ নিরাপত্তা স্তর।

শক্তি ও ত্রুটি

শক্তি: গবেষণা পদ্ধতিটি কঠোর, ক্রস-মডেল বৈধতা এবং পরিমাণগত মেট্রিক্স সহ। অসম্ভব বিগ্রাম ধারণা টোকেনাইজার রোবাস্টনেস পরীক্ষার জন্য একটি কংক্রিট অ্যাটাক ভেক্টর প্রদান করে।

ত্রুটি: কাগজটি প্রশিক্ষণ ডেটা দূষণের দিকটি কম গুরুত্ব দেয়। অনেক "অসম্ভব" সংমিশ্রণ প্রকৃতপক্ষে বিরল কিন্তু বৈধ বহুভাষিক টেক্সট প্যাটার্ন প্রতিফলিত করতে পারে বিশুদ্ধ আর্টিফ্যাক্টের পরিবর্তে।

কার্যকরী অন্তর্দৃষ্টি

এলএলএম ডেভেলপারদের অবশ্যই টোকেনাইজারগুলিকে নিরাপত্তা-সমালোচনামূলক উপাদান হিসাবে বিবেচনা করতে হবে, নিছক প্রিপ্রসেসিং ইউটিলিটি নয়। রানটাইম টোকেনাইজেশন স্যানিটি চেক বাস্তবায়ন করুন, হাইব্রিড টোকেনাইজেশন পদ্ধতি গ্রহণ করুন এবং বিশেষভাবে অসম্পূর্ণ টোকেন সংমিশ্রণকে লক্ষ্য করে প্রতিকূল পরীক্ষা পরিচালনা করুন।

মূল বিশ্লেষণ: টোকেনাইজেশন নিরাপত্তা প্যারাডাইম

এই গবেষণা মৌলিকভাবে পরিবর্তন করে যে কীভাবে আমরা এলএলএম নিরাপত্তা ল্যান্ডস্কেপে টোকেনাইজেশন ধারণা করা উচিত। ফলাফলগুলি প্রদর্শন করে যে বাইট-লেভেল BPE টোকেনাইজারগুলি পদ্ধতিগত দুর্বলতা তৈরি করে যা পৃথক মডেল আর্কিটেকচারকে অতিক্রম করে, প্রারম্ভিক ক্রিপ্টোগ্রাফিক সিস্টেমে আবিষ্কৃত মৌলিক ত্রুটিগুলির স্মরণ করিয়ে দেয়। গ্লিচ টোকেনের সাথে সুপ্রতিষ্ঠিত সমস্যাগুলির বিপরীতে—যা প্রাথমিকভাবে কম প্রশিক্ষিত টোকেনকে প্রভাবিত করে—অসম্পূর্ণ টোকেন দুর্বলতা ভালোভাবে প্রশিক্ষিত মডেলগুলিতেও অব্যাহত থাকে, যা একটি গভীর স্থাপত্য সমস্যার ইঙ্গিত দেয়।

একই ইনপুট বাক্যাংশের জন্য বিকল্প টোকেনাইজেশন ব্যবহার করার সময় হ্যালুসিনেশন হারে ৯০% হ্রাস বিশেষভাবে ক্ষতিকর। উন্নতির এই মাত্রা ইঙ্গিত দেয় যে বর্তমান বাইট-লেভেল BPE বাস্তবায়নগুলি মডেল প্রক্রিয়াকরণ পাইপলাইনে উল্লেখযোগ্য শব্দ প্রবর্তন করছে। কম্পিউটার ভিশনে প্রতিকূল রোবাস্টনেস সাহিত্যের সাথে তুলনা করলে—যেখানে অনুরূপ স্থাপত্য দুর্বলতা ব্যাপকভাবে অধ্যয়ন করা হয়েছে—টোকেনাইজেশন স্তরটি ইমেজ ক্লাসিফায়ারগুলিতে ডিসিশন বাউন্ডারি ভঙ্গুরতার এনএলপি সমতুল্য হিসাবে আবির্ভূত হয়।

এই গবেষণাকে বিশেষভাবে আকর্ষণীয় করে তোলে এটি বৃহত্তর ইউনিকোড নিরাপত্তা উদ্বেগের সাথে এর সংযোগ। ইউনিকোড কনসোর্টিয়াম দীর্ঘদিন ধরে কনফিউজেবল এবং নরমালাইজেশন দুর্বলতা সম্পর্কে সতর্ক করেছে, কিন্তু এই কাজটি সেই উদ্বেগগুলিকে নিউরাল আর্কিটেকচার ডোমেনে প্রসারিত করে। এই সন্ধান যে Command-R-v01-এর বড় শব্দভাণ্ডার নাটকীয়ভাবে আরও অসম্পূর্ণ বিগ্রামের সাথে সম্পর্কিত (Llama3.1-এ ১.৪৭M বনাম ৭১k) ইঙ্গিত দেয় যে এই মৌলিক সমস্যাটি সমাধান না করে শব্দভাণ্ডারের আকার স্কেলিং আসলে অ্যাটাক সারফেস বাড়াতে পারে।

ভবিষ্যতের দিকে তাকিয়ে, এই গবেষণার ক্রিপ্টোগ্রাফিক সম্প্রদায়ের প্রমাণযোগ্য নিরাপদ প্রিমিটিভস গ্রহণের অনুরূপ "নিরাপত্তা-প্রথম টোকেনাইজেশন" এর দিকে একটি প্যারাডাইম শিফট ক্যাটালাইজ করা উচিত। বিকল্প টোকেনাইজেশন পদ্ধতিগুলি যা নাটকীয়ভাবে হ্যালুসিনেশন হ্রাস করে হাইব্রিড পদ্ধতির দিকে ইঙ্গিত করে যা বাইট-লেভেল BPE এর দক্ষতা এবং অক্ষর-লেভেল বা ওয়ার্ড-পিস পদ্ধতির রোবাস্টনেসকে একত্রিত করে। যেহেতু এলএলএমগুলি নিরাপত্তা-সমালোচনামূলক অ্যাপ্লিকেশনে ক্রমবর্ধমানভাবে মোতায়েন করা হচ্ছে, এই টোকেনাইজেশন-লেভেল দুর্বলতাগুলি মোকাবেলা করা কেবল একটি একাডেমিক উদ্বেগ নয় বরং একটি ব্যবহারিক অপরিহার্য হয়ে ওঠে।

6. ভবিষ্যৎ দিকনির্দেশনা ও প্রয়োগ

প্রতিরক্ষামূলক প্রয়োগ

রোবাস্ট টোকেনাইজেশন স্ট্যান্ডার্ড: টোকেনাইজেশন পদ্ধতির উন্নয়ন যা দক্ষতা বজায় রাখার সময় অসম্পূর্ণ টোকেন কমিয়ে দেয়
প্রতিকূল পরীক্ষার কাঠামো: মডেল উন্নয়নের সময় টোকেনাইজেশন দুর্বলতা সনাক্ত করার জন্য স্বয়ংক্রিয় সিস্টেম
রানটাইম মনিটরিং: প্রোডাকশন সিস্টেমে অসম্ভব বিগ্রাম আক্রমণ সনাক্তকরণ এবং প্রশমন

গবেষণার সুযোগ

অসম্পূর্ণ টোকেন বিতরণের ক্রস-লিঙ্গুয়াল বিশ্লেষণ
প্রসঙ্গ ভঙ্গুরতা প্রশমিত করতে পুনরুদ্ধার-বর্ধিত জেনারেশনের সাথে একীকরণ
টোকেনাইজার নিরাপত্তা বৈশিষ্ট্যের জন্য আনুষ্ঠানিক যাচাইকরণ পদ্ধতির উন্নয়ন

শিল্প প্রভাব

ফলাফলের তাৎক্ষণিক প্রভাব রয়েছে:

এলএলএম নিরাপত্তা মূল্যায়ন বেঞ্চমার্ক
পরবর্তী প্রজন্মের মডেলগুলিতে টোকেনাইজার ডিজাইন
এআই সিস্টেম নিরাপত্তার জন্য নিয়ন্ত্রক কাঠামো

7. তথ্যসূত্র

Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
Geiping, J., et al. (2024). Jailbreaking through token manipulation.
Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017