ফাস্ট ওয়ার্ডপিস টোকেনাইজেশন: BERT এবং এর বাইরের জন্য একটি লিনিয়ার-টাইম অ্যালগরিদম

সূচিপত্র

1. ভূমিকা

সেন্টিমেন্ট অ্যানালাইসিস থেকে শুরু করে মেশিন ট্রান্সলেশন পর্যন্ত, প্রায় সব ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) টাস্কের জন্য টোকেনাইজেশন হল মৌলিক প্রিপ্রসেসিং ধাপ। BERT, GPT-3, এবং XLNet-এর মতো আধুনিক মডেলগুলি সাবওয়ার্ড টোকেনাইজেশনের উপর নির্ভর করে, বিশেষ করে ওয়ার্ডপিসের মতো অ্যালগরিদম, যাতে পাঠ্যকে অর্থপূর্ণ ইউনিটে ভাঙা যায় এবং শব্দভান্ডারের বাইরের শব্দও হ্যান্ডেল করা যায়। এই গবেষণাপত্রটি একটি গুরুত্বপূর্ণ বাধা সমাধান করে: ওয়ার্ডপিস টোকেনাইজেশন অ্যালগরিদমের নিজস্ব দক্ষতা।

লেখকগণ চিহ্নিত করেছেন যে ওয়ার্ডপিসে ব্যবহৃত স্ট্যান্ডার্ড লোভী দীর্ঘতম-ম্যাচ-প্রথম (MaxMatch) কৌশলের সময় জটিলতা সর্বোত্তম নয়—$O(n^2)$ বা $O(nk)$, যেখানে $n$ হল ইনপুটের দৈর্ঘ্য এবং $k$ হল সর্বোচ্চ টোকেন দৈর্ঘ্য। তারা LinMaxMatch প্রস্তাব করেন, একটি অভিনব অ্যালগরিদম যা একক-শব্দ টোকেনাইজেশনের জন্য কঠোর $O(n)$ লিনিয়ার-টাইম জটিলতা অর্জন করে, এবং সাধারণ পাঠ্যের জন্য একটি সমন্বিত এন্ড-টু-এন্ড (E2E) ওয়ার্ডপিস অ্যালগরিদম প্রস্তাব করেন।

2. পটভূমি ও সম্পর্কিত কাজ

BERT-এ ব্যবহৃত ওয়ার্ডপিস টোকেনাইজেশনে দুটি ধাপ জড়িত: (১) স্পেস এবং যতিচিহ্নের ভিত্তিতে পাঠ্যকে শব্দে প্রি-টোকেনাইজ করা, এবং (২) একটি নির্দিষ্ট শব্দভান্ডারের বিপরীতে প্রতিটি শব্দে MaxMatch অ্যালগরিদম প্রয়োগ করা। MaxMatch, যা চাইনিজ ওয়ার্ড সেগমেন্টেশনেও ব্যবহৃত হয়, অবশিষ্ট স্ট্রিং-এর দীর্ঘতম প্রিফিক্স নির্বাচন করে যা একটি শব্দভান্ডার টোকেনের সাথে মেলে।

পূর্ববর্তী দক্ষ অ্যালগরিদমগুলি $O(n^2)$ বা $O(nk)$-এ সীমাবদ্ধ ছিল। $k$ ফ্যাক্টরটি সমস্যাজনক কারণ শব্দভান্ডারে দীর্ঘ টোকেন থাকতে পারে (যেমন, "supercalifragilisticexpialidocious")। এই গবেষণাপত্রের অবদান হল এই শব্দভান্ডার-নির্ভর ফ্যাক্টরটিকে সম্পূর্ণরূপে দূর করা।

3. LinMaxMatch অ্যালগরিদম

3.1 মূল ধারণা ও অনুপ্রেরণা

LinMaxMatch Aho-Corasick স্ট্রিং ম্যাচিং অ্যালগরিদম দ্বারা অনুপ্রাণিত। মূল অন্তর্দৃষ্টি হল শব্দভান্ডারকে প্যাটার্নের একটি সেট এবং ইনপুট শব্দটিকে টেক্সট হিসেবে বিবেচনা করা। শব্দভান্ডার ট্রাই-তে অক্সিলিয়ারি ডেটা স্ট্রাকচার প্রিকম্পিউট করে, অ্যালগরিদম ম্যাচিংয়ের সময় ব্যাকট্র্যাকিং এড়াতে পারে, যা ন্যাভ MaxMatch-এ দ্বিঘাত জটিলতার উৎস।

3.2 ডেটা স্ট্রাকচার: ট্রাই, ফেইলিওর লিংক এবং ফেইলিওর পপ

অ্যালগরিদমটি অফলাইন প্রিপ্রসেসিং পর্যায়ে শব্দভান্ডার থেকে তৈরি তিনটি মূল ডেটা স্ট্রাকচার ব্যবহার করে:

ট্রাই: একটি স্ট্যান্ডার্ড প্রিফিক্স ট্রি যেখানে প্রতিটি নোড একটি ক্যারেক্টার প্রতিনিধিত্ব করে এবং রুট থেকে পাথগুলি শব্দভান্ডার টোকেন প্রতিনিধিত্ব করে।
ফেইলিওর লিংক (Aho-Corasick-এর অনুরূপ): একটি স্ট্রিং $s$ প্রতিনিধিত্বকারী একটি নোডের জন্য, এর ফেইলিওর লিংক সেই নোডটিকে নির্দেশ করে যা $s$-এর দীর্ঘতম প্রকৃত সাফিক্সকে প্রতিনিধিত্ব করে এবং যা কিছু শব্দভান্ডার টোকেনের প্রিফিক্সও। এটি অ্যালগরিদমকে দক্ষতার সাথে "ফেইল ওভার" করতে দেয়।
ফেইলিওর পপ: একটি অভিনব সংযোজন। যখন একটি নোড থেকে তার ফেইলিওর লিংকের মাধ্যমে ট্রাভার্স করা হয়, অ্যালগরিদম সেই নোডে শেষ হওয়া এক বা একাধিক ম্যাচ করা টোকেন "পপ" করতে পারে। এই তালিকাটি প্রিকম্পিউট করা হয় এবং সংরক্ষণ করা হয়।

3.3 অ্যালগরিদম ওয়াকথ্রু

$n$ দৈর্ঘ্যের একটি ইনপুট শব্দের জন্য, অ্যালগরিদমটি ক্যারেক্টারগুলিকে বাম থেকে ডানে একবার প্রক্রিয়া করে। এটি ট্রাইতে একটি বর্তমান নোড বজায় রাখে। প্রতিটি নতুন ক্যারেক্টারের জন্য:

বর্তমান নোড থেকে ম্যাচিং এজ অনুসরণ করার চেষ্টা করুন।
সফল হলে, চাইল্ড নোডে যান। যদি এই নোডটি একটি শব্দভান্ডার টোকেনের শেষ বিন্দু হয়, তাহলে এটিকে সম্ভাব্য ম্যাচ হিসেবে রেকর্ড করুন।
যদি কোন ম্যাচিং এজ না থাকে, বর্তমান নোডের ফেইলিওর লিংক অনুসরণ করুন। সংশ্লিষ্ট "ফেইলিওর পপ" তালিকায় সংরক্ষিত যেকোনো টোকেন সংগ্রহ করুন। তারপর, নতুন নোড থেকে একই ইনপুট ক্যারেক্টার ম্যাচ করার পুনরায় চেষ্টা করুন।

এই প্রক্রিয়াটি নিশ্চিত করে যে প্রতিটি ক্যারেক্টার ঠিক একবার প্রক্রিয়া করা হয়, যা $O(n)$ সময় নিশ্চিত করে।

4. এন্ড-টু-এন্ড (E2E) ওয়ার্ডপিস টোকেনাইজেশন

সম্পূর্ণ বাক্য বা ডকুমেন্ট টোকেনাইজ করার জন্য, লেখকগণ প্রি-টোকেনাইজেশন ধাপ (স্পেস/যতিচিহ্নে বিভক্ত করা) এবং LinMaxMatch-কে একটি একক, সমন্বিত অ্যালগরিদমে একীভূত করার প্রস্তাব করেন। এই E2E ওয়ার্ডপিস অ্যালগরিদমও মোট পাঠ্যের দৈর্ঘ্যের সাপেক্ষে লিনিয়ার সময়ে কাজ করে, পৃথক পর্যায়ের ওভারহেড এড়িয়ে। এটি একই ট্রাই ট্রাভার্সাল কাঠামোর মধ্যে সীমানা শনাক্তকরণ এবং সাবওয়ার্ড ম্যাচিংকে চতুরতার সাথে ইন্টারলিভ করে।

5. পরীক্ষামূলক ফলাফল ও কার্যকারিতা

গবেষণাপত্রটি তাদের বাস্তবায়নের সাথে দুটি বহুল ব্যবহৃত লাইব্রেরির তুলনায় চিত্তাকর্ষক বেঞ্চমার্ক উপস্থাপন করে: HuggingFace Tokenizers এবং TensorFlow Text।

কার্যকারিতা তুলনা

গড় গতি বৃদ্ধি:

HuggingFace Tokenizers-এর চেয়ে 8.2x দ্রুত।
TensorFlow Text-এর চেয়ে 5.1x দ্রুত।

সাধারণ পাঠ্য টোকেনাইজেশন টাস্কে পরীক্ষিত।

ফলাফলগুলি দেখায় যে তাত্ত্বিক $O(n)$ সুবিধা উল্লেখযোগ্য বাস্তব-বিশ্বের কার্যকারিতা লাভে রূপান্তরিত হয়, বিশেষ করে দীর্ঘ পাঠ্যের জন্য বা মোবাইল ইনফারেন্সের মতো লেটেন্সি-সংবেদনশীল পরিবেশে।

6. মূল অন্তর্দৃষ্টি ও বিশ্লেষণ

মূল অন্তর্দৃষ্টি

গবেষণাপত্রের মৌলিক সাফল্য শুধু একটি দ্রুত টোকেনাইজার নয়; এটি টোকেনাইজেশনকে একটি স্ট্রিং ম্যাচিং সমস্যা হিসেবে আনুষ্ঠানিক স্বীকৃতি দেওয়া যা ক্লাসিক অটোমাটা তত্ত্ব দ্বারা সমাধানযোগ্য। ওয়ার্ডপিসের MaxMatch-কে একটি ন্যাভ লোভী সার্চ থেকে একটি Aho-Corasick ভেরিয়েন্টে রূপান্তরিত করে, লেখকগণ তাত্ত্বিক কম্পিউটার বিজ্ঞান এবং প্রয়োগিত NLP ইঞ্জিনিয়ারিংয়ের মধ্যে দশক-পুরানো ফাঁক পূরণ করেন। এটি স্মরণ করিয়ে দেয় কীভাবে CycleGAN গবেষণাপত্রটি ইমেজ ট্রান্সলেশনকে একটি চক্র-সামঞ্জস্যপূর্ণ অ্যাডভারসারিয়াল লার্নিং সমস্যা হিসেবে রূপান্তরিত করে, একটি নতুন প্যারাডাইম তৈরি করেছিল।

লজিক্যাল ফ্লো

যুক্তিটি যৌক্তিকভাবে অটুট: ১) বাধা চিহ্নিত করুন ($O(n^2)$/$O(nk)$ জটিলতা)। ২) একটি প্রমাণিত, সর্বোত্তম অ্যালগরিদম (Aho-Corasick) থেকে অনুপ্রেরণা নিন। ৩) MaxMatch-এর নির্দিষ্ট সীমাবদ্ধতার (সমস্ত ম্যাচ করা টোকেন আউটপুট করার প্রয়োজন, শুধু অস্তিত্ব নয়) সাথে খাপ খাইয়ে নিন। ৪) এই সীমাবদ্ধতা হ্যান্ডেল করার জন্য অভিনব ডেটা স্ট্রাকচার (ফেইলিওর পপ) চালু করুন। ৫) সম্পূর্ণ পাইপলাইনে (E2E) সমাধান প্রসারিত করুন। সমস্যা থেকে অনুপ্রেরণা, খাপ খাওয়ানো এবং সাধারণীকরণের এই প্রবাহটি উদাহরণস্বরূপ প্রয়োগিত গবেষণা।

শক্তি ও ত্রুটি

শক্তি: $O(n)$ গ্যারান্টি তাত্ত্বিকভাবে মার্জিত এবং ব্যবহারিকভাবে যাচাইকৃত। প্রিপ্রসেসিং খরচ হল এককালীন ওভারহেড। মোবাইল/এজ NLP-এর উপর প্রভাব উল্লেখযোগ্য হতে পারে, যেমন লেখকগণ উল্লেখ করেছেন এবং Google AI-এর মতো প্রতিষ্ঠানের অন-ডিভাইস AI গবেষণার প্রবণতা দ্বারা সমর্থিত।

সম্ভাব্য ত্রুটি/অবহেলা: গবেষণাপত্রটি উন্নত ট্রাই (ফেইলিওর লিংক ও পপ)-এর জন্য মেমরি ওভারহেডের উপর হালকাভাবে স্পর্শ করে কিন্তু গভীরভাবে বিশ্লেষণ করে না। বিশাল শব্দভান্ডারের জন্য (যেমন, বহুভাষিক মডেল), এটি তুচ্ছ নাও হতে পারে। তদুপরি, বেঞ্চমার্কটি চিত্তাকর্ষক হলেও, নির্দিষ্ট বাস্তবায়নের বিরুদ্ধে। অন্যান্য অপ্টিমাইজড MaxMatch ভেরিয়েন্টের (যেমন, সাফিক্স অ্যারে ব্যবহার করে) সাথে তুলনা দাবিটিকে শক্তিশালী করবে।

কার্যকরী অন্তর্দৃষ্টি

NLP অনুশীলনকারীদের জন্য: আপনার টোকেনাইজেশন লেটেন্সি অবিলম্বে প্রোফাইল করুন। যদি এটি আপনার মোট ইনফারেন্স সময়ের ১-২% এর বেশি হয়, বিশেষ করে স্ট্রিমিং বা মোবাইল অ্যাপ্লিকেশনের জন্য, LinMaxMatch-এর মতো একটি অ্যালগরিদম গ্রহণ করা একটি উচ্চ-ROI অপ্টিমাইজেশন। গবেষকদের জন্য: এই কাজটি দরজা খুলে দেয়। অনুরূপ অটোমাটা-ভিত্তিক পদ্ধতি কি Byte-Pair Encoding (BPE) বা SentencePiece অপ্টিমাইজ করতে পারে? মূল ধারণা—ব্যাকট্র্যাকিংকে প্রিকম্পিউটেড স্টেট ট্রানজিশন দিয়ে প্রতিস্থাপন করা—NLP-তে অন্যান্য লোভী সেগমেন্টেশন অ্যালগরিদমে ব্যাপকভাবে প্রযোজ্য।

7. প্রযুক্তিগত বিবরণ ও গাণিতিক সূত্রায়ন

LinMaxMatch-এর মূলকে আনুষ্ঠানিক করা যেতে পারে। ধরুন:

$V$ = শব্দভান্ডার, স্ট্রিংগুলির একটি সেট।
$T$ = $V$ থেকে তৈরি ট্রাই।
একটি ট্রাই নোড $u$-এর জন্য, $L(u)$ হল রুট থেকে $u$ পর্যন্ত ক্যারেক্টার দ্বারা গঠিত স্ট্রিং।
ফেইলিওর ফাংশন $f(u)$: নোড $v$ যাতে $L(v)$ হল $L(u)$-এর দীর্ঘতম প্রকৃত সাফিক্স যেখানে $v$ও $T$-তে একটি নোড।
ফেইলিওর পপ $P(u)$: শব্দভান্ডার টোকেন $t \in V$-এর সেট যেখানে $t$ হল $L(u)$-এর একটি সাফিক্স এবং রুট থেকে $f(u)$ (বা $u$ নিজেই) পর্যন্ত পথে একটি নোড $w$ বিদ্যমান যেখানে $L(w) = t$। এটি সমস্ত নোডের জন্য প্রিকম্পিউট করা হয়।

ইনপুট স্ট্রিং $S[1..n]$-এর টোকেনাইজেশন একটি বর্তমান নোড $u$ (প্রাথমিকভাবে রুট) এবং একটি ইনডেক্স $i$ বজায় রেখে এগোয়। যখন $i \leq n$:

যদি $u$-এর একটি চাইল্ড $v$ থাকে যার এজ লেবেল $S[i]$, তাহলে $u = v$, $i = i+1$ সেট করুন। যদি $u$ একটি শব্দভান্ডার টোকেনের শেষ চিহ্নিত করে, এটি নোট করুন।
অন্যথায়, $P(u)$-এর সমস্ত টোকেন আউটপুট করুন। $u = f(u)$ সেট করুন। $i$ বৃদ্ধি করবেন না। যদি $u$ রুট হয় এবং কোন চাইল্ড $S[i]$-এর সাথে মেলে না, তাহলে $i = i+1$ (অজানা ক্যারেক্টার হ্যান্ডেল করুন)।

এই লুপের $O(n)$ জটিলতা স্পষ্ট, কারণ $i$ হয় বৃদ্ধি পায় অথবা $u$ ফেইলিওর লিংক অনুসরণ করে, যা প্রতি ধাপে একটি ধ্রুবক হিসেবে অ্যামরটাইজ করা যেতে পারে।

8. বিশ্লেষণ কাঠামো: একটি কেস স্টাডি

পরিস্থিতি: একটি স্মার্টফোনে রিয়েল-টাইম ভয়েস অ্যাসিস্টেন্টের জন্য টোকেনাইজেশন অপ্টিমাইজ করা। বর্তমান পাইপলাইন একটি জনপ্রিয় লাইব্রেরি থেকে একটি স্ট্যান্ডার্ড ওয়ার্ডপিস টোকেনাইজার ব্যবহার করে।

কাঠামো প্রয়োগ:

বেসলাইন পরিমাপ: প্রোফাইল দেখায় টোকেনাইজেশন প্রতি ক্যোয়ারিতে ~১৫ms খরচ করে, যা মোট পাইপলাইন লেটেন্সির (১২৫ms) ১২%। লক্ষ্য হল <১০০ms।
বাধা বিশ্লেষণ: ক্যোয়ারিগুলি প্রায়ই দীর্ঘ হয় (কথিত বাক্য)। $O(nk)$ ফ্যাক্টরটি উল্লেখযোগ্য কারণ শব্দভান্ডারে প্রযুক্তিগত যৌগিক শব্দ রয়েছে।
সমাধান নকশা: টোকেনাইজারটিকে LinMaxMatch দিয়ে প্রতিস্থাপন করুন। ফেইলিওর লিংক/পপ সহ উন্নত ট্রাই তৈরির এককালীন খরচ মডেল ডেপ্লয়মেন্টের সময় গ্রহণযোগ্য।
প্রত্যাশিত ফলাফল: গবেষণাপত্রের ৫-৮x গতি বৃদ্ধির ভিত্তিতে, টোকেনাইজেশন সময় ~২-৩ms-এ নেমে আসা উচিত, মোট লেটেন্সি ~১১২ms-এ কমিয়ে আনা, যা লক্ষ্যের দিকে একটি দৃঢ় পদক্ষেপ। ধ্রুব-সময়ের গ্যারান্টি লেটেন্সি পূর্বাভাসযোগ্যতাও উন্নত করে।

এই কেস স্টাডিটি দেখায় কীভাবে অ্যালগরিদমের তাত্ত্বিক বৈশিষ্ট্যগুলি আধুনিক AI সিস্টেমের ব্যবহারিক সীমাবদ্ধতাগুলিকে সরাসরি সমাধান করে।

9. প্রয়োগের সম্ভাবনা ও ভবিষ্যতের দিকনির্দেশ

দক্ষ, লিনিয়ার-টাইম টোকেনাইজেশনের প্রভাব BERT-এর বাইরেও প্রসারিত:

অন-ডিভাইস ও এজ AI: যখন GPT-এর মতো আর্কিটেকচার ফোনের জন্য ডিস্টিল করা হয়, প্রিপ্রসেসিংয়ে সংরক্ষিত প্রতিটি মিলিসেকেন্ড যৌগিক সুবিধা দেয়। এই কাজটি প্রতিক্রিয়াশীল, অফলাইন-সক্ষম NLP অ্যাপ্লিকেশনের পরবর্তী প্রজন্মের জন্য মৌলিক।
স্ট্রিমিং টোকেনাইজেশন: রিয়েল-টাইম ট্রান্সলেশন বা লাইভ ক্যাপশনিংয়ের জন্য, $O(n)$ জটিলতা পূর্বাভাসযোগ্য কার্যকারিতা নিশ্চিত করে। ভবিষ্যতের কাজ অসীম স্ট্রিমের জন্য ইনক্রিমেন্টাল টোকেনাইজেশন অন্বেষণ করতে পারে।
বহুভাষিক ও বৃহৎ শব্দভান্ডার: ১০০+ ভাষায় ১M+ টোকেন সহ শব্দভান্ডারে স্কেলিং। প্রিকম্পিউটেড স্ট্রাকচারের মেমরি ফুটপ্রিন্ট অপ্টিমাইজ করার জন্য গবেষণা প্রয়োজন, সম্ভবত কম্প্রেসড ট্রাই বা আনুমানিক পদ্ধতি ব্যবহার করে।
মডেল আর্কিটেকচারের সাথে একীকরণ: টোকেনাইজেশন আংশিকভাবে শেখা যেতে পারে বা একটি ট্রান্সফরমারের প্রথম লেয়ারের সাথে একীভূত হতে পারে? প্রসঙ্গের উপর ভিত্তি করে "ডাইনামিক টোকেনাইজেশন" একটি উন্মুক্ত চ্যালেঞ্জ রয়ে গেছে, কিন্তু এইরকম একটি দক্ষ বেস অ্যালগরিদম এই ধরনের অন্বেষণের জন্য একটি পূর্বশর্ত।

10. তথ্যসূত্র

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT.
Aho, A. V., & Corasick, M. J. (1975). Efficient string matching: an aid to bibliographic search. Communications of the ACM.
Kudo, T. (2018). Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates. ACL.
Wolf, T., et al. (2020). HuggingFace's Transformers: State-of-the-art Natural Language Processing. arXiv preprint arXiv:1910.03771.
Google. (2020). TensorFlow Text. https://www.tensorflow.org/text
Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. NeurIPS.
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. ICCV. (প্যারাডাইম-শিফটিং রিফ্রেমিংয়ের উদাহরণ হিসেবে উদ্ধৃত)।