فهرست مطالب
1. مقدمه
ترانسفورمرهای بینایی (ViTs) انقلابی در وظایف بینایی کامپیوتر ایجاد کردهاند اما به دلیل مکانیزمهای توجه خودی از پیچیدگی محاسباتی درجه دوم رنج میبرند. روشهای موجود هرس توکن عمدتاً بر اهمیت توکن متمرکز شده و توکنهای "توجهپذیر" را حفظ کرده در حالی که توکنهای "غیرتوجه" را دور میریزند. با این حال، این رویکرد تنوع سراسری توکن را نادیده میگیرد که برای بیانگری مدل حیاتی است. این مقاله یک روش نوین تفکیک و ادغام توکن معرفی میکند که بهطور همزمان برای اهمیت و تنوع توکن بهینهسازی میکند.
معیارهای کلیدی عملکرد
DeiT-S: کاهش 35% در FLOPs با تنها 0.2% افت دقت
DeiT-T: کاهش 40% در FLOPs با 0.1% بهبود دقت
2. روششناسی
2.1 تفکیک توکن
بر اساس نمرات توجه توکن کلاس، توکنها را به گروههای توجهپذیر و غیرتوجه جدا میکنیم. نمره توجه برای توکن $i$ به صورت $A_i = \text{softmax}\left(\frac{Q_{cls}K_i^T}{\sqrt{d}}\right)$ محاسبه میشود، که در آن $Q_{cls}$ پرسوجوی توکن کلاس و $K_i$ کلید برای توکن $i$ است.
2.2 ادغام توکن
ما متمایزترین توکنهای محلی را از گروه توجهپذیر حفظ کرده در حالی که توکنهای غیرتوجه مشابه را با استفاده از الگوریتمهای خوشهبندی ادغام میکنیم. فرآیند ادغام، از دست دادن اطلاعات را به حداقل رسانده و در عین حال تنوع توکن را به حداکثر میرساند.
2.3 فرمولبندی ریاضی
تابع هدف کلی، حفظ اهمیت و بیشینهسازی تنوع را ترکیب میکند: $L = \alpha L_{imp} + \beta L_{div}$، که در آن $L_{imp}$ اطمینان میدهد توکنهای مهم حفظ شوند و $L_{div}$ از طریق تنظیمکننده خوشهبندی تنوع را ترویج میدهد.
3. آزمایشها و نتایج
3.1 تنظیمات آزمایشی
ما روش خود را روی ImageNet-1K با استفاده از معماریهای DeiT-S و DeiT-T ارزیابی میکنیم. روشهای مقایسهای شامل DyViT و EViT برای هرس مبتنی بر اهمیت و خوشهبندی ساده برای رویکردهای مبتنی بر تنوع هستند.
3.2 مقایسه عملکرد
روش ما در نرخهای نگهداری مختلف به عملکرد پیشرفته دست مییابد. روی DeiT-S، ما FLOPs را 35% کاهش داده با تنها 0.2% افت دقت، که از روشهای صرفاً مبتنی بر اهمیت که در نرخهای نگهداری پایین دچار افت دقت قابل توجهی میشوند، بهتر عمل میکند.
3.3 مطالعات حذفی
آزمایشها تأیید میکنند که هر دو مؤلفه اهمیت و تنوع ضروری هستند. حذف هر یک از مؤلفهها منجر به افت عملکرد میشود، که تنوع بهویژه در نرخهای نگهداری پایین حیاتی است.
4. چارچوب تحلیل
بینش اصلی
دستاورد اساسی در اینجا تشخیص این است که تنوع توکن فقط یک ویژگی خوب نیست—بلکه برای حفظ بیانگری مدل در طول هرس غیرقابل مذاکره است. در حالی که همه در پی نمرات توجه بودند، این تحقیق نقص حیاتی در رویکردهای صرفاً مبتنی بر اهمیت را آشکار میکند: آنها اتاقهای پژواک از توکنهای توجهبالای مشابه ایجاد میکنند.
جریان منطقی
روششناسی یک فرآیند سه مرحلهای ظریف را دنبال میکند: تفکیک بر اساس توجه، حفظ ویژگیهای محلی حیاتی، سپس ادغام استراتژیک برای حفظ زمینه سراسری. این بهبود تدریجی نیست—بلکه بازاندیشی معماری است که تنش اصلی بین کارایی و ظرفیت بازنمایی را مورد توجه قرار میدهد.
نقاط قوت و ضعف
نقاط قوت: هدف بهینهسازی دوگانه از نظر ریاضی صحیح است، نتایج تجربی در معماریهای مختلف قانعکننده هستند، و رویکرد به ظرافت درک نظری را با پیادهسازی عملی پیوند میدهد. این واقعیت که DeiT-T در حین کاهش محاسبات در واقع دقت را بهبود میبخشد قابل توجه است.
نقاط ضعف: سربار خوشهبندی ناچیز نیست، و روش فرض میکند نمرات اهمیت ایستا هستند که ممکن است در سناریوهای استنتاج پویا صادق نباشند. در مقایسه با روشهای انتخاب توکن پویا مانند DynamicViT، مبادلات تأخیر بالقوهای وجود دارد که نیاز به رسیدگی دارند.
بینشهای عملی
برای متخصصان: این رویکرد را فوراً برای هر استقرار ViT که بودجه محاسباتی اهمیت دارد پیادهسازی کنید. برای محققان: اصل حفظ تنوع باید در تمام تحقیقات ترانسفورمر کارآمد استاندارد شود—این میتواند قطعه گمشده برای واقعاً مقیاسپذیر کردن ViTها باشد.
5. کاربردهای آینده
این رویکرد پیامدهای قابل توجهی برای کاربردهای بینایی بلادرنگ، محاسبات لبه و سیستمهای بینایی در مقیاس بزرگ دارد. اصول میتواند فراتر از طبقهبندی به وظایف تشخیص شی، تقسیمبندی و درک ویدیو گسترش یابد که در آن کارایی محاسباتی حیاتی است.
6. مراجع
- Vaswani et al. "Attention Is All You Need" (2017)
- Dosovitskiy et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" (2020)
- Liu et al. "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows" (2021)
- Wang et al. "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions" (2021)