超越注意力令牌：基於令牌重要性同多樣性嘅高效視覺Transformer

1. 引言

視覺Transformer（ViTs）徹底改變咗電腦視覺任務，但由於自注意力機制而存在二次計算複雜度嘅問題。現有嘅令牌修剪方法主要集中喺令牌重要性，保留「有注意力」嘅令牌同時丟棄「冇注意力」嘅令牌。然而，呢種方法忽略咗全局令牌多樣性，而呢個對於模型表達能力至關重要。本文介紹一種嶄新嘅令牌解耦同合併方法，同時優化令牌重要性同多樣性。

關鍵性能指標

DeiT-S：減少35% FLOPs，準確度僅下降0.2%

DeiT-T：減少40% FLOPs，準確度反而提升0.1%

2. 方法論

2.1 令牌解耦

基於類別令牌注意力分數，我哋將令牌分為有注意力同冇注意力兩組。令牌$i$嘅注意力分數計算公式為$A_i = \text{softmax}\left(\frac{Q_{cls}K_i^T}{\sqrt{d}}\right)$，其中$Q_{cls}$係類別令牌查詢，$K_i$係令牌$i$嘅鍵。

2.2 令牌合併

我哋保留有注意力組中最具區分性嘅局部令牌，同時使用聚類算法合併相似嘅冇注意力令牌。合併過程喺最小化信息損失嘅同時，最大化令牌多樣性。

2.3 數學公式

整體目標函數結合咗重要性保持同多樣性最大化：$L = \alpha L_{imp} + \beta L_{div}$，其中$L_{imp}$確保重要令牌被保留，$L_{div}$通過聚類正則化促進多樣性。

3. 實驗與結果

3.1 實驗設置

我哋使用DeiT-S同DeiT-T架構，喺ImageNet-1K上評估我哋嘅方法。比較方法包括基於重要性修剪嘅DyViT同EViT，以及基於多樣性嘅簡單聚類方法。

3.2 性能比較

我哋嘅方法喺唔同保留率下都實現咗最先進嘅性能。喺DeiT-S上，我哋減少35% FLOPs，準確度僅下降0.2%，表現優於純基於重要性嘅方法，後者喺低保留率時會出現明顯準確度下降。

3.3 消融研究

實驗證實重要性同多樣性組件都係必不可少嘅。移除任何一個組件都會導致性能下降，其中多樣性喺低保留率時尤其關鍵。

4. 分析框架

核心洞察

根本性突破在於認識到令牌多樣性唔單止係錦上添花——而係修剪過程中保持模型表達能力嘅必要條件。當大家都喺度追逐注意力分數時，呢項研究揭示咗純基於重要性方法嘅關鍵缺陷：佢哋會創造出相似高注意力令牌嘅迴音室。

邏輯流程

方法論遵循優雅嘅三步流程：根據注意力解耦，保留關鍵局部特徵，然後策略性合併以維持全局上下文。呢個唔係漸進式改進——而係解決效率同表示能力之間核心矛盾嘅架構重新思考。

優勢與缺陷

優勢：雙重優化目標喺數學上合理，實證結果喺唔同架構上都具說服力，而且方法優雅地連接理論理解同實際實現。DeiT-T喺減少計算量嘅同時實際提升準確度呢個事實非常出色。

缺陷：聚類開銷唔細，而且方法假設靜態重要性分數，呢個假設喺動態推理場景中可能唔成立。同DynamicViT等動態令牌選擇方法相比，存在潛在嘅延遲權衡需要解決。

可行建議

對於實踐者：如果任何ViT部署需要考慮計算預算，請立即實施呢種方法。對於研究人員：多樣性保持原則應該成為所有高效transformer研究嘅標準——呢個可能係令ViTs真正可擴展嘅缺失部分。

5. 未來應用

呢種方法對實時視覺應用、邊緣計算同大規模視覺系統具有重要意義。相關原則可以擴展到分類之外，應用於物件檢測、分割同視頻理解任務，呢啲任務中計算效率至關重要。

6. 參考文獻

Vaswani等人《Attention Is All You Need》（2017）
Dosovitskiy等人《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》（2020）
劉等人《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》（2021）
王等人《Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions》（2021）

目錄