目錄
1. 引言
視覺Transformer(ViTs)徹底改變咗電腦視覺任務,但由於自注意力機制而存在二次計算複雜度嘅問題。現有嘅令牌修剪方法主要集中喺令牌重要性,保留「有注意力」嘅令牌同時丟棄「冇注意力」嘅令牌。然而,呢種方法忽略咗全局令牌多樣性,而呢個對於模型表達能力至關重要。本文介紹一種嶄新嘅令牌解耦同合併方法,同時優化令牌重要性同多樣性。
關鍵性能指標
DeiT-S:減少35% FLOPs,準確度僅下降0.2%
DeiT-T:減少40% FLOPs,準確度反而提升0.1%
2. 方法論
2.1 令牌解耦
基於類別令牌注意力分數,我哋將令牌分為有注意力同冇注意力兩組。令牌$i$嘅注意力分數計算公式為$A_i = \text{softmax}\left(\frac{Q_{cls}K_i^T}{\sqrt{d}}\right)$,其中$Q_{cls}$係類別令牌查詢,$K_i$係令牌$i$嘅鍵。
2.2 令牌合併
我哋保留有注意力組中最具區分性嘅局部令牌,同時使用聚類算法合併相似嘅冇注意力令牌。合併過程喺最小化信息損失嘅同時,最大化令牌多樣性。
2.3 數學公式
整體目標函數結合咗重要性保持同多樣性最大化:$L = \alpha L_{imp} + \beta L_{div}$,其中$L_{imp}$確保重要令牌被保留,$L_{div}$通過聚類正則化促進多樣性。
3. 實驗與結果
3.1 實驗設置
我哋使用DeiT-S同DeiT-T架構,喺ImageNet-1K上評估我哋嘅方法。比較方法包括基於重要性修剪嘅DyViT同EViT,以及基於多樣性嘅簡單聚類方法。
3.2 性能比較
我哋嘅方法喺唔同保留率下都實現咗最先進嘅性能。喺DeiT-S上,我哋減少35% FLOPs,準確度僅下降0.2%,表現優於純基於重要性嘅方法,後者喺低保留率時會出現明顯準確度下降。
3.3 消融研究
實驗證實重要性同多樣性組件都係必不可少嘅。移除任何一個組件都會導致性能下降,其中多樣性喺低保留率時尤其關鍵。
4. 分析框架
核心洞察
根本性突破在於認識到令牌多樣性唔單止係錦上添花——而係修剪過程中保持模型表達能力嘅必要條件。當大家都喺度追逐注意力分數時,呢項研究揭示咗純基於重要性方法嘅關鍵缺陷:佢哋會創造出相似高注意力令牌嘅迴音室。
邏輯流程
方法論遵循優雅嘅三步流程:根據注意力解耦,保留關鍵局部特徵,然後策略性合併以維持全局上下文。呢個唔係漸進式改進——而係解決效率同表示能力之間核心矛盾嘅架構重新思考。
優勢與缺陷
優勢:雙重優化目標喺數學上合理,實證結果喺唔同架構上都具說服力,而且方法優雅地連接理論理解同實際實現。DeiT-T喺減少計算量嘅同時實際提升準確度呢個事實非常出色。
缺陷:聚類開銷唔細,而且方法假設靜態重要性分數,呢個假設喺動態推理場景中可能唔成立。同DynamicViT等動態令牌選擇方法相比,存在潛在嘅延遲權衡需要解決。
可行建議
對於實踐者:如果任何ViT部署需要考慮計算預算,請立即實施呢種方法。對於研究人員:多樣性保持原則應該成為所有高效transformer研究嘅標準——呢個可能係令ViTs真正可擴展嘅缺失部分。
5. 未來應用
呢種方法對實時視覺應用、邊緣計算同大規模視覺系統具有重要意義。相關原則可以擴展到分類之外,應用於物件檢測、分割同視頻理解任務,呢啲任務中計算效率至關重要。
6. 參考文獻
- Vaswani等人《Attention Is All You Need》(2017)
- Dosovitskiy等人《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》(2020)
- 劉等人《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》(2021)
- 王等人《Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions》(2021)