選擇語言

超越注意力令牌:基於令牌重要性同多樣性嘅高效視覺Transformer

提出嶄新令牌修剪方法,同時考慮令牌重要性同多樣性,喺保持準確度嘅同時大幅降低計算複雜度。
computationaltoken.com | PDF Size: 1.0 MB
評分: 4.5/5
您的評分
您已經為此文檔評過分
PDF文檔封面 - 超越注意力令牌:基於令牌重要性同多樣性嘅高效視覺Transformer

目錄

1. 引言

視覺Transformer(ViTs)徹底改變咗電腦視覺任務,但由於自注意力機制而存在二次計算複雜度嘅問題。現有嘅令牌修剪方法主要集中喺令牌重要性,保留「有注意力」嘅令牌同時丟棄「冇注意力」嘅令牌。然而,呢種方法忽略咗全局令牌多樣性,而呢個對於模型表達能力至關重要。本文介紹一種嶄新嘅令牌解耦同合併方法,同時優化令牌重要性同多樣性。

關鍵性能指標

DeiT-S:減少35% FLOPs,準確度僅下降0.2%

DeiT-T:減少40% FLOPs,準確度反而提升0.1%

2. 方法論

2.1 令牌解耦

基於類別令牌注意力分數,我哋將令牌分為有注意力同冇注意力兩組。令牌$i$嘅注意力分數計算公式為$A_i = \text{softmax}\left(\frac{Q_{cls}K_i^T}{\sqrt{d}}\right)$,其中$Q_{cls}$係類別令牌查詢,$K_i$係令牌$i$嘅鍵。

2.2 令牌合併

我哋保留有注意力組中最具區分性嘅局部令牌,同時使用聚類算法合併相似嘅冇注意力令牌。合併過程喺最小化信息損失嘅同時,最大化令牌多樣性。

2.3 數學公式

整體目標函數結合咗重要性保持同多樣性最大化:$L = \alpha L_{imp} + \beta L_{div}$,其中$L_{imp}$確保重要令牌被保留,$L_{div}$通過聚類正則化促進多樣性。

3. 實驗與結果

3.1 實驗設置

我哋使用DeiT-S同DeiT-T架構,喺ImageNet-1K上評估我哋嘅方法。比較方法包括基於重要性修剪嘅DyViT同EViT,以及基於多樣性嘅簡單聚類方法。

3.2 性能比較

我哋嘅方法喺唔同保留率下都實現咗最先進嘅性能。喺DeiT-S上,我哋減少35% FLOPs,準確度僅下降0.2%,表現優於純基於重要性嘅方法,後者喺低保留率時會出現明顯準確度下降。

3.3 消融研究

實驗證實重要性同多樣性組件都係必不可少嘅。移除任何一個組件都會導致性能下降,其中多樣性喺低保留率時尤其關鍵。

4. 分析框架

核心洞察

根本性突破在於認識到令牌多樣性唔單止係錦上添花——而係修剪過程中保持模型表達能力嘅必要條件。當大家都喺度追逐注意力分數時,呢項研究揭示咗純基於重要性方法嘅關鍵缺陷:佢哋會創造出相似高注意力令牌嘅迴音室。

邏輯流程

方法論遵循優雅嘅三步流程:根據注意力解耦,保留關鍵局部特徵,然後策略性合併以維持全局上下文。呢個唔係漸進式改進——而係解決效率同表示能力之間核心矛盾嘅架構重新思考。

優勢與缺陷

優勢:雙重優化目標喺數學上合理,實證結果喺唔同架構上都具說服力,而且方法優雅地連接理論理解同實際實現。DeiT-T喺減少計算量嘅同時實際提升準確度呢個事實非常出色。

缺陷:聚類開銷唔細,而且方法假設靜態重要性分數,呢個假設喺動態推理場景中可能唔成立。同DynamicViT等動態令牌選擇方法相比,存在潛在嘅延遲權衡需要解決。

可行建議

對於實踐者:如果任何ViT部署需要考慮計算預算,請立即實施呢種方法。對於研究人員:多樣性保持原則應該成為所有高效transformer研究嘅標準——呢個可能係令ViTs真正可擴展嘅缺失部分。

5. 未來應用

呢種方法對實時視覺應用、邊緣計算同大規模視覺系統具有重要意義。相關原則可以擴展到分類之外,應用於物件檢測、分割同視頻理解任務,呢啲任務中計算效率至關重要。

6. 參考文獻

  1. Vaswani等人《Attention Is All You Need》(2017)
  2. Dosovitskiy等人《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》(2020)
  3. 劉等人《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》(2021)
  4. 王等人《Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions》(2021)