超越注意力標記：基於標記重要性與多樣性的高效視覺Transformer

1. 引言

視覺Transformer（ViTs）已經徹底改變了電腦視覺任務，但由於自注意力機制而存在二次計算複雜度的問題。現有的標記修剪方法主要關注標記重要性，保留「注意力高」的標記同時丟棄「注意力低」的標記。然而，這種方法忽略了全域標記多樣性，而這對於模型表達能力至關重要。本文介紹了一種新穎的標記解耦與合併方法，同時優化標記重要性和多樣性。

關鍵效能指標

DeiT-S：減少35% FLOPs，僅損失0.2%準確度

DeiT-T：減少40% FLOPs，準確度提升0.1%

2. 方法論

2.1 標記解耦

基於類別標記注意力分數，我們將標記分為注意力高和注意力低兩組。標記$i$的注意力分數計算為$A_i = \text{softmax}\left(\frac{Q_{cls}K_i^T}{\sqrt{d}}\right)$，其中$Q_{cls}$是類別標記查詢，$K_i$是標記$i$的鍵值。

2.2 標記合併

我們從注意力高的群組中保留最具區分性的局部標記，同時使用聚類演算法合併相似的注意力低標記。合併過程在最小化資訊損失的同時，最大化標記多樣性。

2.3 數學公式

整體目標函數結合了重要性保留和多樣性最大化：$L = \alpha L_{imp} + \beta L_{div}$，其中$L_{imp}$確保重要標記被保留，$L_{div}$通過聚類正則化促進多樣性。

3. 實驗與結果

3.1 實驗設置

我們使用DeiT-S和DeiT-T架構在ImageNet-1K上評估我們的方法。比較方法包括基於重要性的修剪方法DyViT和EViT，以及基於多樣性方法的簡單聚類。

3.2 效能比較

我們的方法在不同保留率下均達到最先進的效能。在DeiT-S上，我們減少35% FLOPs，僅損失0.2%準確度，優於純基於重要性的方法，後者在低保留率下會出現顯著的準確度下降。

3.3 消融研究

實驗證實重要性和多樣性兩個組分都是必不可少的。移除任一組分都會導致效能下降，其中多樣性在低保留率下尤其關鍵。

4. 分析框架

核心洞察

這裡的根本突破在於認識到標記多樣性不僅是錦上添花——在修剪過程中維持模型表達能力方面，它是不可或缺的。當所有人都在追逐注意力分數時，這項研究揭示了純基於重要性方法的關鍵缺陷：它們會創造出相似高注意力標記的迴聲室效應。

邏輯流程

該方法遵循一個優雅的三步驟流程：基於注意力解耦，保留關鍵局部特徵，然後策略性地合併以維持全域上下文。這不是漸進式改進——這是對效率與表示能力之間核心矛盾的架構性重新思考。

優勢與缺陷

優勢：雙重優化目標在數學上是合理的，實證結果在不同架構上都令人信服，且該方法優雅地連接了理論理解與實際實現。DeiT-T在減少計算量的同時實際提升了準確度，這一事實非常出色。

缺陷：聚類開銷並非微不足道，且該方法假設靜態重要性分數，這在動態推理場景中可能不成立。與DynamicViT等動態標記選擇方法相比，存在潛在的延遲權衡需要解決。

可行見解

對於實務工作者：在任何計算預算重要的ViT部署中，立即實施此方法。對於研究人員：多樣性保留原則應成為所有高效能Transformer研究的標準——這可能是使ViT真正可擴展的缺失環節。

5. 未來應用

這種方法對即時視覺應用、邊緣運算和大規模視覺系統具有重要意義。這些原則可以擴展到分類之外的任務，包括物件檢測、分割和影片理解等計算效率至關重要的領域。

6. 參考文獻

Vaswani等人《注意力就是您所需的一切》（2017）
Dosovitskiy等人《一張圖片價值16x16個詞：大規模圖像識別的Transformer》（2020）
Liu等人《Swin Transformer：使用移位視窗的層次化視覺Transformer》（2021）
Wang等人《金字塔視覺Transformer：無卷積的密集預測通用骨幹》（2021）

目錄