目錄
1. 引言
視覺Transformer(ViTs)已經徹底改變了電腦視覺任務,但由於自注意力機制而存在二次計算複雜度的問題。現有的標記修剪方法主要關注標記重要性,保留「注意力高」的標記同時丟棄「注意力低」的標記。然而,這種方法忽略了全域標記多樣性,而這對於模型表達能力至關重要。本文介紹了一種新穎的標記解耦與合併方法,同時優化標記重要性和多樣性。
關鍵效能指標
DeiT-S:減少35% FLOPs,僅損失0.2%準確度
DeiT-T:減少40% FLOPs,準確度提升0.1%
2. 方法論
2.1 標記解耦
基於類別標記注意力分數,我們將標記分為注意力高和注意力低兩組。標記$i$的注意力分數計算為$A_i = \text{softmax}\left(\frac{Q_{cls}K_i^T}{\sqrt{d}}\right)$,其中$Q_{cls}$是類別標記查詢,$K_i$是標記$i$的鍵值。
2.2 標記合併
我們從注意力高的群組中保留最具區分性的局部標記,同時使用聚類演算法合併相似的注意力低標記。合併過程在最小化資訊損失的同時,最大化標記多樣性。
2.3 數學公式
整體目標函數結合了重要性保留和多樣性最大化:$L = \alpha L_{imp} + \beta L_{div}$,其中$L_{imp}$確保重要標記被保留,$L_{div}$通過聚類正則化促進多樣性。
3. 實驗與結果
3.1 實驗設置
我們使用DeiT-S和DeiT-T架構在ImageNet-1K上評估我們的方法。比較方法包括基於重要性的修剪方法DyViT和EViT,以及基於多樣性方法的簡單聚類。
3.2 效能比較
我們的方法在不同保留率下均達到最先進的效能。在DeiT-S上,我們減少35% FLOPs,僅損失0.2%準確度,優於純基於重要性的方法,後者在低保留率下會出現顯著的準確度下降。
3.3 消融研究
實驗證實重要性和多樣性兩個組分都是必不可少的。移除任一組分都會導致效能下降,其中多樣性在低保留率下尤其關鍵。
4. 分析框架
核心洞察
這裡的根本突破在於認識到標記多樣性不僅是錦上添花——在修剪過程中維持模型表達能力方面,它是不可或缺的。當所有人都在追逐注意力分數時,這項研究揭示了純基於重要性方法的關鍵缺陷:它們會創造出相似高注意力標記的迴聲室效應。
邏輯流程
該方法遵循一個優雅的三步驟流程:基於注意力解耦,保留關鍵局部特徵,然後策略性地合併以維持全域上下文。這不是漸進式改進——這是對效率與表示能力之間核心矛盾的架構性重新思考。
優勢與缺陷
優勢:雙重優化目標在數學上是合理的,實證結果在不同架構上都令人信服,且該方法優雅地連接了理論理解與實際實現。DeiT-T在減少計算量的同時實際提升了準確度,這一事實非常出色。
缺陷:聚類開銷並非微不足道,且該方法假設靜態重要性分數,這在動態推理場景中可能不成立。與DynamicViT等動態標記選擇方法相比,存在潛在的延遲權衡需要解決。
可行見解
對於實務工作者:在任何計算預算重要的ViT部署中,立即實施此方法。對於研究人員:多樣性保留原則應成為所有高效能Transformer研究的標準——這可能是使ViT真正可擴展的缺失環節。
5. 未來應用
這種方法對即時視覺應用、邊緣運算和大規模視覺系統具有重要意義。這些原則可以擴展到分類之外的任務,包括物件檢測、分割和影片理解等計算效率至關重要的領域。
6. 參考文獻
- Vaswani等人《注意力就是您所需的一切》(2017)
- Dosovitskiy等人《一張圖片價值16x16個詞:大規模圖像識別的Transformer》(2020)
- Liu等人《Swin Transformer:使用移位視窗的層次化視覺Transformer》(2021)
- Wang等人《金字塔視覺Transformer:無卷積的密集預測通用骨幹》(2021)