選擇語言

超越注意力標記:基於標記重要性與多樣性的高效視覺Transformer

提出新穎的視覺Transformer標記修剪方法,同時考量標記重要性與多樣性,在維持準確度的同時降低計算複雜度。
computationaltoken.com | PDF Size: 1.0 MB
評分: 4.5/5
您的評分
您已經為此文檔評過分
PDF文檔封面 - 超越注意力標記:基於標記重要性與多樣性的高效視覺Transformer

目錄

1. 引言

視覺Transformer(ViTs)已經徹底改變了電腦視覺任務,但由於自注意力機制而存在二次計算複雜度的問題。現有的標記修剪方法主要關注標記重要性,保留「注意力高」的標記同時丟棄「注意力低」的標記。然而,這種方法忽略了全域標記多樣性,而這對於模型表達能力至關重要。本文介紹了一種新穎的標記解耦與合併方法,同時優化標記重要性和多樣性。

關鍵效能指標

DeiT-S:減少35% FLOPs,僅損失0.2%準確度

DeiT-T:減少40% FLOPs,準確度提升0.1%

2. 方法論

2.1 標記解耦

基於類別標記注意力分數,我們將標記分為注意力高和注意力低兩組。標記$i$的注意力分數計算為$A_i = \text{softmax}\left(\frac{Q_{cls}K_i^T}{\sqrt{d}}\right)$,其中$Q_{cls}$是類別標記查詢,$K_i$是標記$i$的鍵值。

2.2 標記合併

我們從注意力高的群組中保留最具區分性的局部標記,同時使用聚類演算法合併相似的注意力低標記。合併過程在最小化資訊損失的同時,最大化標記多樣性。

2.3 數學公式

整體目標函數結合了重要性保留和多樣性最大化:$L = \alpha L_{imp} + \beta L_{div}$,其中$L_{imp}$確保重要標記被保留,$L_{div}$通過聚類正則化促進多樣性。

3. 實驗與結果

3.1 實驗設置

我們使用DeiT-S和DeiT-T架構在ImageNet-1K上評估我們的方法。比較方法包括基於重要性的修剪方法DyViT和EViT,以及基於多樣性方法的簡單聚類。

3.2 效能比較

我們的方法在不同保留率下均達到最先進的效能。在DeiT-S上,我們減少35% FLOPs,僅損失0.2%準確度,優於純基於重要性的方法,後者在低保留率下會出現顯著的準確度下降。

3.3 消融研究

實驗證實重要性和多樣性兩個組分都是必不可少的。移除任一組分都會導致效能下降,其中多樣性在低保留率下尤其關鍵。

4. 分析框架

核心洞察

這裡的根本突破在於認識到標記多樣性不僅是錦上添花——在修剪過程中維持模型表達能力方面,它是不可或缺的。當所有人都在追逐注意力分數時,這項研究揭示了純基於重要性方法的關鍵缺陷:它們會創造出相似高注意力標記的迴聲室效應。

邏輯流程

該方法遵循一個優雅的三步驟流程:基於注意力解耦,保留關鍵局部特徵,然後策略性地合併以維持全域上下文。這不是漸進式改進——這是對效率與表示能力之間核心矛盾的架構性重新思考。

優勢與缺陷

優勢:雙重優化目標在數學上是合理的,實證結果在不同架構上都令人信服,且該方法優雅地連接了理論理解與實際實現。DeiT-T在減少計算量的同時實際提升了準確度,這一事實非常出色。

缺陷:聚類開銷並非微不足道,且該方法假設靜態重要性分數,這在動態推理場景中可能不成立。與DynamicViT等動態標記選擇方法相比,存在潛在的延遲權衡需要解決。

可行見解

對於實務工作者:在任何計算預算重要的ViT部署中,立即實施此方法。對於研究人員:多樣性保留原則應成為所有高效能Transformer研究的標準——這可能是使ViT真正可擴展的缺失環節。

5. 未來應用

這種方法對即時視覺應用、邊緣運算和大規模視覺系統具有重要意義。這些原則可以擴展到分類之外的任務,包括物件檢測、分割和影片理解等計算效率至關重要的領域。

6. 參考文獻

  1. Vaswani等人《注意力就是您所需的一切》(2017)
  2. Dosovitskiy等人《一張圖片價值16x16個詞:大規模圖像識別的Transformer》(2020)
  3. Liu等人《Swin Transformer:使用移位視窗的層次化視覺Transformer》(2021)
  4. Wang等人《金字塔視覺Transformer:無卷積的密集預測通用骨幹》(2021)