Melangkaui Token yang Prihatin: Transformer Penglihatan yang Cekap dengan Kepentingan dan Kepelbagaian Token

Kandungan

1. Pengenalan
2. Metodologi
3. Eksperimen dan Keputusan
4. Kerangka Analisis
5. Aplikasi Masa Depan
6. Rujukan

1. Pengenalan

Vision Transformer (ViT) telah merevolusikan tugasan penglihatan komputer tetapi mengalami kerumitan pengiraan kuadratik disebabkan mekanisme perhatian kendiri. Kaedah pemangkasan token sedia ada tertumpu terutamanya pada kepentingan token, mengekalkan token "prihatin" sambil membuang token "tidak prihatin". Walau bagaimanapun, pendekatan ini mengabaikan kepelbagaian token global, yang penting untuk ekspresiviti model. Kertas kerja ini memperkenalkan kaedah penyahgandingan dan penggabungan token novel yang mengoptimumkan kedua-dua kepentingan dan kepelbagaian token.

Metrik Prestasi Utama

DeiT-S: Pengurangan 35% FLOPs dengan hanya penurunan ketepatan 0.2%

DeiT-T: Pengurangan 40% FLOPs dengan peningkatan ketepatan 0.1%

2. Metodologi

2.1 Penyahgandingan Token

Berdasarkan skor perhatian token kelas, kami memisahkan token kepada kumpulan prihatin dan tidak prihatin. Skor perhatian untuk token $i$ dikira sebagai $A_i = \text{softmax}\left(\frac{Q_{cls}K_i^T}{\sqrt{d}}\right)$, di mana $Q_{cls}$ ialah pertanyaan token kelas dan $K_i$ ialah kunci untuk token $i$.

2.2 Penggabungan Token

Kami mengekalkan token tempatan paling diskriminatif dari kumpulan prihatin sambil menggabungkan token tidak prihatin yang serupa menggunakan algoritma pengelompokan. Proses penggabungan meminimumkan kehilangan maklumat sambil memaksimumkan kepelbagaian token.

2.3 Formulasi Matematik

Fungsi objektif keseluruhan menggabungkan pemeliharaan kepentingan dan pemaksimuman kepelbagaian: $L = \alpha L_{imp} + \beta L_{div}$, di mana $L_{imp}$ memastikan token penting dipelihara dan $L_{div}$ menggalakkan kepelbagaian melalui pengawalseliaan pengelompokan.

3. Eksperimen dan Keputusan

3.1 Persediaan Eksperimen

Kami menilai kaedah kami pada ImageNet-1K menggunakan seni bina DeiT-S dan DeiT-T. Kaedah perbandingan termasuk DyViT dan EViT untuk pemangkasan berasaskan kepentingan dan pengelompokan naif untuk pendekatan berasaskan kepelbagaian.

3.2 Perbandingan Prestasi

Kaedah kami mencapai prestasi terkini merentas kadar simpanan berbeza. Pada DeiT-S, kami mengurangkan FLOPs sebanyak 35% dengan hanya penurunan ketepatan 0.2%, mengatasi kaedah berasaskan kepentingan tulen yang mengalami degradasi ketepatan ketara pada kadar simpanan rendah.

3.3 Kajian Penyingkiran

Eksperimen mengesahkan bahawa kedua-dua komponen kepentingan dan kepelbagaian adalah penting. Menyingkirkan mana-mana komponen membawa kepada degradasi prestasi, dengan kepelbagaian amat penting pada kadar simpanan rendah.

4. Kerangka Analisis

Pengetahuan Teras

Kejayaan teras di sini adalah mengenal pasti bahawa kepelbagaian token bukan sekadar baik untuk dimiliki—ia tidak boleh dirunding untuk mengekalkan ekspresiviti model semasa pemangkasan. Walaupun semua orang mengejar skor perhatian, penyelidikan ini mendedahkan kelemahan kritikal dalam pendekatan berasaskan kepentingan tulen: mereka mencipta ruang gema token perhatian tinggi yang serupa.

Aliran Logik

Metodologi mengikut proses tiga langkah yang elegan: nyahganding berdasarkan perhatian, simpan ciri tempatan kritikal, kemudian gabung secara strategik untuk mengekalkan konteks global. Ini bukan penambahbaikan berperingkat—ia pemikiran semula seni bina yang menangani ketegangan teras antara kecekapan dan kapasiti perwakilan.

Kekuatan & Kelemahan

Kekuatan: Objektif pengoptimuman dwi adalah kukuh secara matematik, keputusan empirikal adalah menarik merentas seni bina, dan pendekatan dengan elegan menghubungkan kefahaman teori dengan pelaksanaan praktikal. Fakta bahawa DeiT-T sebenarnya meningkatkan ketepatan sambil mengurangkan pengiraan adalah luar biasa.

Kelemahan: Overhed pengelompokan tidak remeh, dan kaedah menganggap skor kepentingan statik yang mungkin tidak bertahan dalam senario inferens dinamik. Berbanding kaedah pemilihan token dinamik seperti DynamicViT, terdapat pertukaran kependaman berpotensi yang perlu ditangani.

Pengetahuan Boleh Tindak

Untuk pengamal: Laksanakan pendekatan ini serta-merta untuk sebarang penyebaran ViT di mana belanjawan pengiraan penting. Untuk penyelidik: Prinsip pemeliharaan kepelbagaian harus menjadi piawai dalam semua penyelidikan transformer cekap—ini mungkin bahagian yang hilang untuk menjadikan ViT benar-benar boleh diskalakan.

5. Aplikasi Masa Depan

Pendekatan ini mempunyai implikasi signifikan untuk aplikasi penglihatan masa nyata, pengkomputeran tepi, dan sistem penglihatan berskala besar. Prinsip ini boleh melangkaui pengelasan kepada pengesanan objek, segmentasi, dan tugasan pemahaman video di mana kecekapan pengiraan adalah kritikal.

6. Rujukan

Vaswani et al. "Attention Is All You Need" (2017)
Dosovitskiy et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" (2020)
Liu et al. "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows" (2021)
Wang et al. "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions" (2021)