İçindekiler
1. Giriş
Vision Transformer'lar (ViT'ler) bilgisayarlı görü görevlerinde devrim yarattı ancak öz-dikkat mekanizmaları nedeniyle ikinci dereceden hesaplama karmaşıklığından muzdariptir. Mevcut token budama yöntemleri öncelikle token önemine odaklanarak "dikkatli" tokenları korurken "dikkatsiz" olanları atar. Ancak bu yaklaşım, model ifade gücü için çok önemli olan global token çeşitliliğini göz ardı etmektedir. Bu makale, hem token önemini hem de çeşitliliğini birlikte optimize eden yeni bir token ayrıştırma ve birleştirme yöntemi sunmaktadır.
Ana Performans Metrikleri
DeiT-S: %35 FLOPs azalma, sadece %0.2 doğruluk kaybı
DeiT-T: %40 FLOPs azalma, %0.1 doğruluk iyileşmesi
2. Metodoloji
2.1 Token Ayrıştırma
Sınıf token dikkat skorlarına dayanarak, tokenları dikkatli ve dikkatsiz gruplara ayırıyoruz. $i$ tokenının dikkat skoru $A_i = \text{softmax}\left(\frac{Q_{cls}K_i^T}{\sqrt{d}}\right)$ olarak hesaplanır, burada $Q_{cls}$ sınıf token sorgusu ve $K_i$ ise $i$ tokenının anahtarıdır.
2.2 Token Birleştirme
Dikkatli gruptan en ayırt edici yerel tokenları korurken, benzer dikkatsiz tokenları kümeleme algoritmaları kullanarak birleştiriyoruz. Birleştirme işlemi, bilgi kaybını en aza indirirken token çeşitliliğini en üst düzeye çıkarır.
2.3 Matematiksel Formülasyon
Genel amaç fonksiyonu, önem koruma ve çeşitlilik maksimizasyonunu birleştirir: $L = \alpha L_{imp} + \beta L_{div}$, burada $L_{imp}$ önemli tokenların korunmasını sağlarken $L_{div}$ kümeleme düzenlileştirmesi yoluyla çeşitliliği teşvik eder.
3. Deneyler ve Sonuçlar
3.1 Deneysel Kurulum
Yöntemimizi DeiT-S ve DeiT-T mimarileri kullanarak ImageNet-1K üzerinde değerlendiriyoruz. Karşılaştırma yöntemleri arasında önem temelli budama için DyViT ve EViT ile çeşitlilik temelli yaklaşımlar için saf kümeleme yer almaktadır.
3.2 Performans Karşılaştırması
Yöntemimiz farklı koruma oranlarında en iyi performansı elde etmektedir. DeiT-S üzerinde, sadece %0.2 doğruluk kaybıyla %35 FLOPs azalma sağlıyoruz ve düşük koruma oranlarında önemli doğruluk düşüşü yaşayan saf önem temelli yöntemleri geride bırakıyoruz.
3.3 Ablasyon Çalışmaları
Deneyler, hem önem hem de çeşitlilik bileşenlerinin gerekli olduğunu doğrulamaktadır. Her iki bileşenin çıkarılması performans düşüşüne yol açmakta, çeşitlilik özellikle düşük koruma oranlarında kritik önem taşımaktadır.
4. Analiz Çerçevesi
Temel Kavrayış
Buradaki temel atılım, token çeşitliliğinin sadece iyi olması gereken bir özellik değil - budama sırasında model ifade gücünü korumak için vazgeçilmez olduğunu fark etmektir. Herkes dikkat skorlarının peşindeyken, bu araştırma saf önem temelli yaklaşımlardaki kritik kusuru ortaya çıkarmaktadır: benzer yüksek dikkat tokenlarından oluşan yankı odaları yaratırlar.
Mantıksal Akış
Metodoloji zarif bir üç adımlı süreç izlemektedir: dikkate dayalı ayrıştırma, kritik yerel özellikleri koruma, ardından global bağlamı korumak için stratejik birleştirme. Bu artımlı bir iyileştirme değil - verimlilik ve temsil kapasitesi arasındaki temel gerilimi ele alan mimari bir yeniden düşünmedir.
Güçlü ve Zayıf Yönler
Güçlü Yönler: Çift optimizasyon hedefi matematiksel olarak sağlamdır, ampirik sonuçlar mimariler arasında ikna edicidir ve yaklaşım teorik anlayış ile pratik uygulama arasında zarif bir köprü kurmaktadır. DeiT-T'nin hesaplamayı azaltırken aslında doğruluğu iyileştirmesi dikkat çekicidir.
Zayıf Yönler: Kümeleme ek yükü önemsiz değildir ve yöntem, dinamik çıkarım senaryolarında geçerli olmayabilecek statik önem skorları varsaymaktadır. DynamicViT gibi dinamik token seçim yöntemleriyle karşılaştırıldığında, ele alınması gereken potansiyel gecikme değiş tokuşları vardır.
Uygulanabilir Öngörüler
Uygulayıcılar için: Hesaplama bütçesinin önemli olduğu herhangi bir ViT dağıtımı için bu yaklaşımı derhal uygulayın. Araştırmacılar için: Çeşitlilik koruma ilkesi, tüm verimli transformer araştırmalarında standart haline gelmelidir - bu, ViT'leri gerçekten ölçeklenebilir hale getirmek için eksik parça olabilir.
5. Gelecek Uygulamalar
Bu yaklaşım, gerçek zamanlı görü uygulamaları, uç bilgi işlem ve büyük ölçekli görü sistemleri için önemli etkilere sahiptir. İlkeler, hesaplama verimliliğinin kritik olduğu nesne tespiti, bölütleme ve video anlama görevlerine kadar genişletilebilir.
6. Referanslar
- Vaswani ve diğ. "Attention Is All You Need" (2017)
- Dosovitskiy ve diğ. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" (2020)
- Liu ve diğ. "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows" (2021)
- Wang ve diğ. "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions" (2021)