Yaliyomo
1. Utangulizi
Mabadiliko ya Kuona (ViTs) yamebadilisha kazi za kompyuta za kuona lakini yanakabiliwa na ugumu wa hesabu wa mraba kutokana na utaratibu wa kujimakini. Mbinu zilizopo za ukataji toki zinalenga hasa umuhimu wa toki, kuhifadhi toki "zenye umakini" huku zikitupa zile "zisizo na umakini". Hata hivyo, mbinu hii haizingatii utofauti wa toki ulimwenguni, ambao ni muhimu kwa uonyeshaji wa mfano. Karatasi hii inaleta mbinu mpya ya kutenganisha na kuunganisha toki ambayo inaboresha pamoja umuhimu na utofauti wa toki.
Vipimo Muhimu vya Utendaji
DeiT-S: Kupunguzwa kwa FLOPs kwa 35% na kupoteza usahihi wa 0.2% tu
DeiT-T: Kupunguzwa kwa FLOPs kwa 40% na kuboresha usahihi kwa 0.1%
2. Mbinu
2.1 Kutenganisha Toki
Kulingana na alama za umakini za toki za darasa, tunatenganisha toki katika makundi yenye umakini na yasiyo na umakini. Alama ya umakini ya toki $i$ inahesabiwa kama $A_i = \text{softmax}\left(\frac{Q_{cls}K_i^T}{\sqrt{d}}\right)$, ambapo $Q_{cls}$ ni swali la toki ya darasa na $K_i$ ni ufunguo wa toki $i$.
2.2 Kuunganisha Toki
Tunahifadhi toki za eneo zenye uwezo mkubwa za kutofautisha kutoka kwa kundi lenye umakini huku tukiunganisha toki zinazofanana zisizo na umakini kwa kutumia algoriti za kusanya kundi. Mchakato wa kuunganisha hupunguza hasara ya habari huku ukiongeza ufanisi wa utofauti wa toki.
2.3 Uundaji wa Kihisabati
Kazi lengwa ya jumla inachanganya uhifadhi wa umuhimu na uboreshaji wa utofauti: $L = \alpha L_{imp} + \beta L_{div}$, ambapo $L_{imp}$ inahakikisha toki muhimu zinahifadhiwa na $L_{div}$ inakuza utofauti kupitia udhibiti wa kusanya kundi.
3. Majaribio na Matokeo
3.1 Usanidi wa Majaribio
Tunatathmini mbinu yetu kwenye ImageNet-1K kwa kutumia miundo ya DeiT-S na DeiT-T. Mbinu za kulinganisha ni pamoja na DyViT na EViT kwa ukataji unaolenga umuhimu na kusanya kundi rahisi kwa mbinu zinazolenga utofauti.
3.2 Ulinganisho wa Utendaji
Mbinu yetu inafikia utendaji wa hali ya juu katika viwango tofauti vya kuhifadhi. Kwenye DeiT-S, tunapunguza FLOPs kwa 35% na kupoteza usahihi wa 0.2% tu, tukiwapita mbinu za kimsingi zinalenga umuhimu ambazo hupata upungufu mkubwa wa usahihi katika viwango vya chini vya kuhifadhi.
3.3 Uchunguzi wa Kutenganisha
Majaribio yanathibitisha kuwa vipengele vyote viwili vya umuhimu na utofauti ni muhimu. Kuondoa kipengele chochote husababisha upungufu wa utendaji, na utofauti ukiwa muhimu sana katika viwango vya chini vya kuhifadhi.
4. Mfumo wa Uchambuzi
Uelewa wa Msingi
Mafanikio ya msingi hapa ni kutambua kwamba utofauti wa toki sio tu jambo la ziada—ni jambo lisiloweza kubishana kwa kudumisha uonyeshaji wa mfano wakati wa ukataji. Wakati kila mtu alikuwa akikimbilia alama za umakini, utafiti huu unaonyesha dosari kubwa katika mbinu za kimsingi zinalenga umuhimu: zinajenga vyumba vya kurudia sauti vya toki zinazofanana zenye umakini wa juu.
Mkondo wa Mantiki
Mbinu inafuata mchakato mzuri wa hatua tatu: tenga kulingana na umakini, hifadhi vipengele muhimu vya eneo, kisha unganisha kwa mikakati ili kudumisha muktadha wa ulimwenguni. Huu sio uboreshaji wa kidogo—ni mabadiliko ya kimuundo yanayoshughulikia mvutano wa msingi kati ya ufanisi na uwezo wa uwakilishi.
Nguvu na Mapungufu
Nguvu: Lengo la uboreshaji maradufu lina mantiki ya kihisabati, matokeo ya kimajaribio ni ya kulazimisha katika miundo yote, na mbinu inaunganisha kwa ustadi uelewa wa kinadharia na utekelezaji wa vitendo. Ukweli kwamba DeiT-T inaboresha usahihi huku ikipunguza hesabu ni jambo la kushangaza.
Mapungufu: Mzigo wa ziada wa kusanya kundi sio mdogo, na mbinu inachukulia alama za umuhimu zisizobadilika ambazo huenda zisidumike katika hali ya kutafsiri inayobadilika. Ikilinganishwa na mbinu za uteuzi wa toki zinazobadilika kama DynamicViT, kuna ubadilishanaji wa ucheleweshaji unaohitaji kushughulikiwa.
Ushauri Unaoweza Kutekelezeka
Kwa watendaji: Tekeleza mbinu hii mara moja kwa uanzishaji wowote wa ViT ambapo bajeti ya hesabu ina jukumu. Kwa watafiti: Kanuni ya uhifadhi wa utofauti inapaswa kuwa kawaida katika utafiti wote wa ufanisi wa mabadiliko—hii inaweza kuwa kipande kilichokosekana kufanya ViTs ziweze kupanuka kwa kweli.
5. Matumizi ya Baadaye
Mbinu hii ina athari kubwa kwa matumizi ya kuona ya wakati halisi, kompyuta ya makali, na mifumo mikuu ya kuona. Kanuni zinaweza kupanuka zaidi ya uainishaji hadi kugundua kitu, mgawanyiko, na kazi za kuelewa video ambapo ufanisi wa hesabu ni muhimu.
6. Marejeo
- Vaswani et al. "Attention Is All You Need" (2017)
- Dosovitskiy et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" (2020)
- Liu et al. "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows" (2021)
- Wang et al. "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions" (2021)