За пределами внимательных токенов: Эффективные Vision Transformers с учетом важности и разнообразия токенов

Содержание

1. Введение
2. Методология
3. Эксперименты и результаты
4. Аналитическая структура
5. Перспективные применения
6. Ссылки

1. Введение

Vision Transformers (ViTs) произвели революцию в задачах компьютерного зрения, но страдают от квадратичной вычислительной сложности из-за механизмов самовнимания. Существующие методы прореживания токенов в основном сосредоточены на важности токенов, сохраняя "внимательные" токены и отбрасывая "невнимательные". Однако этот подход упускает из виду глобальное разнообразие токенов, которое крайне важно для выразительности модели. В данной статье представлен новый метод разделения и объединения токенов, совместно оптимизирующий как важность, так и разнообразие токенов.

Ключевые метрики производительности

DeiT-S: сокращение FLOPs на 35% при падении точности всего на 0.2%

DeiT-T: сокращение FLOPs на 40% с улучшением точности на 0.1%

2. Методология

2.1 Разделение токенов

На основе оценок внимания токена класса мы разделяем токены на внимательные и невнимательные группы. Оценка внимания для токена $i$ вычисляется как $A_i = \text{softmax}\left(\frac{Q_{cls}K_i^T}{\sqrt{d}}\right)$, где $Q_{cls}$ — запрос токена класса, а $K_i$ — ключ для токена $i$.

2.2 Объединение токенов

Мы сохраняем наиболее дискриминативные локальные токены из внимательной группы, одновременно объединяя схожие невнимательные токены с использованием алгоритмов кластеризации. Процесс объединения минимизирует потерю информации при максимизации разнообразия токенов.

2.3 Математическая формулировка

Общая целевая функция сочетает сохранение важности и максимизацию разнообразия: $L = \alpha L_{imp} + \beta L_{div}$, где $L_{imp}$ гарантирует сохранение важных токенов, а $L_{div}$ способствует разнообразию через регуляризацию кластеризацией.

3. Эксперименты и результаты

3.1 Экспериментальная установка

Мы оцениваем наш метод на ImageNet-1K с использованием архитектур DeiT-S и DeiT-T. Методы сравнения включают DyViT и EViT для прореживания на основе важности и наивную кластеризацию для подходов на основе разнообразия.

3.2 Сравнение производительности

Наш метод демонстрирует наилучшую производительность при различных коэффициентах сохранения. На DeiT-S мы сокращаем FLOPs на 35% при падении точности всего на 0.2%, превосходя чисто основанные на важности методы, которые демонстрируют значительное ухудшение точности при низких коэффициентах сохранения.

3.3 Абляционные исследования

Эксперименты подтверждают, что как компонент важности, так и компонент разнообразия являются необходимыми. Удаление любого из компонентов приводит к снижению производительности, причем разнообразие особенно критично при низких коэффициентах сохранения.

4. Аналитическая структура

Ключевое понимание

Фундаментальный прорыв здесь заключается в осознании того, что разнообразие токенов — это не просто приятное дополнение, а обязательное условие для сохранения выразительности модели при прореживании. Пока все гнались за оценками внимания, это исследование выявляет критический недостаток чисто основанных на важности подходов: они создают "эхо-камеры" из схожих токенов с высоким вниманием.

Логическая последовательность

Методология следует элегантному трехэтапному процессу: разделение на основе внимания, сохранение критических локальных особенностей, затем стратегическое объединение для сохранения глобального контекста. Это не инкрементальное улучшение — это переосмысление архитектуры, которое решает ключевое противоречие между эффективностью и репрезентативной способностью.

Сильные стороны и недостатки

Сильные стороны: Двойная цель оптимизации математически обоснована, эмпирические результаты убедительны для разных архитектур, и подход элегантно связывает теоретическое понимание с практической реализацией. Тот факт, что DeiT-T фактически улучшает точность при сокращении вычислений, примечателен.

Недостатки: Накладные расходы на кластеризацию нетривиальны, и метод предполагает статические оценки важности, которые могут не сохраняться в сценариях динамического вывода. По сравнению с методами динамического выбора токенов, такими как DynamicViT, существуют потенциальные компромиссы с задержкой, которые требуют решения.

Практические рекомендации

Для практиков: Немедленно внедряйте этот подход для любого развертывания ViT, где важен вычислительный бюджет. Для исследователей: Принцип сохранения разнообразия должен стать стандартом во всех исследованиях эффективных трансформеров — это может быть недостающим элементом для создания по-настоящему масштабируемых ViTs.

5. Перспективные применения

Этот подход имеет значительные последствия для приложений реального времени в компьютерном зрении, периферийных вычислений и крупномасштабных систем зрения. Принципы могут распространяться за пределы классификации на задачи обнаружения объектов, сегментации и понимания видео, где вычислительная эффективность критически важна.

6. Ссылки

Vaswani et al. "Attention Is All You Need" (2017)
Dosovitskiy et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" (2020)
Liu et al. "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows" (2021)
Wang et al. "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions" (2021)