Selecionar idioma

Para Além dos Tokens Atentos: Vision Transformers Eficientes com Importância e Diversidade de Tokens

Novo método de poda de tokens para Vision Transformers que considera conjuntamente importância e diversidade para reduzir complexidade computacional mantendo precisão.
computationaltoken.com | PDF Size: 1.0 MB
Avaliação: 4.5/5
Sua avaliação
Você já avaliou este documento
Capa do documento PDF - Para Além dos Tokens Atentos: Vision Transformers Eficientes com Importância e Diversidade de Tokens

Índice

1. Introdução

Os Vision Transformers (ViTs) revolucionaram as tarefas de visão computacional, mas sofrem com complexidade computacional quadrática devido aos mecanismos de self-attention. Os métodos existentes de poda de tokens focam principalmente na importância dos tokens, preservando tokens "atentos" enquanto descartam os "desatentos". No entanto, esta abordagem ignora a diversidade global de tokens, que é crucial para a expressividade do modelo. Este artigo introduz um novo método de desacoplamento e fusão de tokens que otimiza conjuntamente a importância e a diversidade dos tokens.

Métricas Principais de Desempenho

DeiT-S: Redução de 35% em FLOPs com apenas 0,2% de queda na precisão

DeiT-T: Redução de 40% em FLOPs com melhoria de 0,1% na precisão

2. Metodologia

2.1 Desacoplamento de Tokens

Com base nas pontuações de atenção do token de classe, separamos os tokens em grupos atentos e desatentos. A pontuação de atenção para o token $i$ é calculada como $A_i = \text{softmax}\left(\frac{Q_{cls}K_i^T}{\sqrt{d}}\right)$, onde $Q_{cls}$ é a consulta do token de classe e $K_i$ é a chave para o token $i$.

2.2 Fusão de Tokens

Preservamos os tokens locais mais discriminativos do grupo atento enquanto fundimos tokens desatentos similares usando algoritmos de clustering. O processo de fusão minimiza a perda de informação enquanto maximiza a diversidade de tokens.

2.3 Formulação Matemática

A função objetivo geral combina preservação de importância e maximização de diversidade: $L = \alpha L_{imp} + \beta L_{div}$, onde $L_{imp}$ garante que tokens importantes sejam preservados e $L_{div}$ promove diversidade através de regularização por clustering.

3. Experimentos e Resultados

3.1 Configuração Experimental

Avaliamos nosso método no ImageNet-1K usando arquiteturas DeiT-S e DeiT-T. Os métodos de comparação incluem DyViT e EViT para poda baseada em importância e clustering ingênuo para abordagens baseadas em diversidade.

3.2 Comparação de Desempenho

Nosso método alcança desempenho state-of-the-art em diferentes taxas de retenção. No DeiT-S, reduzimos FLOPs em 35% com apenas 0,2% de queda na precisão, superando métodos puramente baseados em importância que sofrem degradação significativa de precisão em baixas taxas de retenção.

3.3 Estudos de Ablação

Experimentos confirmam que tanto os componentes de importância quanto de diversidade são essenciais. Remover qualquer componente leva à degradação de desempenho, sendo a diversidade particularmente crucial em baixas taxas de retenção.

4. Estrutura de Análise

Insight Central

A descoberta fundamental aqui é reconhecer que a diversidade de tokens não é apenas desejável—é indispensável para manter a expressividade do modelo durante a poda. Enquanto todos perseguiam pontuações de atenção, esta pesquisa expõe a falha crítica nas abordagens puramente baseadas em importância: elas criam câmaras de eco de tokens similares de alta atenção.

Fluxo Lógico

A metodologia segue um processo elegante de três etapas: desacoplar com base na atenção, preservar características locais críticas e depois fundir estrategicamente para manter o contexto global. Esta não é uma melhoria incremental—é uma repensar arquitetural que aborda a tensão central entre eficiência e capacidade de representação.

Pontos Fortes e Fracos

Pontos Fortes: O objetivo de otimização dupla é matematicamente sólido, os resultados empíricos são convincentes entre arquiteturas, e a abordagem elegantemente conecta compreensão teórica com implementação prática. O fato de que o DeiT-T realmente melhora a precisão enquanto reduz computação é notável.

Pontos Fracos: A sobrecarga de clustering não é trivial, e o método assume pontuações de importância estáticas que podem não se manter em cenários de inferência dinâmica. Comparado com métodos de seleção dinâmica de tokens como DynamicViT, há compensações de latência em potencial que precisam ser abordadas.

Insights Acionáveis

Para profissionais: Implemente esta abordagem imediatamente para qualquer implantação de ViT onde o orçamento computacional importa. Para pesquisadores: O princípio de preservação de diversidade deve tornar-se padrão em toda pesquisa de transformers eficientes—esta poderia ser a peça faltante para tornar ViTs verdadeiramente escaláveis.

5. Aplicações Futuras

Esta abordagem tem implicações significativas para aplicações de visão em tempo real, computação de borda e sistemas de visão em larga escala. Os princípios podem estender-se além da classificação para tarefas de detecção de objetos, segmentação e compreensão de vídeo onde a eficiência computacional é crítica.

6. Referências

  1. Vaswani et al. "Attention Is All You Need" (2017)
  2. Dosovitskiy et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" (2020)
  3. Liu et al. "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows" (2021)
  4. Wang et al. "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions" (2021)