FNet：喺Transformer編碼器入面用傅立葉變換混合詞元

1. 簡介與概述

自2017年Vaswani等人提出Transformer架構以來，佢已經成為最先進自然語言處理（NLP）嘅事實標準。其核心創新——自注意力機制——容許模型喺處理每個詞元時，動態咁權衡序列中所有詞元嘅重要性。然而，呢個機制帶嚟咗巨大嘅計算成本，其複雜度隨序列長度（$N$）呈二次方增長（$O(N^2)$），限制咗佢處理長文檔或高吞吐量應用嘅效率。

呢篇論文《FNet：用傅立葉變換混合詞元》提出咗一個徹底嘅簡化方案。作者研究緊，係咪可以完全用更簡單、線性嘅詞元混合機制，取代計算成本高昂嘅自注意力子層。佢哋最令人驚訝嘅發現係，使用標準、無參數嘅二維離散傅立葉變換（DFT），喺GLUE基準測試上可以達到BERT模型92-97%嘅準確度，同時喺GPU上訓練速度快80%，喺TPU上快70%（針對標準512詞元序列）。

2. 方法與架構

2.1. 取代自注意力

核心假設係：自注意力所進行嘅複雜、依賴數據嘅混合，可能可以用固定嘅線性變換嚟近似或取代。作者首先試驗咗參數化嘅線性混合層（密集矩陣）。觀察到有希望嘅結果後，佢哋探索更快、結構化嘅線性變換，最終選定咗傅立葉變換。

2.2. 傅立葉變換子層

喺FNet入面，標準Transformer編碼器區塊中嘅自注意力子層被一個二維傅立葉變換取代。對於輸入表示 $X \in \mathbb{R}^{N \times d}$（其中 $N$ 係序列長度，$d$ 係隱藏維度），混合操作如下：

$\text{FNet}(X) = \mathcal{F}_{\text{seq}}(\mathcal{F}_{\text{hidden}}(X))$

其中 $\mathcal{F}_{\text{hidden}}$ 沿隱藏維度（$d$）應用一維傅立葉變換，而 $\mathcal{F}_{\text{seq}}$ 沿序列維度（$N$）應用。只保留變換結果嘅實數部分。關鍵係，呢個子層冇可學習參數。

2.3. FNet模型架構

一個FNet編碼器區塊保留咗標準Transformer架構嘅其餘部分：一個帶非線性激活（例如GeLU）嘅前饋神經網絡（FFN）子層、殘差連接同層歸一化。順序係：傅立葉混合子層 → 殘差連接 & 層歸一化 → FFN子層 → 殘差連接 & 層歸一化。

3. 技術細節與數學公式

對於長度為 $N$ 嘅序列 $x$，其一維離散傅立葉變換（DFT）定義為：

$X_k = \sum_{n=0}^{N-1} x_n \cdot e^{-i 2\pi k n / N}$

對於應用於輸入矩陣 $X$ 嘅二維變換，佢係通過兩個連續嘅一維變換計算得出。使用快速傅立葉變換（FFT）演算法，將呢個操作嘅複雜度降低到 $O(Nd \log N)$（針對序列維度變換），對於大 $N$ 值，呢個複雜度明顯優於標準自注意力嘅 $O(N^2 d)$。

關鍵洞察係，傅立葉變換喺頻域對所有輸入詞元進行全局混合，呢種方式可能捕捉到類似自注意力嘅全局依賴關係，但係通過一個固定嘅數學基底，而唔係一個學習得嚟、依賴數據嘅基底。

4. 實驗結果與性能

4.1. GLUE基準測試結果

FNet模型（Base同Large尺寸）同對應嘅BERT模型進行咗比較。結果非常顯著：

FNet-Base 達到咗BERT-Base平均GLUE分數嘅92.2%。
FNet-Large 達到咗BERT-Large平均GLUE分數嘅97.3%。

呢個結果表明，精心調校嘅自注意力模型嘅大部分準確度，可以通過一個簡單嘅傅立葉混合機制恢復。

4.2. 長序列競技場（LRA）基準測試

喺專為測試長序列（1k至4k詞元）模型性能而設計嘅LRA基準測試上，FNet嘅準確度同最準確嘅「高效Transformer」模型持平。更重要嘅係，喺GPU上，佢喺所有序列長度上都明顯快過最快嘅模型。

4.3. 速度與效率分析

性能提升非常顯著：

訓練速度： 喺512序列長度下，比BERT喺GPU上快80%，喺TPU上快70%。
記憶體佔用： 比標準Transformer更輕量，尤其喺較細模型尺寸下更有利。
擴展性： FFT嘅 $O(N \log N)$ 複雜度，令FNet對於長序列，即使同線性時間（$O(N)$）嘅注意力近似方法相比，喺GPU上都擁有決定性優勢，因為後者通常有較大嘅隱藏常數因子。

5. 分析框架與案例示例

案例：長文檔文本分類
考慮好似法律合約或科學論文分類呢類任務，呢啲文檔經常超過2000個詞元。標準Transformer模型會因為二次方嘅記憶體同計算成本而難以處理。一個「高效」嘅線性Transformer可能有幫助，但由於核化開銷，實際應用中可能仍然緩慢。

FNet應用： FNet模型可以高效處理呢啲長序列。傅立葉子層以 $O(N \log N)$ 時間全局混合詞元表示。隨後嘅FFN層就可以基於呢啲混合表示構建特徵。喺固定延遲預算下，可以部署一個比相應Transformer更大嘅FNet模型，有可能彌補喺較短序列上觀察到嘅輕微準確度差距。

框架要點： FNet將歸納偏置從「數據驅動嘅關係權重」（注意力）轉移到「固定嘅全局頻譜混合」。FNet嘅成功表明，對於許多NLP任務嚟講，全局組合信息嘅能力比特定、學習得嚟嘅組合方法更為關鍵。

6. 核心洞察與批判性分析

核心洞察： 皇帝嘅新衣可能比想像中更少。FNet嘅成功係對NLP正統觀念嘅一個挑釁性挑戰。佢證明咗自注意力呢個「神聖不可侵犯」嘅部分——通常被認為係Transformer力量不可或缺嘅來源——可以被一個無參數、有150年歷史嘅數學運算取代，只係付出輕微嘅性能損失，但換嚟巨大嘅效率提升。呢個表明，Transformer嘅大部分能力源自其整體架構（殘差、FFN、層歸一化）同其全局信息流動嘅能力，而唔係注意力本身複雜、學習得嚟嘅動態機制。

邏輯流程： 論文嘅邏輯非常有力。從昂貴嘅問題（二次方注意力）開始。假設簡單混合可能有效。測試線性層（效果唔錯）。意識到好似FFT呢類結構化變換更快且擴展性更好。測試佢——令人驚訝地，效果幾乎一樣好。從問題到迭代解決方案再到驚人發現嘅流程清晰且科學上合理。

優點與缺點：
優點： 效率提升無可否認且具有實際意義。論文喺標準基準測試（GLUE、LRA）上進行咗嚴格評估。構思非常簡單優美，具有強烈嘅「點解我冇諗到？」吸引力。佢為高效架構開闢咗新嘅設計空間。
缺點： 準確度差距雖然細，但確實存在，對於追求SOTA嘅應用可能重要。論文冇深入分析點解傅立葉變換效果咁好，或者損失咗乜嘢語言特性。有人懷疑，對於需要非常精細句法推理或複雜多步推論（動態注意力至關重要）嘅任務，其性能可能會停滯不前。速度聲稱依賴於具有高度優化FFT核心嘅GPU/TPU，呢個係一個隱藏依賴。

可行洞察：
1. 對於實踐者： 如果生產部署中吞吐量、延遲或成本係主要限制，並且可以接受3-8%嘅準確度下降，強烈考慮使用FNet。佢係「足夠好」嘅大規模文本處理嘅首選。
2. 對於研究者： 唔好停喺傅立葉變換。呢篇論文係一個綠燈，鼓勵探索所有線性變換（小波、哈特利、DCT）同結構化矩陣作為注意力替代品。核心研究問題變成：「對於語言理解嚟講，最小、最快嘅混合機制係乜嘢？」
3. 對於領域： 呢項工作，連同視覺領域嘅MLP-Mixer等同期研究，標誌著一場潛在嘅「回歸基礎」運動。經過多年架構複雜度不斷增加，我哋可能正進入一個徹底簡化嘅時代，質疑邊啲組件真正必不可少。佢作為一個重要提醒，要定期挑戰基本假設。

7. 未來應用與研究方向

混合模型： 將FNet層同稀疏或局部注意力層結合，可以創造出既高效又能為關鍵推理步驟保留高精度嘅模型。
模態擴展： 將FNet嘅原理應用於多模態Transformer（視覺、音頻）。通過傅立葉變換早期混合跨模態信號可能非常高效。
硬件-軟件協同設計： 設計針對FFT操作優化嘅專用AI加速器，可以使FNet類架構喺效率關鍵場景中更具優勢。
理論理解： 深入分析傅立葉變換執行咗乜嘢語言功能，以及FFN層點樣補償缺乏學習注意力嘅不足，係未來工作嘅一個豐富領域。
長上下文建模： FNet係推動語言模型上下文長度界限嘅自然候選者，能夠以可管理嘅計算量處理整本書籍或長對話。

8. 參考文獻

Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT.
Tolstikhin, I., et al. (2021). MLP-Mixer: An all-MLP Architecture for Vision. Advances in Neural Information Processing Systems.
Tay, Y., et al. (2020). Efficient Transformers: A Survey. ACM Computing Surveys.
Wang, S., et al. (2020). Linformer: Self-Attention with Linear Complexity. arXiv preprint arXiv:2006.04768.
Katharopoulos, A., et al. (2020). Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention. International Conference on Machine Learning.
Google Research. FNet Official Code Repository. https://github.com/google-research/google-research/tree/master/f_net