第112章《Attention Is All You Need》

投票推薦加入書籤小說報錯

第112章《Attention Is All You Need》

科學發展史上有許多篇章，其誕生便宣告著一個舊時代的終結與新時代的開啟。

《自然哲學的數學原理》，牛頓。

他奠定了經典力學的基石，讓人類第一次以此丈量宇宙。

《論動體的電動力學》，愛因斯坦。

他重塑了人類的時空觀，告訴我們時間與空間並非恆定不變。

而2017年的《AttentionIsAllYouNeed》中提出的Transformer架構，開啟了生成式人工智慧（AIGC）與大語言模型（LLM）的黃金時代。

可謂沒有Transformer，人工智慧萬古如長夜。

在它之前，自然語言處理（NLP）領域長期處於黑暗的摸索期，採用CNN或RNN

的方法。

CNN，即卷積神經網絡，好處是計算效率高，可以並行處理，善於捕捉局部特徵。

RNN，即循環神經網絡及其變體LSTM，好處是天生適應序列數據，能按順序理解上下文。

但它們的壞處也同樣明顯。

CNN看不遠，它難以捕捉長距離的詞語關係。

RNN跑不快，並且必須讀完前一個詞才能讀下一個詞，無法並行計算，一旦句子太長，就會出現梯度消失，導致機器閱後即焚，讀了後面忘了前面。

總之它們的根本局限在於，信息在序列中必須一步一步地傳遞。

這種固有的順序性成為了處理長序列、捕捉全局上下文的瓶頸。

而Transformer架構，就是為了解決模型又慢又忘的絕症。

它的原理說複雜，那確實很複雜。

比如多頭注意力機制（Multi—HeadAttention）、位置編碼（Positional

Encoding）和前饋神經網絡（Feed—ForwardNetworks）。

但它的核心能力，其實也非常簡單。

就是字面意思：

翻譯。

把人類的語言，翻譯成計算機能讀懂的數字，然後計算這些數字之間的關係。

它不再像小學生讀書那樣一個字一個字地讀，而是一眼看完整篇文章，然後把注意力（Attention）集中在那些最關鍵的詞與詞的聯繫上。

它和word2Vec的關係，是磚塊與建築的關係。

Word2Vec負責將人類的語言變化為數字磚。

而Transformer負責將這些磚塊搭建成有意義的摩天大樓。

最終達成的效果，就是可以精確的計算一個長句子中，每個詞與其他詞之間的關係。

這裡面的重點，是：長句子。

對應的解法，是：長距離依賴。

比如下面這句話。

Thecatateafishbecauseitwashungry。

翻譯：這隻貓吃了一條魚，因為它餓了。

對人類來說，看到「它餓了」這三個字中的它，可以非常輕鬆的知道它指的就是貓。

但對機器來說，這個它指的到底是貓還是魚，是不明確的。

必須要計算才能得出結果。

而計算的方法，就是Transformer中的自注意力機制（Self—Attention）。

通過計算每個詞和其他詞之間的關係，就能知道它和誰距離更近。

比如在這裡計算出「它」和「貓」離的更近，關注度權重（Atttion

Weight）更高。

那麼機器就知道，這個它指的是貓，而不是魚。

當然這裡面的邏輯計算十分複雜，並非幾句話可以說清楚的。

在吳辰瘋狂敲擊著鍵盤的時候，閔欣柔也不由自主的看了幾眼。

不過很快她就發現自己思考的速度，還跟不上吳辰打字的速度。

一個個矩陣變換公式如流水般從他的指尖下翻湧到了屏幕上。

閔欣柔完全看不懂。

但吳辰寫在其中的一段解釋，她看懂了。

「只要算力足夠，模型就能無限堆疊。只要數據足夠，機器就能在數學空間裡湧現出智慧。」

「我們不再需要教機器語法。」

「我們只需要讓它學會：關注。」

「在這個架構中，序列中任意兩個位置之間的距離被縮短為1。」

「無論句子有多長，無論因與果相隔多少個字符，它們都能通過自注意力機制瞬間建立直接連接。」

「我們將不再受限於時間的順序。」

「我們將同時看到過去、現在與未來。」

閔欣柔覺得自己的心跳漏了一拍。

難道————

這就是真正的人工智慧的鑰匙？

沉默片刻後，她輕手輕腳的起身，去廚房泡了一杯咖啡，然後輕輕的放在桌子上。

若是平時吳辰至少會點頭示意一下。

但此時他完全沒有察覺。

他感覺自己的大腦在以前所未有的速度運轉著。

編碼器Encoder，負責理解人類的輸入————完成！

解碼器Decoder，負責生成回復——.——完成！

自注意力Self—Attention，負責捕捉字詞之間的語義關聯——完成！

交叉注意力Cross—Attention，負責連接輸入與輸出————完成！

那些曾經刻在他腦海深處的知識，在經過了幾個月的沉澱後，終於迎來了綻放。

他完全不需要思考，因為他早已思考過無數遍。

他也不需要停頓，因為他不僅是在編寫一篇文章和代碼。

他是在復刻未來的文明。

但他也不是在默寫。

相比2017年原始的Transformer架構，他加入了幾年後的一次改進。

他將層歸一化（LayerNormalization）的位置，從殘差連接之後（Post—

LN），移到了殘差連接之前（Pre—LN）。

這只是一個微小的改進。

但它卻徹底解決了深層網絡難以訓練的頑疾。

它讓梯度的反向傳播不再需要複雜繁瑣的學習率預熱，就能讓模型在訓練初期保持絕對的穩定。

終於，在他感覺精神力到達極限的時候，論文和代碼同時完成了。

吳辰深吸一口氣，敲下了最後一行代碼。

returnlogits。

文件名：transformer—model.py。

這就是GPT—1的雛形。

他實現了完整的Transformer庫。

但在構建GPT模型時，吳辰還是果斷拋棄了編碼器，只保留了純解碼器架構（Decoder—only）。

因為即使現在深圳的榛果電子已經在生產專用的計算卡，但性能還是和2025

年差距太大。

所以這樣做可以顯著減少模型參數量和計算複雜度，但功能卻完全夠用。

無論如何。

雖然它現在的參數量還很小。

雖然它還像個嬰兒一樣嗷嗷待哺。

但吳辰知道，那個屬於人工智障的時代結束了。

矽基生命，有了它的第一縷神識。

這一刻，在這個2008年的狹小公寓裡。

通往通用人工智慧的大門，被他提前九年，暴力踹開了。

叮鈴鈴。

當他雙手離開鍵盤的剎那，手機的鬧鐘也響了起來。

吳辰拿過來一看，發現時間竟然已是早上六點，到了他每天起床鍛鍊的時間了。

與此同時，系統的聲音也如期響起。

【恭喜宿主人工智慧等級提升！】

【人工智慧：1級（50%）—>2級（0%）】

溫馨提示：按回車[Enter]鍵返回書目，按 ←鍵返回上一頁，按 →鍵進入下一頁，加入書籤方便您下次繼續閱讀。

第112章 《Attention Is All You Need》

第112章《Attention Is All You Need》