第684章純注意力機制？你們竟敢這麼想

投票推薦加入書籤小說報錯

2014年6月底，雅安。

林之遠拖著行李箱走出機場大巴的時候，第一反應是自己下錯了站。

眼前是一條雙車道的省道，兩側全是低矮的民房和零星的小賣部。

一輛農用三輪車突突突地從面前駛過，車斗里裝滿了竹筐，揚起漫天灰塵。

「這就是你說的全球頂級算力中心？」

凱文把墨鏡推到額頭上，臉上的表情像是吞了一隻蒼蠅。

趙明拎著雙肩包從後面跟上來，拍了拍他肩膀：「別急，還沒到呢。」

凱文聳聳肩，用那口讓林之遠聽著就來氣的蹩腳中文說了句：「我就說嘛，不可能的。」

林之遠沒搭理他。

凱文會跟著一起來，純屬意外。

那天在斯坦福實驗室里，他花了整整一周復現那篇論文的實驗。

152層深度的神經網絡，圖像識別錯誤率只有3.57%，比人類標註員的5.1%還低一大截。結果和論文數據完全吻合，一個數字都沒差。

從那以後，凱文像被什麼東西勾住了。

嘴上還是那副「中國實驗室不可能」的論調，私底下已經把論文翻來覆去讀了不下二十遍。

當林之遠和趙明提出辭職回國時，凱文猶豫了三天，最後厚著臉皮問了一句：

「那個九天實驗室，收不收外國人？」

一輛黑色別克商務車從省道盡頭駛來，穩穩停在三人面前。

車門打開，下來一個穿黑色職業套裝的女人，身材高挑，妝容精緻，整個人散發著一種和周圍環境格格不入的都市感。

「林之遠博士，趙明博士，還有凱文·安德森先生？」

她掃了三人一眼，語速極快。「我是徐靜，負責九天實驗室的行政對接。」

徐靜沒有立刻讓他們上車，而是從公文包里拿出三份厚厚的文件。

「在上車前，各位需要簽署這份S級競業與保密協議。」

她的目光特意在凱文身上停頓了兩秒，語氣冷硬：

「特別是安德森先生，按照我們大老闆的死命令，外籍人員進入基地需要經過獨立的法務背調，你的臨時訪問權限只有四十八小時，且嚴禁攜帶任何電子設備進入核心區。」

凱文被這陣仗鎮住了，乖乖交出手機接過了筆。

商務車拐上一條新修的柏油路，路面寬闊平整，和剛才的鄉間小路判若兩個世界。

「從市區到基地，專線直達，不走公共道路。」徐靜坐在副駕駛，頭也不回地說。

林之遠注意到路邊每隔五十米就有一根嶄新的電線桿，上面掛著的不是普通的民用線纜，而是工業級的高壓輸電線。密密麻麻，粗得嚇人。

趙明也看到了，跟他對視一眼，都沒說話。

又開了二十分鐘，車子駛過一道安保閘門。門口站著四個穿制服的保安，配了對講機，閘門旁邊還有車底掃描設備。

這安保規格，比他在矽谷見過的任何科技公司都高。

然後他看到了那片建築群。

三棟巨大的灰白色廠房並排矗立，每棟至少有兩個足球場那麼大。

外牆上沒有任何標識，只有密密麻麻的通風管道和冷卻塔。一條粗壯的高壓線從遠處的變電站直接接入廠房頂部，嗡嗡的電流聲隔著車窗都能聽見。

凱文的嘴張開了，半天沒合上。

「雅安九章算力基地。」徐靜終於轉過頭來，面帶些許得意。

「目前擁有NVIDIA頂級運算顯卡七百餘張。其中四百張K80，是美國總部因為我們老闆砸了數千萬級別的超級訂單，破例提前五個月秘密交付的工程測試版。總浮點算力在國內民間機構中排名第一。」

林之遠的手指不自覺地攥緊了膝蓋上的背包帶。

七百多張頂級顯卡。

斯坦福整個計算機系的集群加起來，也就這個數的三分之一。

三人下車，六月的雅安悶熱潮濕，但廠房周圍的空氣明顯涼了幾度。那是大功率製冷系統外排的冷風。

徐靜帶著他們刷卡進入側門。走廊很長，地面鋪著防靜電地板，頭頂是工業級LED燈管，亮得刺眼。

推開盡頭的玻璃門，林之遠停住了腳步。

一整面牆的伺服器機櫃，從地板延伸到天花板，藍色的指示燈密密麻麻地閃爍著。

液冷管道從機櫃頂部蜿蜒而過，冷卻液發出輕微的咕嚕聲。

「我的天。」凱文低聲說了一句。

趙明拍了拍他的肩膀，笑了：

「怎麼樣？還覺得不可能嗎？」

徐靜沒給他們太多時間感慨：

「算力中心只是基礎設施。你們要去的地方在隔壁樓。走吧。」

隔壁樓門口掛著一塊不鏽鋼牌子：九天AI實驗室。

二樓的開放式辦公區里，十幾個人正對著屏幕工作。有人在跑代碼，有人在白板上寫公式，角落裡兩個人正對著一張列印出來的論文激烈討論。

一個戴眼鏡的年輕人從工位上站起來，朝他們走過來。

「林博士，趙博士？」他伸出手。「任少卿。論文你們應該看過了。」

林之遠握上去。這隻手的主人，就是那篇讓全球AI界炸鍋的論文的第一作者。

比他想像中年輕得多，看著也就二十五六歲。

「看過了。復現過了。數據完全對得上。」

任少卿笑了一下：「那就好。省得我還要解釋為什麼152層能訓練。」

樓梯口傳來腳步聲。一個身材偏瘦、穿著黑色連帽衫的男人走下來，手裡端著一杯咖啡，眼睛下面有明顯的黑眼圈。

「樓天城。」任少卿介紹道。「我們的系統架構負責人。昨晚應該又通宵了。」

樓天城點了點頭，看了一眼林之遠的胸牌：

「看資料，你在斯坦福做的是推薦算法方向？」

「對。博士論文寫的是用深度學習做推薦系統。」

「那正好。」樓天城喝了口咖啡。

「我們現在在做一個東西，需要你這個方向的人。」

他轉身走向白板，拿起馬克筆，刷刷刷寫了一串公式。

林之遠湊過去看。

那是一個注意力權重的數學表達式。

所謂「注意力機制」，通俗地說，就是讓AI在處理一段信息時，能像人類閱讀一樣，自動把目光聚焦在最重要的部分，而不是平均分配精力。

但這個公式和他在論文裡見過的不一樣。

傳統的注意力機制，是讓AI在翻譯時「回頭看」原文。

比如翻譯一句英文時，每寫一個中文詞，都回頭看看英文原句里哪個詞最相關。

而白板上這個公式，做的事情完全不同：它讓一句話里的每個詞，都去「看」這句話里的其他所有詞。

不是回頭看別人，是自己看自己。

「你們在做……序列內部的自相關計算？」

林之遠的聲音不自覺地提高了。

任少卿和樓天城對視了一眼。

「差不多。」任少卿說。

「我們在探索一種全新的方式來讓AI理解語言。不依賴傳統的循環結構。就是那種必須一個詞一個詞按順序處理的老方法，而是完全用注意力機制，讓所有詞同時互相『看見』彼此。」

林之遠的腦子嗡了一下。

不依賴循環結構？純注意力？

這個想法太瘋狂了。當前全世界做語言AI的人，沒有一個敢把循環網絡完全扔掉。注意力機制在所有已發表的論文裡，都只是輔助模塊，從來不是主角。

「你們怎麼敢往這個方向想？」

任少卿推了推眼鏡，眼神里閃過敬畏：

「不是我們敢想，是老闆問了我們一個問題。能不能讓序列內部自己看自己。安德烈順著這句話推導了三個月，才有了這套數學框架。」

林之遠和趙明滿臉震驚。

那個神秘的幕後老闆，到底是個什麼怪物？

「驗證過了？」趙明強忍震驚，湊過來盯著白板。

「初步實驗跑通了。」樓天城說。

「但還有很多工程問題。計算量隨文本長度的平方增長，顯存吃得很兇。我們需要更多懂並行計算和矩陣優化的人。」

他看了林之遠一眼。「也需要懂推薦系統里那套相似度計算的人。本質上是同一套數學，都是在海量信息里找到最相關的那一部分。」

凱文站在旁邊，盯著白板上的公式看了足足兩分鐘。

然後他轉過頭，用英文對林之遠說了一句話：

「他們領先我們至少一年。」

林之遠沒有反駁。

斯坦福、伯克利、谷歌大腦，所有人還在想怎麼讓注意力更好地輔助循環網絡。

而這間藏在四川山區裡的實驗室，已經在問一個完全不同的問題：

我們還需要循環網絡嗎？

任少卿拉了幾把椅子過來。

「坐吧。你們在斯坦福做的那套用戶行為建模，跟我們現在做的東西有很多可以互相借鑑的地方。」

這一聊就是三個小時。

林之遠發現自己越聊越興奮，很多在斯坦福想不通的問題，在這裡找到了全新的切入角度。

趙明更誇張，直接從包里掏出筆記本電腦，當場開始推導一個他想了半年沒想通的數學問題。

凱文全程沒怎麼說話。但林之遠注意到，他的眼睛一直在發亮。

下午五點，徐靜推門進來：「聊完了？食堂六點開飯。」

任少卿看了看三個人的表情，笑了：「我猜不用再走什麼流程了吧？」

林之遠站起來，伸出手：「什麼時候能開始？」

「明天。」任少卿握住他的手。「安德烈剛推完一版新的數學框架，正好需要人幫忙做工程驗證。你來得太及時了。」

凱文也站了起來。他猶豫了一下，用那口蹩腳的中文說：

「我也可以明天開始嗎？」

樓天城笑了笑。

「當然可以。我們歡迎天才。」

溫馨提示：按回車[Enter]鍵返回書目，按 ←鍵返回上一頁，按 →鍵進入下一頁，加入書籤方便您下次繼續閱讀。

第684章 純注意力機制？你們竟敢這麼想

第684章純注意力機制？你們竟敢這麼想