第684章 純注意力機制?你們竟敢這麼想

投票推薦 加入書籤 小說報錯

  2014年6月底,雅安。

  林之遠拖著行李箱走出機場大巴的時候,第一反應是自己下錯了站。

  眼前是一條雙車道的省道,兩側全是低矮的民房和零星的小賣部。

  一輛農用三輪車突突突地從面前駛過,車斗里裝滿了竹筐,揚起漫天灰塵。

  「這就是你說的全球頂級算力中心?」

  凱文把墨鏡推到額頭上,臉上的表情像是吞了一隻蒼蠅。

  趙明拎著雙肩包從後面跟上來,拍了拍他肩膀:「別急,還沒到呢。」

  凱文聳聳肩,用那口讓林之遠聽著就來氣的蹩腳中文說了句:「我就說嘛,不可能的。」

  林之遠沒搭理他。

  凱文會跟著一起來,純屬意外。

  那天在斯坦福實驗室里,他花了整整一周復現那篇論文的實驗。

  152層深度的神經網絡,圖像識別錯誤率只有3.57%,比人類標註員的5.1%還低一大截。結果和論文數據完全吻合,一個數字都沒差。

  從那以後,凱文像被什麼東西勾住了。

  嘴上還是那副「中國實驗室不可能」的論調,私底下已經把論文翻來覆去讀了不下二十遍。

  當林之遠和趙明提出辭職回國時,凱文猶豫了三天,最後厚著臉皮問了一句:

  「那個九天實驗室,收不收外國人?」

  一輛黑色別克商務車從省道盡頭駛來,穩穩停在三人面前。

  車門打開,下來一個穿黑色職業套裝的女人,身材高挑,妝容精緻,整個人散發著一種和周圍環境格格不入的都市感。

  「林之遠博士,趙明博士,還有凱文·安德森先生?」

  她掃了三人一眼,語速極快。「我是徐靜,負責九天實驗室的行政對接。」

  徐靜沒有立刻讓他們上車,而是從公文包里拿出三份厚厚的文件。

  「在上車前,各位需要簽署這份S級競業與保密協議。」

  她的目光特意在凱文身上停頓了兩秒,語氣冷硬:

  「特別是安德森先生,按照我們大老闆的死命令,外籍人員進入基地需要經過獨立的法務背調,你的臨時訪問權限只有四十八小時,且嚴禁攜帶任何電子設備進入核心區。」

  凱文被這陣仗鎮住了,乖乖交出手機接過了筆。

  商務車拐上一條新修的柏油路,路面寬闊平整,和剛才的鄉間小路判若兩個世界。

  「從市區到基地,專線直達,不走公共道路。」徐靜坐在副駕駛,頭也不回地說。

  林之遠注意到路邊每隔五十米就有一根嶄新的電線桿,上面掛著的不是普通的民用線纜,而是工業級的高壓輸電線。密密麻麻,粗得嚇人。

  趙明也看到了,跟他對視一眼,都沒說話。

  又開了二十分鐘,車子駛過一道安保閘門。門口站著四個穿制服的保安,配了對講機,閘門旁邊還有車底掃描設備。

  這安保規格,比他在矽谷見過的任何科技公司都高。

  然後他看到了那片建築群。

  三棟巨大的灰白色廠房並排矗立,每棟至少有兩個足球場那麼大。

  外牆上沒有任何標識,只有密密麻麻的通風管道和冷卻塔。一條粗壯的高壓線從遠處的變電站直接接入廠房頂部,嗡嗡的電流聲隔著車窗都能聽見。

  凱文的嘴張開了,半天沒合上。

  「雅安九章算力基地。」徐靜終於轉過頭來,面帶些許得意。

  「目前擁有NVIDIA頂級運算顯卡七百餘張。其中四百張K80,是美國總部因為我們老闆砸了數千萬級別的超級訂單,破例提前五個月秘密交付的工程測試版。總浮點算力在國內民間機構中排名第一。」

  林之遠的手指不自覺地攥緊了膝蓋上的背包帶。

  七百多張頂級顯卡。

  斯坦福整個計算機系的集群加起來,也就這個數的三分之一。

  三人下車,六月的雅安悶熱潮濕,但廠房周圍的空氣明顯涼了幾度。那是大功率製冷系統外排的冷風。

  徐靜帶著他們刷卡進入側門。走廊很長,地面鋪著防靜電地板,頭頂是工業級LED燈管,亮得刺眼。


  推開盡頭的玻璃門,林之遠停住了腳步。

  一整面牆的伺服器機櫃,從地板延伸到天花板,藍色的指示燈密密麻麻地閃爍著。

  液冷管道從機櫃頂部蜿蜒而過,冷卻液發出輕微的咕嚕聲。

  「我的天。」凱文低聲說了一句。

  趙明拍了拍他的肩膀,笑了:

  「怎麼樣?還覺得不可能嗎?」

  徐靜沒給他們太多時間感慨:

  「算力中心只是基礎設施。你們要去的地方在隔壁樓。走吧。」

  隔壁樓門口掛著一塊不鏽鋼牌子:九天AI實驗室。

  二樓的開放式辦公區里,十幾個人正對著屏幕工作。有人在跑代碼,有人在白板上寫公式,角落裡兩個人正對著一張列印出來的論文激烈討論。

  一個戴眼鏡的年輕人從工位上站起來,朝他們走過來。

  「林博士,趙博士?」他伸出手。「任少卿。論文你們應該看過了。」

  林之遠握上去。這隻手的主人,就是那篇讓全球AI界炸鍋的論文的第一作者。

  比他想像中年輕得多,看著也就二十五六歲。

  「看過了。復現過了。數據完全對得上。」

  任少卿笑了一下:「那就好。省得我還要解釋為什麼152層能訓練。」

  樓梯口傳來腳步聲。一個身材偏瘦、穿著黑色連帽衫的男人走下來,手裡端著一杯咖啡,眼睛下面有明顯的黑眼圈。

  「樓天城。」任少卿介紹道。「我們的系統架構負責人。昨晚應該又通宵了。」

  樓天城點了點頭,看了一眼林之遠的胸牌:

  「看資料,你在斯坦福做的是推薦算法方向?」

  「對。博士論文寫的是用深度學習做推薦系統。」

  「那正好。」樓天城喝了口咖啡。

  「我們現在在做一個東西,需要你這個方向的人。」

  他轉身走向白板,拿起馬克筆,刷刷刷寫了一串公式。

  林之遠湊過去看。

  那是一個注意力權重的數學表達式。

  所謂「注意力機制」,通俗地說,就是讓AI在處理一段信息時,能像人類閱讀一樣,自動把目光聚焦在最重要的部分,而不是平均分配精力。

  但這個公式和他在論文裡見過的不一樣。

  傳統的注意力機制,是讓AI在翻譯時「回頭看」原文。

  比如翻譯一句英文時,每寫一個中文詞,都回頭看看英文原句里哪個詞最相關。

  而白板上這個公式,做的事情完全不同:它讓一句話里的每個詞,都去「看」這句話里的其他所有詞。

  不是回頭看別人,是自己看自己。

  「你們在做……序列內部的自相關計算?」

  林之遠的聲音不自覺地提高了。

  任少卿和樓天城對視了一眼。

  「差不多。」任少卿說。

  「我們在探索一種全新的方式來讓AI理解語言。不依賴傳統的循環結構。就是那種必須一個詞一個詞按順序處理的老方法,而是完全用注意力機制,讓所有詞同時互相『看見』彼此。」

  林之遠的腦子嗡了一下。

  不依賴循環結構?純注意力?

  這個想法太瘋狂了。當前全世界做語言AI的人,沒有一個敢把循環網絡完全扔掉。注意力機制在所有已發表的論文裡,都只是輔助模塊,從來不是主角。

  「你們怎麼敢往這個方向想?」

  任少卿推了推眼鏡,眼神里閃過敬畏:

  「不是我們敢想,是老闆問了我們一個問題。能不能讓序列內部自己看自己。安德烈順著這句話推導了三個月,才有了這套數學框架。」

  林之遠和趙明滿臉震驚。

  那個神秘的幕後老闆,到底是個什麼怪物?

  「驗證過了?」趙明強忍震驚,湊過來盯著白板。

  「初步實驗跑通了。」樓天城說。

  「但還有很多工程問題。計算量隨文本長度的平方增長,顯存吃得很兇。我們需要更多懂並行計算和矩陣優化的人。」


  他看了林之遠一眼。「也需要懂推薦系統里那套相似度計算的人。本質上是同一套數學,都是在海量信息里找到最相關的那一部分。」

  凱文站在旁邊,盯著白板上的公式看了足足兩分鐘。

  然後他轉過頭,用英文對林之遠說了一句話:

  「他們領先我們至少一年。」

  林之遠沒有反駁。

  斯坦福、伯克利、谷歌大腦,所有人還在想怎麼讓注意力更好地輔助循環網絡。

  而這間藏在四川山區裡的實驗室,已經在問一個完全不同的問題:

  我們還需要循環網絡嗎?

  任少卿拉了幾把椅子過來。

  「坐吧。你們在斯坦福做的那套用戶行為建模,跟我們現在做的東西有很多可以互相借鑑的地方。」

  這一聊就是三個小時。

  林之遠發現自己越聊越興奮,很多在斯坦福想不通的問題,在這裡找到了全新的切入角度。

  趙明更誇張,直接從包里掏出筆記本電腦,當場開始推導一個他想了半年沒想通的數學問題。

  凱文全程沒怎麼說話。但林之遠注意到,他的眼睛一直在發亮。

  下午五點,徐靜推門進來:「聊完了?食堂六點開飯。」

  任少卿看了看三個人的表情,笑了:「我猜不用再走什麼流程了吧?」

  林之遠站起來,伸出手:「什麼時候能開始?」

  「明天。」任少卿握住他的手。「安德烈剛推完一版新的數學框架,正好需要人幫忙做工程驗證。你來得太及時了。」

  凱文也站了起來。他猶豫了一下,用那口蹩腳的中文說:

  「我也可以明天開始嗎?」

  樓天城笑了笑。

  「當然可以。我們歡迎天才。」

章節目錄