第21章 你們看懂了嗎?

投票推薦 加入書籤 小說報錯

  第5次回看題干。

  齊物盯著題干里設置的核心障礙:退化臨界子流形S以及海量零特徵值的Hessian矩陣。

  「高維鞍點陷阱……」

  齊物已經猜出阿力八八遇到的難題了。

  阿力八八在AI大模型的訓練中,應該是梯度趨近於零時,導致優化器失效,然後AI死鎖。

  自2018年,OpenAI發布GPT-1以來,AI正式進入大模型時代,全世界的網際網路巨頭都在開發自己的大模型。

  阿力八八自然也不意外。

  「阿力八八肯定遇到了梯度消失和LOSS停滯的問題,並且遲遲無法解決。」

  齊物看穿一切,「這道題就是在求救。」

  「常規的加速器,不管是加動量還是Adam,本質上還是依賴歷史梯度的慣性。但是在這種絕對平坦的鞍點陷阱里,歷史梯度早就消耗殆盡了,所以AI才會被死鎖。」

  第6次回看題干——

  「題目要求構造一個純幾何的拓撲補償項Ω(x),不能改變全局極優解,還要能指數級逃逸……」

  齊物陷入沉思,「不能順著梯度走,那就必須製造一個和梯度正交的力?

  引入空間的內蘊曲率,用拓撲扭矩把系統強行甩出去!」

  齊物開始在草稿紙上推演。

  「就像在平底鍋里放了一顆玻璃球,平底鍋太平了,球不動,常規做法是傾斜鍋底(梯度下降),但是現在鍋底卡死了,那麼我就在鍋里人為製造一個磁場,讓球自己旋轉起來!

  利用——洛倫茲力逃逸!」

  思路清楚了,齊物開始在LaTex里輸入自己的答案。

  ————

  與此同時,千里之外的杭城。

  阿力八八西溪園區,達摩院AI大模型【九章】的核心研發中心。

  大屏幕上,代表著阿里耗資百億打造的下一代通用大模型【九章】的訓練損失函數(Loss曲線),正死死地卡在一個平緩的平台上,猶如一條死去的心電圖,已經整整停滯了三個月。

  「還是不行!張總,我們增加了學習率、引入了動量梯度下降,甚至使用了最新的AdamW優化器,但是梯度流依然在11維度的張量特徵空間裡打轉!

  徹底迷失了!」

  高級算法研究員小林無奈地道。

  達摩院首席AI科學家,張宙雙手抱在胸前,眉頭緊鎖,站在屏幕前一言不發。

  這是他從OpenAI跳槽回國之後,開發的第一個大模型,沒想到就遭遇了罕見的高位拓撲死鎖。

  在超高維度的參數空間裡,模型陷入了一個巨大的鞍點陷阱,這就像是一輛汽車開進了一個四周都是平緩高地的盆地,無論怎麼踩油門,都找不到沖向真正谷底的下坡路。

  他和達摩院將近百名來自世界各個名校的博士、研究員,奮戰了三個月,仍舊找不到那一絲破局的靈感。

  LOSS降不下來,不僅僅是工程問題了,張宙覺得這是一個純粹的數學死鎖。

  「張總,您執意要把死鎖問題脫敏成數學題,塞進這次全球數學競賽里,當預賽的壓軸題,是否太冒失了呢?」

  小林苦笑道,「咱們達摩院上百個博士都沒解決,難道還指望參加預賽的人能在48小時之內解出來?

  這無異於大海撈針啊。」

  「不要小看民間的智慧。」

  張宙嘆氣道,「【九章】每天的訓練成本高達數百萬,咱們燒不起了,全球大賽匯聚了世界最聰明的大腦,哪怕有一個人能從純數學的拓撲角度給我們提供一絲靈感,這都是值得的。

  後台監控怎麼樣了?」

  小林打開了賽事的後台實時數據。

  【當前參賽總人數:125402人】

  【壓軸題回答人數:30人。】

  【AI初步閱卷後,壓軸題答案有效者:0人。】

  「張總,現在距離開考才一個半小時不到,大部分人都在做選擇題,只有30來人嘗試解答壓軸題,但是大部分都是0分。

  我看了一下,大部分都嘗試用布朗運動或常規Hessian對角化去解,系統自帶的邏輯引擎直接判定證明不通過。」


  張宙嘆氣,預料之中的事。

  若是隨隨便便就能答出來,倒顯得他們達摩院的百名博士是個笑話了——

  「滴!」

  就在這時,安靜的研發中心裡,忽然響起清脆的「滴滴」聲!

  【警報:系統邏輯引擎捕捉到一份壓軸題解答,初步判定邏輯自洽度:99.9%!】

  「什麼!」

  所有人都抬起頭!

  以為自己聽錯了!

  99.9%的邏輯自洽度!

  張宙連忙喊道:「快,把答案調出來!」

  小林飛快從後台調出了的解答——

  【考生姓名:齊物。考生編號:177888。】

  整個中心的博士和架構師們都圍了上來。

  答案隨之顯現——

  【解答證明:

  存在該拓撲補償項Ω(x)。

  該問題的本質在於高維參數空間中,退化鞍點鄰域的非完整約束。

  為了打破這種滯留,我們不能依賴標量勢能的梯度,而應當在流形M的切叢上引入一個規範場。

  具體構造如下:

  利用陳-西蒙斯3-形式,在法向叢N(S)上構造一個反對稱的曲率張量場R。

  定義拓撲補償項為:

  Ω(x)=☆(dA∧▽ε(x))+Ric(▽x,·)#

  其中,A為度規相容聯絡的聯絡1-形式,☆為霍奇星算子,Ric為里奇曲率張量……

  接下來證明逃逸性:

  考慮李雅普諾夫函數V(x)=ε(x)+1/2‖ε²。

  對時間求導,代入修正後的動力系統。

  由於拓撲項Ω(x)的反對稱性質,它在能量的直接耗散上積分為零(即不改變原有的全局極小值拓撲同胚),但在動力系統流線的法向上,它產生了一個正的李雅普諾夫指數λ>0。

  系統軌跡將被規範場強制扭轉,從而脫離近似零特徵值的特徵子空間,以e^λt的速率指數級逃逸退化子流形S。

  Q.E.D.】

  人群鴉雀無聲,一些年輕博士一開始還跟得上,但是看著看著就暈了。

  張宙這位普林斯頓出身的博士卻目光嚴肅,當他掃過陳-西蒙斯3-形式和霍奇星算子構造出的拓撲補償項。

  他的呼吸開始粗重起來。

  眼中閃過難以置信。

  「他竟然沒有順著向量場去優化,而是直接重構了參數空間的幾何曲率?」

  張宙轉過身,對圍在一起的博士們道,「你們看懂了嗎?」

章節目錄