第21章 你們看懂了嗎?
第5次回看題干。
齊物盯著題干里設置的核心障礙:退化臨界子流形S以及海量零特徵值的Hessian矩陣。
「高維鞍點陷阱……」
齊物已經猜出阿力八八遇到的難題了。
阿力八八在AI大模型的訓練中,應該是梯度趨近於零時,導致優化器失效,然後AI死鎖。
自2018年,OpenAI發布GPT-1以來,AI正式進入大模型時代,全世界的網際網路巨頭都在開發自己的大模型。
阿力八八自然也不意外。
「阿力八八肯定遇到了梯度消失和LOSS停滯的問題,並且遲遲無法解決。」
齊物看穿一切,「這道題就是在求救。」
「常規的加速器,不管是加動量還是Adam,本質上還是依賴歷史梯度的慣性。但是在這種絕對平坦的鞍點陷阱里,歷史梯度早就消耗殆盡了,所以AI才會被死鎖。」
第6次回看題干——
「題目要求構造一個純幾何的拓撲補償項Ω(x),不能改變全局極優解,還要能指數級逃逸……」
齊物陷入沉思,「不能順著梯度走,那就必須製造一個和梯度正交的力?
引入空間的內蘊曲率,用拓撲扭矩把系統強行甩出去!」
齊物開始在草稿紙上推演。
「就像在平底鍋里放了一顆玻璃球,平底鍋太平了,球不動,常規做法是傾斜鍋底(梯度下降),但是現在鍋底卡死了,那麼我就在鍋里人為製造一個磁場,讓球自己旋轉起來!
利用——洛倫茲力逃逸!」
思路清楚了,齊物開始在LaTex里輸入自己的答案。
————
與此同時,千里之外的杭城。
阿力八八西溪園區,達摩院AI大模型【九章】的核心研發中心。
大屏幕上,代表著阿里耗資百億打造的下一代通用大模型【九章】的訓練損失函數(Loss曲線),正死死地卡在一個平緩的平台上,猶如一條死去的心電圖,已經整整停滯了三個月。
「還是不行!張總,我們增加了學習率、引入了動量梯度下降,甚至使用了最新的AdamW優化器,但是梯度流依然在11維度的張量特徵空間裡打轉!
徹底迷失了!」
高級算法研究員小林無奈地道。
達摩院首席AI科學家,張宙雙手抱在胸前,眉頭緊鎖,站在屏幕前一言不發。
這是他從OpenAI跳槽回國之後,開發的第一個大模型,沒想到就遭遇了罕見的高位拓撲死鎖。
在超高維度的參數空間裡,模型陷入了一個巨大的鞍點陷阱,這就像是一輛汽車開進了一個四周都是平緩高地的盆地,無論怎麼踩油門,都找不到沖向真正谷底的下坡路。
他和達摩院將近百名來自世界各個名校的博士、研究員,奮戰了三個月,仍舊找不到那一絲破局的靈感。
LOSS降不下來,不僅僅是工程問題了,張宙覺得這是一個純粹的數學死鎖。
「張總,您執意要把死鎖問題脫敏成數學題,塞進這次全球數學競賽里,當預賽的壓軸題,是否太冒失了呢?」
小林苦笑道,「咱們達摩院上百個博士都沒解決,難道還指望參加預賽的人能在48小時之內解出來?
這無異於大海撈針啊。」
「不要小看民間的智慧。」
張宙嘆氣道,「【九章】每天的訓練成本高達數百萬,咱們燒不起了,全球大賽匯聚了世界最聰明的大腦,哪怕有一個人能從純數學的拓撲角度給我們提供一絲靈感,這都是值得的。
後台監控怎麼樣了?」
小林打開了賽事的後台實時數據。
【當前參賽總人數:125402人】
【壓軸題回答人數:30人。】
【AI初步閱卷後,壓軸題答案有效者:0人。】
「張總,現在距離開考才一個半小時不到,大部分人都在做選擇題,只有30來人嘗試解答壓軸題,但是大部分都是0分。
我看了一下,大部分都嘗試用布朗運動或常規Hessian對角化去解,系統自帶的邏輯引擎直接判定證明不通過。」
張宙嘆氣,預料之中的事。
若是隨隨便便就能答出來,倒顯得他們達摩院的百名博士是個笑話了——
「滴!」
就在這時,安靜的研發中心裡,忽然響起清脆的「滴滴」聲!
【警報:系統邏輯引擎捕捉到一份壓軸題解答,初步判定邏輯自洽度:99.9%!】
「什麼!」
所有人都抬起頭!
以為自己聽錯了!
99.9%的邏輯自洽度!
張宙連忙喊道:「快,把答案調出來!」
小林飛快從後台調出了的解答——
【考生姓名:齊物。考生編號:177888。】
整個中心的博士和架構師們都圍了上來。
答案隨之顯現——
【解答證明:
存在該拓撲補償項Ω(x)。
該問題的本質在於高維參數空間中,退化鞍點鄰域的非完整約束。
為了打破這種滯留,我們不能依賴標量勢能的梯度,而應當在流形M的切叢上引入一個規範場。
具體構造如下:
利用陳-西蒙斯3-形式,在法向叢N(S)上構造一個反對稱的曲率張量場R。
定義拓撲補償項為:
Ω(x)=☆(dA∧▽ε(x))+Ric(▽x,·)#
其中,A為度規相容聯絡的聯絡1-形式,☆為霍奇星算子,Ric為里奇曲率張量……
接下來證明逃逸性:
考慮李雅普諾夫函數V(x)=ε(x)+1/2‖ε²。
對時間求導,代入修正後的動力系統。
由於拓撲項Ω(x)的反對稱性質,它在能量的直接耗散上積分為零(即不改變原有的全局極小值拓撲同胚),但在動力系統流線的法向上,它產生了一個正的李雅普諾夫指數λ>0。
系統軌跡將被規範場強制扭轉,從而脫離近似零特徵值的特徵子空間,以e^λt的速率指數級逃逸退化子流形S。
Q.E.D.】
人群鴉雀無聲,一些年輕博士一開始還跟得上,但是看著看著就暈了。
張宙這位普林斯頓出身的博士卻目光嚴肅,當他掃過陳-西蒙斯3-形式和霍奇星算子構造出的拓撲補償項。
他的呼吸開始粗重起來。
眼中閃過難以置信。
「他竟然沒有順著向量場去優化,而是直接重構了參數空間的幾何曲率?」
張宙轉過身,對圍在一起的博士們道,「你們看懂了嗎?」
齊物盯著題干里設置的核心障礙:退化臨界子流形S以及海量零特徵值的Hessian矩陣。
「高維鞍點陷阱……」
齊物已經猜出阿力八八遇到的難題了。
阿力八八在AI大模型的訓練中,應該是梯度趨近於零時,導致優化器失效,然後AI死鎖。
自2018年,OpenAI發布GPT-1以來,AI正式進入大模型時代,全世界的網際網路巨頭都在開發自己的大模型。
阿力八八自然也不意外。
「阿力八八肯定遇到了梯度消失和LOSS停滯的問題,並且遲遲無法解決。」
齊物看穿一切,「這道題就是在求救。」
「常規的加速器,不管是加動量還是Adam,本質上還是依賴歷史梯度的慣性。但是在這種絕對平坦的鞍點陷阱里,歷史梯度早就消耗殆盡了,所以AI才會被死鎖。」
第6次回看題干——
「題目要求構造一個純幾何的拓撲補償項Ω(x),不能改變全局極優解,還要能指數級逃逸……」
齊物陷入沉思,「不能順著梯度走,那就必須製造一個和梯度正交的力?
引入空間的內蘊曲率,用拓撲扭矩把系統強行甩出去!」
齊物開始在草稿紙上推演。
「就像在平底鍋里放了一顆玻璃球,平底鍋太平了,球不動,常規做法是傾斜鍋底(梯度下降),但是現在鍋底卡死了,那麼我就在鍋里人為製造一個磁場,讓球自己旋轉起來!
利用——洛倫茲力逃逸!」
思路清楚了,齊物開始在LaTex里輸入自己的答案。
————
與此同時,千里之外的杭城。
阿力八八西溪園區,達摩院AI大模型【九章】的核心研發中心。
大屏幕上,代表著阿里耗資百億打造的下一代通用大模型【九章】的訓練損失函數(Loss曲線),正死死地卡在一個平緩的平台上,猶如一條死去的心電圖,已經整整停滯了三個月。
「還是不行!張總,我們增加了學習率、引入了動量梯度下降,甚至使用了最新的AdamW優化器,但是梯度流依然在11維度的張量特徵空間裡打轉!
徹底迷失了!」
高級算法研究員小林無奈地道。
達摩院首席AI科學家,張宙雙手抱在胸前,眉頭緊鎖,站在屏幕前一言不發。
這是他從OpenAI跳槽回國之後,開發的第一個大模型,沒想到就遭遇了罕見的高位拓撲死鎖。
在超高維度的參數空間裡,模型陷入了一個巨大的鞍點陷阱,這就像是一輛汽車開進了一個四周都是平緩高地的盆地,無論怎麼踩油門,都找不到沖向真正谷底的下坡路。
他和達摩院將近百名來自世界各個名校的博士、研究員,奮戰了三個月,仍舊找不到那一絲破局的靈感。
LOSS降不下來,不僅僅是工程問題了,張宙覺得這是一個純粹的數學死鎖。
「張總,您執意要把死鎖問題脫敏成數學題,塞進這次全球數學競賽里,當預賽的壓軸題,是否太冒失了呢?」
小林苦笑道,「咱們達摩院上百個博士都沒解決,難道還指望參加預賽的人能在48小時之內解出來?
這無異於大海撈針啊。」
「不要小看民間的智慧。」
張宙嘆氣道,「【九章】每天的訓練成本高達數百萬,咱們燒不起了,全球大賽匯聚了世界最聰明的大腦,哪怕有一個人能從純數學的拓撲角度給我們提供一絲靈感,這都是值得的。
後台監控怎麼樣了?」
小林打開了賽事的後台實時數據。
【當前參賽總人數:125402人】
【壓軸題回答人數:30人。】
【AI初步閱卷後,壓軸題答案有效者:0人。】
「張總,現在距離開考才一個半小時不到,大部分人都在做選擇題,只有30來人嘗試解答壓軸題,但是大部分都是0分。
我看了一下,大部分都嘗試用布朗運動或常規Hessian對角化去解,系統自帶的邏輯引擎直接判定證明不通過。」
張宙嘆氣,預料之中的事。
若是隨隨便便就能答出來,倒顯得他們達摩院的百名博士是個笑話了——
「滴!」
就在這時,安靜的研發中心裡,忽然響起清脆的「滴滴」聲!
【警報:系統邏輯引擎捕捉到一份壓軸題解答,初步判定邏輯自洽度:99.9%!】
「什麼!」
所有人都抬起頭!
以為自己聽錯了!
99.9%的邏輯自洽度!
張宙連忙喊道:「快,把答案調出來!」
小林飛快從後台調出了的解答——
【考生姓名:齊物。考生編號:177888。】
整個中心的博士和架構師們都圍了上來。
答案隨之顯現——
【解答證明:
存在該拓撲補償項Ω(x)。
該問題的本質在於高維參數空間中,退化鞍點鄰域的非完整約束。
為了打破這種滯留,我們不能依賴標量勢能的梯度,而應當在流形M的切叢上引入一個規範場。
具體構造如下:
利用陳-西蒙斯3-形式,在法向叢N(S)上構造一個反對稱的曲率張量場R。
定義拓撲補償項為:
Ω(x)=☆(dA∧▽ε(x))+Ric(▽x,·)#
其中,A為度規相容聯絡的聯絡1-形式,☆為霍奇星算子,Ric為里奇曲率張量……
接下來證明逃逸性:
考慮李雅普諾夫函數V(x)=ε(x)+1/2‖ε²。
對時間求導,代入修正後的動力系統。
由於拓撲項Ω(x)的反對稱性質,它在能量的直接耗散上積分為零(即不改變原有的全局極小值拓撲同胚),但在動力系統流線的法向上,它產生了一個正的李雅普諾夫指數λ>0。
系統軌跡將被規範場強制扭轉,從而脫離近似零特徵值的特徵子空間,以e^λt的速率指數級逃逸退化子流形S。
Q.E.D.】
人群鴉雀無聲,一些年輕博士一開始還跟得上,但是看著看著就暈了。
張宙這位普林斯頓出身的博士卻目光嚴肅,當他掃過陳-西蒙斯3-形式和霍奇星算子構造出的拓撲補償項。
他的呼吸開始粗重起來。
眼中閃過難以置信。
「他竟然沒有順著向量場去優化,而是直接重構了參數空間的幾何曲率?」
張宙轉過身,對圍在一起的博士們道,「你們看懂了嗎?」