第621章 前世的終局與今生的起手
四月中旬的北京,春天來得理直氣壯。
清華六教二樓的階梯教室里,國際政治專業大一的必修課「當代國際關係概論」正進行到第十一講。
講台上的劉教授戴著老花鏡,翻著他那本寫滿批註的講義,正在分析冷戰後中東地緣格局的演變邏輯。
顧嶼坐在中間偏後的位置,手裡轉著一支筆,聽得很認真。
教室後門被人從外面輕輕推開了一條縫。
陸知遠站在門口,西裝外套搭在小臂上,沖講台上的劉教授微微欠了欠身,語氣客氣但不拖泥帶水:
「劉老師,打擾您了,國政大一的顧嶼同學,出來一下。」
劉教授推了推老花鏡,掃了一眼後排,點了點頭:
「去吧。」
顧嶼合上筆記本,起身往外走。
經過沈昭野身邊的時候,他小聲說道:「你犯事了?」
在全班同學看來,這個場景的解讀方式只有一種:輔導員親自跑到課堂上把人提走,這事兒多半不小。
畢竟陸知遠的身份,在所有人眼裡就是國際政治專業的博三兼職輔導員。一個管學生日常事務的角色。
沒人知道他每個月從迴響科技領走的那筆薪水,比在座所有同學四年學費加起來都多。
顧嶼出了教室,走廊里只剩他們兩個人。
陸知遠把門帶上,臉上那副對著劉教授時的客氣神情收起來,換成了匯報模式。
「任少卿從雅安飛過來了。凌晨三點從基地出發,趕的早班機。」
顧嶼腳步頓了一下。
「他說了什麼事?」
「沒細說。只說實驗有重大突破,必須當面匯報。」
陸知遠把手機揣回口袋,
「我已經幫你和劉教授那邊打好招呼了,下午的課也請了。車在東門外停著,人在中關村辦公室等你。」
顧嶼沒再多問,跟著陸知遠往樓下走。
他腦子裡在快速過濾信息。
任少卿入駐雅安基地五個月,中間只通過飛書匯報過幾次階段性進展,每次都很克制,措辭嚴謹。
能讓這個人凌晨三點往機場跑的事情,不會小。
從清華東門到中關村那棟寫字樓不遠,開車十幾分鐘。
推門進去的時候,任少卿正站在窗邊喝水。
紙杯里的水已經涼透了,他好像也沒注意到。
半年沒見,這傢伙黑了不止一個色號。
雅安山裡的紫外線確實不是開玩笑的,他現在的膚色跟去年在西安交大走廊里見到的那個白淨書生完全是兩個人。
衝鋒衣袖口磨出了毛邊,運動鞋上沾著沒刷乾淨的紅土泥點。
任少卿轉過頭,看見顧嶼的第一反應是愣了一下。
「你頭髮……」
「剪了。」
顧嶼隨手拉開椅子坐下,
「怎麼,懷念黃毛?」
「不是,就是……有點沒認出來。」
任少卿放下紙杯,從那個跟了他三年的黑色雙肩包里掏出筆記本電腦和那個加密U盤,動作很快,
「顧總,實驗結果出來了。」
顧嶼瞥了一眼那個外觀普通的U盤,眉頭皺了一下:
「你就這麼把它裝在包里,坐經濟艙飛過來的?」
任少卿愣了愣:
「這是軍工級的加密U盤,防暴力破解的。」
「但在物理層面上,它只需要一杯不小心灑出來的咖啡,或者一次安檢時的遺失就會報銷。」
顧嶼語氣平靜,卻帶著壓迫感。
「少卿,能讓你凌晨三點不管不顧飛過來的東西,其價值不需要我多說。不管這U盤裡裝的是什麼成果,它現在都是公司最高級別的商業機密。下次再遇到這種情況,讓林溪派專機和安保團隊去接你。別替我省這個錢。」
任少卿張了張嘴,顯然被顧嶼這種保密意識震了一下,但還是老實地點了點頭。
「行了。還有,別叫顧總。」
「那叫什麼?」
「隨便,叫名字就行。」
任少卿沒糾結這個問題。
他把電腦打開,插上U盤,解密後屏幕上出現了一份技術文檔,圖表密密麻麻。他轉過屏幕朝向顧嶼,手指點在一張折線圖上。
「ImageNet驗證集,Top-5錯誤率,5.08%。五十層卷積神經網絡。」
顧嶼盯著那個數字看了三秒。
「人類標註員的平均水平是5.1%。」
任少卿的聲音壓得很低,但語速在加快,
「我們的模型精度已經追平了人類,甚至略微超過。核心突破點是一個我稱之為'殘差連接'的結構。簡單來說,就是給深層網絡開了一條捷徑,讓訓練信號可以跳過中間層直接回傳,解決了層數堆疊之後信號衰減的老大難問題。」
他翻到下一頁,是不同層數網絡的對比實驗數據。
二十層、三十層、四十層、五十層,精度曲線一路攀升,沒有出現以往深層網絡必然遭遇的性能坍塌。
「以前整個學術界都默認,網絡超過二十層就沒法有效訓練了。這個假設,被我們推翻了。」
顧嶼靠在椅背上,目光停留在屏幕上那條穩步上升的曲線上。
他沒說話。
不是因為震驚。而是因為他太清楚這個東西是什麼了。
殘差網絡。ResNet。
前世,這篇論文在2015年12月發表,第一作者正是任少卿。
它不僅橫掃了當年所有計算機視覺的頂級競賽,更從根本上改寫了整個深度學習的工程範式。
從此以後,「網絡可以無限加深」不再是空想,而是被數學和實驗雙重驗證的事實。
它是後來所有大模型架構的地基之一。
沒有殘差連接,就沒有後來的GPT,沒有BERT,沒有任何你能叫得出名字的大語言模型。
而現在是2014年4月。
任少卿提前了將近一年半。
顧嶼閉上眼睛。
前世的記憶潮水般漫上來,不受控制。
2020年。他拿到天使輪的那個夏天,北京五道口的一間地下室辦公室,八個人,六台電腦,空調壞了三天沒人修。
他站在白板前畫Transformer的架構圖,給團隊講什麼是自注意力機制,什麼是多頭注意力,什麼是位置編碼。那時候他以為自己看到了未來。
2022年。A輪融資到帳,團隊擴到四十多人,搬進瞭望京的寫字樓。
他們基於Transformer訓練中文大語言模型,做垂直行業應用,對標ChatGPT。燒了兩個多億,模型效果勉強能打。投資人說,再堅持一輪,B輪估值翻三倍,上市不是夢。
他信了。
然後2024年底,DeepSeek的技術報告發了出來。
不到六百萬美金的訓練成本。
用了一種叫MoE的混合專家架構,讓模型學會了「只激活需要的那部分參數」,不用的部分直接休眠。
配合極致的底層算力優化和開源策略,效果直接對標上億美金訓練出來的頂級模型。
一夜之間,他那套靠堆參數、堆數據、堆算力硬撐出來的商業故事,全部歸零。
投資人撤資的郵件是凌晨兩點發來的,措辭很客氣,意思很殘忍:賽道邏輯變了,我們需要重新評估。
客戶解約的電話是第二天早上九點打來的,對方甚至沒聽他解釋完,只說了一句「DeepSeek免費開源的效果比你們收費的還好,我們沒有理由繼續付費」。
團隊散夥那天,核心算法工程師把工牌放在會議桌上,什麼都沒說,轉身走了。
門沒關嚴,走廊里傳來的聲音很輕,但顧嶼聽得清清楚楚。
2025年春天,公司清算完畢。
他在錦城的出租屋裡,盯著天花板上那道裂縫,想了很久很久。
然後他重生了。
所以他對AI這條路的理解,從來不是什麼「前瞻性預判」。
他是親手走過那條路上的每一步,踩過每一個坑,最後被終局的浪頭拍死的人。
他知道訓練大模型時候學習率該怎麼調。
知道RLHF的人類反饋強化學習有多少坑。
知道MoE的路由策略為什麼能把成本打下來。
這些知識是他的武器,也是他的傷疤。
前世他死在三件事上:起步太晚,資本不夠,算力受制於人。
這一世,全都翻過來了。
雅安基地的算力,夠。
百億級的資金儲備,夠。
任少卿加九章團隊的人才密度,夠。
而任少卿剛才擺在他面前的這份殘差網絡實驗數據,證明了一件更關鍵的事情:
這個時代的硬體和人才,已經具備了從卷積神經網絡向更通用架構躍遷的基礎條件。
前世,全世界花了整整三年,才從2014年注意力機制的萌芽走到2017年Transformer論文的發表。
但這一世,他不打算走矽谷那條「有錢就是任性」的老路了。
不堆參數,不燒天價算力,不做那頭笨重的大豬。
他要走DeepSeek的路。
用最少的資源,做最聰明的架構。
讓模型學會自己選擇、自己推理、自己糾錯。
用MoE讓參數按需激活,用極致的工程優化把每一滴算力都擰乾。
前世DeepSeek做到了,但它來得太晚,他的公司已經死了。
這輩子,他要自己做這件事。
從頭做。
顧嶼緩慢地睜開眼睛,視線重新聚焦在屏幕上那條安靜攀升的精度曲線上。
任少卿還在旁邊等著他的反應,大概以為老闆在思考學術問題。
「少卿。」
顧嶼的聲音恢復了一貫的雲淡風輕。
「在。」
「這個東西,你準備叫什麼名字?」
任少卿想了想:
「殘差網絡。ResidualNetwork。簡稱ResNet。」
顧嶼點了點頭。
然後他把椅子往前拉了拉,雙手交疊放在桌面上,目光落在任少卿臉上。
「論文的事我們待會兒再聊。我先問你一個問題。」
「你說。」
「卷積神經網絡,本質上在做什麼?」
清華六教二樓的階梯教室里,國際政治專業大一的必修課「當代國際關係概論」正進行到第十一講。
講台上的劉教授戴著老花鏡,翻著他那本寫滿批註的講義,正在分析冷戰後中東地緣格局的演變邏輯。
顧嶼坐在中間偏後的位置,手裡轉著一支筆,聽得很認真。
教室後門被人從外面輕輕推開了一條縫。
陸知遠站在門口,西裝外套搭在小臂上,沖講台上的劉教授微微欠了欠身,語氣客氣但不拖泥帶水:
「劉老師,打擾您了,國政大一的顧嶼同學,出來一下。」
劉教授推了推老花鏡,掃了一眼後排,點了點頭:
「去吧。」
顧嶼合上筆記本,起身往外走。
經過沈昭野身邊的時候,他小聲說道:「你犯事了?」
在全班同學看來,這個場景的解讀方式只有一種:輔導員親自跑到課堂上把人提走,這事兒多半不小。
畢竟陸知遠的身份,在所有人眼裡就是國際政治專業的博三兼職輔導員。一個管學生日常事務的角色。
沒人知道他每個月從迴響科技領走的那筆薪水,比在座所有同學四年學費加起來都多。
顧嶼出了教室,走廊里只剩他們兩個人。
陸知遠把門帶上,臉上那副對著劉教授時的客氣神情收起來,換成了匯報模式。
「任少卿從雅安飛過來了。凌晨三點從基地出發,趕的早班機。」
顧嶼腳步頓了一下。
「他說了什麼事?」
「沒細說。只說實驗有重大突破,必須當面匯報。」
陸知遠把手機揣回口袋,
「我已經幫你和劉教授那邊打好招呼了,下午的課也請了。車在東門外停著,人在中關村辦公室等你。」
顧嶼沒再多問,跟著陸知遠往樓下走。
他腦子裡在快速過濾信息。
任少卿入駐雅安基地五個月,中間只通過飛書匯報過幾次階段性進展,每次都很克制,措辭嚴謹。
能讓這個人凌晨三點往機場跑的事情,不會小。
從清華東門到中關村那棟寫字樓不遠,開車十幾分鐘。
推門進去的時候,任少卿正站在窗邊喝水。
紙杯里的水已經涼透了,他好像也沒注意到。
半年沒見,這傢伙黑了不止一個色號。
雅安山裡的紫外線確實不是開玩笑的,他現在的膚色跟去年在西安交大走廊里見到的那個白淨書生完全是兩個人。
衝鋒衣袖口磨出了毛邊,運動鞋上沾著沒刷乾淨的紅土泥點。
任少卿轉過頭,看見顧嶼的第一反應是愣了一下。
「你頭髮……」
「剪了。」
顧嶼隨手拉開椅子坐下,
「怎麼,懷念黃毛?」
「不是,就是……有點沒認出來。」
任少卿放下紙杯,從那個跟了他三年的黑色雙肩包里掏出筆記本電腦和那個加密U盤,動作很快,
「顧總,實驗結果出來了。」
顧嶼瞥了一眼那個外觀普通的U盤,眉頭皺了一下:
「你就這麼把它裝在包里,坐經濟艙飛過來的?」
任少卿愣了愣:
「這是軍工級的加密U盤,防暴力破解的。」
「但在物理層面上,它只需要一杯不小心灑出來的咖啡,或者一次安檢時的遺失就會報銷。」
顧嶼語氣平靜,卻帶著壓迫感。
「少卿,能讓你凌晨三點不管不顧飛過來的東西,其價值不需要我多說。不管這U盤裡裝的是什麼成果,它現在都是公司最高級別的商業機密。下次再遇到這種情況,讓林溪派專機和安保團隊去接你。別替我省這個錢。」
任少卿張了張嘴,顯然被顧嶼這種保密意識震了一下,但還是老實地點了點頭。
「行了。還有,別叫顧總。」
「那叫什麼?」
「隨便,叫名字就行。」
任少卿沒糾結這個問題。
他把電腦打開,插上U盤,解密後屏幕上出現了一份技術文檔,圖表密密麻麻。他轉過屏幕朝向顧嶼,手指點在一張折線圖上。
「ImageNet驗證集,Top-5錯誤率,5.08%。五十層卷積神經網絡。」
顧嶼盯著那個數字看了三秒。
「人類標註員的平均水平是5.1%。」
任少卿的聲音壓得很低,但語速在加快,
「我們的模型精度已經追平了人類,甚至略微超過。核心突破點是一個我稱之為'殘差連接'的結構。簡單來說,就是給深層網絡開了一條捷徑,讓訓練信號可以跳過中間層直接回傳,解決了層數堆疊之後信號衰減的老大難問題。」
他翻到下一頁,是不同層數網絡的對比實驗數據。
二十層、三十層、四十層、五十層,精度曲線一路攀升,沒有出現以往深層網絡必然遭遇的性能坍塌。
「以前整個學術界都默認,網絡超過二十層就沒法有效訓練了。這個假設,被我們推翻了。」
顧嶼靠在椅背上,目光停留在屏幕上那條穩步上升的曲線上。
他沒說話。
不是因為震驚。而是因為他太清楚這個東西是什麼了。
殘差網絡。ResNet。
前世,這篇論文在2015年12月發表,第一作者正是任少卿。
它不僅橫掃了當年所有計算機視覺的頂級競賽,更從根本上改寫了整個深度學習的工程範式。
從此以後,「網絡可以無限加深」不再是空想,而是被數學和實驗雙重驗證的事實。
它是後來所有大模型架構的地基之一。
沒有殘差連接,就沒有後來的GPT,沒有BERT,沒有任何你能叫得出名字的大語言模型。
而現在是2014年4月。
任少卿提前了將近一年半。
顧嶼閉上眼睛。
前世的記憶潮水般漫上來,不受控制。
2020年。他拿到天使輪的那個夏天,北京五道口的一間地下室辦公室,八個人,六台電腦,空調壞了三天沒人修。
他站在白板前畫Transformer的架構圖,給團隊講什麼是自注意力機制,什麼是多頭注意力,什麼是位置編碼。那時候他以為自己看到了未來。
2022年。A輪融資到帳,團隊擴到四十多人,搬進瞭望京的寫字樓。
他們基於Transformer訓練中文大語言模型,做垂直行業應用,對標ChatGPT。燒了兩個多億,模型效果勉強能打。投資人說,再堅持一輪,B輪估值翻三倍,上市不是夢。
他信了。
然後2024年底,DeepSeek的技術報告發了出來。
不到六百萬美金的訓練成本。
用了一種叫MoE的混合專家架構,讓模型學會了「只激活需要的那部分參數」,不用的部分直接休眠。
配合極致的底層算力優化和開源策略,效果直接對標上億美金訓練出來的頂級模型。
一夜之間,他那套靠堆參數、堆數據、堆算力硬撐出來的商業故事,全部歸零。
投資人撤資的郵件是凌晨兩點發來的,措辭很客氣,意思很殘忍:賽道邏輯變了,我們需要重新評估。
客戶解約的電話是第二天早上九點打來的,對方甚至沒聽他解釋完,只說了一句「DeepSeek免費開源的效果比你們收費的還好,我們沒有理由繼續付費」。
團隊散夥那天,核心算法工程師把工牌放在會議桌上,什麼都沒說,轉身走了。
門沒關嚴,走廊里傳來的聲音很輕,但顧嶼聽得清清楚楚。
2025年春天,公司清算完畢。
他在錦城的出租屋裡,盯著天花板上那道裂縫,想了很久很久。
然後他重生了。
所以他對AI這條路的理解,從來不是什麼「前瞻性預判」。
他是親手走過那條路上的每一步,踩過每一個坑,最後被終局的浪頭拍死的人。
他知道訓練大模型時候學習率該怎麼調。
知道RLHF的人類反饋強化學習有多少坑。
知道MoE的路由策略為什麼能把成本打下來。
這些知識是他的武器,也是他的傷疤。
前世他死在三件事上:起步太晚,資本不夠,算力受制於人。
這一世,全都翻過來了。
雅安基地的算力,夠。
百億級的資金儲備,夠。
任少卿加九章團隊的人才密度,夠。
而任少卿剛才擺在他面前的這份殘差網絡實驗數據,證明了一件更關鍵的事情:
這個時代的硬體和人才,已經具備了從卷積神經網絡向更通用架構躍遷的基礎條件。
前世,全世界花了整整三年,才從2014年注意力機制的萌芽走到2017年Transformer論文的發表。
但這一世,他不打算走矽谷那條「有錢就是任性」的老路了。
不堆參數,不燒天價算力,不做那頭笨重的大豬。
他要走DeepSeek的路。
用最少的資源,做最聰明的架構。
讓模型學會自己選擇、自己推理、自己糾錯。
用MoE讓參數按需激活,用極致的工程優化把每一滴算力都擰乾。
前世DeepSeek做到了,但它來得太晚,他的公司已經死了。
這輩子,他要自己做這件事。
從頭做。
顧嶼緩慢地睜開眼睛,視線重新聚焦在屏幕上那條安靜攀升的精度曲線上。
任少卿還在旁邊等著他的反應,大概以為老闆在思考學術問題。
「少卿。」
顧嶼的聲音恢復了一貫的雲淡風輕。
「在。」
「這個東西,你準備叫什麼名字?」
任少卿想了想:
「殘差網絡。ResidualNetwork。簡稱ResNet。」
顧嶼點了點頭。
然後他把椅子往前拉了拉,雙手交疊放在桌面上,目光落在任少卿臉上。
「論文的事我們待會兒再聊。我先問你一個問題。」
「你說。」
「卷積神經網絡,本質上在做什麼?」