第102章 速成
接下來的兩周,左城把自己關在辦公室里,幾乎沒有出過門。
韓露來敲門問過兩次,左城只說了一句」在忙,別打擾」。陳浩也來敲過一次,被左城以同樣的話打發走了。整個公司都知道,左城在搞一個重要的東西,但沒人知道是什麼。
於穎推薦的學習資料他全部認真過了一遍。Sutton的強化學習導論是理論基礎,Mnih的DQN論文是方法論,再加上幾篇關於深度強化學習在資源調度領域的最新研究,他花了五天時間就建立了一個完整的知識框架。
這個速度放在學術界是不可想像的。一個沒有任何AI背景的人,五天讀完強化學習的核心論文?但左城有科技樹。智能星網調度系統這枚融合葉片給了他直覺般的理解力,很多概念別人需要反覆推敲才能想通,他看一遍就能抓住本質。
技術增幅的效果也在持續發揮作用。所有和AI相關的學習效率提升百分之二十,這意味著他的學習速度比普通人快了不止一個量級。
第七天,左城開始在紙上設計算法框架。
深度強化學習的核心思路很簡單:讓一個智能體在環境中不斷試錯,通過獎懲機制學習最優策略。應用到星間鏈路調度上,就是讓AI模型在仿真環境中不斷嘗試不同的頻譜分配方案,找到頻譜利用率最高的那一個。
但設計容易,實現難。狀態空間怎麼定義?動作空間怎麼設計?獎勵函數怎麼構造?每一個選擇都會影響最終的效果。
左城拿出智能星網調度系統的葉片描述,仔細研讀。
葉片提供的關鍵參數幫了大忙。狀態空間應該包含鏈路質量、衛星位置、頻譜占用率三個維度;動作空間應該設計為連續型,而不是離散型,因為頻譜分配的粒度越細,優化空間越大;獎勵函數應該以頻譜利用率為主,加上鏈路穩定性的懲罰項。
左城把這些參數整理成一份技術文檔,交給了唐旭。
」按照這個框架搭仿真環境。」左城說,」狀態空間三維,動作空間連續,獎勵函數用這個公式。」
唐旭接過文檔,看了一會兒,表情從困惑變成了震驚。
」左總,這個框架很專業。你在哪學的?」
」這幾天自學的。」左城說,」別問怎麼學的,按框架做就行。」
唐旭沒有再追問。他知道左城的學習能力遠超常人,從通信到物聯網到現在的AI,每次都能在最短時間內掌握核心知識。這種能力他解釋不了,只能歸結為天賦。
三天後,仿真環境搭好了。唐旭報告說環境跑通了,狀態空間和動作空間的定義完全按照左城的框架,獎勵函數也實現了。
」好,下一步是訓練模型。」左城說,」GPU伺服器到位了嗎?」
」到了,韓露加急採購了四塊RTX2080Ti,昨天剛裝好。」
」四塊夠用嗎?」
」480顆衛星的仿真環境,四塊GPU跑一個DQN模型大概需要三天。」唐旭說,」如果要跑多個模型對比,可能需要一周。」
」一周太久了。」左城說,」我給你一個訓練參數配置,學習率設為0.0003,批次大小256,經驗回放池大小100萬,目標網絡更新頻率每1000步。用這個配置跑,應該能把訓練時間壓縮到兩天。」
唐旭記下了參數,有些疑惑:」這些參數你是怎麼確定的?」
」試出來的。」左城說。他當然不能說這些參數是葉片描述里直接給出的。
唐旭走後,左城打開系統面板看了一眼。萬物互聯枝幹上的葉片數量又有了變化,從十五枚增長到了十六枚,新長出的一枚叫」神經網絡架構搜索」。這枚葉片的能力是自動搜索最優的神經網絡結構,減少人工調參的環節。
來得正好。左城把NAS的思路融入了算法設計中,在訓練腳本里加了一個自動架構搜索模塊。這樣一來,模型不僅能學會最優調度策略,還能自動找到最適合自己的網絡結構。
技術增幅×1.2的效果在這件事上體現得淋漓盡致。同樣的訓練任務,如果沒有增幅,可能需要五天才能收斂;加上增幅,兩天就夠了。這就是科技樹的威力,看似只是百分之二十的提升,但放在關鍵節點上,省下來的時間就是命。
左城合上筆記本電腦,走到窗邊。夜色已深,科技園區的燈火稀疏,只有幾棟辦公樓還亮著燈。他知道其中一盞燈下面,唐旭正在跑訓練。
他給於穎發了條消息:」空空,謝謝你的論文推薦。強化學習的框架我已經搭好了,正在訓練模型。」
於穎回覆:」你真學了?才兩周?」
」別小看你哥。」
」我沒小看你,我是覺得太不可思議了。」於穎發了一個震驚的表情,」我博一的師姐學了半年強化學習才勉強入門,你兩周就搭好框架了?」
左城笑了笑,沒有回覆。他不能告訴於穎,自己有科技樹在背後加持。在別人眼裡,他是天才;但只有他自己知道,天才背後是一棵看不見的科技樹。
兩天後,唐旭興沖沖地跑進左城的辦公室。
」左總!模型收斂了!頻譜利用率百分之七十六!」
百分之七十六。加上技術增幅百分之二十的效果,最終利用率將達到百分之九十一,遠超百分之八十的設計目標。
左城深吸一口氣,但面上保持著冷靜:」跑過全量仿真了嗎?」
」正在跑,預計今天下午出結果。」
」好,跑完告訴我。」
唐旭走後,左城靠在椅背上,嘴角微微上揚。AI方向的第一步邁出去了。402沒有AI團隊?沒關係,他一個人就是一支AI團隊。
至少在這個階段,他一個人就夠了。但等到AI枝幹真正激活的那一天,402需要一個真正的AI團隊來支撐。
韓露來敲門問過兩次,左城只說了一句」在忙,別打擾」。陳浩也來敲過一次,被左城以同樣的話打發走了。整個公司都知道,左城在搞一個重要的東西,但沒人知道是什麼。
於穎推薦的學習資料他全部認真過了一遍。Sutton的強化學習導論是理論基礎,Mnih的DQN論文是方法論,再加上幾篇關於深度強化學習在資源調度領域的最新研究,他花了五天時間就建立了一個完整的知識框架。
這個速度放在學術界是不可想像的。一個沒有任何AI背景的人,五天讀完強化學習的核心論文?但左城有科技樹。智能星網調度系統這枚融合葉片給了他直覺般的理解力,很多概念別人需要反覆推敲才能想通,他看一遍就能抓住本質。
技術增幅的效果也在持續發揮作用。所有和AI相關的學習效率提升百分之二十,這意味著他的學習速度比普通人快了不止一個量級。
第七天,左城開始在紙上設計算法框架。
深度強化學習的核心思路很簡單:讓一個智能體在環境中不斷試錯,通過獎懲機制學習最優策略。應用到星間鏈路調度上,就是讓AI模型在仿真環境中不斷嘗試不同的頻譜分配方案,找到頻譜利用率最高的那一個。
但設計容易,實現難。狀態空間怎麼定義?動作空間怎麼設計?獎勵函數怎麼構造?每一個選擇都會影響最終的效果。
左城拿出智能星網調度系統的葉片描述,仔細研讀。
葉片提供的關鍵參數幫了大忙。狀態空間應該包含鏈路質量、衛星位置、頻譜占用率三個維度;動作空間應該設計為連續型,而不是離散型,因為頻譜分配的粒度越細,優化空間越大;獎勵函數應該以頻譜利用率為主,加上鏈路穩定性的懲罰項。
左城把這些參數整理成一份技術文檔,交給了唐旭。
」按照這個框架搭仿真環境。」左城說,」狀態空間三維,動作空間連續,獎勵函數用這個公式。」
唐旭接過文檔,看了一會兒,表情從困惑變成了震驚。
」左總,這個框架很專業。你在哪學的?」
」這幾天自學的。」左城說,」別問怎麼學的,按框架做就行。」
唐旭沒有再追問。他知道左城的學習能力遠超常人,從通信到物聯網到現在的AI,每次都能在最短時間內掌握核心知識。這種能力他解釋不了,只能歸結為天賦。
三天後,仿真環境搭好了。唐旭報告說環境跑通了,狀態空間和動作空間的定義完全按照左城的框架,獎勵函數也實現了。
」好,下一步是訓練模型。」左城說,」GPU伺服器到位了嗎?」
」到了,韓露加急採購了四塊RTX2080Ti,昨天剛裝好。」
」四塊夠用嗎?」
」480顆衛星的仿真環境,四塊GPU跑一個DQN模型大概需要三天。」唐旭說,」如果要跑多個模型對比,可能需要一周。」
」一周太久了。」左城說,」我給你一個訓練參數配置,學習率設為0.0003,批次大小256,經驗回放池大小100萬,目標網絡更新頻率每1000步。用這個配置跑,應該能把訓練時間壓縮到兩天。」
唐旭記下了參數,有些疑惑:」這些參數你是怎麼確定的?」
」試出來的。」左城說。他當然不能說這些參數是葉片描述里直接給出的。
唐旭走後,左城打開系統面板看了一眼。萬物互聯枝幹上的葉片數量又有了變化,從十五枚增長到了十六枚,新長出的一枚叫」神經網絡架構搜索」。這枚葉片的能力是自動搜索最優的神經網絡結構,減少人工調參的環節。
來得正好。左城把NAS的思路融入了算法設計中,在訓練腳本里加了一個自動架構搜索模塊。這樣一來,模型不僅能學會最優調度策略,還能自動找到最適合自己的網絡結構。
技術增幅×1.2的效果在這件事上體現得淋漓盡致。同樣的訓練任務,如果沒有增幅,可能需要五天才能收斂;加上增幅,兩天就夠了。這就是科技樹的威力,看似只是百分之二十的提升,但放在關鍵節點上,省下來的時間就是命。
左城合上筆記本電腦,走到窗邊。夜色已深,科技園區的燈火稀疏,只有幾棟辦公樓還亮著燈。他知道其中一盞燈下面,唐旭正在跑訓練。
他給於穎發了條消息:」空空,謝謝你的論文推薦。強化學習的框架我已經搭好了,正在訓練模型。」
於穎回覆:」你真學了?才兩周?」
」別小看你哥。」
」我沒小看你,我是覺得太不可思議了。」於穎發了一個震驚的表情,」我博一的師姐學了半年強化學習才勉強入門,你兩周就搭好框架了?」
左城笑了笑,沒有回覆。他不能告訴於穎,自己有科技樹在背後加持。在別人眼裡,他是天才;但只有他自己知道,天才背後是一棵看不見的科技樹。
兩天後,唐旭興沖沖地跑進左城的辦公室。
」左總!模型收斂了!頻譜利用率百分之七十六!」
百分之七十六。加上技術增幅百分之二十的效果,最終利用率將達到百分之九十一,遠超百分之八十的設計目標。
左城深吸一口氣,但面上保持著冷靜:」跑過全量仿真了嗎?」
」正在跑,預計今天下午出結果。」
」好,跑完告訴我。」
唐旭走後,左城靠在椅背上,嘴角微微上揚。AI方向的第一步邁出去了。402沒有AI團隊?沒關係,他一個人就是一支AI團隊。
至少在這個階段,他一個人就夠了。但等到AI枝幹真正激活的那一天,402需要一個真正的AI團隊來支撐。