第327章 悟道算力平台的負載調優

投票推薦 加入書籤 小說報錯

  作戰室里的電子地圖被關掉了,取而代之的是四塊八十寸的顯示牆,每塊牆上都密密麻麻地鋪滿了曲線、熱力圖和拓撲結構。中間的主屏上,悟道算力平台的全局架構圖正在緩緩旋轉——從底層的三萬兩千顆天權晶片,到中間層的分布式訓練框架,到頂層的模型推理服務,每一層都被標註了顏色、負載係數和故障率。

  許承站在主屏前,手裡拿著雷射筆,但沒有點。他在等所有人到齊。

  趙靜是第一個進來的,手裡抱著一台厚重的筆記本,屏幕上已經跑著小芯對悟道平台過去一周負載數據的初步分析結果。她身後跟著小芯團隊的三個核心工程師,每個人臉上都帶著那種連續熬了幾天夜特有的疲憊和亢奮混雜的表情。

  章宸第二個到,他剛從地下二層的驗證中心上來,天權4號的NPU調度器修改還在進行中,但他答應過趙靜,悟道平台的負載調優會議他必須到場——因為調優的核心瓶頸不在軟體,在天權晶片的內存帶寬和片間互聯延遲。

  林薇第三個到,她帶了追光材料實驗的最新數據,雖然和悟道平台沒有直接關係,但她需要趙靜的小芯幫忙跑一組熱應力分布的模擬,順便聽聽算力平台的進展。

  陳醒最後一個走進作戰室,他沒有坐主位,而是坐在了靠門的位置。今天這場會議他不需要做決策,只需要聽。悟道算力平台是天機雲的核心基礎設施,也是未來科技AI能力的底座,它的負載調優不是一次性的技術攻關,而是一個持續演進的過程。他要聽的是團隊有沒有找到正確的方向。

  許承等所有人坐定後,點了一下雷射筆,主屏上的全局架構圖被替換成了過去四周的負載總覽。

  「悟道算力平台目前部署了三萬兩千顆天權晶片,分布在華夏境內七個數據中心和南洋兩個邊緣節點。總算力達到每秒三點六億億次浮點運算,理論峰值算力在國內排名第一,全球排名第四。」

  「但理論峰值和實際利用率之間,有一道我們一直沒填平的鴻溝。」

  許承調出一張曲線圖,橫軸是時間,縱軸是算力利用率。曲線在過去四周里劇烈波動,最高點達到百分之七十八,最低點跌到百分之四十一,平均利用率只有百分之六十二。

  「理論峰值算力全球第四,實際有效算力可能連全球前十都進不去。這不是硬體的問題,是負載調度的問題。」

  趙靜接過話頭,把筆記本上的分析結果投到第二塊顯示牆上。

  「小芯對過去四周的負載數據做了全量分析,發現了三個核心問題。」

  「第一,負載特徵極度不均勻。悟道平台同時支撐三類負載——大模型訓練、推理服務、科學計算。這三類負載對算力、內存、通信的需求特徵完全不同。訓練任務需要高帶寬、低延遲的片間互聯,推理服務需要低延遲、高並發的單卡響應,科學計算需要高精度、大內存的單卡容量。目前的調度策略沒有區分這些特徵,把三類負載混在一起跑,結果就是互相干擾。」

  第二塊顯示牆上出現了一張熱力圖,不同顏色的色塊代表不同類型的負載在時間軸上的分布。訓練任務通常是深藍色的長條,持續幾個小時甚至幾天;推理服務是淺綠色的短脈衝,每秒幾十個;科學計算是黃色的中等長度塊,持續幾十分鐘到幾小時。三種顏色在時間軸上交錯在一起,像一幅混亂的抽象畫。

  「第二,片間通信的擁塞控制太保守。天權晶片之間的互聯帶寬是理論上每鏈路每秒五十吉比特,但實際跑大模型訓練時,有效帶寬只有不到三十吉比特。原因是我們使用的擁塞控制算法過於保守,一旦檢測到輕微擁塞就大幅降低發送速率,導致帶寬利用率不足百分之六十。」

  章宸點頭確認了這個問題的技術細節:「天權晶片的片間互聯硬體本身沒有問題,瓶頸在協議棧的擁塞控制參數。我們目前用的是通用數據中心的參數配置,但通用配置對大模型訓練這種周期性、大批量的通信模式不適用。需要針對訓練任務的特徵重新調參,甚至重寫部分擁塞控制邏輯。」

  「第三,」趙靜繼續說,「推理服務的負載預測準確率太低。悟道平台的推理服務接入了天樞生態的二十七個應用,流量特徵極其不穩定。有的應用在白天流量大,有的應用在晚上流量大,有的應用受社交媒體熱點驅動,流量可以在十分鐘內暴漲十倍。目前的負載預測模型用的是過去七天的歷史數據,預測準確率只有百分之六十五,導致平台不得不預留大量的冗餘算力應對突發流量,進一步拉低了平均利用率。」

  趙靜把這三個問題的嚴重程度排了序:負載混跑造成的利用率損失最大,約百分之十五;片間擁塞造成的損失次之,約百分之十;預測不準造成的冗餘預留損失約百分之八。如果把這三個問題全部解決,悟道平台的平均算力利用率可以從百分之六十二提升到百分之八十五以上。


  「百分之八十五是理論上限,」許承說,「但能做到百分之七十八到百分之八十,就已經是全球領先水平了。」

  陳醒靠在椅子上,沒有說話。他在等趙靜說出解決方案。

  趙靜翻到下一頁,三塊顯示牆同時更新。

  「解決方案分三個層面,對應三個問題。第一層:負載特徵感知調度。不再把三類負載混在一起跑,而是把平台分區——訓練區、推理區、科學計算區,每個區根據負載特徵做針對性的調度策略優化。」

  「訓練區需要高帶寬、低延遲的片間互聯,所以我們把訓練任務集中部署在同一機櫃或相鄰機櫃的天權晶片上,減少跨機櫃通信。推理區需要低延遲的單卡響應,所以我們在推理區部署了小芯的邊緣調度器,可以根據請求的實時延遲需求動態分配算力,延遲敏感的請求優先處理,延遲不敏感的請求可以排隊。科學計算區需要大內存的單卡容量,所以我們把內存最大的那批天權晶片專門劃給科學計算區,同時優化了內存分配算法,減少了內存碎片。」

  「第二層:片間擁塞控制調優。章宸的團隊正在修改互聯協議棧的擁塞控制參數,把擁塞檢測的窗口從微秒級調整到納秒級,同時增加了『訓練任務優先』的調度策略——當訓練任務和推理任務共享同一片網際網路時,訓練任務的數據包優先級更高。這個修改不會影響推理服務的延遲,因為推理服務的數據量小、對帶寬不敏感。」

  章宸補充了一句:「參數調優已經跑了兩輪仿真,效果符合預期。預計兩周內可以上線測試。」

  「第三層:負載預測模型升級。」趙靜說到這裡,語氣變得慎重了一些。「小芯團隊正在訓練一個新的預測模型,不再只依賴歷史流量數據,而是融合了外部信號——社交媒體熱點、新聞事件、應用版本發布計劃、甚至天氣和節假日。這個模型的參數量比現有模型大十倍,訓練一次需要悟道平台百分之三十的算力跑三天。」

  「代價不小。」許承說。

  「代價不小,但值得。」趙靜調出初步的實驗結果,「在離線測試中,新模型的預測準確率達到了百分之八十三,比現有模型提高了十八個百分點。如果上線後能保持這個水平,我們可以把冗餘算力的預留比例從百分之三十降低到百分之十五,相當於釋放出百分之十五的算力用於更多任務。」

  陳醒聽到這裡,在筆記本上寫了兩個字:「值得。」

  趙靜看到了他的動作,但沒有停下來,繼續往下講。

  「除了這三個核心問題,小芯在分析負載數據時還發現了一個更深層的問題——悟道平台的算力浪費不只是調度策略的問題,還有模型本身的效率問題。很多訓練任務使用的模型架構是五年前設計的,計算效率只有現在最優架構的百分之六十。他們浪費算力不是因為平台調度不好,而是因為他們自己的代碼寫得差。」

  「這個問題怎麼解決?」許承問。

  趙靜調出了一份統計:「在悟道平台上跑的訓練任務中,有百分之三十七來自未來科技內部團隊,百分之六十三來自外部合作夥伴和學術機構。內部團隊我們可以要求他們優化代碼,外部團隊我們沒有這個權力。」

  「但我們可以給他們工具。」趙靜說,「小芯團隊正在開發一個『算力效率分析器』,可以自動分析一個訓練任務的代碼,找出計算效率低下的環節,給出優化建議。這個工具可以開放給所有悟道平台的用戶,不是強制,但每個任務跑完後會收到一份效率報告,告訴他們『你的任務比最優方案慢了百分之多少』。」

  林薇第一次開口:「這個工具如果做出來,不只是幫用戶省算力,也是在幫我們積累模型優化的經驗。每一個任務的效率分析結果,都可以反哺給小芯的訓練數據,讓小芯越來越擅長發現算力浪費的模式。」

  趙靜點了點頭。這正是小芯團隊的長期目標——讓悟道平台成為一個「越用越聰明」的算力系統。

  會議進行到第二部分,許承把討論從「發現問題」轉向「落地執行」。

  「負載分區的方案,我已經讓天機雲團隊做了兩周的仿真,今天上午剛跑完最後一輪。」許承調出仿真結果。「分區後的理論利用率可以提升到百分之七十九,但代價是某些極端情況下,訓練區可能會因為任務太多而排隊,推理區可能會因為流量突增而臨時缺算力。」

  「排隊和缺算力的問題怎麼解決?」秦崢問。他雖然負責汽車業務,但天行者的自動駕駛模型訓練重度依賴悟道平台,訓練任務的排隊時間直接影響模型疊代速度。

  許承調出另一張圖:「分區不是物理隔離,而是邏輯隔離。每個區都有『彈性邊界』——如果訓練區的任務排隊超過一定時間,調度器可以從推理區或科學計算區臨時借用算力;如果推理區流量突增,調度器可以從訓練區借用算力。借用是有優先級的,訓練任務可以接受幾分鐘的延遲,推理任務不能接受,所以借用的方向是單向的——只能從訓練區借給推理區,不能反過來。」


  秦崢接受了這個方案。

  章宸提出了一個更技術性的問題:「分區方案上線後,片間擁塞控制調優的工作量會變大。因為不同區的通信模式不同,擁塞控制的參數需要分區配置,不能一刀切。」

  許承表示已經考慮到了這一點:「訓練區用訓練優化的擁塞控制參數,推理區和科學計算區用默認參數。」

  章宸點了點頭。

  趙靜提出的負載預測模型升級,是三個方案里風險最高的一個。新模型需要在悟道平台的在線流量上做A/B測試,先在小範圍上線,驗證效果後再逐步擴大。

  「A/B測試的方案已經設計好了。」趙靜說,「第一周,新模型只影響百分之五的推理請求,其他百分之九十五還是用舊模型。如果第一周的數據顯示新模型沒有引入明顯的延遲增加或錯誤率上升,第二周擴大到百分之二十,第三周百分之五十,第四周全量。」

  「如果中間出問題呢?」周明問。

  「有回退機制。每一周的擴大都是可逆的,一旦發現異常指標,可以在五分鐘內切回舊模型。」

  周明沒有再問。

  陳醒在筆記本上寫了第三個詞:「節奏。」

  他知道,悟道算力平台的負載調優不是一場閃電戰,而是一場持久戰。分區方案、擁塞控制、預測模型,三個方向同時推進,每個方向都有自己的風險和不確定性。真正的挑戰不是技術本身,而是如何在不影響現有業務的前提下,把這些改動一點一點地注入到一個已經運行了兩年、支撐著二十七個應用、每天處理數億次請求的生產系統里。

  會議進行到第三個小時,許承把討論從「解決方案」轉向「資源投入」。

  「分區方案需要改造調度器的核心代碼,預計耗時三周,投入六名工程師。擁塞控制調優需要修改協議棧和驅動,預計耗時兩周,投入四名工程師。預測模型升級需要訓練新模型、開發A/B測試框架、改造推理服務的調度邏輯,預計耗時五周,投入八名工程師。三個方向並行,總投入十八名工程師,五周內完成全部開發和測試,六周內上線。」

  「十八名工程師,」蘇黛說,「天機雲團隊現在有足夠的人手嗎?」

  「不夠。」許承沒有掩飾,「天機雲團隊目前在全力支撐天樞生態在南洋的擴張和海上數據計劃的第三輪演練,能抽調出來投入負載調優的只有八個人。缺口十個人。」

  蘇黛翻開筆記本,快速過了一遍集團的人力資源分布。

  「從晶片驗證團隊借三個人。天權4號的NPU調度器修改已經進入收尾階段,下周可以釋放出部分人力。從AI平台團隊借四個人。小芯的負載分析工作告一段落,趙靜可以調配人手。從天樞OS團隊借三個人。方程那邊的開發者扶持計劃2.0已經進入執行階段,不需要大規模開發人力。」

  趙海不在場,但蘇黛已經提前和他溝通好了。

  許承把借調的人名記下來,當場發給了各團隊的負責人。

  會議的最後一部分,趙靜調出了小芯對悟道平台長期演進的三個判斷。

  「第一,負載特徵感知調度只是第一步。未來十二個月,我們需要從『分區調度』進化到『個性化調度』——為每一個訓練任務、每一個推理請求動態生成最優的調度策略,而不是把任務粗暴地塞進幾個固定的分區里。」

  「第二,算力效率分析器如果做成了,悟道平台的角色會發生變化。它不再只是一個『算力提供者』,還會成為一個『算力效率的衡量標準和優化工具』。這個工具的價值可能比平台本身更大——因為它可以讓整個行業的AI訓練成本下降百分之三十以上。」

  「第三,也是最重要的——悟道平台的負載調優經驗,可以反向輸出給天權晶片的下一代架構設計。我們在調度中遇到的每一個瓶頸,都是天權下一代晶片應該優化的方向。片間擁塞控制調不上去,說明下一代晶片需要更智能的互聯協議;負載預測模型跑不動,說明下一代晶片需要更強的內存帶寬;分區調度的彈性邊界不好使,說明下一代晶片需要更靈活的算力切分粒度。」

  章宸聽到這裡,終於露出了今天第一個笑容。

  「趙靜,你說的這第三條,才是今天這場會議最有價值的一句話。」

  陳醒把筆記本合上。

  「總結一下。」他說,聲音不大,但每個字都很清楚。

  「第一,悟道算力平台的負載調優,優先級最高。許承負責整體推進,趙靜負責預測模型和效率分析器,章宸負責擁塞控制和晶片側配合。五周內完成開發和測試,六周內上線。」


  「第二,借調的人力,蘇黛今天之內協調到位。許承明天早上拿到完整的人力清單和任務排期。」

  「第三,算力效率分析器做成後,不僅要給悟道平台的用戶用,還要集成到天樞生態的開發者工具鏈里。每一個在天樞生態上跑AI應用的開發者,都應該知道自己的模型效率怎麼樣,應該怎麼優化。」

  「第四,趙靜提出的第三條長期方向——負載調優經驗反哺晶片架構——章宸回去後和晶片架構團隊對一對,把悟道平台過去半年遇到的所有瓶頸整理成一份『下一代晶片需求文檔』,在天權5的架構設計凍結前輸入進去。」

  陳醒說完,站起來。

  「今天的會就到這裡。五周後,我要看到悟道平台的平均算力利用率從百分之六十二提升到百分之七十五以上。」

  他沒有說「做不到會怎麼樣」,因為不需要說。在座的所有人都知道,對面全面制裁落地後,算力就是最稀缺的資源。悟道平台每提升一個百分點的利用率,就意味著未來科技在算力封鎖下多撐一天的能力。

  所有人陸續離開作戰室。

  趙靜沒有走,她站在顯示牆前,看著那三張負載曲線圖。許承走到她旁邊。

  「新模型的A/B測試框架,我今晚讓團隊先把架子搭起來。」許承說。

  趙靜點了點頭,但她的注意力不在A/B測試框架上,而在顯示牆角落裡的一張圖上——那是算力效率分析器在離線測試中跑出的一個結果,某個外部合作夥伴的訓練任務,計算效率只有最優方案的百分之二十三。

  她點開那個任務的詳細信息,一行一行地看。

  任務是一個醫療影像識別的模型訓練,用的數據量不大,模型架構也不算複雜,但代碼寫得極其低效——數據加載沒有預取,梯度更新沒有融合,甚至連基本的混合精度訓練都沒開。這樣的任務在悟道平台上跑一次,消耗的算力是最優方案的將近五倍。

  趙靜把那個任務的ID記了下來。她打算讓小芯自動生成一份詳細的優化建議報告,然後通過悟道平台的消息系統發給那個合作夥伴。不是指責,是幫助。

  如果每一個低效的任務都能收到這樣一份報告,悟道平台的整體算力利用率不需要調度器也能提升百分之五到百分之十。

  她把這件事加到了效率分析器的需求文檔里,然後關掉顯示牆,走出作戰室。

  走廊里,章宸正在等電梯。他看到趙靜出來,說了一句話。

  「天權5的架構設計里,我打算加一個專門的算力效率監控單元。不是用來跑任務的,是用來實時監測每個核心的指令執行效率、緩存命中率、內存帶寬利用率,然後把數據反饋給調度器。調度器根據這些數據動態調整任務分配。」

  趙靜愣了一下,然後說了一句讓章宸笑了的話。

  「你這是要把悟道平台的負載調優經驗,直接燒進晶片裡。」

  「對。」章宸說,「軟體能做的優化,調度器可以做。但有些優化必須在硬體層面完成。天權5如果能在晶片內部就完成算力效率的實時監測和動態調整,悟道平台的調度器就不用猜『這個任務效率高不高』,而是可以直接看到。」

  電梯門開了,章宸走進去,趙靜跟在後面。

  「這個算力效率監控單元,什麼時候能出第一版設計?」趙靜問。

  「六周後。天權4號的NPU調度器改完,驗證通過,我就帶團隊開始做。」

  電梯門關上,緩緩下降。

  趙靜靠在電梯壁上,閉了一會兒眼。六周,正好是悟道平台負載調優上線的節點。到時候,軟體層面的優化和硬體層面的監控單元可以同步推進,形成一個「軟體發現問題、硬體提供數據、軟體利用數據進一步優化」的正循環。

  她睜開眼睛,看了一眼電梯裡的樓層顯示。地下一層,高性能計算集群。

  電梯門開了,她走出去,穿過機房的走廊,回到小芯團隊的辦公區。二十幾個工程師正在各自的工位上忙碌,屏幕上的代碼、日誌、曲線在昏暗的光線里閃爍。

  她坐回自己的工位,打開筆記本,把今天會議上確定的三個方向、五個里程碑、十八個人名、六周時間軸全部整理成一份任務清單,發給了所有相關人員。

  郵件的最後一行,她寫了一句趙海常說的話:「最好的優化,是在問題還沒發生之前就把它解決掉。」

  然後她打開算力效率分析器的代碼倉庫,開始看今天新提交的代碼。

  窗外,芯谷的燈光已經全部亮起來了。從研究院的窗戶望出去,那片光海比作戰室里看到的更遠、更散、更像一片真正的海。

  而在這片光海的深處,悟道算力平台的三萬兩千顆天權晶片正在無聲地運轉,處理著來自天樞生態二十七個應用的數百萬次請求,訓練著下一個版本的小芯,支撐著未來科技在風暴前夜的每一條戰線。

  明天,負載調優的第一行代碼會被寫下。

  六周後,悟道平台會變得更聰明、更高效、更能扛。

  而在那之後,當天權5的算力效率監控單元第一次在仿真環境中跑通的時候,趙靜會想起今天電梯裡章宸說的那句話。

  軟體能做的優化,調度器可以做。

  但有些優化,必須燒進晶片裡。

  就像有些承諾,必須寫進規則里。

章節目錄