第331章 天權4號的可靠性長周期測試

投票推薦 加入書籤 小說報錯

  芯谷地下二層的驗證中心,在這座建築里是一個特殊的存在。它不像研究院那樣窗明几淨,也不像追光廠房那樣充滿工業感。這裡的走廊只有一米二寬,天花板上的燈管每隔一根就拆掉了一根,照度刻意保持在偏暗的水平——不是因為省電,而是因為亮度過高會影響某些光學檢測設備的精度。

  走廊兩側是一扇扇厚重的金屬門,每扇門後面都是一個獨立的環境測試艙。這些測試艙是兩年前天權3號流片時建的,當時只有六個,現在擴展到了十八個,占據了地下二層將近一半的面積。每個測試艙都可以獨立控制溫度、濕度、氣壓、振動頻率和電磁輻射強度,模擬從北極圈到熱帶雨林、從海平面到高原、從實驗室到發動機艙的各種極端環境。

  章宸站在六號測試艙的觀察窗前,手裡拿著一個平板,屏幕上顯示著天權4號在過去七十二小時裡的全部測試數據。他穿著一件深灰色的工裝外套,口袋裡插著三支不同顏色的馬克筆,胸前的工牌背面寫滿了今天要確認的測試項。

  六號測試艙里,一塊天權4號的工程驗證板被固定在振動台上。驗證板上有十二顆晶片,每一顆都連接著獨立的電源監控、溫度傳感器和功能安全監測電路。振動台以每分鐘三千次的頻率、三個方向同時施加隨機振動,模擬的是汽車發動機艙在顛簸路面上的工況。驗證板旁邊的溫控箱顯示實時溫度:零下四十度,濕度百分之八十五。

  這個測試條件,比車規級標準要求的最嚴苛工況還要高出百分之二十。

  章宸不是個喜歡「加碼」的人。但天權4號的情況特殊——它是因為NPU調度器效率問題回退RTL、流片延遲五周的晶片。延遲的五周被用在了修改和驗證上,但修改後的設計能不能在真實環境中穩定運行,不是仿真能完全回答的。所以他在測試大綱里加了三組比標準更嚴苛的條件:更寬的溫度範圍、更長的測試周期、更複雜的複合應力組合。

  「七十二小時,零故障。」站在他旁邊的測試工程師老葛說,語氣裡帶著一種小心翼翼的樂觀。「十二顆晶片,七十二小時,每顆晶片跑了兩百四十萬個測試向量,沒有發現任何功能錯誤。溫度循環、振動、電壓拉偏、時鐘抖動注入,全部通過。」

  章宸沒有接話,而是用手指在平板上滑動,調出了每一顆晶片的溫度曲線。十二根曲線在七十二小時的時間軸上幾乎完全重合——最高溫度六十二度,最低溫度零下四十度,溫度變化率每秒鐘十五度。在這麼劇烈的溫度衝擊下,晶片內部不同材料的熱膨脹係數差異會導致微米級的形變,長期累積可能造成焊點疲勞、封裝開裂、甚至晶片和基板之間的連接斷裂。

  天權4號的封裝團隊在流片前做過仿真,理論壽命是兩千次溫度循環。但章宸知道,仿真和實測之間有一道鴻溝。這道鴻溝的名字叫「現實」。

  「溫度循環還要跑多久?」他問。

  「計劃是跑一千次,現在跑了三百二十次。按目前的進度,還需要大概五天。」老葛調出測試計劃,「但有一個問題——七號艙的溫控系統昨天下午出了點異常,溫度過沖超過了設定值三度,持續時間大概兩秒。雖然很快恢復了,但按照測試規程,那批晶片的測試數據需要標記為『有異常干擾』,不能作為有效數據。」

  章宸皺眉:「七號艙里跑的是什麼?」

  「天權4號的另一組工程樣片,十二顆,跑的是高溫高濕加速壽命測試。溫控系統異常發生在測試開始的第十七個小時,之後我們重啟了測試,但已經跑的那十七個小時的數據不能用了,要重新跑。」

  「異常原因查清楚了嗎?」

  老葛調出了七號艙的溫控系統日誌:「溫控系統的PID控制器參數漂移了。這台設備用了三年,PID參數是出廠時設定的,沒有做過自適應校準。溫度過沖的原因是控制器的積分項累積誤差過大,導致輸出超調。」

  章宸在平板上記下了這個問題,然後走到七號艙的觀察窗前。裡面的測試已經重新開始了,十二顆晶片正在八十五度、百分之八十五濕度的環境下運行。這個測試條件模擬的是熱帶地區高溫高濕環境下的長期可靠性,通常跑一千個小時相當於設備在真實環境中使用三年。

  「所有測試艙的溫控系統,今天之內全部做一次PID參數校準。老化的設備標記出來,排進更換計劃。」章宸說,語氣不是責備,而是陳述一個必須完成的任務。「天權4號的可靠性測試不能因為設備問題中斷或失真。如果設備不行,就換設備;如果設備要修,就等修好了再跑。測試周期可以延長,但數據必須可信。」

  老葛把任務記下來,然後問了一個章宸已經在想的問題:「測試周期延長了,天權4號的量產時間表要不要調整?」


  章宸沒有立刻回答。他走到地下二層的中央監控室,這裡有一整面牆的屏幕,顯示著十八個測試艙的實時狀態。六號艙的振動台還在震動,七號艙的溫控曲線穩定爬升,九號艙在跑電磁兼容測試,十一號艙在跑電源瞬態響應。每一塊屏幕上都有數字在跳動——溫度、濕度、電壓、電流、頻率、誤碼率、錯誤計數。

  天權4號的量產時間表,是兩個月前就定下來的。流片延遲五周已經讓天衡5的量產計劃承受了巨大壓力,如果可靠性測試再延期,整條產品線都會受影響。但章宸更清楚一件事:晶片量產最怕的不是延期,而是帶著隱藏問題上線。隱藏問題會在用戶手裡爆發,到那時,損失的不是時間,是信任。

  「時間表先不調。」他說,「我們先把能並行的事情並行。可靠性測試繼續跑,量產準備工作同步推進。等測試數據出來,如果有問題,再決定要不要延期。」

  老葛點了點頭。

  章宸在監控室坐了半個小時,看著每一塊屏幕上的數字。十八個測試艙,兩百一十六顆天權4號工程樣片,正在同時經歷著高溫、低溫、高濕、振動、電磁干擾、電壓波動、時鐘抖動的輪番考驗。這些考驗是殘酷的,但晶片的設計目標就是在殘酷中保持穩定。

  他想起林薇在追光設備國產化會議上說的那句話——「晶片是承諾,不是妥協。」

  天權4號的承諾,就是在零下四十度到零上八十五度的溫度範圍內、在百分之五到百分之九十五的濕度範圍內、在每秒三千次的振動下、在幾十伏每米的電磁場中,依然能正確地執行每一條指令,依然能穩定地輸出每一個計算結果。

  這個承諾,過去七十二小時裡,兩百一十六顆晶片全部兌現了。

  但七十二小時不夠。章宸要的是兩千個小時、一萬個小時、十萬個小時。他要的是天權4號在真實世界中被用戶用三年、五年、七年之後,依然能兌現這個承諾。

  下午,趙靜來了。

  她不是來參加測試的,而是來送小芯對天權4號測試數據的分析結果。悟道算力平台的負載調優和天程車規晶片的樣車集成占用了她大部分時間,但章宸一周前就請她幫忙跑一組分析——用小芯的異常模式識別能力,在天權4號的測試數據里找那些人類工程師可能會忽略的微小異常。

  「小芯在溫度循環測試的數據里找到了一個模式。」趙靜把分析報告遞給章宸,然後走到監控牆前,指著六號艙的數據曲線。「你看這十二顆晶片的溫度曲線,表面上看完全重合,但如果把溫度變化率放大一百倍,就能看到差異。」

  她調出了小芯的分析結果——一張放大後的曲線圖。十二根曲線在溫度變化的拐點處出現了微小的分離,有的晶片溫度上升得快一點,有的慢一點,差異在零點零幾度的量級。

  「這不是問題。」章宸說。

  「單獨看不是問題。但小芯把這種微小差異和另一組數據關聯起來後,發現了一個規律。」趙靜調出了第二張圖,是這些晶片的電源紋波數據。「溫度上升快的晶片,電源紋波也稍微大一點。紋波大的晶片,功能安全監測電路的自檢周期會稍微長一點。所有差異都在規格範圍內,但它們之間存在相關性。」

  章宸盯著那幾張圖看了很久。

  「小芯的判斷是什麼?」

  「不是故障,是特徵。這些晶片的物理特性存在細微差異,導致它們在溫度響應、電源紋波、自檢周期上表現出不同的特徵。這些特徵在規格範圍內,不會影響功能和可靠性。但小芯發現,這些特徵和晶片在晶圓上的位置有強相關性——晶圓邊緣的晶片和中心的晶片,表現不一樣。」

  章宸明白了趙靜的意思。

  這不是一個需要修復的問題,而是一個需要被理解的現象。天權4號的晶片從晶圓上切下來的時候,因為晶圓製造過程中的工藝偏差,邊緣和中心的晶片確實會有細微差異。這些差異在設計階段就被考慮到了,規格範圍也覆蓋了這些差異。但小芯的分析提供了一個新的視角——這些差異不是隨機的,而是有規律的,可以被預測、被分類、被用於更精細的篩選。

  「這個分析結果,我要用到天權5的設計里。」章宸說,「晶圓邊緣和中心的差異,我們之前在設計餘量里已經覆蓋了,但沒有做針對性的優化。天權5可以在版圖設計階段就把這種差異考慮進去,讓邊緣的晶片和中心的晶片在關鍵參數上更一致。」

  趙靜把這句話記了下來,然後問了一個更實際的問題:「天權4號的這批工程樣片,按現在的測試數據看,能進入小批量試產嗎?」

  章宸沉默了幾秒。


  「能。但不是因為測試數據完美,而是因為我們知道所有不完美的地方在哪裡,知道它們的影響範圍,知道怎麼在量產測試中把它們篩出來。晶片量產不是追求每一顆都一樣,而是追求每一顆都在規格範圍內,並且我們知道每一顆在規格範圍內的具體位置。」

  趙靜點了點頭,離開了監控室。

  章宸一個人坐在監控室里,繼續看那些屏幕。

  下午四點,方程來了。

  方程不是來參加測試的,他是來問一個問題的。天罡生態的商業化服務試點需要跑在天權晶片上,方程需要知道天權4號的可靠性數據,才能確定商業化服務的SLA——服務等級協議。如果晶片的可靠性不夠,天罡生態就不敢承諾百分之九十九點九的可用性。

  章宸把今天的測試數據調出來,一頁一頁地給方程看。

  「七十二小時,兩百一十六顆晶片,零功能故障。溫度循環、振動、高濕、電磁兼容、電源瞬態,所有測試項都通過了。但這不是最終結論,可靠性測試要跑完完整周期才能下結論。」

  方程看著那些數據,問了一個章宸沒想到的問題。

  「天權4號和天權3號比,可靠性是提升了還是下降了?」

  章宸調出了天權3號在同樣測試條件下的歷史數據。兩張表並排放在屏幕上,對比一目了然。天權4號的溫度循環壽命預期比天權3號高了百分之四十,電源紋波低了百分之三十,功能安全診斷覆蓋度從百分之九十七點二提升到了百分之九十九點一。

  「提升了。」章宸說,「不是因為天權3號做得不好,而是因為天權4號在設計階段就把天權3號在可靠性測試中暴露的所有問題都解決了。NPU調度器的修改不只是解決了效率問題,也順便優化了電源管理和熱管理,所以可靠性反而比預期更好。」

  方程在筆記本上寫了幾個數字,然後抬頭看著章宸。

  「天罡生態的SLA,我可以定在百分之九十九點九了。」

  章宸沒有反對。他知道方程不是在問他,而是在告訴他一個決定。天罡生態的商業化服務需要給開發者一個承諾,百分之九十九點九的可用性是那個承諾的數字。天權4號的可靠性數據,支撐得起這個承諾。

  方程走後,章宸繼續看測試數據。

  傍晚,林薇來了。

  她是來確認一件事的。天權4號的可靠性長周期測試結果,會直接影響天衡5的量產時間表。如果天權4號不能按期通過測試,天衡5就要換備用方案——用天權3號先頂一陣,等天權4號成熟了再切換。但切換方案的成本很高,而且會給供應鏈增加不必要的複雜度。

  「天權4號的測試,能不能按期完成?」林薇問。

  章宸調出了測試計劃的時間軸。

  「溫度循環還要五天,高溫高濕加速壽命測試還要七天,電磁兼容和電源瞬態測試已經完成了百分之八十。如果不出現設備故障或測試異常,全部測試可以在十二天內完成。但今天七號艙的溫控系統出了點問題,導致高溫高濕測試重跑了一次,所以實際完成時間可能會延遲兩到三天。」

  「兩到三天,能接受。」林薇說,「天衡5的量產準備還有十五天才能完成,你有兩到三天的緩衝。但不能再多了。」

  章宸點了點頭。

  林薇走到監控牆前,看著那些屏幕。十八個測試艙,兩百一十六顆晶片,正在被極端環境反覆折磨。她想起自己當年在實驗室里第一次跑晶片可靠性測試的時候,只有一台老舊的溫箱、二十顆工程樣片、一個破舊的萬用表。那時候她要在溫箱前坐一整夜,每隔一個小時記錄一次數據,困了就喝咖啡,咖啡喝完了就掐自己大腿。

  現在,地下二層的測試中心有自動化的數據採集系統、智能的異常檢測算法、小芯的輔助分析能力。但本質沒有變——晶片的可靠性,不是靠設備測出來的,是靠工程師一個參數一個參數調、一個測試項一個測試項跑、一個問題一個問題解決,硬啃出來的。

  「天權4號的測試數據,每天晚上發一份給我。」林薇說。

  章宸知道她不是不信任他,而是天衡5的量產太重要了,她必須在每一個關鍵節點上都保持對風險的直接感知。

  「好。」

  林薇走後,章宸又坐了一個小時。

  他看著六號艙的溫度曲線從零下四十度爬到零上八十五度,再降回零下四十度。一個循環兩個小時,三百二十個循環,六百四十個小時。每一秒鐘,溫度都在變化,晶片都在膨脹和收縮,焊點都在承受應力,封裝都在經歷形變。


  六百四十個小時後,如果所有晶片都還能正常工作,天權4號的可靠性就有了第一份實打實的證據。

  但六百四十個小時不夠。章宸要的是兩千個小時、五千個小時、一萬個小時。他要在天權4號量產之前,就把它在真實世界中可能遇到的所有極端情況都跑一遍。

  不是因為他對設計沒有信心,而是因為他對「承諾」這兩個字有執念。

  晚上九點,章宸離開地下二層,回到一樓的晶片設計中心。辦公區里還有十幾個人在加班,有人在看仿真波形,有人在改RTL代碼,有人在分析測試數據。天權4號的NPU調度器修改雖然已經完成了,但天權5的架構設計已經啟動了,團隊正在做早期的微架構探索。

  章宸坐到自己的工位上,打開終端,把今天所有測試艙的數據又看了一遍。溫度、濕度、電壓、電流、頻率、誤碼率、錯誤計數,每一個數字都正常,每一個曲線都平滑,每一個測試項都通過。

  但他知道,正常不代表完美,通過不代表沒有問題。那些被小芯發現的微小差異——溫度拐點的零點零幾度偏差、電源紋波的微弱波動、自檢周期的毫秒級變化——都說明天權4號還有優化的空間。

  他把這些觀察寫進了一份內部備忘錄,標題是《天權4號可靠性測試階段性總結及天權5優化建議》。備忘錄里列出了十七個可以進一步優化的方向,從封裝材料的選擇到電源管理單元的控制算法,從時鐘分布網絡的拓撲結構到功能安全監測電路的靈敏度配置。

  寫完最後一個字,他靠在椅子上,閉了一會兒眼。

  終端震動了,是老葛發來的消息。

  「六號艙溫度循環測試,第四百次通過。所有晶片功能正常,參數無漂移。」

  章宸回復了一個字:「繼續。」

  然後他關掉終端,站起來,走出晶片設計中心。

  走廊里很安靜,只有中央空調的微弱嗡鳴。他沿著走廊往電梯走去,經過一間間已經關了燈的辦公室,一扇扇緊閉的門。走到電梯口的時候,他看到門邊貼著一張紙,上面寫著:「天權4號可靠性長周期測試——倒計時:預計完成時間,十一天零八小時。」

  十一天後,天權4號的可靠性測試會有一個初步結論。

  但章宸知道,真正的測試不在實驗室里,不在測試艙里,不在振動台上。真正的測試在用戶手裡,在真實世界裡,在每一個需要晶片穩定運行的時刻。

  天權4號還沒有面對過真實世界。

  但等它面對的時候,章宸希望它已經準備好了。

  電梯門開了,他走進去,按了一樓。

  電梯門關上的那一刻,他聽到地下二層深處傳來的微弱嗡鳴——那是十八個測試艙在運轉,是兩百一十六顆晶片在經受考驗,是可靠性測試在每一秒中積累著證據。

  證據證明天權4號值得被信任。

  或者證據證明它還需要再改一版。

  章宸不知道十一天後會看到什麼結果。

  但他知道,無論結果是什麼,他都會面對它,拆解它,解決它。

  就像過去五年裡,他面對過、拆解過、解決過的每一個晶片問題一樣。

  電梯門在一樓打開,章宸走出去,穿過大廳,推開門。

  夜風吹在臉上,有一點涼。

  芯谷的燈光還在亮著,研究院頂樓、追光廠房、舊樓三層、地下二層,每一處都有光。

  他抬頭看了一眼天空,雲層很厚,看不見星星。

  但他知道,那些星星還在。

  就像天權4號的可靠性,還在被測試、被驗證、被證明。

  十一天後,答案會出來。

  而明天,追光產線的工藝改良投入評估會議,會在同一棟樓里舉行。

  那是另一條戰線,同樣硬,同樣不能妥協。

  章宸走進夜色里,身後是芯谷的光海,頭頂是看不見的星空。

  十一天。

  倒計時還在走。

章節目錄