第341章 天權4號首輪工程改良
芯谷研究院的晶片驗證大廳,面積超過一千平方米,地面鋪著防靜電地板,天花板上的高效過濾器發出均勻的低頻嗡鳴。大廳中央排列著十八個測試艙,每個測試艙都是一台獨立的環境模擬設備,可以精確控制溫度、濕度、電壓、震動頻率。兩百一十六顆天權4號工程樣片已經在這些測試艙里連續運轉了二十三天,每天二十四小時,每周七天,不間斷。
章宸站在測試數據監控台前,面前的六塊大屏幕同時顯示著不同維度的測試數據。溫度曲線、電壓波動、時鐘抖動、錯誤率、功耗分布、熱成像,每一組數據都在實時跳動。他已經在這裡站了四個小時,從凌晨五點到現在,只喝了兩杯黑咖啡。
天權4號的首輪工程改良評審,原定於兩周前進行。但因為NPU調度器的回退RTL和流片延遲五周,整個時間軸往後推了。那五周里,章宸的團隊沒有一天休息。NPU調度器的問題最終定位到一個邊界條件處理錯誤——當NPU的四個核心同時訪問共享緩存時,仲裁邏輯在某個極其罕見的時序組合下會產生優先級反轉,導致其中一個核心被無限期阻塞。
這個bug隱藏在RTL代碼的深處,是三個年輕的工程師寫的。代碼審查通過了,仿真通過了,FPGA原型驗證通過了。但在真實晶片上,在特定的溫度、電壓、工藝角組合下,它被觸發了。概率很低,千分之一不到,但低概率不等於不存在。在天權4號的設計哲學裡,任何不確定的行為都是不可接受的。
章宸在問題定位後的第二天,召集了整個晶片團隊,在會議室里站成一圈。他沒有罵任何人,只說了一句話:「這個bug能活到現在,不是寫代碼的人的問題,是我們的驗證方法有問題。我們的驗證覆蓋了『可能出錯的地方』,但沒有覆蓋『不可能出錯的地方』。從今天開始,驗證團隊要換一種思路——假設每一行代碼都是錯的,然後去證明它是對的。證明不了,就重寫。」
NPU調度器的RTL重寫用了兩周,驗證用了一周,重新流片用了兩周。五周,一天不多,一天不少。新批次的工程樣片回來後的第一件事,不是上測試台,而是直接放進十八個測試艙里,跑最極端的工況組合。到今天,連續運轉二十三天,零功能故障。
但章宸要的不是「零故障」,他要的是「可預測、可驗證、可重複」的零故障。測試數據必須證明,在所有的工藝角、溫度、電壓組合下,晶片的行為都是確定的、可預期的、符合規範的。
監控台的右側,李明哲的團隊負責的可靠性長周期測試也在同步進行。兩百一十六顆晶片被分成了九個批次,每個批次對應不同的測試條件組合。溫度從零下四十度到零上一百二十五度,電壓從標稱值的百分之九十到百分之一百一十,濕度從百分之十到百分之九十。每個測試艙都在按照預設的曲線自動循環,溫度每六小時升降一次,電壓每十二小時跳變一次,模擬真實設備在使用壽命內可能經歷的所有環境變化。
小芯的AI分析模塊實時處理著十八個測試艙傳來的數據流。每顆晶片有超過兩百個測試點,每個測試點每秒鐘產生一千個數據樣本。總數據量每秒鐘超過四千萬個數據點,普通的數據分析系統根本處理不了。但小芯的神經網絡加速器專門為這類任務優化過,可以在數據流中實時識別異常模式,比傳統分析方法快一千倍。
章宸的終端震動了,是小芯推送的一條分析報告。
「天權4號可靠性測試第二十三天數據分析:兩百一十六顆工程樣片,累計運行四百九十二萬小時等效時間,零功能故障。晶圓邊緣晶片與中心晶片的微小差異持續存在,但差異幅度穩定,未隨時間擴大。差異對晶片功能無影響,對長期可靠性的影響概率低於百萬分之一。」
章宸看完報告,把終端遞給旁邊的李明哲。
「晶圓邊緣和中心的差異,你打算怎麼處理?」李明哲接過終端,掃了一眼報告。
「天權4號不處理。差異太小了,對功能和可靠性沒有實際影響。但天權5號的架構優化里,要把這個差異考慮進去。封裝團隊已經在和鄭教授的聯合實驗室做多尺度仿真了,目標是找到差異的物理根源,然後在天權5的設計里從根源上消除。」
「也就是說,天權4號的改良,不涉及晶圓差異的問題?」
「不涉及。天權4號的首輪工程改良,聚焦三個問題——NPU調度器的RTL重寫驗證、功耗動態調整算法的優化、以及晶片間一致性的增強。」
章宸轉身走向驗證大廳的另一側,那裡有一排工作站,工程師們正在做功耗測試。他指著一台示波器上的波形。
「NPU調度器的問題解決後,我們順便優化了動態電壓頻率調整的算法。之前的算法是全局的——所有核心同升同降。現在改成了每核心獨立的DVFS,每個核心可以根據自己的負載獨立調整電壓和頻率。這個優化把天權4號在典型應用場景下的功耗降低了百分之十二,峰值性能提升了百分之八。」
李明哲看著示波器上的波形,每個核心的電壓曲線都不一樣,有的在高頻運行,有的在低頻待機,有的在中間狀態快速切換。整個波形看起來像一座繁忙城市的天際線,高低錯落,但整體平穩。
「晶片間一致性增強呢?」李明哲問。
章宸帶他走到另一台測試設備前,屏幕上顯示著十顆晶片的測試數據對比。
「之前我們發現,不同晶片之間有一些微小的性能差異——同樣的測試向量,有的晶片跑得快一點,有的慢一點,差距在百分之一到百分之三之間。這個差異對終端用戶來說感覺不到,但對伺服器和數據中心的應用來說,百分之一的差異就意味著機群需要做額外的負載均衡和性能補償。」
「我們的解決方案是——在生產測試階段,對每顆晶片做性能分級。分成金、銀、銅三個等級,每個等級內的晶片性能差異控制在百分之零點五以內。客戶可以根據自己的應用需求選擇合適等級的晶片。對性能一致性要求高的伺服器客戶,可以只買金級晶片,價格貴百分之十五。對性能一致性要求不高的消費電子客戶,可以買銀級或銅級,性價比更高。」
李明哲點了點頭。「這不只是技術方案,也是商業模式。」
「對。陳醒說這叫『精細化定價』——不是一刀切地賣晶片,而是根據晶片的真實性能做分級,讓客戶為恰好需要的性能付費,不為用不到的性能買單。」
上午九點,首輪工程改良評審會正式開始。
會議室在驗證大廳的二樓,一面牆是玻璃,可以俯瞰整個驗證大廳。章宸坐在長桌的一端,兩側是晶片團隊的骨幹工程師,以及從合城趕來的老韓和蘇黛。陳醒通過視頻參加會議,屏幕投影在牆上的大屏幕上。
章宸打開終端,把評審材料投在大屏幕上。
「天權4號首輪工程改良,三個目標。第一,NPU調度器RTL重寫後的功能驗證。第二,動態電壓頻率調整算法的功耗優化驗證。第三,晶片間一致性增強方案的有效性驗證。」
他翻到第一頁,是一張NPU調度器的狀態機圖。
「NPU調度器的RTL重寫,我們把仲裁邏輯從優先級固定改成了輪詢加權重的混合模式。每個核心的請求都有一個權重計數器,被服務過的核心權重降低,長時間未被服務的核心權重升高。這種模式從根本上消除了優先級反轉的可能性,同時保證了高優先級任務的實時性。」
「驗證團隊做了三百萬個隨機測試向量,覆蓋了所有可能的時序組合。另外還做了針對性的一百個邊界條件測試,專門模擬最極端的競爭場景。全部通過。功耗和面積的影響——功耗增加了百分之零點三,面積增加了百分之零點五,在可接受範圍內。」
台下有人提問:「輪詢加權重的混合模式,延遲的確定性怎麼樣?最壞情況下的響應時間是多少?」
章宸調出了一張延遲分布圖。
「舊調度器的最壞情況響應時間是十二個時鐘周期,平均三個周期。新調度器的最壞情況響應時間是八個周期,平均四個周期。最壞情況變好了,平均情況變差了一點。但對NPU的實際工作負載來說,四個周期和三個周期的差別可以忽略。更重要的是——新調度器的響應時間是可預測的,有確定的上界。舊調度器理論上存在無限期阻塞的可能,雖然概率極低。」
提問的工程師點了點頭,坐下了。
評審的第二部分,是功耗優化。
負責功耗優化的工程師叫小譚,三十出頭,是章宸從一家晶片設計公司挖來的。他走到屏幕前,調出了功耗測試的對比數據。
「舊版DVFS算法,全局同升同降,典型應用場景的平均功耗是三點二瓦。新版每核心獨立DVFS,平均功耗降到二點八瓦,降低了百分之十二點五。峰值性能從每秒四萬億次運算提升到四點三二萬億次,提升了百分之八。」
「降功耗的核心是兩點——第一,細粒度的負載檢測。舊版算法每毫秒檢測一次負載,新版每零點一毫秒檢測一次,響應更快。第二,預測性的頻率調整。小芯的AI模塊可以根據應用的行為模式預測未來的負載變化,提前調整頻率,避免頻繁的電壓跳變。頻繁跳變的功耗損耗很大,預測性調整可以避免百分之六十的無用跳變。」
陳醒在視頻里問了一個問題:「每核心獨立DVFS,對電源管理晶片的要求是不是更高了?」
小譚調出了電源管理晶片的規格對比。
「是的。舊版只需要一路可調電源,新版需要四路——每個核心一路。電源管理晶片的複雜度增加了,成本增加了大約八塊錢。但整機的功耗降低了百分之十二點五,對手機來說,這意味著電池續航可以延長一個小時。八塊錢的成本換一個小時的續航,值。」
陳醒沒有繼續追問。
評審的第三部分,是晶片間一致性增強。
章宸親自講這一部分。
「晶片間一致性增強,我們做了三件事。第一,在生產測試階段增加性能分級測試。每顆晶片都會跑一千個測試向量,覆蓋所有功能模塊和性能敏感路徑。測試結果輸入小芯的分類模型,自動輸出金、銀、銅三個等級。」
「第二,優化了晶片內部的時鐘分布網絡。之前的時鐘樹設計,不同區域的時鐘有微小的偏移,導致晶片間的差異。我們重新設計了時鐘樹的拓撲結構,把偏移從正負百分之三降到了正負百分之一。」
「第三,校準了電壓基準源。每顆晶片的電壓基準源都有微小的工藝偏差,之前的校準只做了一次,出廠後就不管了。現在我們在晶片內部集成了一個校準電路,可以在晶片的整個生命周期內持續監測和校準電壓基準,確保電壓精度始終在正負百分之一以內。」
蘇黛問了一個問題:「性能分級測試,會不會影響產能?每顆晶片跑一千個測試向量,測試時間會增加多少?」
章宸調出了測試時間的對比數據。
「舊版測試每顆晶片跑三百個向量,測試時間零點八秒。新版跑一千個向量,測試時間二點六秒。增加了二點八倍。測試機台的成本會增加,但我們測算過,增加的測試成本平攤到每顆晶片上大約是五塊錢。金級晶片多賣的價格可以覆蓋這部分成本,銀級和銅級的價格不變,利潤會薄一點,但銷量可以補回來。」
蘇黛在筆記本上記下了這個數字。
評審會開了三個小時,所有議題都過了一遍。最後,章宸做了總結。
「天權4號首輪工程改良,三個目標全部達成。NPU調度器的新RTL通過了三百萬個隨機測試向量和一百個邊界條件測試,零功能故障。每核心獨立DVFS把典型功耗降低了百分之十二點五,峰值性能提升了百分之八。晶片間一致性增強方案把金級晶片的性能差異控制在百分之零點五以內。」
「下一步,天權4號進入小批量試產階段。計劃生產五千顆工程樣片,分別供給天衡4的終端驗證、天權5的架構優化參考、以及聯合實驗室的封裝仿真研究。試產周期六周,六周後如果沒有發現新的問題,天權4號進入量產準備。」
陳醒在視頻里沉默了幾秒,然後說了一句話。
「天權4號的延遲五周,代價不小。但代價換來了一個更可靠的晶片。晶片是承諾,這句話不只是口號。天權4號的首輪工程改良做完了,但天權4號的故事還沒有結束。小批量試產階段,繼續深挖問題。不要因為評審過了就放鬆。晶片的問題,往往不是在評審會上發現的,是在產線上、在用戶的設備里、在極端的使用場景下發現的。」
章宸點了點頭。
評審會結束後,章宸和李明哲回到驗證大廳。
監控台上的屏幕還在跳動,十八個測試艙里的晶片還在運轉。兩百一十六顆晶片,二十三天,四百九十二萬小時等效時間,零功能故障。數據很漂亮,但章宸知道,漂亮的數據不等於完美。晶圓邊緣和中心的微小差異還在,雖然概率很低,但概率不是零。天權5的架構優化里,這個差異必須被徹底解決。
他走到測試艙前,透過觀察窗看著裡面的晶片。晶片被焊在測試板上,測試板插在背板上,背板上連接著密密麻麻的線纜,通向監控台。晶片的表面有一層淡淡的氧化痕跡,那是長時間高溫運行留下的印記。
李明哲走到他旁邊。
「章總,天權4號的小批量試產,你打算在哪條產線跑?」
「合城。天衡4的產線已經在合城搭建了百分之七十,正好用天權4號的試產來驗證產線的 readiness。老韓那邊已經在準備了,下周設備到位,再下周開始跑。」
「天衡4的產品路線呢?什麼時候敲定?」
「下周。陳醒讓林薇牽頭,召集產品、市場、供應鏈、製造四個部門一起定。天權4號的試產數據出來之後,天衡4的規格、定價、量產計劃就可以最終確定了。」
李明哲點了點頭。
章宸轉身離開驗證大廳,走向電梯。
走廊里很安靜,只有中央空調的嗡鳴。他經過一間間實驗室,有的亮著燈,有的已經關了。透過一扇半開的門,他看到鄭教授的兩個博士生還在工作站前調試仿真模型,屏幕上顯示著晶圓封裝的應力分布雲圖,紅色和藍色的區域交織在一起,像一幅抽象畫。
電梯門開了,他走進去,按了一樓。
門關上的那一刻,他聽到驗證大廳里傳來的微弱嗡鳴——那是十八個測試艙還在運轉,是兩百一十六顆晶片還在證明自己的可靠性。
電梯到了一樓,門開了。
章宸走出去,穿過大廳,推開門。
芯谷的廣場上,夕陽正在西沉。橙紅色的光灑在追光廠房的外牆上,把「追光」兩個字照得很亮。遠處,研究院的補天區還亮著燈,舊樓三層的窗戶里有人在走動。
他的終端震動了,是小芯推送的一條新消息。
「天權4號可靠性測試第二十三天數據分析更新:測試艙七號晶片的溫度曲線在第一百七十二次循環時出現零點三度的異常波動,已自動觸發診斷程序。診斷結果——測試艙溫控系統的熱電偶老化,非晶片問題。已通知維護團隊更換熱電偶。」
章宸看完消息,沒有回覆。
小芯的判斷是對的。測試艙的設備老化,不是晶片的問題。但小芯能在海量數據中識別出零點三度的異常波動,並且準確定位到測試艙的溫控系統而不是晶片,這個能力本身就是一個巨大的進步。兩年前,這樣的異常分析需要工程師花三天時間人工排查。現在,小芯用零點三秒就完成了。
他站在廣場上,看著夕陽一點一點沉入地平線。
明天,天衡4的產品路線最終敲定。
下周,天權4號進入小批量試產。
下個月,天權5的架構優化方案評審。
每一條線都在往前推,每一步都不能停。
章宸站在測試數據監控台前,面前的六塊大屏幕同時顯示著不同維度的測試數據。溫度曲線、電壓波動、時鐘抖動、錯誤率、功耗分布、熱成像,每一組數據都在實時跳動。他已經在這裡站了四個小時,從凌晨五點到現在,只喝了兩杯黑咖啡。
天權4號的首輪工程改良評審,原定於兩周前進行。但因為NPU調度器的回退RTL和流片延遲五周,整個時間軸往後推了。那五周里,章宸的團隊沒有一天休息。NPU調度器的問題最終定位到一個邊界條件處理錯誤——當NPU的四個核心同時訪問共享緩存時,仲裁邏輯在某個極其罕見的時序組合下會產生優先級反轉,導致其中一個核心被無限期阻塞。
這個bug隱藏在RTL代碼的深處,是三個年輕的工程師寫的。代碼審查通過了,仿真通過了,FPGA原型驗證通過了。但在真實晶片上,在特定的溫度、電壓、工藝角組合下,它被觸發了。概率很低,千分之一不到,但低概率不等於不存在。在天權4號的設計哲學裡,任何不確定的行為都是不可接受的。
章宸在問題定位後的第二天,召集了整個晶片團隊,在會議室里站成一圈。他沒有罵任何人,只說了一句話:「這個bug能活到現在,不是寫代碼的人的問題,是我們的驗證方法有問題。我們的驗證覆蓋了『可能出錯的地方』,但沒有覆蓋『不可能出錯的地方』。從今天開始,驗證團隊要換一種思路——假設每一行代碼都是錯的,然後去證明它是對的。證明不了,就重寫。」
NPU調度器的RTL重寫用了兩周,驗證用了一周,重新流片用了兩周。五周,一天不多,一天不少。新批次的工程樣片回來後的第一件事,不是上測試台,而是直接放進十八個測試艙里,跑最極端的工況組合。到今天,連續運轉二十三天,零功能故障。
但章宸要的不是「零故障」,他要的是「可預測、可驗證、可重複」的零故障。測試數據必須證明,在所有的工藝角、溫度、電壓組合下,晶片的行為都是確定的、可預期的、符合規範的。
監控台的右側,李明哲的團隊負責的可靠性長周期測試也在同步進行。兩百一十六顆晶片被分成了九個批次,每個批次對應不同的測試條件組合。溫度從零下四十度到零上一百二十五度,電壓從標稱值的百分之九十到百分之一百一十,濕度從百分之十到百分之九十。每個測試艙都在按照預設的曲線自動循環,溫度每六小時升降一次,電壓每十二小時跳變一次,模擬真實設備在使用壽命內可能經歷的所有環境變化。
小芯的AI分析模塊實時處理著十八個測試艙傳來的數據流。每顆晶片有超過兩百個測試點,每個測試點每秒鐘產生一千個數據樣本。總數據量每秒鐘超過四千萬個數據點,普通的數據分析系統根本處理不了。但小芯的神經網絡加速器專門為這類任務優化過,可以在數據流中實時識別異常模式,比傳統分析方法快一千倍。
章宸的終端震動了,是小芯推送的一條分析報告。
「天權4號可靠性測試第二十三天數據分析:兩百一十六顆工程樣片,累計運行四百九十二萬小時等效時間,零功能故障。晶圓邊緣晶片與中心晶片的微小差異持續存在,但差異幅度穩定,未隨時間擴大。差異對晶片功能無影響,對長期可靠性的影響概率低於百萬分之一。」
章宸看完報告,把終端遞給旁邊的李明哲。
「晶圓邊緣和中心的差異,你打算怎麼處理?」李明哲接過終端,掃了一眼報告。
「天權4號不處理。差異太小了,對功能和可靠性沒有實際影響。但天權5號的架構優化里,要把這個差異考慮進去。封裝團隊已經在和鄭教授的聯合實驗室做多尺度仿真了,目標是找到差異的物理根源,然後在天權5的設計里從根源上消除。」
「也就是說,天權4號的改良,不涉及晶圓差異的問題?」
「不涉及。天權4號的首輪工程改良,聚焦三個問題——NPU調度器的RTL重寫驗證、功耗動態調整算法的優化、以及晶片間一致性的增強。」
章宸轉身走向驗證大廳的另一側,那裡有一排工作站,工程師們正在做功耗測試。他指著一台示波器上的波形。
「NPU調度器的問題解決後,我們順便優化了動態電壓頻率調整的算法。之前的算法是全局的——所有核心同升同降。現在改成了每核心獨立的DVFS,每個核心可以根據自己的負載獨立調整電壓和頻率。這個優化把天權4號在典型應用場景下的功耗降低了百分之十二,峰值性能提升了百分之八。」
李明哲看著示波器上的波形,每個核心的電壓曲線都不一樣,有的在高頻運行,有的在低頻待機,有的在中間狀態快速切換。整個波形看起來像一座繁忙城市的天際線,高低錯落,但整體平穩。
「晶片間一致性增強呢?」李明哲問。
章宸帶他走到另一台測試設備前,屏幕上顯示著十顆晶片的測試數據對比。
「之前我們發現,不同晶片之間有一些微小的性能差異——同樣的測試向量,有的晶片跑得快一點,有的慢一點,差距在百分之一到百分之三之間。這個差異對終端用戶來說感覺不到,但對伺服器和數據中心的應用來說,百分之一的差異就意味著機群需要做額外的負載均衡和性能補償。」
「我們的解決方案是——在生產測試階段,對每顆晶片做性能分級。分成金、銀、銅三個等級,每個等級內的晶片性能差異控制在百分之零點五以內。客戶可以根據自己的應用需求選擇合適等級的晶片。對性能一致性要求高的伺服器客戶,可以只買金級晶片,價格貴百分之十五。對性能一致性要求不高的消費電子客戶,可以買銀級或銅級,性價比更高。」
李明哲點了點頭。「這不只是技術方案,也是商業模式。」
「對。陳醒說這叫『精細化定價』——不是一刀切地賣晶片,而是根據晶片的真實性能做分級,讓客戶為恰好需要的性能付費,不為用不到的性能買單。」
上午九點,首輪工程改良評審會正式開始。
會議室在驗證大廳的二樓,一面牆是玻璃,可以俯瞰整個驗證大廳。章宸坐在長桌的一端,兩側是晶片團隊的骨幹工程師,以及從合城趕來的老韓和蘇黛。陳醒通過視頻參加會議,屏幕投影在牆上的大屏幕上。
章宸打開終端,把評審材料投在大屏幕上。
「天權4號首輪工程改良,三個目標。第一,NPU調度器RTL重寫後的功能驗證。第二,動態電壓頻率調整算法的功耗優化驗證。第三,晶片間一致性增強方案的有效性驗證。」
他翻到第一頁,是一張NPU調度器的狀態機圖。
「NPU調度器的RTL重寫,我們把仲裁邏輯從優先級固定改成了輪詢加權重的混合模式。每個核心的請求都有一個權重計數器,被服務過的核心權重降低,長時間未被服務的核心權重升高。這種模式從根本上消除了優先級反轉的可能性,同時保證了高優先級任務的實時性。」
「驗證團隊做了三百萬個隨機測試向量,覆蓋了所有可能的時序組合。另外還做了針對性的一百個邊界條件測試,專門模擬最極端的競爭場景。全部通過。功耗和面積的影響——功耗增加了百分之零點三,面積增加了百分之零點五,在可接受範圍內。」
台下有人提問:「輪詢加權重的混合模式,延遲的確定性怎麼樣?最壞情況下的響應時間是多少?」
章宸調出了一張延遲分布圖。
「舊調度器的最壞情況響應時間是十二個時鐘周期,平均三個周期。新調度器的最壞情況響應時間是八個周期,平均四個周期。最壞情況變好了,平均情況變差了一點。但對NPU的實際工作負載來說,四個周期和三個周期的差別可以忽略。更重要的是——新調度器的響應時間是可預測的,有確定的上界。舊調度器理論上存在無限期阻塞的可能,雖然概率極低。」
提問的工程師點了點頭,坐下了。
評審的第二部分,是功耗優化。
負責功耗優化的工程師叫小譚,三十出頭,是章宸從一家晶片設計公司挖來的。他走到屏幕前,調出了功耗測試的對比數據。
「舊版DVFS算法,全局同升同降,典型應用場景的平均功耗是三點二瓦。新版每核心獨立DVFS,平均功耗降到二點八瓦,降低了百分之十二點五。峰值性能從每秒四萬億次運算提升到四點三二萬億次,提升了百分之八。」
「降功耗的核心是兩點——第一,細粒度的負載檢測。舊版算法每毫秒檢測一次負載,新版每零點一毫秒檢測一次,響應更快。第二,預測性的頻率調整。小芯的AI模塊可以根據應用的行為模式預測未來的負載變化,提前調整頻率,避免頻繁的電壓跳變。頻繁跳變的功耗損耗很大,預測性調整可以避免百分之六十的無用跳變。」
陳醒在視頻里問了一個問題:「每核心獨立DVFS,對電源管理晶片的要求是不是更高了?」
小譚調出了電源管理晶片的規格對比。
「是的。舊版只需要一路可調電源,新版需要四路——每個核心一路。電源管理晶片的複雜度增加了,成本增加了大約八塊錢。但整機的功耗降低了百分之十二點五,對手機來說,這意味著電池續航可以延長一個小時。八塊錢的成本換一個小時的續航,值。」
陳醒沒有繼續追問。
評審的第三部分,是晶片間一致性增強。
章宸親自講這一部分。
「晶片間一致性增強,我們做了三件事。第一,在生產測試階段增加性能分級測試。每顆晶片都會跑一千個測試向量,覆蓋所有功能模塊和性能敏感路徑。測試結果輸入小芯的分類模型,自動輸出金、銀、銅三個等級。」
「第二,優化了晶片內部的時鐘分布網絡。之前的時鐘樹設計,不同區域的時鐘有微小的偏移,導致晶片間的差異。我們重新設計了時鐘樹的拓撲結構,把偏移從正負百分之三降到了正負百分之一。」
「第三,校準了電壓基準源。每顆晶片的電壓基準源都有微小的工藝偏差,之前的校準只做了一次,出廠後就不管了。現在我們在晶片內部集成了一個校準電路,可以在晶片的整個生命周期內持續監測和校準電壓基準,確保電壓精度始終在正負百分之一以內。」
蘇黛問了一個問題:「性能分級測試,會不會影響產能?每顆晶片跑一千個測試向量,測試時間會增加多少?」
章宸調出了測試時間的對比數據。
「舊版測試每顆晶片跑三百個向量,測試時間零點八秒。新版跑一千個向量,測試時間二點六秒。增加了二點八倍。測試機台的成本會增加,但我們測算過,增加的測試成本平攤到每顆晶片上大約是五塊錢。金級晶片多賣的價格可以覆蓋這部分成本,銀級和銅級的價格不變,利潤會薄一點,但銷量可以補回來。」
蘇黛在筆記本上記下了這個數字。
評審會開了三個小時,所有議題都過了一遍。最後,章宸做了總結。
「天權4號首輪工程改良,三個目標全部達成。NPU調度器的新RTL通過了三百萬個隨機測試向量和一百個邊界條件測試,零功能故障。每核心獨立DVFS把典型功耗降低了百分之十二點五,峰值性能提升了百分之八。晶片間一致性增強方案把金級晶片的性能差異控制在百分之零點五以內。」
「下一步,天權4號進入小批量試產階段。計劃生產五千顆工程樣片,分別供給天衡4的終端驗證、天權5的架構優化參考、以及聯合實驗室的封裝仿真研究。試產周期六周,六周後如果沒有發現新的問題,天權4號進入量產準備。」
陳醒在視頻里沉默了幾秒,然後說了一句話。
「天權4號的延遲五周,代價不小。但代價換來了一個更可靠的晶片。晶片是承諾,這句話不只是口號。天權4號的首輪工程改良做完了,但天權4號的故事還沒有結束。小批量試產階段,繼續深挖問題。不要因為評審過了就放鬆。晶片的問題,往往不是在評審會上發現的,是在產線上、在用戶的設備里、在極端的使用場景下發現的。」
章宸點了點頭。
評審會結束後,章宸和李明哲回到驗證大廳。
監控台上的屏幕還在跳動,十八個測試艙里的晶片還在運轉。兩百一十六顆晶片,二十三天,四百九十二萬小時等效時間,零功能故障。數據很漂亮,但章宸知道,漂亮的數據不等於完美。晶圓邊緣和中心的微小差異還在,雖然概率很低,但概率不是零。天權5的架構優化里,這個差異必須被徹底解決。
他走到測試艙前,透過觀察窗看著裡面的晶片。晶片被焊在測試板上,測試板插在背板上,背板上連接著密密麻麻的線纜,通向監控台。晶片的表面有一層淡淡的氧化痕跡,那是長時間高溫運行留下的印記。
李明哲走到他旁邊。
「章總,天權4號的小批量試產,你打算在哪條產線跑?」
「合城。天衡4的產線已經在合城搭建了百分之七十,正好用天權4號的試產來驗證產線的 readiness。老韓那邊已經在準備了,下周設備到位,再下周開始跑。」
「天衡4的產品路線呢?什麼時候敲定?」
「下周。陳醒讓林薇牽頭,召集產品、市場、供應鏈、製造四個部門一起定。天權4號的試產數據出來之後,天衡4的規格、定價、量產計劃就可以最終確定了。」
李明哲點了點頭。
章宸轉身離開驗證大廳,走向電梯。
走廊里很安靜,只有中央空調的嗡鳴。他經過一間間實驗室,有的亮著燈,有的已經關了。透過一扇半開的門,他看到鄭教授的兩個博士生還在工作站前調試仿真模型,屏幕上顯示著晶圓封裝的應力分布雲圖,紅色和藍色的區域交織在一起,像一幅抽象畫。
電梯門開了,他走進去,按了一樓。
門關上的那一刻,他聽到驗證大廳里傳來的微弱嗡鳴——那是十八個測試艙還在運轉,是兩百一十六顆晶片還在證明自己的可靠性。
電梯到了一樓,門開了。
章宸走出去,穿過大廳,推開門。
芯谷的廣場上,夕陽正在西沉。橙紅色的光灑在追光廠房的外牆上,把「追光」兩個字照得很亮。遠處,研究院的補天區還亮著燈,舊樓三層的窗戶里有人在走動。
他的終端震動了,是小芯推送的一條新消息。
「天權4號可靠性測試第二十三天數據分析更新:測試艙七號晶片的溫度曲線在第一百七十二次循環時出現零點三度的異常波動,已自動觸發診斷程序。診斷結果——測試艙溫控系統的熱電偶老化,非晶片問題。已通知維護團隊更換熱電偶。」
章宸看完消息,沒有回覆。
小芯的判斷是對的。測試艙的設備老化,不是晶片的問題。但小芯能在海量數據中識別出零點三度的異常波動,並且準確定位到測試艙的溫控系統而不是晶片,這個能力本身就是一個巨大的進步。兩年前,這樣的異常分析需要工程師花三天時間人工排查。現在,小芯用零點三秒就完成了。
他站在廣場上,看著夕陽一點一點沉入地平線。
明天,天衡4的產品路線最終敲定。
下周,天權4號進入小批量試產。
下個月,天權5的架構優化方案評審。
每一條線都在往前推,每一步都不能停。