第227章 小芯AI輔助排查121個工藝缺陷

投票推薦 加入書籤 小說報錯

  趙靜盯著屏幕上不斷滾動的數字,眉頭緊鎖。在她的左側屏幕上,小芯AI正在運行「工藝缺陷主動學習模型」的第一輪預篩選;右側則是從14納米產線傳來的實時數據流,包含了過去三個月所有流片批次的三千七百多萬個工藝參數記錄。

  會議室里坐滿了人,但安靜得只聽得見鍵盤敲擊聲和伺服器風扇的低鳴。張京京團隊的七位資深工藝工程師、林薇帶來的三位仿真專家、還有趙靜自己的十二名AI算法研究員——這是為121個工藝缺陷點專門組建的「聯合診斷組」。

  「第一輪預篩選完成。」年輕的AI研究員小劉抬起頭,聲音有些沙啞,「基於歷史數據的相關性分析,121個缺陷點被分為三類:第一類,35個『高置信度關聯缺陷』,AI判斷其與特定工藝參數強相關,建議優先排查;第二類,58個『中等置信度關聯缺陷』,需要更多實驗數據確認;第三類,28個『低置信度隨機缺陷』,可能是環境因素或未被監測的變量導致。」

  「35個優先排查……」張京京揉著太陽穴,「按照傳統方法,每個點需要至少三輪實驗驗證,一輪實驗兩天,總共需要210天。我們沒有那麼多時間。」

  「所以不能用傳統方法。」趙靜調出一個全新的界面,「小芯AI剛剛完成了『虛擬實驗平台』的升級。它可以根據物理模型和歷史數據,對每個缺陷點進行數萬次的虛擬實驗,快速縮小可疑參數的範圍。實際流片驗證只需要針對最有希望的幾個假設進行。」

  她演示了一個例子:針對第47號缺陷點——「氧化層厚度邊緣不均勻性」。傳統排查需要調整溫度、壓力、氣體流量、時間等十幾個參數,排列組合上千種可能。而AI在分析了所有相關數據後,提出了一個假設:問題可能不在於氧化工藝本身,而在於前一道清洗工序留下的表面微觀形貌差異。

  「AI是怎麼想到這個的?」一位工藝工程師質疑,「清洗和氧化是完全不同的工序。」

  「因為AI發現了時間相關性。」趙靜調出數據圖,「在每周一的流片中,這個缺陷的出現概率比其他時間高32%。而周一上午,正好是設備周末停機後重新啟動的時間點。AI進一步分析了清洗設備的啟動曲線,發現溫度穩定需要比平時多五分鐘,這可能導致清洗液在矽片表面的潤濕角發生微小變化,進而影響後續氧化層的成核均勻性。」

  會議室里響起一陣低語。這種跨工序、跨時間的關聯性,人類工程師很難察覺,因為每個團隊通常只關注自己負責的工序。

  「驗證這個假設需要多少時間?」張京京問。

  「虛擬實驗已經完成。」趙靜點擊運行按鈕,屏幕上開始播放模擬動畫:矽片表面微觀形貌的變化如何影響氧化層生長,「AI模擬了128種不同的表面狀態,結論是:如果表面存在納米級的高度差超過0.5納米,氧化層厚度不均勻性會增加三倍。而要解決這個問題,只需要在清洗設備啟動階段,增加一個五分鐘的『預穩定流程』,讓溫度梯度更平緩。」

  「實際驗證呢?」

  「今天下午就可以安排。我們已經標記了一批晶圓,一半用現有流程,一半增加預穩定流程,晚上就能看到結果。」

  張京京的眼睛亮了。如果這個方法可行,他們解決一個缺陷點的時間可以從六天壓縮到一天。

  下午六點,第一批對比實驗結果出爐。

  增加預穩定流程的晶圓組,氧化層厚度不均勻性的標準差從原來的4.7%降到了2.1%,完全滿足工藝規格要求。第47號缺陷點,確認解決。

  會議室里爆發出掌聲——這是121個缺陷清單上第一個被正式「關閉」的項目。

  但趙靜很快潑了冷水:「各位,先別高興太早。47號是相對簡單的問題,AI找到了明確的因果鏈。但更多缺陷是多重因素交織的結果,比如第83號……」

  她調出83號缺陷的檔案:**金屬互連層電遷移早期失效**。表現是在晶片工作幾百小時後,某些金屬線電阻異常增加,最終導致開路。問題在於,電遷移通常需要幾千小時才會顯現,而他們的測試只能覆蓋幾百小時,無法直接觀察失效過程。

  「這個問題我們卡了兩個月。」負責互連工藝的金秉洙博士苦笑,「我們試了調整金屬沉積溫度、退火工藝、鈍化層應力,甚至換了三種不同的阻擋層材料,都沒用。失效像是隨機的,但又有一定的空間規律——總是發生在晶片的特定功能模塊區域。」

  「AI有什麼思路?」張京京問。

  趙靜讓小芯AI展示分析結果。屏幕上出現了一個複雜的三維熱-力-電多物理場耦合模型,模擬晶片在工作狀態下的溫度分布、電流密度、應力場。


  「AI假設,失效不是工藝問題,而是設計問題。」趙靜放大模型中的一個局部區域,「在這個功能模塊里,有三條金屬線在某個節點處靠得特別近,間距只有設計規則的最小值。當晶片工作時,這個區域會形成局部熱點,溫度比周圍高15-20攝氏度。高溫加上高電流密度,加速了電遷移。」

  「但設計規則檢查(DRC)是通過的。」金秉洙指出。

  「DRC只檢查幾何規則,不檢查熱和電的協同效應。」趙靜說,「而我們的14納米工藝對熱效應更敏感,設計規則需要增加『熱間距』約束。但這意味著要修改晶片設計,需要架構團隊配合。」

  張京京立即拿起加密電話,聯繫晶片設計部門的負責人章宸。二十分鐘後,章宸帶著兩名資深布局工程師趕到會議室。

  「熱間距約束……」章宸聽完描述,眉頭緊鎖,「如果增加這個約束,晶片面積可能會增加5-8%,性能也會受影響。而且需要重新進行全流程設計驗證,至少兩個月。」

  「但如果不改,良率永遠上不去。」張京京堅持。

  「也許有折中方案。」趙靜插話,「AI模擬了七種不同的金屬線走向調整方案,在不增加總面積的情況下,可以將局部熱點溫度降低8-10攝氏度,電遷移壽命延長三倍以上。雖然不能完全解決問題,但可以將其從『致命缺陷』降級為『可接受風險』,等下一代晶片再徹底解決。」

  她展示了優化後的布局圖:只是微調了幾條金屬線的走向和寬度,避開了最危險的熱耦合區域。

  章宸和布局工程師們圍在屏幕前,快速評估。十分鐘後,章宸抬起頭:「這個方案可行。改動很小,只需要修改三個金屬層,驗證周期可以壓縮到兩周內。但我們需要AI給出精確的版圖修改指令。」

  「小芯可以生成GDSII格式的修改文件。」趙靜說,「但需要布局工程師確認,確保沒有引入新的設計規則違反。」

  「成交。」章宸伸出手,「你們解決物理問題,我們解決設計問題。兩周後,新版圖紙到位。」

  第83號缺陷,找到了解決路徑。

  一周過去,聯合診斷組的作戰室里,牆上的進度圖已經發生了顯著變化。

  121個缺陷點中:

  已關閉:19個

  已找到解決方案,正在實施:37個

  正在排查中:42個

  尚未啟動:23個

  「已經解決了56個,接近一半。」張京京在每日晨會上匯報,「按照這個速度,再有十天,大部分缺陷都能找到方向。但問題是……」

  他調出尚未啟動的23個缺陷列表:「這些都是硬骨頭。要麼需要昂貴的實驗驗證,要麼涉及根本性的工藝變革,要麼……我們連問題到底出在哪裡都不知道。」

  比如第112號缺陷:**電晶體閾值電壓隨晶圓位置系統性漂移**。同一個晶圓上,邊緣區域的電晶體閾值電壓比中心區域高8-12毫伏,導致晶片性能不均勻。

  「我們排查了所有可能的工藝偏差:光刻曝光均勻性、離子注入角度、退火溫度梯度……」負責電晶體工藝的梁志遠博士搖頭,「所有參數都在規格範圍內,但最終的電性參數就是有系統性差異。就像有一個看不見的手,在晶圓上畫了一個漸變場。」

  林薇一直在旁聽,此刻突然開口:「也許問題不在製造過程,而在襯底本身。」

  「襯底?高純矽片是我們自己製備的,檢測數據完美。」梁志遠說。

  「檢測的是宏觀參數:純度、晶向、缺陷密度。」林薇調出矽片供應商的數據表,「但有沒有可能,在晶體生長過程中,存在微量的摻雜濃度梯度?或者晶格常數有納米級的區域差異?這些差異在28納米節點可以忽略,但在14納米節點就會被放大。」

  這個猜測很大膽。因為如果問題真的在矽片本身,那就意味著他們需要重新評估整個材料供應鏈,甚至要自建更精密的檢測能力。

  「驗證這個假設需要什麼?」張京京問。

  「需要做晶圓級的納米壓痕測試和微區X射線衍射,測量每個位置的力學性能和晶格常數。」林薇說,「這種設備國內只有三台,都在國家實驗室,預約排隊至少兩個月。」

  時間又成了攔路虎。

  這時,趙靜舉起手:「也許……我們可以用間接方法驗證。小芯AI分析了過去所有批次的數據,發現一個規律:來自同一個矽錠不同位置的晶圓,閾值電壓漂移的模式高度相似。如果是工藝問題,不同批次的模式應該是隨機的;但如果漂移模式在矽錠層面就有『簽名』,那就指向襯底本身。」


  她展示了AI發現的證據:來自矽錠頂部的晶圓,總是呈現「中心低、邊緣高」的漂移模式;來自底部的晶圓,則是「左側高、右側低」。這種規律性太強了,不像是隨機工藝波動。

  「如果真是這樣,那我們這一個月都在解決錯誤的問題。」金秉洙苦笑。

  「但至少現在我們知道了正確的問題是什麼。」張京京倒是很平靜,「立即聯繫徐文淵院士的團隊,請他們協助分析矽錠的微觀均勻性。同時,調整工藝參數,嘗試補償這種襯底梯度——如果我們知道漂移的規律,也許可以在製造過程中反向校正。」

  「補償需要精確的模型。」梁志遠說,「每個晶圓都要單獨測量,生成校正圖,然後調整每個晶片位置的工藝參數。這相當於從『大批量製造』轉向『個性化製造』,產能會大幅下降。」

  「但在找到完美的襯底之前,這是唯一的辦法。」張京京做出決定,「先保證良率,再考慮產能。我們首先要在85天內達到75%的成本線,這是生死線。」

  晚上十一點,趙靜還在AI研發中心。屏幕上正在運行第119號缺陷的分析——這是最難啃的骨頭之一:**靜態隨機存儲器(SRAM)單元在低溫下軟錯誤率異常升高**。

  問題詭異在於:晶片在室溫下測試一切正常,但降到零下40攝氏度時,SRAM單元的讀寫錯誤率會飆升兩個數量級。而他們的晶片設計工作溫度範圍是零下40到85攝氏度,這個缺陷直接導致產品不合格。

  團隊已經排除了存儲器設計、製造工藝、甚至封裝問題。現在懷疑是某種材料在低溫下的特性突變,但具體是哪一種材料、哪個環節,毫無頭緒。

  小芯AI已經連續運行了三天三夜的模擬,嘗試了七百多種可能的材料組合和工藝條件,仍然沒有找到匹配的失效模式。

  趙靜盯著屏幕上滾動的數據流,突然想到什麼。她調出小芯AI的學習日誌,查看它在分析過程中的「注意力分布」——這是最近加入的可解釋性模塊,可以顯示AI在決策時最關注哪些特徵。

  日誌顯示,在分析低溫失效數據時,AI的注意力高度集中在三個特徵上:一是SRAM單元中某種特殊介電材料的厚度;二是金屬接觸孔的深寬比;三是……晶片背面的某種封裝材料的導熱係數。

  前兩個很好理解,但第三個特徵引起了趙靜的注意。晶片背面?SRAM單元在晶片正面,和背面材料有什麼關係?

  除非……熱應力。

  她立即重新設定模擬條件:假設晶片在低溫下,因為正面和背面材料的熱膨脹係數不匹配,產生巨大的熱應力。這種應力可能通過矽襯底傳遞,導致SRAM單元中的電晶體溝道區域出現納米級的應變,改變載流子遷移率,進而影響存儲單元的穩定性。

  模擬開始運行。五分鐘後,結果彈出:完全吻合。

  「找到了!」趙靜忍不住喊出聲。

  她把結果發給封裝團隊。一小時後,封裝團隊回覆:確實,他們為了降低成本,在最新的批次中更換了一種背面散熱材料。新材料的導熱性能更好,但熱膨脹係數與矽的差異比舊材料大30%。在低溫下,這種差異會導致晶片彎曲,產生局部應變。

  解決方案很簡單:換回舊材料,或者在新材料與矽之間增加應力緩衝層。

  第119號缺陷,關閉。

  趙靜靠在椅背上,長出一口氣。窗外,夜色深沉,但AI研發中心的燈火依然通明。其他研究員還在工作,屏幕上運行著各種複雜的模型。

  她看向牆上的進度圖:121個缺陷點,已經解決了89個,剩下的32個也都有了明確方向。按照這個速度,再有五天,清單就能全部完成。

  這比最初的預估快了整整三倍。

  而這一切,都得益於小芯AI強大的數據挖掘能力和跨領域關聯分析。人類工程師的直覺和經驗,加上AI的計算和模式識別,形成了一種前所未有的協同效應。

  但趙靜知道,這只是開始。解決了已知的121個缺陷,還會有新的缺陷冒出來。製造工藝的優化,是一場永無止境的戰爭。

  她的手機震動,是林薇發來的消息:「合城那邊傳來消息,無塵島先導實驗線的關鍵部件加工遇到瓶頸,需要更精確的TCAD模型支持。寶島電路那邊表示可以提供幫助,但他們要求技術交換。」

  TCAD——工藝和器件仿真軟體,這是半導體設計的核心工具之一。全球市場被兩家歐美公司壟斷,而寶島電路因為歷史原因,擁有深厚的TCAD模型開發經驗。

  如果真能獲得他們的關鍵模型,無塵島的技術驗證將大大加速。

  但技術交換……對方會要什麼?

  趙靜回覆:「我明天一早去找您詳細談。另外,121個缺陷排查進度良好,預計五天內完成。」

  發送完畢,她關掉電腦,走出實驗室。

  走廊里靜悄悄的,但透過玻璃牆,她能看到各個實驗室里依然忙碌的身影。這個城市,這個國家,有成千上萬的人正在為同一個目標熬夜奮鬥。

章節目錄