第133章 技術驗證

投票推薦 加入書籤 小說報錯

  第133章 技術驗證

  和國外廠商不同,國內廠商對周昀的Aetos顯然要更加重視。

  深圳華為總部,也召開了一場重要的視頻會議。

  「徐總,這個Aetos項目比我們預想的要成熟得多。」升騰計算產品線首席科學家陶知行在視頻會議中匯報導,「它的中間表示層設計理念相當超前。」

  「Aetos的IR(中間表示)層,描述的是計算本身』,這恰好是了我們目前生態建設的最大痛點—我們升騰晶片有自己的達文西架構、有專屬的AI編程模型CANN,但如何讓廣大習慣了CUDA的開發者,能低門檻、高效率地將他們的AI模型遷移到我們的平台上?Aetos提供了一種可能性,開發者或許未來只需要用一套相對通用的高級語言或描述來定義計算,然後由Aetos的編譯器「翻譯』成針對升騰硬體高度優化的代碼,這能極大降低開發者的學習和遷移成本。」

  這其實就是當初python流行起來的原因,就是因為python學起來簡單,而且還有各種成熟的庫,而陶知行給Aetos的定位就是這樣一個能夠簡單上手的python'。

  頓了頓,他又繼續說道:「而且我們都知道當前國際環境的複雜性,NVIDIA的CUDA生態固然強大,但無論如何他們都不可能向我們開源,如果想要建立自己的生態,就必須必須建立自己的「高速公路』實現彎道超車,這也是我們之前一直想做但卻沒有做到的事情,而現在Aetos選擇Apache2.0開源,這是一個絕佳的機會,我們可以名正言順地參與進去,成為核心貢獻者之一。「

  屏幕里的徐總點點頭:「如果是這樣的話,如果我們能深度參與甚至主導Aetos對升騰硬體後端的支持開發,未來,Aetos生態的繁榮,就直接等同於我們升騰晶片生態的繁榮,或許真的能夠實現超越CUD

  A,成為新生態規則的共同制定者,讓西方不再能卡住我們的脖子,而且當開發者發現,使用Aetos不僅能方便地適配AMD、InteI的GPU,升騰晶片,我們的硬體吸引力將呈指數級提升。「

  畢競在性能相同的情況下,國產產品就是有著無可匹敵的價格優勢,這就是強大工業體系帶來的底氣。

  徐總點點頭,身體微微前傾,雙手交疊放在桌上:「時間不等人,我們必須抓住窗口期,全力以赴,不過在這之前,我們需要驗證一下Aetos是否真的像周博士說的一樣,現在起即刻成立'Aetos

  技術驗證突擊隊』,由陶博你親自掛帥,用我們的測試資源,嚴格復現周昀報告中提到的benchmark,特別是GEMM在AMD顯卡上對標N卡的性能數據,同時,我們要超越他們的測試範圍,選擇更複雜、更貼近實際應用的算子和模型片段,在我們的升騰開發板上進行初步移植和性能摸底,如果驗證結果顯著低於預期,那麼項目到此為止,如果驗證結果基本符合甚至部分超出預期,不管是合作還是我們自己做,項目組都要做好預案。「

  「明白了!」

  會後第二天,陶知行就已經組織好了人手,僅僅是三天,就快要完成了技術驗證。

  這也和他們的加班文化有著密不可分的關係,時間緊任務重,三天來加班到凌晨都已經是司空見慣了,而能讓他們還能堅持住的原因,除了一點點對技術的追求,更多的還是豐厚的加班費和福利保證。

  毫不客氣地說,他們這三天的加班費,就已經能頂很多人一個月甚至是好幾個月的工資了。

  凌晨,實驗室依然燈火通明,技術驗證已進入最後階段。

  陶知行雙眼布滿血絲,站在兩塊巨大的顯示屏前,左邊屏幕顯示著在AMD/NVIDIA平台上的性能匯總報告,右邊屏幕則是一片飄紅的升騰平台初步測試數據。

  「陶博,最終數據核對完畢。」一名工程師的聲音幾分沙啞,「在AMD和NVIDIA平台的復現結果,與周昀博士公布的數據誤差在正負百分之二以內,完全吻合,甚至在我們額外增加的分組卷積、LayerNorm這兩個更加複雜的算子測試中,Aetos的表現也穩定得驚人,跨平台性能損失遠低於我們的預期。

  陶知行點點頭,這一點從第一天的初步復現他就基本能看的出來,報告上提到的技術指標應該都沒有弄虛作假。

  只不過...

  他看向另一邊的工程師:「你們的情況呢?」

  「陶博,情況既在意料之中,又比預想的更複雜。」他們是負責升騰平台移植的小組負責人。

  說著,他切換屏幕,展示出對Aetos在升騰910B上運行的深度性能剖析圖。

  「移植本身成功了,基礎功能無誤,這也證明了Aetos架構的跨平台能力底子非常好,但是性能並不理想,目前最佳情況,也只有我們CANN原生優化版本性能的30%-35%,問題也都很明顯。」

  他指著性能分析工具捕捉到的熱點圖繼續說道:「看這裡,內存訪問是最大瓶頸,Aetos編譯器根據其內置的通用GPU模型生成的「TiIe』分割策略和內存搬運指令,完全不符合我們達文西架構的規則,我們的片上存儲(UB)利用率極低,大量時間浪費在無效的數據搬運和等待上,這導致了計算單元占用率,波動巨大,根本無法持續飽和,編譯器顯然不了解我們計算核心的最佳調度粒度和數據復用模式。」

  旁邊一位技術人員點點頭補充道:「我們嘗試模仿AMD後端的配置文件格式,為升騰編寫了一個基礎版本,但是其中的參數量太大了,如果不知道其原理,根本無法成功。「

  「也就是說,」陶知行總結道,「沒有他們的深度介入,我們短期內根本無法在升騰平台上釋放Aetos的真正潛力?」

  「是這樣的。」

  陶知行輕笑著搖了搖頭:「我知道了,準備和徐總匯報吧,技術驗證我們都做完了,至於接下來是合作還是怎麼樣,就不是我們該操心的了。「

  他本人其實還是傾向於合作,因為他感覺他們現在遇到的困難就是周昀的有意為之。

  心裡也對周昀這個年輕人愈發好奇了。

章節目錄