第508章 處於領先全球的大氣層!&好日子~
第508章 處於領先全球的大氣層!&好日子~
看著屏幕中列出的一項項數據,洛川忍不住咧開嘴巴。
穩了~
驕陽200單卡FP16算力高達7.92TFL0PS!
對比一下同期頂尖產品。
英偉達於今年3月份剛推出的GeForceGTX680,單卡算力僅有3.09TFLOPS。
不過二者的屬性稍有不同。
後者是通用GPU,設計目標是,兼顧遊戲渲染與通用計算,在3D建模、科學計算等場景中,兼容性更強。
而驕陽200為AI算力卡,僅針對AI算子優化,如矩陣乘法、LSTTM門控運算等。
在通用浮點運算和圖形渲染管線效率上,要弱於GTX680不少。
但在AI的核心戰場,深度學習訓練與推理等垂直領域,驕陽200卻有著代際領先!
基於存算一體架構,驕陽200的數據傳輸延遲,低至15ns!
內存帶寬高達1TB/s!
而GTX680,延遲高達200ns,內存帶寬約192GB/s。
以模型訓練為例。
後者需頻繁在顯存與與計算單元間搬運權重數據,每疊代100步,便因數據搬運,浪費28秒。
而驕陽200可實現「數據不動計算動」,同等任務下,計算效率提升4.7倍!
此外,通過驕陽200內置的「自注意力並行計算單元」,針對Transformer的QKV矩陣乘法設計,可實現硬體級加速。
單卡每秒可處理2.1萬億次注意力計算!
GTX680僅0.4萬億次。
在在BERT—base模型推理中,單卡QPS,即每秒查詢率達1.2萬!
是GTX680的3.8倍!
功耗方面。
驕陽200的存算一體架構,使單卡功耗控制在220W,稍低於GTX680的195W。
但算力功耗比達36.4GFLOPS/W,後者僅有15.8GFLOPS/W。
在7×24小時不間斷運行的情況下,8卡驕陽200集群,年耗電量較GTX680集群減少120
萬度!
集群擴展性方面。
基於洛先知親自主導研發的「晶片間高速通信協議+「雲—芯協同」協議+高速總線」三層技術架構,驕陽200實現了節點通信的代際跨越!
單集群可擴展至256卡!
且通信延遲低於8us!
可實現跨節點數據高效同步,足以輕鬆支撐10億參數模型的分布式訓練。
不必再像驕陽100那樣,通過堆砌節點數量、犧牲算力利用率,強行訓練10億級模型0
與之相比,英偉達仍依賴於PCle2.O與InfiniBandQDR構建集群。
PCIe總線存在天然瓶頸,節點帶寬5GB/s,256卡集群理論總帶寬僅1.28TB/s,遠低於驕陽200的2TB/s。
參數傳輸延遲,通常在100us以上。
且隨著節點增加,總線衝突將會導致實際可用帶寬,呈指數級下降。
總之,在AI的核心戰場上,驕陽200處於領先全球的大氣層!
目前,通過驕陽200的算力密度提升、HBM內存帶寬突破,以及節點通信的代際突破,團隊已將分布式訓練中的「通信—計算比例」,從初代的1:3,優化至1:6。
即通信時間占比從33%降至16.6%以下,訓練成本大幅降低。
洛川感覺,再優化疊代一下,結合混合併行策略與流水優化,強行懟出一個百億參數大模型也不是夢~
極光自研的分布式框架,支持「模型並行+數據並行」混合併行。
通過「晶片間高速通信協議+「雲—芯協同」協議+高速總線」三層技術架構,連接256
張「驕陽200」,形成5PetaFLOPS峰值算力集群。
理論上,可在15天內,完成百億參數模型的初步訓練。
數據層方面,基於龐大的極光社交生態,他們天然便掌握「高純度語料池」。
悠米社區、極光微博、微信公眾號等極光系平台,日均產生20億+UGC內容。
經三位風控模型過濾後,形成的「純淨文本庫」,包含新聞、專業文章、用戶討論等等,總量約40TB。
並且,極光風控系統重的內容指紋哈希庫,已提前對跨平台重複內容去重,有效確保了訓練數據多樣性。
再結合洛先知,此前為10億參數級模型,親自開發的「語義去噪模型」,可自動識別並過濾抵制內容,保留3.2億條高質量長文本,構成核心訓練集。
至於算法層,沒人比洛先知更懂AI大模型了~
當前,驕陽200已通過所有前期技術驗證,以及軟體生態適配,可正式進行量產了。
預留4~6個月時間,完成集群搭建、數據清洗、算法調優等基建工作。
預計今年第三季度,極光的首個百億參數模型即可落地。
屆時,極光系平台,將再次迎來質變!
比如,將其接入極光微博和微信公眾號,三維風控模型的「事中監控環節」,進一步增強對長內容的語義級風險識別。
大幅提升變種謠言攔截率,降低風險內容漏檢率。
又比如,小悠的「智商」及「反應速度」,也將再次實現智能躍遷,可完成更複雜的任務。
極光系的信息流推送、場景化GG系統,也將再次發生蛻變。
從「千人千面」,進化為「知你所想」。
當然也少不了洛某人的「金疙瘩」,微光基金。
總之,百億參數模型的泛化能力,支持其快速適配新業務。
讓極光系和星光系的每個產品,都擁有更強的「思考」能力。
而各產品產生的海量實時數據,也將持續回流至模型,形成「數據訓練—應用優化—數據再沉澱」的閉環。
每季度疊代一次模型參數,使其對用戶行為的理解精度,每半年提升15%以上,持續鞏固「數據壁壘+技術代差+疊代速度」的三重優勢!
在那場尚未正式開啟的AI算力競賽中,極光已獲得5年以上的技術領先身位。
而隨著時間的拉長,這種代差級優勢,還將繼續呈指數級膨脹!
現階段,AI大模型仍處於,深度學習技術突破的前夜,核心進展集中於計算機視覺領域。
且模型規模與訓練能力,嚴重受限於硬體與算法。
別說洛川之前搞出的10億參數模型了,就連千萬級模型,也沒幾個能玩明白的。
而等同行們跌跌撞撞追上來的時候,極光應該已經在朝著萬億級大模型使勁了~
不吹牛B,極光能如此順利的大踏步前進,洛先知至少占六成功勞~
扯了大半天,散會後,洛川又跟王建教授聊了LC市大腦和工業大腦的事兒。
商議出一套大致方案,便再次當起了甩手掌柜,出門提溜上小女友,一塊吃旋轉小火鍋去了。
今天真特麼是個好日子啊~
看著屏幕中列出的一項項數據,洛川忍不住咧開嘴巴。
穩了~
驕陽200單卡FP16算力高達7.92TFL0PS!
對比一下同期頂尖產品。
英偉達於今年3月份剛推出的GeForceGTX680,單卡算力僅有3.09TFLOPS。
不過二者的屬性稍有不同。
後者是通用GPU,設計目標是,兼顧遊戲渲染與通用計算,在3D建模、科學計算等場景中,兼容性更強。
而驕陽200為AI算力卡,僅針對AI算子優化,如矩陣乘法、LSTTM門控運算等。
在通用浮點運算和圖形渲染管線效率上,要弱於GTX680不少。
但在AI的核心戰場,深度學習訓練與推理等垂直領域,驕陽200卻有著代際領先!
基於存算一體架構,驕陽200的數據傳輸延遲,低至15ns!
內存帶寬高達1TB/s!
而GTX680,延遲高達200ns,內存帶寬約192GB/s。
以模型訓練為例。
後者需頻繁在顯存與與計算單元間搬運權重數據,每疊代100步,便因數據搬運,浪費28秒。
而驕陽200可實現「數據不動計算動」,同等任務下,計算效率提升4.7倍!
此外,通過驕陽200內置的「自注意力並行計算單元」,針對Transformer的QKV矩陣乘法設計,可實現硬體級加速。
單卡每秒可處理2.1萬億次注意力計算!
GTX680僅0.4萬億次。
在在BERT—base模型推理中,單卡QPS,即每秒查詢率達1.2萬!
是GTX680的3.8倍!
功耗方面。
驕陽200的存算一體架構,使單卡功耗控制在220W,稍低於GTX680的195W。
但算力功耗比達36.4GFLOPS/W,後者僅有15.8GFLOPS/W。
在7×24小時不間斷運行的情況下,8卡驕陽200集群,年耗電量較GTX680集群減少120
萬度!
集群擴展性方面。
基於洛先知親自主導研發的「晶片間高速通信協議+「雲—芯協同」協議+高速總線」三層技術架構,驕陽200實現了節點通信的代際跨越!
單集群可擴展至256卡!
且通信延遲低於8us!
可實現跨節點數據高效同步,足以輕鬆支撐10億參數模型的分布式訓練。
不必再像驕陽100那樣,通過堆砌節點數量、犧牲算力利用率,強行訓練10億級模型0
與之相比,英偉達仍依賴於PCle2.O與InfiniBandQDR構建集群。
PCIe總線存在天然瓶頸,節點帶寬5GB/s,256卡集群理論總帶寬僅1.28TB/s,遠低於驕陽200的2TB/s。
參數傳輸延遲,通常在100us以上。
且隨著節點增加,總線衝突將會導致實際可用帶寬,呈指數級下降。
總之,在AI的核心戰場上,驕陽200處於領先全球的大氣層!
目前,通過驕陽200的算力密度提升、HBM內存帶寬突破,以及節點通信的代際突破,團隊已將分布式訓練中的「通信—計算比例」,從初代的1:3,優化至1:6。
即通信時間占比從33%降至16.6%以下,訓練成本大幅降低。
洛川感覺,再優化疊代一下,結合混合併行策略與流水優化,強行懟出一個百億參數大模型也不是夢~
極光自研的分布式框架,支持「模型並行+數據並行」混合併行。
通過「晶片間高速通信協議+「雲—芯協同」協議+高速總線」三層技術架構,連接256
張「驕陽200」,形成5PetaFLOPS峰值算力集群。
理論上,可在15天內,完成百億參數模型的初步訓練。
數據層方面,基於龐大的極光社交生態,他們天然便掌握「高純度語料池」。
悠米社區、極光微博、微信公眾號等極光系平台,日均產生20億+UGC內容。
經三位風控模型過濾後,形成的「純淨文本庫」,包含新聞、專業文章、用戶討論等等,總量約40TB。
並且,極光風控系統重的內容指紋哈希庫,已提前對跨平台重複內容去重,有效確保了訓練數據多樣性。
再結合洛先知,此前為10億參數級模型,親自開發的「語義去噪模型」,可自動識別並過濾抵制內容,保留3.2億條高質量長文本,構成核心訓練集。
至於算法層,沒人比洛先知更懂AI大模型了~
當前,驕陽200已通過所有前期技術驗證,以及軟體生態適配,可正式進行量產了。
預留4~6個月時間,完成集群搭建、數據清洗、算法調優等基建工作。
預計今年第三季度,極光的首個百億參數模型即可落地。
屆時,極光系平台,將再次迎來質變!
比如,將其接入極光微博和微信公眾號,三維風控模型的「事中監控環節」,進一步增強對長內容的語義級風險識別。
大幅提升變種謠言攔截率,降低風險內容漏檢率。
又比如,小悠的「智商」及「反應速度」,也將再次實現智能躍遷,可完成更複雜的任務。
極光系的信息流推送、場景化GG系統,也將再次發生蛻變。
從「千人千面」,進化為「知你所想」。
當然也少不了洛某人的「金疙瘩」,微光基金。
總之,百億參數模型的泛化能力,支持其快速適配新業務。
讓極光系和星光系的每個產品,都擁有更強的「思考」能力。
而各產品產生的海量實時數據,也將持續回流至模型,形成「數據訓練—應用優化—數據再沉澱」的閉環。
每季度疊代一次模型參數,使其對用戶行為的理解精度,每半年提升15%以上,持續鞏固「數據壁壘+技術代差+疊代速度」的三重優勢!
在那場尚未正式開啟的AI算力競賽中,極光已獲得5年以上的技術領先身位。
而隨著時間的拉長,這種代差級優勢,還將繼續呈指數級膨脹!
現階段,AI大模型仍處於,深度學習技術突破的前夜,核心進展集中於計算機視覺領域。
且模型規模與訓練能力,嚴重受限於硬體與算法。
別說洛川之前搞出的10億參數模型了,就連千萬級模型,也沒幾個能玩明白的。
而等同行們跌跌撞撞追上來的時候,極光應該已經在朝著萬億級大模型使勁了~
不吹牛B,極光能如此順利的大踏步前進,洛先知至少占六成功勞~
扯了大半天,散會後,洛川又跟王建教授聊了LC市大腦和工業大腦的事兒。
商議出一套大致方案,便再次當起了甩手掌柜,出門提溜上小女友,一塊吃旋轉小火鍋去了。
今天真特麼是個好日子啊~