第634章 給學術圈一點小小的北郵震撼

投票推薦 加入書籤 小說報錯

  視角切回京城郵電大學的教研室。

  鍾柏正在操作電腦,連接學校的寬帶網絡。

  一百二十萬張圖片的壓縮包,體積極其龐大。

  鍾柏掛上下載連結,對教研室這個2MB/s的下載速度很滿意,但是又看了一眼整個數據集的體積:300G,又嘆了口氣。

  「這得下到猴年馬月去。」

  楚一航掏出手機看了眼時間。

  「掛著下吧,三個月的比賽呢,也不差這一會。」

  下載進度條緩慢爬行。

  一轉眼,兩天時間過去了,幾個人走到了機房隔壁的伺服器存放間。

  裡面擺著兩個黑色的標準機櫃。

  機櫃裡整齊排列著伺服器節點,運轉的散熱風扇發出巨大的噪音。

  這些節點裡插滿了AMD的頂級計算卡。

  這是郭長徵用三十五萬的研究經費,加上盛夏科技提供的特殊折扣採購來的。

  郭長征看著這些閃爍著綠燈的機器。

  「三十五萬砸下去,系裡好幾個老教授都在看我們的笑話。」

  楚一航檢查著節點上的指示燈。

  「郭老師,您這就多慮了。」

  「有盛夏科技的九章計算平台做底層,上面還套著我們新開發的TensorFlow框架。」

  「這套硬體的算力利用率,絕對超出那些老教授的認知。」

  葉言在旁邊插話。

  「其實在比賽數據集發布之前,我們用通用圖片數據已經訓練了一版基礎模型。」

  楚一航點頭。

  「沒錯,那個模型雖然沒有針對ImageNet的特定類別做過訓練,輸出的結果類別也比比賽里要求的要多很多,但底層的特徵提取網絡已經成型了。」

  而此時,ImageNet的數據集終於下載完成並解壓。

  鍾柏把五萬張帶有標籤的驗證集圖片導入伺服器存儲。

  楚一航坐回電腦前,打開終端窗口。

  他通過命令行連接到隔壁機房的GPU集群。

  鍾柏點開了解壓後的數據集目錄,仔細翻看了一遍官方提供的數據說明文檔。

  「哎?你們看這數據分布。」鍾柏指著屏幕。

  「這比賽提供的一百二十萬張訓練圖像,一共被劃分為了一千個類別。」

  「但這玩意兒看著眼熟啊,這不就是咱們前段時間折騰的那個五百萬張圖片、五千個類別的超大數據集的子集嗎?」

  鍾柏手指在鍵盤上無意識地敲了兩下,忽然嘿嘿一笑。

  「手癢了。」

  「既然是子集,要不咱們直接用前兩天剛跑完的那個五千分類的通用預訓練模型,來預測一下這數據集?」

  「看看現成的模型,在這五萬張驗證集上效果咋樣。」

  楚一航一聽,直接豎起了大拇指。

  「你小子真是個機靈鬼,其實我剛才也正有此意。」

  「現成的大模型不用白不用,說干就干!」

  郭長征也點頭同意了這個提議。

  「跑一次看看,正好摸摸這個比賽數據集的特徵分布底細。」

  這裡需要給非專業人士解釋一下。

  為什麼用訓練了五千個類別的通用模型,可以直接去預測只有一千個類別的子數據集?

  因為在深度學習中,用海量數據餵出來的模型「見多識廣」。

  它在底層網絡中已經學會了提取通用的圖像特徵,比如輪廓、紋理、色彩組合。

  這種通用的特徵提取能力,完全可以直接套用到子集數據的分類任務上。

  但直接這麼做,預測精度必然會存在誤差,成績會差一些。

  原因很簡單,模型最終輸出的是五千個選項的概率。

  在面對這五萬張只有一千種標準答案的驗證圖片時,通用模型依然會按照五千個類別的範圍去預測。

  一旦它把圖片分類成了比賽規定的一千個類別之外的選項,按照賽制就會被判定為錯誤。


  它還需要時間去針對這一千個特定的類別重新訓練,才能做到精準得分。

  楚一航沒管那麼多,直接在終端里輸入調用TensorFlow框架的命令。

  回車鍵敲下。

  隔壁機房的散熱風扇轉速瞬間飆升,噪音穿透了玻璃門。

  屏幕上開始滾動運行日誌。

  鍾柏盯著顯存占用率的監控面板。

  「集群的顯存占用直接拉滿了。」

  「九章平台對AMD顯卡的調度策略真夠暴力的。」

  葉言看著進度條。

  「處理五萬張圖片,傳統算法少說得跑個兩三天。」

  「我看這進度,估計一頓飯的功夫就能出結果。」

  楚一航往後靠在椅背上。

  「這就叫算力碾壓。」

  十分鐘過去。

  終端屏幕上的滾動日誌停了下來。

  最後一行輸出了一串統計數據。

  鍾柏揉了揉眼睛,指著屏幕上的數字。

  「我是不是看花眼了?」

  葉言湊過去,一個字符一個字符地念出來。

  「Top-1準確率:40.2%。」

  「Top-5準確率:80.5%。」

  楚一航保持著靠在椅背上的姿勢,摸下巴的手停住了。

  郭長征立刻推開鍾柏,自己握住滑鼠,點開測試代碼的日誌文件。

  他快速檢查著數據加載流程和對比邏輯。

  「沒有發生數據泄露。」

  「這個模型的訓練集裡,不包含這些驗證集的數據。」

  郭長徵得出結論。

  「代碼沒問題,這確實是我們那個通用模型在全新驗證集上跑出的真實成績。」

  鍾柏倒吸了一口涼氣。

  「這還只是我們用通用數據訓練的基礎模型啊。」

  「還沒專門針對ImageNet的一千個分類做重新訓練呢。」

  葉言迅速在腦海里計算著行業平均水平。

  「目前用傳統的SIFT特徵提取加上支持向量機算法。」

  「在這類複雜圖片識別任務上,最高正確率也就只能做到20%到25%。」

  楚一航站起身來,看著屏幕。

  「20%對40%。」

  「這不是同台競技,這是直接把桌子掀了。」

  鍾柏激動得滿臉通紅,直接點開瀏覽器上ImageNet的官網。

  「現在排行榜上還是空的,一個隊伍都沒上傳。」

  「楚哥,咱們趕緊把這個測試集的預測結果跑出來,直接上傳一波。」

  「先拿個40%的成績掛在榜首。」

  「給全世界的學術圈一點小小的北郵震撼。」

  「不行,不能傳。」郭老師卻是搖了搖頭。

  鍾柏滿臉寫著問號,手懸在滑鼠上。

  「為什麼啊郭老師?這麼高的分數,傳上去絕對能霸榜個把月。」

  郭長征指著列印下來的比賽規則說道,「規則寫得清清楚楚,滿打滿算就五次上傳機會。」

章節目錄