第634章給學術圈一點小小的北郵震撼

投票推薦加入書籤小說報錯

視角切回京城郵電大學的教研室。

鍾柏正在操作電腦，連接學校的寬帶網絡。

一百二十萬張圖片的壓縮包，體積極其龐大。

鍾柏掛上下載連結，對教研室這個2MB/s的下載速度很滿意，但是又看了一眼整個數據集的體積：300G，又嘆了口氣。

「這得下到猴年馬月去。」

楚一航掏出手機看了眼時間。

「掛著下吧，三個月的比賽呢，也不差這一會。」

下載進度條緩慢爬行。

一轉眼，兩天時間過去了，幾個人走到了機房隔壁的伺服器存放間。

裡面擺著兩個黑色的標準機櫃。

機櫃裡整齊排列著伺服器節點，運轉的散熱風扇發出巨大的噪音。

這些節點裡插滿了AMD的頂級計算卡。

這是郭長徵用三十五萬的研究經費，加上盛夏科技提供的特殊折扣採購來的。

郭長征看著這些閃爍著綠燈的機器。

「三十五萬砸下去，系裡好幾個老教授都在看我們的笑話。」

楚一航檢查著節點上的指示燈。

「郭老師，您這就多慮了。」

「有盛夏科技的九章計算平台做底層，上面還套著我們新開發的TensorFlow框架。」

「這套硬體的算力利用率，絕對超出那些老教授的認知。」

葉言在旁邊插話。

「其實在比賽數據集發布之前，我們用通用圖片數據已經訓練了一版基礎模型。」

楚一航點頭。

「沒錯，那個模型雖然沒有針對ImageNet的特定類別做過訓練，輸出的結果類別也比比賽里要求的要多很多，但底層的特徵提取網絡已經成型了。」

而此時，ImageNet的數據集終於下載完成並解壓。

鍾柏把五萬張帶有標籤的驗證集圖片導入伺服器存儲。

楚一航坐回電腦前，打開終端窗口。

他通過命令行連接到隔壁機房的GPU集群。

鍾柏點開了解壓後的數據集目錄，仔細翻看了一遍官方提供的數據說明文檔。

「哎？你們看這數據分布。」鍾柏指著屏幕。

「這比賽提供的一百二十萬張訓練圖像，一共被劃分為了一千個類別。」

「但這玩意兒看著眼熟啊，這不就是咱們前段時間折騰的那個五百萬張圖片、五千個類別的超大數據集的子集嗎？」

鍾柏手指在鍵盤上無意識地敲了兩下，忽然嘿嘿一笑。

「手癢了。」

「既然是子集，要不咱們直接用前兩天剛跑完的那個五千分類的通用預訓練模型，來預測一下這數據集？」

「看看現成的模型，在這五萬張驗證集上效果咋樣。」

楚一航一聽，直接豎起了大拇指。

「你小子真是個機靈鬼，其實我剛才也正有此意。」

「現成的大模型不用白不用，說干就干！」

郭長征也點頭同意了這個提議。

「跑一次看看，正好摸摸這個比賽數據集的特徵分布底細。」

這裡需要給非專業人士解釋一下。

為什麼用訓練了五千個類別的通用模型，可以直接去預測只有一千個類別的子數據集？

因為在深度學習中，用海量數據餵出來的模型「見多識廣」。

它在底層網絡中已經學會了提取通用的圖像特徵，比如輪廓、紋理、色彩組合。

這種通用的特徵提取能力，完全可以直接套用到子集數據的分類任務上。

但直接這麼做，預測精度必然會存在誤差，成績會差一些。

原因很簡單，模型最終輸出的是五千個選項的概率。

在面對這五萬張只有一千種標準答案的驗證圖片時，通用模型依然會按照五千個類別的範圍去預測。

一旦它把圖片分類成了比賽規定的一千個類別之外的選項，按照賽制就會被判定為錯誤。

它還需要時間去針對這一千個特定的類別重新訓練，才能做到精準得分。

楚一航沒管那麼多，直接在終端里輸入調用TensorFlow框架的命令。

回車鍵敲下。

隔壁機房的散熱風扇轉速瞬間飆升，噪音穿透了玻璃門。

屏幕上開始滾動運行日誌。

鍾柏盯著顯存占用率的監控面板。

「集群的顯存占用直接拉滿了。」

「九章平台對AMD顯卡的調度策略真夠暴力的。」

葉言看著進度條。

「處理五萬張圖片，傳統算法少說得跑個兩三天。」

「我看這進度，估計一頓飯的功夫就能出結果。」

楚一航往後靠在椅背上。

「這就叫算力碾壓。」

十分鐘過去。

終端屏幕上的滾動日誌停了下來。

最後一行輸出了一串統計數據。

鍾柏揉了揉眼睛，指著屏幕上的數字。

「我是不是看花眼了？」

葉言湊過去，一個字符一個字符地念出來。

「Top-1準確率：40.2%。」

「Top-5準確率：80.5%。」

楚一航保持著靠在椅背上的姿勢，摸下巴的手停住了。

郭長征立刻推開鍾柏，自己握住滑鼠，點開測試代碼的日誌文件。

他快速檢查著數據加載流程和對比邏輯。

「沒有發生數據泄露。」

「這個模型的訓練集裡，不包含這些驗證集的數據。」

郭長徵得出結論。

「代碼沒問題，這確實是我們那個通用模型在全新驗證集上跑出的真實成績。」

鍾柏倒吸了一口涼氣。

「這還只是我們用通用數據訓練的基礎模型啊。」

「還沒專門針對ImageNet的一千個分類做重新訓練呢。」

葉言迅速在腦海里計算著行業平均水平。

「目前用傳統的SIFT特徵提取加上支持向量機算法。」

「在這類複雜圖片識別任務上，最高正確率也就只能做到20%到25%。」

楚一航站起身來，看著屏幕。

「20%對40%。」

「這不是同台競技，這是直接把桌子掀了。」

鍾柏激動得滿臉通紅，直接點開瀏覽器上ImageNet的官網。

「現在排行榜上還是空的，一個隊伍都沒上傳。」

「楚哥，咱們趕緊把這個測試集的預測結果跑出來，直接上傳一波。」

「先拿個40%的成績掛在榜首。」

「給全世界的學術圈一點小小的北郵震撼。」

「不行，不能傳。」郭老師卻是搖了搖頭。

鍾柏滿臉寫著問號，手懸在滑鼠上。

「為什麼啊郭老師？這麼高的分數，傳上去絕對能霸榜個把月。」

郭長征指著列印下來的比賽規則說道，「規則寫得清清楚楚，滿打滿算就五次上傳機會。」

溫馨提示：按回車[Enter]鍵返回書目，按 ←鍵返回上一頁，按 →鍵進入下一頁，加入書籤方便您下次繼續閱讀。

第634章 給學術圈一點小小的北郵震撼

第634章給學術圈一點小小的北郵震撼