第634章 給學術圈一點小小的北郵震撼
視角切回京城郵電大學的教研室。
鍾柏正在操作電腦,連接學校的寬帶網絡。
一百二十萬張圖片的壓縮包,體積極其龐大。
鍾柏掛上下載連結,對教研室這個2MB/s的下載速度很滿意,但是又看了一眼整個數據集的體積:300G,又嘆了口氣。
「這得下到猴年馬月去。」
楚一航掏出手機看了眼時間。
「掛著下吧,三個月的比賽呢,也不差這一會。」
下載進度條緩慢爬行。
一轉眼,兩天時間過去了,幾個人走到了機房隔壁的伺服器存放間。
裡面擺著兩個黑色的標準機櫃。
機櫃裡整齊排列著伺服器節點,運轉的散熱風扇發出巨大的噪音。
這些節點裡插滿了AMD的頂級計算卡。
這是郭長徵用三十五萬的研究經費,加上盛夏科技提供的特殊折扣採購來的。
郭長征看著這些閃爍著綠燈的機器。
「三十五萬砸下去,系裡好幾個老教授都在看我們的笑話。」
楚一航檢查著節點上的指示燈。
「郭老師,您這就多慮了。」
「有盛夏科技的九章計算平台做底層,上面還套著我們新開發的TensorFlow框架。」
「這套硬體的算力利用率,絕對超出那些老教授的認知。」
葉言在旁邊插話。
「其實在比賽數據集發布之前,我們用通用圖片數據已經訓練了一版基礎模型。」
楚一航點頭。
「沒錯,那個模型雖然沒有針對ImageNet的特定類別做過訓練,輸出的結果類別也比比賽里要求的要多很多,但底層的特徵提取網絡已經成型了。」
而此時,ImageNet的數據集終於下載完成並解壓。
鍾柏把五萬張帶有標籤的驗證集圖片導入伺服器存儲。
楚一航坐回電腦前,打開終端窗口。
他通過命令行連接到隔壁機房的GPU集群。
鍾柏點開了解壓後的數據集目錄,仔細翻看了一遍官方提供的數據說明文檔。
「哎?你們看這數據分布。」鍾柏指著屏幕。
「這比賽提供的一百二十萬張訓練圖像,一共被劃分為了一千個類別。」
「但這玩意兒看著眼熟啊,這不就是咱們前段時間折騰的那個五百萬張圖片、五千個類別的超大數據集的子集嗎?」
鍾柏手指在鍵盤上無意識地敲了兩下,忽然嘿嘿一笑。
「手癢了。」
「既然是子集,要不咱們直接用前兩天剛跑完的那個五千分類的通用預訓練模型,來預測一下這數據集?」
「看看現成的模型,在這五萬張驗證集上效果咋樣。」
楚一航一聽,直接豎起了大拇指。
「你小子真是個機靈鬼,其實我剛才也正有此意。」
「現成的大模型不用白不用,說干就干!」
郭長征也點頭同意了這個提議。
「跑一次看看,正好摸摸這個比賽數據集的特徵分布底細。」
這裡需要給非專業人士解釋一下。
為什麼用訓練了五千個類別的通用模型,可以直接去預測只有一千個類別的子數據集?
因為在深度學習中,用海量數據餵出來的模型「見多識廣」。
它在底層網絡中已經學會了提取通用的圖像特徵,比如輪廓、紋理、色彩組合。
這種通用的特徵提取能力,完全可以直接套用到子集數據的分類任務上。
但直接這麼做,預測精度必然會存在誤差,成績會差一些。
原因很簡單,模型最終輸出的是五千個選項的概率。
在面對這五萬張只有一千種標準答案的驗證圖片時,通用模型依然會按照五千個類別的範圍去預測。
一旦它把圖片分類成了比賽規定的一千個類別之外的選項,按照賽制就會被判定為錯誤。
它還需要時間去針對這一千個特定的類別重新訓練,才能做到精準得分。
楚一航沒管那麼多,直接在終端里輸入調用TensorFlow框架的命令。
回車鍵敲下。
隔壁機房的散熱風扇轉速瞬間飆升,噪音穿透了玻璃門。
屏幕上開始滾動運行日誌。
鍾柏盯著顯存占用率的監控面板。
「集群的顯存占用直接拉滿了。」
「九章平台對AMD顯卡的調度策略真夠暴力的。」
葉言看著進度條。
「處理五萬張圖片,傳統算法少說得跑個兩三天。」
「我看這進度,估計一頓飯的功夫就能出結果。」
楚一航往後靠在椅背上。
「這就叫算力碾壓。」
十分鐘過去。
終端屏幕上的滾動日誌停了下來。
最後一行輸出了一串統計數據。
鍾柏揉了揉眼睛,指著屏幕上的數字。
「我是不是看花眼了?」
葉言湊過去,一個字符一個字符地念出來。
「Top-1準確率:40.2%。」
「Top-5準確率:80.5%。」
楚一航保持著靠在椅背上的姿勢,摸下巴的手停住了。
郭長征立刻推開鍾柏,自己握住滑鼠,點開測試代碼的日誌文件。
他快速檢查著數據加載流程和對比邏輯。
「沒有發生數據泄露。」
「這個模型的訓練集裡,不包含這些驗證集的數據。」
郭長徵得出結論。
「代碼沒問題,這確實是我們那個通用模型在全新驗證集上跑出的真實成績。」
鍾柏倒吸了一口涼氣。
「這還只是我們用通用數據訓練的基礎模型啊。」
「還沒專門針對ImageNet的一千個分類做重新訓練呢。」
葉言迅速在腦海里計算著行業平均水平。
「目前用傳統的SIFT特徵提取加上支持向量機算法。」
「在這類複雜圖片識別任務上,最高正確率也就只能做到20%到25%。」
楚一航站起身來,看著屏幕。
「20%對40%。」
「這不是同台競技,這是直接把桌子掀了。」
鍾柏激動得滿臉通紅,直接點開瀏覽器上ImageNet的官網。
「現在排行榜上還是空的,一個隊伍都沒上傳。」
「楚哥,咱們趕緊把這個測試集的預測結果跑出來,直接上傳一波。」
「先拿個40%的成績掛在榜首。」
「給全世界的學術圈一點小小的北郵震撼。」
「不行,不能傳。」郭老師卻是搖了搖頭。
鍾柏滿臉寫著問號,手懸在滑鼠上。
「為什麼啊郭老師?這麼高的分數,傳上去絕對能霸榜個把月。」
郭長征指著列印下來的比賽規則說道,「規則寫得清清楚楚,滿打滿算就五次上傳機會。」
鍾柏正在操作電腦,連接學校的寬帶網絡。
一百二十萬張圖片的壓縮包,體積極其龐大。
鍾柏掛上下載連結,對教研室這個2MB/s的下載速度很滿意,但是又看了一眼整個數據集的體積:300G,又嘆了口氣。
「這得下到猴年馬月去。」
楚一航掏出手機看了眼時間。
「掛著下吧,三個月的比賽呢,也不差這一會。」
下載進度條緩慢爬行。
一轉眼,兩天時間過去了,幾個人走到了機房隔壁的伺服器存放間。
裡面擺著兩個黑色的標準機櫃。
機櫃裡整齊排列著伺服器節點,運轉的散熱風扇發出巨大的噪音。
這些節點裡插滿了AMD的頂級計算卡。
這是郭長徵用三十五萬的研究經費,加上盛夏科技提供的特殊折扣採購來的。
郭長征看著這些閃爍著綠燈的機器。
「三十五萬砸下去,系裡好幾個老教授都在看我們的笑話。」
楚一航檢查著節點上的指示燈。
「郭老師,您這就多慮了。」
「有盛夏科技的九章計算平台做底層,上面還套著我們新開發的TensorFlow框架。」
「這套硬體的算力利用率,絕對超出那些老教授的認知。」
葉言在旁邊插話。
「其實在比賽數據集發布之前,我們用通用圖片數據已經訓練了一版基礎模型。」
楚一航點頭。
「沒錯,那個模型雖然沒有針對ImageNet的特定類別做過訓練,輸出的結果類別也比比賽里要求的要多很多,但底層的特徵提取網絡已經成型了。」
而此時,ImageNet的數據集終於下載完成並解壓。
鍾柏把五萬張帶有標籤的驗證集圖片導入伺服器存儲。
楚一航坐回電腦前,打開終端窗口。
他通過命令行連接到隔壁機房的GPU集群。
鍾柏點開了解壓後的數據集目錄,仔細翻看了一遍官方提供的數據說明文檔。
「哎?你們看這數據分布。」鍾柏指著屏幕。
「這比賽提供的一百二十萬張訓練圖像,一共被劃分為了一千個類別。」
「但這玩意兒看著眼熟啊,這不就是咱們前段時間折騰的那個五百萬張圖片、五千個類別的超大數據集的子集嗎?」
鍾柏手指在鍵盤上無意識地敲了兩下,忽然嘿嘿一笑。
「手癢了。」
「既然是子集,要不咱們直接用前兩天剛跑完的那個五千分類的通用預訓練模型,來預測一下這數據集?」
「看看現成的模型,在這五萬張驗證集上效果咋樣。」
楚一航一聽,直接豎起了大拇指。
「你小子真是個機靈鬼,其實我剛才也正有此意。」
「現成的大模型不用白不用,說干就干!」
郭長征也點頭同意了這個提議。
「跑一次看看,正好摸摸這個比賽數據集的特徵分布底細。」
這裡需要給非專業人士解釋一下。
為什麼用訓練了五千個類別的通用模型,可以直接去預測只有一千個類別的子數據集?
因為在深度學習中,用海量數據餵出來的模型「見多識廣」。
它在底層網絡中已經學會了提取通用的圖像特徵,比如輪廓、紋理、色彩組合。
這種通用的特徵提取能力,完全可以直接套用到子集數據的分類任務上。
但直接這麼做,預測精度必然會存在誤差,成績會差一些。
原因很簡單,模型最終輸出的是五千個選項的概率。
在面對這五萬張只有一千種標準答案的驗證圖片時,通用模型依然會按照五千個類別的範圍去預測。
一旦它把圖片分類成了比賽規定的一千個類別之外的選項,按照賽制就會被判定為錯誤。
它還需要時間去針對這一千個特定的類別重新訓練,才能做到精準得分。
楚一航沒管那麼多,直接在終端里輸入調用TensorFlow框架的命令。
回車鍵敲下。
隔壁機房的散熱風扇轉速瞬間飆升,噪音穿透了玻璃門。
屏幕上開始滾動運行日誌。
鍾柏盯著顯存占用率的監控面板。
「集群的顯存占用直接拉滿了。」
「九章平台對AMD顯卡的調度策略真夠暴力的。」
葉言看著進度條。
「處理五萬張圖片,傳統算法少說得跑個兩三天。」
「我看這進度,估計一頓飯的功夫就能出結果。」
楚一航往後靠在椅背上。
「這就叫算力碾壓。」
十分鐘過去。
終端屏幕上的滾動日誌停了下來。
最後一行輸出了一串統計數據。
鍾柏揉了揉眼睛,指著屏幕上的數字。
「我是不是看花眼了?」
葉言湊過去,一個字符一個字符地念出來。
「Top-1準確率:40.2%。」
「Top-5準確率:80.5%。」
楚一航保持著靠在椅背上的姿勢,摸下巴的手停住了。
郭長征立刻推開鍾柏,自己握住滑鼠,點開測試代碼的日誌文件。
他快速檢查著數據加載流程和對比邏輯。
「沒有發生數據泄露。」
「這個模型的訓練集裡,不包含這些驗證集的數據。」
郭長徵得出結論。
「代碼沒問題,這確實是我們那個通用模型在全新驗證集上跑出的真實成績。」
鍾柏倒吸了一口涼氣。
「這還只是我們用通用數據訓練的基礎模型啊。」
「還沒專門針對ImageNet的一千個分類做重新訓練呢。」
葉言迅速在腦海里計算著行業平均水平。
「目前用傳統的SIFT特徵提取加上支持向量機算法。」
「在這類複雜圖片識別任務上,最高正確率也就只能做到20%到25%。」
楚一航站起身來,看著屏幕。
「20%對40%。」
「這不是同台競技,這是直接把桌子掀了。」
鍾柏激動得滿臉通紅,直接點開瀏覽器上ImageNet的官網。
「現在排行榜上還是空的,一個隊伍都沒上傳。」
「楚哥,咱們趕緊把這個測試集的預測結果跑出來,直接上傳一波。」
「先拿個40%的成績掛在榜首。」
「給全世界的學術圈一點小小的北郵震撼。」
「不行,不能傳。」郭老師卻是搖了搖頭。
鍾柏滿臉寫著問號,手懸在滑鼠上。
「為什麼啊郭老師?這麼高的分數,傳上去絕對能霸榜個把月。」
郭長征指著列印下來的比賽規則說道,「規則寫得清清楚楚,滿打滿算就五次上傳機會。」