第649章 玉泉路扛把子登頂榜首
會議室里再次陷入了沉默。
一個沒有任何機構背景,用著中國大眾郵箱,名字極其隨意的隊伍,直接把當前計算機視覺的最高記錄翻了一倍。
這聽起來就像是一個拙劣的愚人節玩笑。
但數據偏偏是鐵打的事實。
「有沒有可能是我們自己團隊的誰,不小心把內部測試的某個超前結果傳上去了?」李飛飛拋出了第一個假設。
約翰直接搖頭。
「不可能,李老師。」約翰苦笑,「我們團隊現在最好的模型,昨天晚上剛跑完一輪,Top-1才剛過30%。連人家的尾燈都看不到。這結果跟我們完全不在一個量級上。」
「那會不會是測試集的標註答案泄露了?」大衛提出了第二個假設,「如果是有人拿到了標準答案,直接把答案改個名字上傳,也能得到這個分數。甚至可以故意答錯一些,控制在60%左右,避免百分之百太顯眼。」
李飛飛立刻看向陳冉。
「陳冉,聯繫ImageNet項目的數據管理員,調取測試集所在的最高權限訪問日誌。我要看從發布到現在的所有記錄。」
陳冉立刻拿起手機開始打電話。
會議室里的氣氛壓抑得讓人喘不過氣。
如果真的是測試集泄露,那整個ImageNet項目的公信力將遭到毀滅性的打擊。
十分鐘後,數據管理員把日誌文件發了過來。
陳冉打開文件,快速瀏覽。
「沒有泄露。」陳冉指著屏幕上的記錄,「日誌顯示,測試集從發布到現在,只有三個經過授權的內部高級帳號下載過。而且這三次下載記錄,都是在項目啟動初期為了做本地環境配置。最近三個月內,沒有任何人訪問過測試集原始數據所在的安全分區。」
「黑客攻擊呢?」大衛追問。
「防火牆沒有報警記錄。」陳冉說,「而且我們的測試集伺服器是不對公網開放的物理隔離節點,想要拿到數據,除非有人親自跑到機房拔硬碟。」
假設再次被推翻。
「既然不是答案泄露,那這就見鬼了。」約翰雙手抱頭,「如果不是作弊,那這個正確率意味著什麼?」
大衛看著電腦屏幕上的亂碼發呆。
「意味著他們用的方法,已經跟我們不在同一個理論框架里了。」大衛說。
「陳冉,你最了解中國那邊的情況。」
李飛飛問,「會不會是中國那邊找了大量的人力,對著測試集一張一張標註出來的?重賞之下必有勇夫,為了那三萬美元的獎金,這種人海戰術在理論上是可行的。」
陳冉還沒說話,約翰先反駁了。
「這絕對不可能。」約翰語氣堅定。
「為什麼?」陳冉問。
「ImageNet的分類不是區分貓和狗那麼簡單。」約翰語速飛快,「李老師,您忘了測試集的分類都是什麼嗎,一百二十種不同的狗!普通的數據標註工,哪能分得清諾威奇梗和凱恩梗?哪能分得清阿拉斯加雪橇犬和西伯利亞哈士奇在模糊背景下的區別?」
約翰指著屏幕上的一個分類標籤。
「再看看植物類,普通標註工能看出一張帶點反光的葉子到底是哪種蕨類植物嗎?這需要專業的生物學知識!普通人盯著看一天也分不出個所以然。」
約翰越說越激動。
「要達到接近六成的Top-1準確率,他們不僅需要找人看,還需要找動物學家、植物學家、汽車型號鑑定專家一起來看!普通人根本做不到這種精度,更不用說還要保證幾千張圖片的一致性了。」
大衛在旁邊跟著點頭。
「我算一筆經濟帳。」大衛補充說,「如果他們真的用人力標註,要請這麼多專家來會診十五萬張圖片,還要保證絕對的保密不走漏風聲,這個成本早就遠遠超過了三萬美元的獎金。邏輯上完全說不通。沒有人會花三十萬美元去賺三萬美元。」
人海戰術的假設也被徹底推翻。
李飛飛深吸了一口氣。
「參賽系統是允許參賽隊伍提交論文和源碼的,對吧?」李飛飛問。
「對,這是選填項。」陳冉點頭。
「我們看一下他們的詳情頁。」李飛飛說。
四個人同時點進「玉泉路扛把子」這個ID的提交詳情頁。
頁面加載出來。
論文欄,空著。
源碼欄,空著。
算法架構說明欄,空著。
只有那一份預測結果的Excel表格,孤零零地掛在附件下載區里。
約翰靠向椅背,雙手攤開。
「沒有任何理論說明,沒有任何代碼實現,只有一個乾巴巴的結果。」約翰盯著屏幕,「這怎麼解釋?魔法嗎?」
大衛摸了摸下巴。
「就好像有人直接從未來把答案送過來了一樣。」大衛說。
會議室里再次安靜下來。
大衛這句無心的話,讓陳冉覺得後背有些發涼。
李飛飛站起身,走到會議室的白板前。
她看著白板上之前畫滿的各種特徵提取算法的流程圖,覺得這些東西現在看起來就像是上個世紀的古董。
「不管我們能不能理解,不管他們用了什麼方法。」李飛飛轉過身,看著會議桌前的三個人,「這個結果是真實存在的,它通過了我們所有的驗證機制。」
「那排行榜還更新嗎?」約翰問。
「如果不更新,我們就是在否定我們自己建立的評測體系。」李飛飛毫不猶豫地說,「更新。」
「可是李老師,一旦這個數據放出去,北美這邊的學術界可能就不只是炸鍋那麼簡單了。」陳冉有些擔憂,「大家會覺得我們這個榜單出了嚴重的漏洞。」
「那就讓他們去查漏洞。」李飛飛語氣堅定,「科學就是在不斷打破認知中前進的。既然有人做到了,我們就必須承認。」
陳冉點頭,手指放在了滑鼠上。
「我馬上操作。」
點擊。
確認。
數據同步。
於是,在2010年1月的這個上午。
ImageNet挑戰賽的官方排行榜,迎來了一次毫無預兆的刷新。
讓原本的榜單顯得有些菜雞互啄。
頂替他們的,是一個全新的名字。
第一名:玉泉路扛把子。
Top-1正確率:59.8%。
Top-5正確率:76.3%。
原先排名第一的團隊成績是29%和69%。
這兩個指標之間的巨大鴻溝,大到讓所有刷新頁面看到榜單的人,都會以為自己的顯示器出了故障。
李飛飛合上自己的筆記本電腦。
「陳冉,一會記得發一封郵件給那個QQ郵箱,邀請他們提交一下預測使用的方法。語氣客氣一些,但是要表達出我們迫切的渴望。」
「不過我懷疑他們是有一些技術秘密不想透露,我們不一定能等得到他們的回信。」
「所以,從今天開始,你手頭其他的雜活先放一放。」李飛飛看著自己的學生,「密切關注中國那邊所有和計算機視覺相關的實驗室動向。」
「中國那邊的實驗室?」陳冉問。
「對。」李飛飛點頭,「能做出這種成績的,絕對不是幾個散兵游勇。背後一定有一支頂級的團隊,甚至可能是國家級的算力支持。只要他們還在做研究,就一定會發論文。有任何新的論文,或者相關的技術博客發布,第一時間整理髮給我。」
「明白。」陳冉說。
一個沒有任何機構背景,用著中國大眾郵箱,名字極其隨意的隊伍,直接把當前計算機視覺的最高記錄翻了一倍。
這聽起來就像是一個拙劣的愚人節玩笑。
但數據偏偏是鐵打的事實。
「有沒有可能是我們自己團隊的誰,不小心把內部測試的某個超前結果傳上去了?」李飛飛拋出了第一個假設。
約翰直接搖頭。
「不可能,李老師。」約翰苦笑,「我們團隊現在最好的模型,昨天晚上剛跑完一輪,Top-1才剛過30%。連人家的尾燈都看不到。這結果跟我們完全不在一個量級上。」
「那會不會是測試集的標註答案泄露了?」大衛提出了第二個假設,「如果是有人拿到了標準答案,直接把答案改個名字上傳,也能得到這個分數。甚至可以故意答錯一些,控制在60%左右,避免百分之百太顯眼。」
李飛飛立刻看向陳冉。
「陳冉,聯繫ImageNet項目的數據管理員,調取測試集所在的最高權限訪問日誌。我要看從發布到現在的所有記錄。」
陳冉立刻拿起手機開始打電話。
會議室里的氣氛壓抑得讓人喘不過氣。
如果真的是測試集泄露,那整個ImageNet項目的公信力將遭到毀滅性的打擊。
十分鐘後,數據管理員把日誌文件發了過來。
陳冉打開文件,快速瀏覽。
「沒有泄露。」陳冉指著屏幕上的記錄,「日誌顯示,測試集從發布到現在,只有三個經過授權的內部高級帳號下載過。而且這三次下載記錄,都是在項目啟動初期為了做本地環境配置。最近三個月內,沒有任何人訪問過測試集原始數據所在的安全分區。」
「黑客攻擊呢?」大衛追問。
「防火牆沒有報警記錄。」陳冉說,「而且我們的測試集伺服器是不對公網開放的物理隔離節點,想要拿到數據,除非有人親自跑到機房拔硬碟。」
假設再次被推翻。
「既然不是答案泄露,那這就見鬼了。」約翰雙手抱頭,「如果不是作弊,那這個正確率意味著什麼?」
大衛看著電腦屏幕上的亂碼發呆。
「意味著他們用的方法,已經跟我們不在同一個理論框架里了。」大衛說。
「陳冉,你最了解中國那邊的情況。」
李飛飛問,「會不會是中國那邊找了大量的人力,對著測試集一張一張標註出來的?重賞之下必有勇夫,為了那三萬美元的獎金,這種人海戰術在理論上是可行的。」
陳冉還沒說話,約翰先反駁了。
「這絕對不可能。」約翰語氣堅定。
「為什麼?」陳冉問。
「ImageNet的分類不是區分貓和狗那麼簡單。」約翰語速飛快,「李老師,您忘了測試集的分類都是什麼嗎,一百二十種不同的狗!普通的數據標註工,哪能分得清諾威奇梗和凱恩梗?哪能分得清阿拉斯加雪橇犬和西伯利亞哈士奇在模糊背景下的區別?」
約翰指著屏幕上的一個分類標籤。
「再看看植物類,普通標註工能看出一張帶點反光的葉子到底是哪種蕨類植物嗎?這需要專業的生物學知識!普通人盯著看一天也分不出個所以然。」
約翰越說越激動。
「要達到接近六成的Top-1準確率,他們不僅需要找人看,還需要找動物學家、植物學家、汽車型號鑑定專家一起來看!普通人根本做不到這種精度,更不用說還要保證幾千張圖片的一致性了。」
大衛在旁邊跟著點頭。
「我算一筆經濟帳。」大衛補充說,「如果他們真的用人力標註,要請這麼多專家來會診十五萬張圖片,還要保證絕對的保密不走漏風聲,這個成本早就遠遠超過了三萬美元的獎金。邏輯上完全說不通。沒有人會花三十萬美元去賺三萬美元。」
人海戰術的假設也被徹底推翻。
李飛飛深吸了一口氣。
「參賽系統是允許參賽隊伍提交論文和源碼的,對吧?」李飛飛問。
「對,這是選填項。」陳冉點頭。
「我們看一下他們的詳情頁。」李飛飛說。
四個人同時點進「玉泉路扛把子」這個ID的提交詳情頁。
頁面加載出來。
論文欄,空著。
源碼欄,空著。
算法架構說明欄,空著。
只有那一份預測結果的Excel表格,孤零零地掛在附件下載區里。
約翰靠向椅背,雙手攤開。
「沒有任何理論說明,沒有任何代碼實現,只有一個乾巴巴的結果。」約翰盯著屏幕,「這怎麼解釋?魔法嗎?」
大衛摸了摸下巴。
「就好像有人直接從未來把答案送過來了一樣。」大衛說。
會議室里再次安靜下來。
大衛這句無心的話,讓陳冉覺得後背有些發涼。
李飛飛站起身,走到會議室的白板前。
她看著白板上之前畫滿的各種特徵提取算法的流程圖,覺得這些東西現在看起來就像是上個世紀的古董。
「不管我們能不能理解,不管他們用了什麼方法。」李飛飛轉過身,看著會議桌前的三個人,「這個結果是真實存在的,它通過了我們所有的驗證機制。」
「那排行榜還更新嗎?」約翰問。
「如果不更新,我們就是在否定我們自己建立的評測體系。」李飛飛毫不猶豫地說,「更新。」
「可是李老師,一旦這個數據放出去,北美這邊的學術界可能就不只是炸鍋那麼簡單了。」陳冉有些擔憂,「大家會覺得我們這個榜單出了嚴重的漏洞。」
「那就讓他們去查漏洞。」李飛飛語氣堅定,「科學就是在不斷打破認知中前進的。既然有人做到了,我們就必須承認。」
陳冉點頭,手指放在了滑鼠上。
「我馬上操作。」
點擊。
確認。
數據同步。
於是,在2010年1月的這個上午。
ImageNet挑戰賽的官方排行榜,迎來了一次毫無預兆的刷新。
讓原本的榜單顯得有些菜雞互啄。
頂替他們的,是一個全新的名字。
第一名:玉泉路扛把子。
Top-1正確率:59.8%。
Top-5正確率:76.3%。
原先排名第一的團隊成績是29%和69%。
這兩個指標之間的巨大鴻溝,大到讓所有刷新頁面看到榜單的人,都會以為自己的顯示器出了故障。
李飛飛合上自己的筆記本電腦。
「陳冉,一會記得發一封郵件給那個QQ郵箱,邀請他們提交一下預測使用的方法。語氣客氣一些,但是要表達出我們迫切的渴望。」
「不過我懷疑他們是有一些技術秘密不想透露,我們不一定能等得到他們的回信。」
「所以,從今天開始,你手頭其他的雜活先放一放。」李飛飛看著自己的學生,「密切關注中國那邊所有和計算機視覺相關的實驗室動向。」
「中國那邊的實驗室?」陳冉問。
「對。」李飛飛點頭,「能做出這種成績的,絕對不是幾個散兵游勇。背後一定有一支頂級的團隊,甚至可能是國家級的算力支持。只要他們還在做研究,就一定會發論文。有任何新的論文,或者相關的技術博客發布,第一時間整理髮給我。」
「明白。」陳冉說。