第102章 BPE算法完成!

投票推薦 加入書籤 小說報錯

  第102章 BPE算法完成!

  喝完粥後,閔欣柔去洗碗。

  吳辰則打開電腦,把給康寧藥廠的解決方案寫成了一份文檔。

  前後時間總共花了不到半個小時。

  但這份文檔,卻能為他賺100萬。

  等明天錢到帳後,就又是1000點的技能點到帳。

  等梁嘉誠幫自己把深圳的地皮搞定後,他就可以從系統商城中買設備生產初級的顯卡了。

  伸了個懶腰,忙碌了一天的吳辰也感受到了一絲倦意。

  他站起身想回臥室睡覺,一轉頭才發現閔欣柔還坐在旁邊看著自己,吳淑芬則在她纖細的大腿上呼呼大睡。

  「你怎麼不去睡覺,有什麼問題嗎?」

  吳辰問。

  閔欣柔似乎走神了。

  她連忙挪開目光,神情有些慌張。

  不過說到問題,她又冷靜了下來,不好意思道:「老師,我在實現BPE算法的時候發現merge規則很怪,詞表切出來全是單字,英文還被拆成一個一個字母。」

  「我看看。」

  吳辰坐到她身邊,看向了她的屏幕。

  從上次他幫閔欣柔理清思路後,小姑娘的工作果然進入了正軌。

  她先花了兩天從天涯上抓取了5000條高質量的帖子,並且將貼子的每一個部分都分成了標題、

  內容兩個部分。

  除此之外,每個貼子還包含了至少5條有效回復。

  而且她沒有像最開始的200多條數據那樣去標記各種顏色,甚至還加粗加下劃線來標註重點。

  因為那是給人看的。

  這一次的數據數據,完全就是最原始的數據。

  雖然這項工作的絕大部分時間都是在機械的複製和粘貼,十分考驗耐心。

  但它的成果,也是用來訓練人工智慧大語言模型最佳的分詞語料。

  吳辰運行了一下她的分詞算法程序。

  果然如閔欣柔所說,雖然能運行,但生成的分詞結果卻不對。

  但這個問題應該不是語料質量不夠。

  吳辰一時也想不明白,必須要仔細看一下她的代碼才能發現問題。

  干是他道:「你幫我去泡杯咖啡,然後把菸灰缸拿過來。」

  閔欣柔站起身,一瘤一拐的先去把菸灰缸拿了過來。

  但她猶豫了一下道:「老師,今天太晚了,您要是累了的話就先休息,我再研究研究,明天您再幫我看也是一樣的。」

  「不用。」

  吳辰直接拒絕了。

  深夜才是調試代碼的最好時機。

  沒有產品經理在旁邊BB,沒有沙雕同事突然把資料庫弄壞,也沒有閒著沒事幹的領導突然要開站會。

  見他態度堅決,閔欣柔便沒有再勸,而是乖乖去廚房了。

  「喵!」

  閔欣柔都沒說什麼,倒是剛剛睡在她大腿上的吳淑芬不滿了。

  吳辰瞅了它一眼,當即給了幾個耳刮子。

  這傻貓不知道在叫什麼,要是他們現在不努力,它哪還有罐罐吃。

  等閔欣柔泡好咖啡回來後,吳辰已經把她的代碼基本看了一遍,並且已經發現了問題。

  於是喝了一口後,他立即開始指導了起來。

  「首先,你在這個地方的pair頻次統計用的不對,你遍歷的是vocab的鍵,完全忽略了每個詞條的出現次數,所以每一輪選出來的最頻繁符號對其實並不頻繁。」

  pair頻次統計在BPE分詞算法中,是用來決定每一輪要合併哪一對相鄰符號的。

  只有把詞頻權重算進去,merge規則才會穩定收斂。

  閔欣柔把它的代碼寫成了這樣:

  這就導致她每輪合併挑到的pair像抽籤一樣,越訓練越碎,最後分詞當然亂。

  盯著吳辰指出的地方看了半天,閔欣柔才若有所思的開口。


  「老師,是不是要在遍歷時加權,而且合併時還要考慮邊界?」

  「沒錯。」

  吳辰誇獎了一句。

  他果然沒有看錯人。

  閔欣柔靦腆的笑了起來。

  不過吳辰看她笑了半天,也不見她動手改代碼,於是提醒道:「改啊。」

  「啊,是您看著我改嗎?」

  閔欣柔有些吃驚。

  「不然呢,難道我幫你改?」

  吳辰奇怪的反問。

  「呃,好————」

  閔欣柔扭捏著靠近了一點,然後在吳辰的注視下敲起了鍵盤。

  不過她好像有點走神,一個簡單的vocab.items()寫了好幾次沒運行成功。

  「認真點。」

  吳辰把手敲了敲她的腦袋。

  被教訓的閔欣柔縮了縮脖子。

  不過看到吳辰認真的眼神,她也終於收斂思緒,開始認真思考了起來。

  這一次,她改代碼的效率明顯提升了不少。

  兩個小時後,代碼終於被改好了。

  最終的代碼是這樣:

  懷著激動的心情,閔欣柔運行了程序。

  她並沒有直接對5000條數據進行分詞,因為那會花幾十個小時。

  所以她先用100條數據進行了測試。

  在程序運行的幾分鐘裡,閔欣柔感覺異常的緊張。

  雖然吳辰教過她許多理論知識,但這還是第一次手把手的教她實際寫代碼。

  這種感覺很奇妙。

  所以一定要成功呀————

  少女在內心祈禱著。

  等程序終於運行完成後,她忐忑的點開了生成的分詞文件。

  成功了!

  這一次,程序分詞後的文件終於不是滿屏單字和黏連的碎片了,而是規整的子詞序列!

  就像這樣:

  閔欣柔忍不住小小的歡呼了一聲。

  與此同時,系統也發來了一條提示。

  【人工智慧:1級(30%—>:50%)】

  這一次,就連吳辰也忍不住笑了起來。

  完成BPE算法,竟然一次性提升了20%的進度!

  這樣的話,他只要完成Transformer架構的設計,那就能晉升人工智慧2級了!

  而等他這個月拿到科大訊飛和搜狗他們的數據,再加上自己馬上可以生產的專用顯卡的話————

  那GPT—1級別的人工智慧大語言模型,在2008年底的時候就有望完成!

  雖然當年openAI完成這一步的時候沒引起什麼反響,但吳辰卻有自己的計劃。

  已經足夠顛覆某些行業了!

  「乾的不錯!」

  想到閔欣柔替自己省了兩個月的時間,吳辰忍不住高興的拍了拍她的腦袋瓜子。

  「唔————謝謝老師。」

  閔欣柔也很開心。

  不過她還是道:「老師,現在只是小規模的測試,完整的分詞表還沒做好呢,而且5000條帖子的數據不一定夠呢!」

  「已經很不錯了,等訊飛他們把數據送過來就行,剩下的時間你繼續完善BPE算法,到時候直接就可以用了。」

  吳辰不在意道。

  對他來說,這種沒有太多技術含量的工作交給別人就好。

  他要全力以赴的完成Transformer架構的開發了。

  閔欣柔並不知道他的打算,不過她只要能幫吳辰完成工作就很開心了。

  兩人開心了一會兒後,吳辰想起一件事。

  「這個成果足夠寫一篇論文了,等待程序運行的時候你可以學習一下怎麼寫論文。」

  「我可以嗎?」

  閔欣柔愣了一下。

  抱歉今天更新晚了,主要是為了那幾張截圖寫代碼花了太久的時間。

  >

章節目錄