第102章 BPE算法完成!
第102章 BPE算法完成!
喝完粥後,閔欣柔去洗碗。
吳辰則打開電腦,把給康寧藥廠的解決方案寫成了一份文檔。
前後時間總共花了不到半個小時。
但這份文檔,卻能為他賺100萬。
等明天錢到帳後,就又是1000點的技能點到帳。
等梁嘉誠幫自己把深圳的地皮搞定後,他就可以從系統商城中買設備生產初級的顯卡了。
伸了個懶腰,忙碌了一天的吳辰也感受到了一絲倦意。
他站起身想回臥室睡覺,一轉頭才發現閔欣柔還坐在旁邊看著自己,吳淑芬則在她纖細的大腿上呼呼大睡。
「你怎麼不去睡覺,有什麼問題嗎?」
吳辰問。
閔欣柔似乎走神了。
她連忙挪開目光,神情有些慌張。
不過說到問題,她又冷靜了下來,不好意思道:「老師,我在實現BPE算法的時候發現merge規則很怪,詞表切出來全是單字,英文還被拆成一個一個字母。」
「我看看。」
吳辰坐到她身邊,看向了她的屏幕。
從上次他幫閔欣柔理清思路後,小姑娘的工作果然進入了正軌。
她先花了兩天從天涯上抓取了5000條高質量的帖子,並且將貼子的每一個部分都分成了標題、
內容兩個部分。
除此之外,每個貼子還包含了至少5條有效回復。
而且她沒有像最開始的200多條數據那樣去標記各種顏色,甚至還加粗加下劃線來標註重點。
因為那是給人看的。
這一次的數據數據,完全就是最原始的數據。
雖然這項工作的絕大部分時間都是在機械的複製和粘貼,十分考驗耐心。
但它的成果,也是用來訓練人工智慧大語言模型最佳的分詞語料。
吳辰運行了一下她的分詞算法程序。
果然如閔欣柔所說,雖然能運行,但生成的分詞結果卻不對。
但這個問題應該不是語料質量不夠。
吳辰一時也想不明白,必須要仔細看一下她的代碼才能發現問題。
干是他道:「你幫我去泡杯咖啡,然後把菸灰缸拿過來。」
閔欣柔站起身,一瘤一拐的先去把菸灰缸拿了過來。
但她猶豫了一下道:「老師,今天太晚了,您要是累了的話就先休息,我再研究研究,明天您再幫我看也是一樣的。」
「不用。」
吳辰直接拒絕了。
深夜才是調試代碼的最好時機。
沒有產品經理在旁邊BB,沒有沙雕同事突然把資料庫弄壞,也沒有閒著沒事幹的領導突然要開站會。
見他態度堅決,閔欣柔便沒有再勸,而是乖乖去廚房了。
「喵!」
閔欣柔都沒說什麼,倒是剛剛睡在她大腿上的吳淑芬不滿了。
吳辰瞅了它一眼,當即給了幾個耳刮子。
這傻貓不知道在叫什麼,要是他們現在不努力,它哪還有罐罐吃。
等閔欣柔泡好咖啡回來後,吳辰已經把她的代碼基本看了一遍,並且已經發現了問題。
於是喝了一口後,他立即開始指導了起來。
「首先,你在這個地方的pair頻次統計用的不對,你遍歷的是vocab的鍵,完全忽略了每個詞條的出現次數,所以每一輪選出來的最頻繁符號對其實並不頻繁。」
pair頻次統計在BPE分詞算法中,是用來決定每一輪要合併哪一對相鄰符號的。
只有把詞頻權重算進去,merge規則才會穩定收斂。
閔欣柔把它的代碼寫成了這樣:
這就導致她每輪合併挑到的pair像抽籤一樣,越訓練越碎,最後分詞當然亂。
盯著吳辰指出的地方看了半天,閔欣柔才若有所思的開口。
「老師,是不是要在遍歷時加權,而且合併時還要考慮邊界?」
「沒錯。」
吳辰誇獎了一句。
他果然沒有看錯人。
閔欣柔靦腆的笑了起來。
不過吳辰看她笑了半天,也不見她動手改代碼,於是提醒道:「改啊。」
「啊,是您看著我改嗎?」
閔欣柔有些吃驚。
「不然呢,難道我幫你改?」
吳辰奇怪的反問。
「呃,好————」
閔欣柔扭捏著靠近了一點,然後在吳辰的注視下敲起了鍵盤。
不過她好像有點走神,一個簡單的vocab.items()寫了好幾次沒運行成功。
「認真點。」
吳辰把手敲了敲她的腦袋。
被教訓的閔欣柔縮了縮脖子。
不過看到吳辰認真的眼神,她也終於收斂思緒,開始認真思考了起來。
這一次,她改代碼的效率明顯提升了不少。
兩個小時後,代碼終於被改好了。
最終的代碼是這樣:
懷著激動的心情,閔欣柔運行了程序。
她並沒有直接對5000條數據進行分詞,因為那會花幾十個小時。
所以她先用100條數據進行了測試。
在程序運行的幾分鐘裡,閔欣柔感覺異常的緊張。
雖然吳辰教過她許多理論知識,但這還是第一次手把手的教她實際寫代碼。
這種感覺很奇妙。
所以一定要成功呀————
少女在內心祈禱著。
等程序終於運行完成後,她忐忑的點開了生成的分詞文件。
成功了!
這一次,程序分詞後的文件終於不是滿屏單字和黏連的碎片了,而是規整的子詞序列!
就像這樣:
閔欣柔忍不住小小的歡呼了一聲。
與此同時,系統也發來了一條提示。
【人工智慧:1級(30%—>:50%)】
這一次,就連吳辰也忍不住笑了起來。
完成BPE算法,竟然一次性提升了20%的進度!
這樣的話,他只要完成Transformer架構的設計,那就能晉升人工智慧2級了!
而等他這個月拿到科大訊飛和搜狗他們的數據,再加上自己馬上可以生產的專用顯卡的話————
那GPT—1級別的人工智慧大語言模型,在2008年底的時候就有望完成!
雖然當年openAI完成這一步的時候沒引起什麼反響,但吳辰卻有自己的計劃。
已經足夠顛覆某些行業了!
「乾的不錯!」
想到閔欣柔替自己省了兩個月的時間,吳辰忍不住高興的拍了拍她的腦袋瓜子。
「唔————謝謝老師。」
閔欣柔也很開心。
不過她還是道:「老師,現在只是小規模的測試,完整的分詞表還沒做好呢,而且5000條帖子的數據不一定夠呢!」
「已經很不錯了,等訊飛他們把數據送過來就行,剩下的時間你繼續完善BPE算法,到時候直接就可以用了。」
吳辰不在意道。
對他來說,這種沒有太多技術含量的工作交給別人就好。
他要全力以赴的完成Transformer架構的開發了。
閔欣柔並不知道他的打算,不過她只要能幫吳辰完成工作就很開心了。
兩人開心了一會兒後,吳辰想起一件事。
「這個成果足夠寫一篇論文了,等待程序運行的時候你可以學習一下怎麼寫論文。」
「我可以嗎?」
閔欣柔愣了一下。
抱歉今天更新晚了,主要是為了那幾張截圖寫代碼花了太久的時間。
>
喝完粥後,閔欣柔去洗碗。
吳辰則打開電腦,把給康寧藥廠的解決方案寫成了一份文檔。
前後時間總共花了不到半個小時。
但這份文檔,卻能為他賺100萬。
等明天錢到帳後,就又是1000點的技能點到帳。
等梁嘉誠幫自己把深圳的地皮搞定後,他就可以從系統商城中買設備生產初級的顯卡了。
伸了個懶腰,忙碌了一天的吳辰也感受到了一絲倦意。
他站起身想回臥室睡覺,一轉頭才發現閔欣柔還坐在旁邊看著自己,吳淑芬則在她纖細的大腿上呼呼大睡。
「你怎麼不去睡覺,有什麼問題嗎?」
吳辰問。
閔欣柔似乎走神了。
她連忙挪開目光,神情有些慌張。
不過說到問題,她又冷靜了下來,不好意思道:「老師,我在實現BPE算法的時候發現merge規則很怪,詞表切出來全是單字,英文還被拆成一個一個字母。」
「我看看。」
吳辰坐到她身邊,看向了她的屏幕。
從上次他幫閔欣柔理清思路後,小姑娘的工作果然進入了正軌。
她先花了兩天從天涯上抓取了5000條高質量的帖子,並且將貼子的每一個部分都分成了標題、
內容兩個部分。
除此之外,每個貼子還包含了至少5條有效回復。
而且她沒有像最開始的200多條數據那樣去標記各種顏色,甚至還加粗加下劃線來標註重點。
因為那是給人看的。
這一次的數據數據,完全就是最原始的數據。
雖然這項工作的絕大部分時間都是在機械的複製和粘貼,十分考驗耐心。
但它的成果,也是用來訓練人工智慧大語言模型最佳的分詞語料。
吳辰運行了一下她的分詞算法程序。
果然如閔欣柔所說,雖然能運行,但生成的分詞結果卻不對。
但這個問題應該不是語料質量不夠。
吳辰一時也想不明白,必須要仔細看一下她的代碼才能發現問題。
干是他道:「你幫我去泡杯咖啡,然後把菸灰缸拿過來。」
閔欣柔站起身,一瘤一拐的先去把菸灰缸拿了過來。
但她猶豫了一下道:「老師,今天太晚了,您要是累了的話就先休息,我再研究研究,明天您再幫我看也是一樣的。」
「不用。」
吳辰直接拒絕了。
深夜才是調試代碼的最好時機。
沒有產品經理在旁邊BB,沒有沙雕同事突然把資料庫弄壞,也沒有閒著沒事幹的領導突然要開站會。
見他態度堅決,閔欣柔便沒有再勸,而是乖乖去廚房了。
「喵!」
閔欣柔都沒說什麼,倒是剛剛睡在她大腿上的吳淑芬不滿了。
吳辰瞅了它一眼,當即給了幾個耳刮子。
這傻貓不知道在叫什麼,要是他們現在不努力,它哪還有罐罐吃。
等閔欣柔泡好咖啡回來後,吳辰已經把她的代碼基本看了一遍,並且已經發現了問題。
於是喝了一口後,他立即開始指導了起來。
「首先,你在這個地方的pair頻次統計用的不對,你遍歷的是vocab的鍵,完全忽略了每個詞條的出現次數,所以每一輪選出來的最頻繁符號對其實並不頻繁。」
pair頻次統計在BPE分詞算法中,是用來決定每一輪要合併哪一對相鄰符號的。
只有把詞頻權重算進去,merge規則才會穩定收斂。
閔欣柔把它的代碼寫成了這樣:
這就導致她每輪合併挑到的pair像抽籤一樣,越訓練越碎,最後分詞當然亂。
盯著吳辰指出的地方看了半天,閔欣柔才若有所思的開口。
「老師,是不是要在遍歷時加權,而且合併時還要考慮邊界?」
「沒錯。」
吳辰誇獎了一句。
他果然沒有看錯人。
閔欣柔靦腆的笑了起來。
不過吳辰看她笑了半天,也不見她動手改代碼,於是提醒道:「改啊。」
「啊,是您看著我改嗎?」
閔欣柔有些吃驚。
「不然呢,難道我幫你改?」
吳辰奇怪的反問。
「呃,好————」
閔欣柔扭捏著靠近了一點,然後在吳辰的注視下敲起了鍵盤。
不過她好像有點走神,一個簡單的vocab.items()寫了好幾次沒運行成功。
「認真點。」
吳辰把手敲了敲她的腦袋。
被教訓的閔欣柔縮了縮脖子。
不過看到吳辰認真的眼神,她也終於收斂思緒,開始認真思考了起來。
這一次,她改代碼的效率明顯提升了不少。
兩個小時後,代碼終於被改好了。
最終的代碼是這樣:
懷著激動的心情,閔欣柔運行了程序。
她並沒有直接對5000條數據進行分詞,因為那會花幾十個小時。
所以她先用100條數據進行了測試。
在程序運行的幾分鐘裡,閔欣柔感覺異常的緊張。
雖然吳辰教過她許多理論知識,但這還是第一次手把手的教她實際寫代碼。
這種感覺很奇妙。
所以一定要成功呀————
少女在內心祈禱著。
等程序終於運行完成後,她忐忑的點開了生成的分詞文件。
成功了!
這一次,程序分詞後的文件終於不是滿屏單字和黏連的碎片了,而是規整的子詞序列!
就像這樣:
閔欣柔忍不住小小的歡呼了一聲。
與此同時,系統也發來了一條提示。
【人工智慧:1級(30%—>:50%)】
這一次,就連吳辰也忍不住笑了起來。
完成BPE算法,竟然一次性提升了20%的進度!
這樣的話,他只要完成Transformer架構的設計,那就能晉升人工智慧2級了!
而等他這個月拿到科大訊飛和搜狗他們的數據,再加上自己馬上可以生產的專用顯卡的話————
那GPT—1級別的人工智慧大語言模型,在2008年底的時候就有望完成!
雖然當年openAI完成這一步的時候沒引起什麼反響,但吳辰卻有自己的計劃。
已經足夠顛覆某些行業了!
「乾的不錯!」
想到閔欣柔替自己省了兩個月的時間,吳辰忍不住高興的拍了拍她的腦袋瓜子。
「唔————謝謝老師。」
閔欣柔也很開心。
不過她還是道:「老師,現在只是小規模的測試,完整的分詞表還沒做好呢,而且5000條帖子的數據不一定夠呢!」
「已經很不錯了,等訊飛他們把數據送過來就行,剩下的時間你繼續完善BPE算法,到時候直接就可以用了。」
吳辰不在意道。
對他來說,這種沒有太多技術含量的工作交給別人就好。
他要全力以赴的完成Transformer架構的開發了。
閔欣柔並不知道他的打算,不過她只要能幫吳辰完成工作就很開心了。
兩人開心了一會兒後,吳辰想起一件事。
「這個成果足夠寫一篇論文了,等待程序運行的時候你可以學習一下怎麼寫論文。」
「我可以嗎?」
閔欣柔愣了一下。
抱歉今天更新晚了,主要是為了那幾張截圖寫代碼花了太久的時間。
>