第111章 黎明
第111章 黎明
「吳老師,我請您吃飯吧!」
看吳辰轉身要走,林靜連忙邀請道。
但吳辰搖了搖頭。
「我現在就回杭城了,下次再說好了。」
林靜還想再勸,但吳辰的態度也很堅決,最終只得訕訕放棄了。
坐上車後,吳辰接到了閔欣柔的電話。
「吳老師,媽媽說她收到您給的錢了,謝謝您。」
「不用,這本來就是你的工資。」
吳辰說。
但閔欣柔還是很感激。
之前她想給林靜錢,但林靜不給她銀行卡號,所以拜託吳辰有空的話送現金給她。
聽著電話中輕淺的呼吸聲,吳辰能聽出來她對母親的思念。
不過他也不好多說什麼,只是道:「晚上我到家了,你把做好的成果給我看看。」
「好,那我等您回來。」
閔欣柔溫溫柔柔的說。
掛了電話,吳辰就閉上眼睛,靠在椅背上休息了起來。
回到廠里,姜楠已經等在廠門口了,手裡還拎著自己的行李箱和吳辰的手提包。
廠里的管理人員則圍了她一圈,點頭哈腰的匯報著工作。
車停好後,吳辰也簡單叮囑了幾句,便和姜楠一起坐上車,朝寶安國際機場出發了。
管理這方面的事情,他還是信任姜楠的能力的。
走了一會兒後,姜楠問他:「防塵網的事情找好了嗎?」
「沒合適的,不過這個不著急,後邊再來處理也是一樣的。」
吳辰面不改色道。
阿彪從後視鏡里看了吳辰一眼,不禁感慨還得是文化人會玩啊。
不過他什麼都沒說。
2008年的科研經費報銷沒那麼嚴格,所以吳辰大方的請姜大小姐坐了頭等艙,到時候直接走實驗室的費用。
而且這幾天姜楠也確實辛苦了,一上飛機就沉沉的睡了過去。
她的工作能力,完全對的起那1%的股份分紅。
不過她應該想不到這1%會比她想像的值錢的多。
由於她就坐在旁邊,所以吳辰也沒享受頭等艙特有的摸空姐絲襪服務。
落地蕭山機場後,吳辰把車從停車場開了出來。
明明2800塊的機票他都不心疼,但240塊的停車費他是痛徹心扉。
把姜楠送到家時已經是晚上10點了,吳辰拒絕了她上去做做的邀請。
畢竟姜鴻約和來淑嫻在家,吳辰實在不想再客套了。
他現在一門心思都放在包里的八張計算卡上。
現在距離點亮它們,開始訓練GPT—1已經只有一步之遙了。
一路風馳電掣,吳辰一個小時就回到了小和山公寓的樓下。
抬頭望向亮著燈的房間,他還是心中稍微有些觸動。
有人等在家中的感覺其實挺好的。
算起來他也有段時間沒回家了,等過年的時候是該早點回去看看父母了。
上樓後,吳辰還沒掏出鑰匙,房門就被輕輕打開了。
閔欣柔和吳淑芬站在門後。
「老師,您回來了。」
閔欣柔一邊輕聲喊著他的名字,一邊把他手裡的包接了過去。
不過入手時,她顯然沒想到那麼沉,差點脫手掉在地上。
「小心點,這裡面可是能讓你做的BPE真正發揮作用的東西。」
「對,對不起。」
聽到這麼貴重,閔欣柔連忙道歉。
「沒事,你把論文準備好我看看,要是沒問題,就要準備下一階段的工作了」
。
吳辰一邊回答,一邊摸了摸吳淑芬的肚子,發現它吃的跟豬一樣。
這小東西在家還吃的挺好。
等他回房間換好睡衣出來,閔欣柔已經乖乖的坐在桌邊等著他了。
除了打開的論文外,還有一碗砂鍋粥。
濃濃的粥厚重而醇香。
雖然頭等艙的飛機餐不錯,吳辰吃的也很飽,但還是被打開了食慾。
於是他端起碗,呼啦啦的吃完了,胃裡暖暖的。
將碗放到一邊,吳辰沒看閔欣柔彎彎的眉眼,只是道:「你講講你寫的論文吧。
」
「好的老師~」
「我看了您留給我的幾篇論文,尤其是關於子詞正則化(Subword
Regularization)的那幾篇讀完後很受啟發,所以重新思考了我們的BPE算法的目標。
您說過科大訊飛和搜狗他們會給我們大量的網絡語料,但噪聲很多,所以我實現了您提到的基於抽樣的多種分詞結果生成,在合併詞表時,不再只選取絕對最高頻的字節對,而是引入一個概率分布,讓一些次優的合併也有機會被選中。
這樣,同一個句子在每次處理時都可能得到略微不同的、但都合理的分詞序列,相當於做了數據增強。」
吳辰一邊聽,一邊暗自點頭。
她確實理解了自己想要的東西。
讓分詞本身成為模型的一種正則化手段,而不僅僅是一個預處理步驟。
不過當她講到如何將這種多可能性分詞結果整合進後續步驟的時候,吳辰皺了皺眉。
「停,往上翻。」
閔欣柔連忙照他說的做。
吳辰仔細看了一下。
她的實現是在訓練前,為每個句子預先採樣生成N種分詞結果,然後一起餵給模型。
思路是對的,但方法太粗暴了。
如果為每個句子都預生成多個版本,訓練數據體積會爆炸,10也會成為瓶頸,嚴重拖慢訓練速度。
靠他手搓的八張顯卡,根本完成不了這樣的任務。
必須要在動態和效率之間取得平衡。
吳辰拿起筆,在草稿紙上畫了一個簡化的流程圖。
不能數據預處理階段做,而是在訓練時,在數據加載器內部做。
也就是每次向模型送出一批數據時,現場為其中的每個句子按概率採樣一種分詞結果。
這樣做的話,同一個句子在不同訓練周期見到模型時,可能就是不同的面貌,既實現了正則化,又避免了存儲開銷,計算代價也可控。
吳辰一邊畫,一邊給閔欣柔講起了修改方法。
閔欣柔則手指飛快的將吳辰說的每個字都記了下來。
只是在吳辰說話的停頓間,她突然有些恍惚,覺得好像回到了三天前的那個晚上。
等講解完成後,吳辰又通篇看了一遍,發現其他地方都沒什麼問題。
於是他道:「你先按這個思路改,儘量三天內做完給我看看。」
「嗯!
」
閔欣柔重重的點頭。
大三上學期的課程不多,每周只有10節課不到,所以她有足夠的時間。
在她開始修改後,吳辰也整理起了自己要做的工作。
按照目前的進度,理論方面他已經完成了word2Vec,位置編碼和多頭注意力機制的推導。
加上閔欣柔完成的BPE分詞。
那麼剩下的,就只有一件事。
他打開了Word,打算完成最終的一塊拼圖。
Transformer架構。
所有未來人工智慧大語言模型的起點。
它就在那篇經典、著名的論文中。
《AttentionlsAllYouNeed》。
當吳辰敲下第一個字母的時候,明明是秋老虎最囂張的時候,但他依然感覺到一絲涼意在腦海中蔓延開來。
這和系統無關。
只是他自己太過激動罷了。
對這篇論文的內容,他上輩子早已背的滾瓜爛熟。
所以手放在鍵盤上時,根本就不需要思考。
」The dominant sequence transduction models are based on(主流的序列轉換模型基於複雜的循環或卷積神經網絡)————」
「吳老師,我請您吃飯吧!」
看吳辰轉身要走,林靜連忙邀請道。
但吳辰搖了搖頭。
「我現在就回杭城了,下次再說好了。」
林靜還想再勸,但吳辰的態度也很堅決,最終只得訕訕放棄了。
坐上車後,吳辰接到了閔欣柔的電話。
「吳老師,媽媽說她收到您給的錢了,謝謝您。」
「不用,這本來就是你的工資。」
吳辰說。
但閔欣柔還是很感激。
之前她想給林靜錢,但林靜不給她銀行卡號,所以拜託吳辰有空的話送現金給她。
聽著電話中輕淺的呼吸聲,吳辰能聽出來她對母親的思念。
不過他也不好多說什麼,只是道:「晚上我到家了,你把做好的成果給我看看。」
「好,那我等您回來。」
閔欣柔溫溫柔柔的說。
掛了電話,吳辰就閉上眼睛,靠在椅背上休息了起來。
回到廠里,姜楠已經等在廠門口了,手裡還拎著自己的行李箱和吳辰的手提包。
廠里的管理人員則圍了她一圈,點頭哈腰的匯報著工作。
車停好後,吳辰也簡單叮囑了幾句,便和姜楠一起坐上車,朝寶安國際機場出發了。
管理這方面的事情,他還是信任姜楠的能力的。
走了一會兒後,姜楠問他:「防塵網的事情找好了嗎?」
「沒合適的,不過這個不著急,後邊再來處理也是一樣的。」
吳辰面不改色道。
阿彪從後視鏡里看了吳辰一眼,不禁感慨還得是文化人會玩啊。
不過他什麼都沒說。
2008年的科研經費報銷沒那麼嚴格,所以吳辰大方的請姜大小姐坐了頭等艙,到時候直接走實驗室的費用。
而且這幾天姜楠也確實辛苦了,一上飛機就沉沉的睡了過去。
她的工作能力,完全對的起那1%的股份分紅。
不過她應該想不到這1%會比她想像的值錢的多。
由於她就坐在旁邊,所以吳辰也沒享受頭等艙特有的摸空姐絲襪服務。
落地蕭山機場後,吳辰把車從停車場開了出來。
明明2800塊的機票他都不心疼,但240塊的停車費他是痛徹心扉。
把姜楠送到家時已經是晚上10點了,吳辰拒絕了她上去做做的邀請。
畢竟姜鴻約和來淑嫻在家,吳辰實在不想再客套了。
他現在一門心思都放在包里的八張計算卡上。
現在距離點亮它們,開始訓練GPT—1已經只有一步之遙了。
一路風馳電掣,吳辰一個小時就回到了小和山公寓的樓下。
抬頭望向亮著燈的房間,他還是心中稍微有些觸動。
有人等在家中的感覺其實挺好的。
算起來他也有段時間沒回家了,等過年的時候是該早點回去看看父母了。
上樓後,吳辰還沒掏出鑰匙,房門就被輕輕打開了。
閔欣柔和吳淑芬站在門後。
「老師,您回來了。」
閔欣柔一邊輕聲喊著他的名字,一邊把他手裡的包接了過去。
不過入手時,她顯然沒想到那麼沉,差點脫手掉在地上。
「小心點,這裡面可是能讓你做的BPE真正發揮作用的東西。」
「對,對不起。」
聽到這麼貴重,閔欣柔連忙道歉。
「沒事,你把論文準備好我看看,要是沒問題,就要準備下一階段的工作了」
。
吳辰一邊回答,一邊摸了摸吳淑芬的肚子,發現它吃的跟豬一樣。
這小東西在家還吃的挺好。
等他回房間換好睡衣出來,閔欣柔已經乖乖的坐在桌邊等著他了。
除了打開的論文外,還有一碗砂鍋粥。
濃濃的粥厚重而醇香。
雖然頭等艙的飛機餐不錯,吳辰吃的也很飽,但還是被打開了食慾。
於是他端起碗,呼啦啦的吃完了,胃裡暖暖的。
將碗放到一邊,吳辰沒看閔欣柔彎彎的眉眼,只是道:「你講講你寫的論文吧。
」
「好的老師~」
「我看了您留給我的幾篇論文,尤其是關於子詞正則化(Subword
Regularization)的那幾篇讀完後很受啟發,所以重新思考了我們的BPE算法的目標。
您說過科大訊飛和搜狗他們會給我們大量的網絡語料,但噪聲很多,所以我實現了您提到的基於抽樣的多種分詞結果生成,在合併詞表時,不再只選取絕對最高頻的字節對,而是引入一個概率分布,讓一些次優的合併也有機會被選中。
這樣,同一個句子在每次處理時都可能得到略微不同的、但都合理的分詞序列,相當於做了數據增強。」
吳辰一邊聽,一邊暗自點頭。
她確實理解了自己想要的東西。
讓分詞本身成為模型的一種正則化手段,而不僅僅是一個預處理步驟。
不過當她講到如何將這種多可能性分詞結果整合進後續步驟的時候,吳辰皺了皺眉。
「停,往上翻。」
閔欣柔連忙照他說的做。
吳辰仔細看了一下。
她的實現是在訓練前,為每個句子預先採樣生成N種分詞結果,然後一起餵給模型。
思路是對的,但方法太粗暴了。
如果為每個句子都預生成多個版本,訓練數據體積會爆炸,10也會成為瓶頸,嚴重拖慢訓練速度。
靠他手搓的八張顯卡,根本完成不了這樣的任務。
必須要在動態和效率之間取得平衡。
吳辰拿起筆,在草稿紙上畫了一個簡化的流程圖。
不能數據預處理階段做,而是在訓練時,在數據加載器內部做。
也就是每次向模型送出一批數據時,現場為其中的每個句子按概率採樣一種分詞結果。
這樣做的話,同一個句子在不同訓練周期見到模型時,可能就是不同的面貌,既實現了正則化,又避免了存儲開銷,計算代價也可控。
吳辰一邊畫,一邊給閔欣柔講起了修改方法。
閔欣柔則手指飛快的將吳辰說的每個字都記了下來。
只是在吳辰說話的停頓間,她突然有些恍惚,覺得好像回到了三天前的那個晚上。
等講解完成後,吳辰又通篇看了一遍,發現其他地方都沒什麼問題。
於是他道:「你先按這個思路改,儘量三天內做完給我看看。」
「嗯!
」
閔欣柔重重的點頭。
大三上學期的課程不多,每周只有10節課不到,所以她有足夠的時間。
在她開始修改後,吳辰也整理起了自己要做的工作。
按照目前的進度,理論方面他已經完成了word2Vec,位置編碼和多頭注意力機制的推導。
加上閔欣柔完成的BPE分詞。
那麼剩下的,就只有一件事。
他打開了Word,打算完成最終的一塊拼圖。
Transformer架構。
所有未來人工智慧大語言模型的起點。
它就在那篇經典、著名的論文中。
《AttentionlsAllYouNeed》。
當吳辰敲下第一個字母的時候,明明是秋老虎最囂張的時候,但他依然感覺到一絲涼意在腦海中蔓延開來。
這和系統無關。
只是他自己太過激動罷了。
對這篇論文的內容,他上輩子早已背的滾瓜爛熟。
所以手放在鍵盤上時,根本就不需要思考。
」The dominant sequence transduction models are based on(主流的序列轉換模型基於複雜的循環或卷積神經網絡)————」