第111章 黎明

投票推薦 加入書籤 小說報錯

  第111章 黎明

  「吳老師,我請您吃飯吧!」

  看吳辰轉身要走,林靜連忙邀請道。

  但吳辰搖了搖頭。

  「我現在就回杭城了,下次再說好了。」

  林靜還想再勸,但吳辰的態度也很堅決,最終只得訕訕放棄了。

  坐上車後,吳辰接到了閔欣柔的電話。

  「吳老師,媽媽說她收到您給的錢了,謝謝您。」

  「不用,這本來就是你的工資。」

  吳辰說。

  但閔欣柔還是很感激。

  之前她想給林靜錢,但林靜不給她銀行卡號,所以拜託吳辰有空的話送現金給她。

  聽著電話中輕淺的呼吸聲,吳辰能聽出來她對母親的思念。

  不過他也不好多說什麼,只是道:「晚上我到家了,你把做好的成果給我看看。」

  「好,那我等您回來。」

  閔欣柔溫溫柔柔的說。

  掛了電話,吳辰就閉上眼睛,靠在椅背上休息了起來。

  回到廠里,姜楠已經等在廠門口了,手裡還拎著自己的行李箱和吳辰的手提包。

  廠里的管理人員則圍了她一圈,點頭哈腰的匯報著工作。

  車停好後,吳辰也簡單叮囑了幾句,便和姜楠一起坐上車,朝寶安國際機場出發了。

  管理這方面的事情,他還是信任姜楠的能力的。

  走了一會兒後,姜楠問他:「防塵網的事情找好了嗎?」

  「沒合適的,不過這個不著急,後邊再來處理也是一樣的。」

  吳辰面不改色道。

  阿彪從後視鏡里看了吳辰一眼,不禁感慨還得是文化人會玩啊。

  不過他什麼都沒說。

  2008年的科研經費報銷沒那麼嚴格,所以吳辰大方的請姜大小姐坐了頭等艙,到時候直接走實驗室的費用。

  而且這幾天姜楠也確實辛苦了,一上飛機就沉沉的睡了過去。

  她的工作能力,完全對的起那1%的股份分紅。

  不過她應該想不到這1%會比她想像的值錢的多。

  由於她就坐在旁邊,所以吳辰也沒享受頭等艙特有的摸空姐絲襪服務。

  落地蕭山機場後,吳辰把車從停車場開了出來。

  明明2800塊的機票他都不心疼,但240塊的停車費他是痛徹心扉。

  把姜楠送到家時已經是晚上10點了,吳辰拒絕了她上去做做的邀請。

  畢竟姜鴻約和來淑嫻在家,吳辰實在不想再客套了。

  他現在一門心思都放在包里的八張計算卡上。

  現在距離點亮它們,開始訓練GPT—1已經只有一步之遙了。

  一路風馳電掣,吳辰一個小時就回到了小和山公寓的樓下。

  抬頭望向亮著燈的房間,他還是心中稍微有些觸動。

  有人等在家中的感覺其實挺好的。

  算起來他也有段時間沒回家了,等過年的時候是該早點回去看看父母了。

  上樓後,吳辰還沒掏出鑰匙,房門就被輕輕打開了。

  閔欣柔和吳淑芬站在門後。

  「老師,您回來了。」

  閔欣柔一邊輕聲喊著他的名字,一邊把他手裡的包接了過去。

  不過入手時,她顯然沒想到那麼沉,差點脫手掉在地上。

  「小心點,這裡面可是能讓你做的BPE真正發揮作用的東西。」

  「對,對不起。」

  聽到這麼貴重,閔欣柔連忙道歉。

  「沒事,你把論文準備好我看看,要是沒問題,就要準備下一階段的工作了」

  。

  吳辰一邊回答,一邊摸了摸吳淑芬的肚子,發現它吃的跟豬一樣。

  這小東西在家還吃的挺好。

  等他回房間換好睡衣出來,閔欣柔已經乖乖的坐在桌邊等著他了。


  除了打開的論文外,還有一碗砂鍋粥。

  濃濃的粥厚重而醇香。

  雖然頭等艙的飛機餐不錯,吳辰吃的也很飽,但還是被打開了食慾。

  於是他端起碗,呼啦啦的吃完了,胃裡暖暖的。

  將碗放到一邊,吳辰沒看閔欣柔彎彎的眉眼,只是道:「你講講你寫的論文吧。

  」

  「好的老師~」

  「我看了您留給我的幾篇論文,尤其是關於子詞正則化(Subword

  Regularization)的那幾篇讀完後很受啟發,所以重新思考了我們的BPE算法的目標。

  您說過科大訊飛和搜狗他們會給我們大量的網絡語料,但噪聲很多,所以我實現了您提到的基於抽樣的多種分詞結果生成,在合併詞表時,不再只選取絕對最高頻的字節對,而是引入一個概率分布,讓一些次優的合併也有機會被選中。

  這樣,同一個句子在每次處理時都可能得到略微不同的、但都合理的分詞序列,相當於做了數據增強。」

  吳辰一邊聽,一邊暗自點頭。

  她確實理解了自己想要的東西。

  讓分詞本身成為模型的一種正則化手段,而不僅僅是一個預處理步驟。

  不過當她講到如何將這種多可能性分詞結果整合進後續步驟的時候,吳辰皺了皺眉。

  「停,往上翻。」

  閔欣柔連忙照他說的做。

  吳辰仔細看了一下。

  她的實現是在訓練前,為每個句子預先採樣生成N種分詞結果,然後一起餵給模型。

  思路是對的,但方法太粗暴了。

  如果為每個句子都預生成多個版本,訓練數據體積會爆炸,10也會成為瓶頸,嚴重拖慢訓練速度。

  靠他手搓的八張顯卡,根本完成不了這樣的任務。

  必須要在動態和效率之間取得平衡。

  吳辰拿起筆,在草稿紙上畫了一個簡化的流程圖。

  不能數據預處理階段做,而是在訓練時,在數據加載器內部做。

  也就是每次向模型送出一批數據時,現場為其中的每個句子按概率採樣一種分詞結果。

  這樣做的話,同一個句子在不同訓練周期見到模型時,可能就是不同的面貌,既實現了正則化,又避免了存儲開銷,計算代價也可控。

  吳辰一邊畫,一邊給閔欣柔講起了修改方法。

  閔欣柔則手指飛快的將吳辰說的每個字都記了下來。

  只是在吳辰說話的停頓間,她突然有些恍惚,覺得好像回到了三天前的那個晚上。

  等講解完成後,吳辰又通篇看了一遍,發現其他地方都沒什麼問題。

  於是他道:「你先按這個思路改,儘量三天內做完給我看看。」

  「嗯!

  」

  閔欣柔重重的點頭。

  大三上學期的課程不多,每周只有10節課不到,所以她有足夠的時間。

  在她開始修改後,吳辰也整理起了自己要做的工作。

  按照目前的進度,理論方面他已經完成了word2Vec,位置編碼和多頭注意力機制的推導。

  加上閔欣柔完成的BPE分詞。

  那麼剩下的,就只有一件事。

  他打開了Word,打算完成最終的一塊拼圖。

  Transformer架構。

  所有未來人工智慧大語言模型的起點。

  它就在那篇經典、著名的論文中。

  《AttentionlsAllYouNeed》。

  當吳辰敲下第一個字母的時候,明明是秋老虎最囂張的時候,但他依然感覺到一絲涼意在腦海中蔓延開來。

  這和系統無關。

  只是他自己太過激動罷了。

  對這篇論文的內容,他上輩子早已背的滾瓜爛熟。

  所以手放在鍵盤上時,根本就不需要思考。

  」The dominant sequence transduction models are based on(主流的序列轉換模型基於複雜的循環或卷積神經網絡)————」

章節目錄