第71章 禮物
車子到了樓下後,吳辰終於放下了手機。
人無聊了別說用3G刷網頁了,連洗髮液包裝上的字都能逐字細讀。
他看姜楠好像臉色很冷漠的樣子,於是建議道:「要不上樓休息一下再回去?」
姜楠的拒絕了,但她還是好心提醒道:「你快上樓吧,明天還要上早八,而且吳淑芬估計餓了兩天了。」
「還好吧,它挺能挨餓……這個給你,送你的禮物。」
吳辰也沒說他讓閔欣柔幫忙的事,而是從包中把機場買的《三體》遞了過去。
姜楠接過後,借著車裡微弱的氛圍燈看了幾行,略微詫異。
「謝謝。」
「不用。」
吳辰說完就上樓了。
看著他的背景消失在單元門中,姜楠才踩下油門,同時給陳蓓桃撥了電話過去。
「姜姜,你該不會在玩什麼很奇怪的遊戲叭?」
陳蓓桃警惕道。
姜楠奇怪道:「什麼遊戲?」
「就是那種一邊打電話一邊昆的遊戲鴨~」
「無聊。」
姜楠忍不住啐了一口。
雖然兩人都沒談過戀愛,但陳蓓桃是個理論高手,閱片無數,所以她們的閨蜜密語也是很黃很暴力。
只不過外人難以想像罷了。
瞎扯了幾句,姜楠問道:「是你和吳辰說了我是大劉的粉絲嗎?」
大劉就是劉慈欣,國內著名的科幻作家,《鄉村教師》、《全頻道阻塞》和《三體》這些都是他的代表作。
「沒有鴨~」
「哦。」
姜楠淡淡的應了一聲。
難道是吳辰從別的地方打聽到了她很喜歡看科幻小說?
會不會是自己母親告訴他的?
姜楠覺得大有可能。
不過陳蓓桃並不知道吳辰送了姜楠《三體》。
她只是興奮道:「姜姜,送你的那支鋼筆可是吳大佬用過的哦,我特意拿給你的,嘻嘻~」
「……」
-----------------
吳辰是真不知道姜楠也愛看科幻小說,他只是按自己喜好買的。
回到家中,空氣中還殘留著閔欣柔身上的梔子花香。
吳辰在屋子裡溜達了一圈。
家裡被打掃的異常乾淨,連邊邊角角里都被擦的一塵不染。
他又掀開吳淑芬的尾巴瞅了瞅,發現它的屁股也很乾淨,看來閔欣柔也幫它洗了澡。
「真是個溫柔的好姑娘啊。」
吳辰忍不住感嘆了一句。
簡單洗漱了一下,他便準備開啟今天的深度閱讀。
但電腦開機後,他發現桌面上多了一個文檔。
標題是《給吳老師.doc》。
打開後,裡面先是閔欣柔列的一個表格,詳細說明了她把各種零碎物品放在了哪裡,還有衣服分類存放的位置。
第二部分則是她這兩天的學習感悟以及一些不懂的問題。
吳辰看了一遍後,將她的問題仔細回復好,然後把文檔發到了她的QQ上,留言有問題隨時交流。
看的出來閔欣柔的數學功底很好。
至少吳辰在論文中用到的算法她都能理解。
尤其是高維向量的部分。
有一些大四的學生可能都沒搞懂,但她卻能輕鬆運用。
吳辰打算回頭問問閔欣柔願不願意讀研。
如果她能一直保持這種學習態度,那下學期他可以推薦她一個保研的名稱,順便給她找個好點的導師。
……
處理完雜事後,吳辰便開始了自己的研究。
今天他選擇研究的方向是:基於語義密度的自監督文本去噪算法
原因是他現在已經確定可以獲取到訊飛、搜狗和天涯社區的文字內容。
但還需要經過處理,才能用作人工智慧訓練的語料。
舉個例子。
假設他現在拿到了天涯社區裡的一篇貼子是《大家暢想一下,二十年後的手機會是什麼樣子?》,內容是講網友對未來科技的預測。
帖子的主體及高質量回復,就可以作為訓練人工智慧大模型的優質材料。
但除了正常回復外,還會有各種GG、水帖。
比如「沙發」、「頂」、「樓主好人」或者純表情等等。
這些沒有價值的回覆,就稱之為噪音,需要清除掉。
正常來說,是需要人類去完成這一步的。
OpenAI就曾被爆料僱傭了肯亞黑奴來幫他們清洗數據,時薪不到2美元。
吳辰也想,但他還沒那麼多錢,所以就只能用技術來搞定了。
而基於Word2Vec的無監督文本噪聲過濾技術,就是最好的選擇。
它可以通過Word2Vec,先將帖子主體轉化為高維語義向量,再把每一條回帖也轉化為對應的向量,最後計算兩者的餘弦相似度,來判斷回帖是否與主題相關。
相似度高的內容,在數學空間裡就會聚集成一個緊密的球體。
相似度高於設定閾值的,就判定為有效回復,將來作為訓練數據的「問題-答案」語料對。
比如當別人問道「王MUAA的讀者2026年會怎樣?」
那麼人工智慧會從向量空間中查找相似度最高的內容。
那麼結果就是:2026年會發大財。
這就是將文字轉換為數學的重大作用之一。
當然,由於2008年的硬體限制,即使吳辰提前完成這項技術,也只能進行初步的篩選,後續還要靠人工來完成最終的結果。
但也已經能省很大一筆錢了。
而且由於他在高校工作,還能很方便的找到廉價又老實的大學生。
不僅幫學校解決了就業實習問題,還能讓學生們賺點小錢,也算是功德一件了。
一個小時的深度閱讀很快就過去了。
吳辰估算了一下,他需要再看一星期,才能把相關的前期工作準備好。
畢竟這是一件很複雜的技術。
而且最關鍵的,還是硬體跟不上。
必須要想辦法解決硬體瓶頸才行。
但在2008年,英偉達最好的顯卡也只是GTX280。
而且CUDA才剛出現一年,根本滿足不了他的需求。
而且如果從一開始就依賴英偉達,那麼後期麻煩只會越來越多。
只能想辦法自己造了。
簡單規劃了一下技術路線後,吳辰便洗洗睡了。
-----------------
第二天,吳辰在結束下午的課程後,接到了許建平的電話。
重生一次,他來校長辦公室的次數比上輩子十年都多。
看到他過來,許建平頓時喜笑顏開。
他樂呵呵的對吳辰道:「吳教授,你這次去帝都可是收穫不小啊。」
「也多虧了您的領導。」
吳辰說著不咸不淡奉承話。
許建平笑著擺擺手,然後向他介紹辦公室里的一個中年婦女。
「這位是後勤處資產管理科的孫老師,負責落實學校給你房子的事情,小吳你和她對接一下,等會兒就能去看房了。」
人無聊了別說用3G刷網頁了,連洗髮液包裝上的字都能逐字細讀。
他看姜楠好像臉色很冷漠的樣子,於是建議道:「要不上樓休息一下再回去?」
姜楠的拒絕了,但她還是好心提醒道:「你快上樓吧,明天還要上早八,而且吳淑芬估計餓了兩天了。」
「還好吧,它挺能挨餓……這個給你,送你的禮物。」
吳辰也沒說他讓閔欣柔幫忙的事,而是從包中把機場買的《三體》遞了過去。
姜楠接過後,借著車裡微弱的氛圍燈看了幾行,略微詫異。
「謝謝。」
「不用。」
吳辰說完就上樓了。
看著他的背景消失在單元門中,姜楠才踩下油門,同時給陳蓓桃撥了電話過去。
「姜姜,你該不會在玩什麼很奇怪的遊戲叭?」
陳蓓桃警惕道。
姜楠奇怪道:「什麼遊戲?」
「就是那種一邊打電話一邊昆的遊戲鴨~」
「無聊。」
姜楠忍不住啐了一口。
雖然兩人都沒談過戀愛,但陳蓓桃是個理論高手,閱片無數,所以她們的閨蜜密語也是很黃很暴力。
只不過外人難以想像罷了。
瞎扯了幾句,姜楠問道:「是你和吳辰說了我是大劉的粉絲嗎?」
大劉就是劉慈欣,國內著名的科幻作家,《鄉村教師》、《全頻道阻塞》和《三體》這些都是他的代表作。
「沒有鴨~」
「哦。」
姜楠淡淡的應了一聲。
難道是吳辰從別的地方打聽到了她很喜歡看科幻小說?
會不會是自己母親告訴他的?
姜楠覺得大有可能。
不過陳蓓桃並不知道吳辰送了姜楠《三體》。
她只是興奮道:「姜姜,送你的那支鋼筆可是吳大佬用過的哦,我特意拿給你的,嘻嘻~」
「……」
-----------------
吳辰是真不知道姜楠也愛看科幻小說,他只是按自己喜好買的。
回到家中,空氣中還殘留著閔欣柔身上的梔子花香。
吳辰在屋子裡溜達了一圈。
家裡被打掃的異常乾淨,連邊邊角角里都被擦的一塵不染。
他又掀開吳淑芬的尾巴瞅了瞅,發現它的屁股也很乾淨,看來閔欣柔也幫它洗了澡。
「真是個溫柔的好姑娘啊。」
吳辰忍不住感嘆了一句。
簡單洗漱了一下,他便準備開啟今天的深度閱讀。
但電腦開機後,他發現桌面上多了一個文檔。
標題是《給吳老師.doc》。
打開後,裡面先是閔欣柔列的一個表格,詳細說明了她把各種零碎物品放在了哪裡,還有衣服分類存放的位置。
第二部分則是她這兩天的學習感悟以及一些不懂的問題。
吳辰看了一遍後,將她的問題仔細回復好,然後把文檔發到了她的QQ上,留言有問題隨時交流。
看的出來閔欣柔的數學功底很好。
至少吳辰在論文中用到的算法她都能理解。
尤其是高維向量的部分。
有一些大四的學生可能都沒搞懂,但她卻能輕鬆運用。
吳辰打算回頭問問閔欣柔願不願意讀研。
如果她能一直保持這種學習態度,那下學期他可以推薦她一個保研的名稱,順便給她找個好點的導師。
……
處理完雜事後,吳辰便開始了自己的研究。
今天他選擇研究的方向是:基於語義密度的自監督文本去噪算法
原因是他現在已經確定可以獲取到訊飛、搜狗和天涯社區的文字內容。
但還需要經過處理,才能用作人工智慧訓練的語料。
舉個例子。
假設他現在拿到了天涯社區裡的一篇貼子是《大家暢想一下,二十年後的手機會是什麼樣子?》,內容是講網友對未來科技的預測。
帖子的主體及高質量回復,就可以作為訓練人工智慧大模型的優質材料。
但除了正常回復外,還會有各種GG、水帖。
比如「沙發」、「頂」、「樓主好人」或者純表情等等。
這些沒有價值的回覆,就稱之為噪音,需要清除掉。
正常來說,是需要人類去完成這一步的。
OpenAI就曾被爆料僱傭了肯亞黑奴來幫他們清洗數據,時薪不到2美元。
吳辰也想,但他還沒那麼多錢,所以就只能用技術來搞定了。
而基於Word2Vec的無監督文本噪聲過濾技術,就是最好的選擇。
它可以通過Word2Vec,先將帖子主體轉化為高維語義向量,再把每一條回帖也轉化為對應的向量,最後計算兩者的餘弦相似度,來判斷回帖是否與主題相關。
相似度高的內容,在數學空間裡就會聚集成一個緊密的球體。
相似度高於設定閾值的,就判定為有效回復,將來作為訓練數據的「問題-答案」語料對。
比如當別人問道「王MUAA的讀者2026年會怎樣?」
那麼人工智慧會從向量空間中查找相似度最高的內容。
那麼結果就是:2026年會發大財。
這就是將文字轉換為數學的重大作用之一。
當然,由於2008年的硬體限制,即使吳辰提前完成這項技術,也只能進行初步的篩選,後續還要靠人工來完成最終的結果。
但也已經能省很大一筆錢了。
而且由於他在高校工作,還能很方便的找到廉價又老實的大學生。
不僅幫學校解決了就業實習問題,還能讓學生們賺點小錢,也算是功德一件了。
一個小時的深度閱讀很快就過去了。
吳辰估算了一下,他需要再看一星期,才能把相關的前期工作準備好。
畢竟這是一件很複雜的技術。
而且最關鍵的,還是硬體跟不上。
必須要想辦法解決硬體瓶頸才行。
但在2008年,英偉達最好的顯卡也只是GTX280。
而且CUDA才剛出現一年,根本滿足不了他的需求。
而且如果從一開始就依賴英偉達,那麼後期麻煩只會越來越多。
只能想辦法自己造了。
簡單規劃了一下技術路線後,吳辰便洗洗睡了。
-----------------
第二天,吳辰在結束下午的課程後,接到了許建平的電話。
重生一次,他來校長辦公室的次數比上輩子十年都多。
看到他過來,許建平頓時喜笑顏開。
他樂呵呵的對吳辰道:「吳教授,你這次去帝都可是收穫不小啊。」
「也多虧了您的領導。」
吳辰說著不咸不淡奉承話。
許建平笑著擺擺手,然後向他介紹辦公室里的一個中年婦女。
「這位是後勤處資產管理科的孫老師,負責落實學校給你房子的事情,小吳你和她對接一下,等會兒就能去看房了。」