第139章 生成式人工智慧
第139章 生成式人工智慧
至於前世的網際網路公司為了自己的生成式人工智慧,是否會購買數據?
答案是既有,但也沒有。
因為那些數據的價格太貴了,而且數據還在實時產生,長期來看沒有誰能燒得起這個錢,支付得起這個錢。
所以各個網際網路公司依然是選擇各自干各自的,最終導致了數據孤島的產生這數據孤島就限制了華夏的生成式人工智慧發展上限,限制它的聰明程度與知識廣度。
這也導致華夏的生成式人工智慧在回答問題的時候,會說出一些讓人忍俊不禁的無常識回答。
反之海外則不同,海外的應用生態閉環沒有華夏這邊這麼嚴重,至少沒有限制信息爬取。
最終就是海外的『優質文本資料」數量遠遠超過華夏,這也讓海外科技公司的人工智慧簡直聰明得可怕。
這就像你只是讀了一百本書,又怎麼能和別人讀了一萬本書的人相比呢?
這知識廣度完全比不了啊。
想到這裡,高年想了一下後說道:
「雷布斯。」
「嗯?」
雷布斯轉頭看向了高年,不知道高年為什麼突然會眉頭深深皺起。
「人工智慧的本質就是算法,但比算法更重要的是數據!」
「數據?」
聽聞高年的話語,現場的人們紛紛露出了說異的表情。
人工智慧的本質是算法他們知道,甚至可以說計算機產業就是建立在算法之上的。
但比算法更重要的竟然是數據這個理論他們就第一次聽說了,也沒有想到數據這東西會這麼重要。
不過現場的人們知道不知道這並不是很重要,只要他們依照高年的命令去執行就行了。
於是高年在人們的說異視線中接著說道:
「接下來我們要做好數據的存儲工作,我們要利用貴省的優勢,在貴省建立數據存儲中心。
這數據存儲中心,主要就是存儲一些用戶玩遊戲與使用極客聊天軟體等產品時,用戶實時聊天產生的文字數據與語音數據。」
聞言,現場不少人全都深深皺起眉頭,財務總監何彤更是當場皺眉說道:
「老闆,存儲這些日常聊天的文字數據與語音數據的成本太大了,用戶每時每刻都在產生信息。
我們的產品範圍是面向全球的,全球的網友那麼多,每時每刻產生的聊天數據與語音數據是相當驚人的。
我們想要存儲下來,而且還是長久存儲下來,那需要花費的代價太大了。
這些數據真的有用嗎?」
然而面對何彤的質疑,高年不僅沒有退縮,反而微微搖頭道:
「有用,甚至可以說這些數據是最好的財富。」
生活的細節體現在方方面面,生成式人工智慧是否聰明就體現在這方方面面頓了一下,高年接著說道:
「除了自身網際網路產品的文字數據與語音數據要永久存儲外。
接下來我們還要成立自己的百科全書,建立一個世界資料最多的極客百科。
為了加快『極客百科」的成長速度,我們可以花錢購買維基或者千度百科已經編撰好的資料文章,填充進自己的百科裡。
此外未來兩年內,我們還要拿出至少2億美元用作刺激,讓國內國外的用戶,
努力編撰出一篇篇合理合格的百科文章。
總之無論是大大小小的事情,還是日常生活里雞皮蒜皮的事情或新聞時事,
再或者常識性問題我們都要編撰文章。
我們要建立一個最詳細的百科全書,詳細到幾十或幾百年前,國內國外工人工資多少,物價多少等都要編撰記錄下來。
因此,我的目標是兩年內讓極客百科擁有至少1億篇百科文章!」
「嘶!」
聽到高年的話語,現場的人們瞬間倒吸一口涼氣,沒有想到高年竟然搞得這麼大。
因為真按照極客科技這樣搞,未來兩年裡砸出個幾億美元都絲毫不誇張啊。
兩年內燒掉幾億美元就為了搞出一個擁有一億篇文章的百科全書,這代價是否太大了?
然而高年的話語並沒有停止,只見高年在人們吃驚然的時候接著說道:
「此外我們還要收購天涯、貓撲等國內國外的知名論壇。
然後將他們統統改版,變成一個類似貼吧一樣的網際網路產品,然後用戶在上面的發帖與回覆信息等統統要保存起來。
至於不能收購的,我們就直接採取搜尋引擎爬蟲的形式爬取保存好他們的數據資料。
此外國內國外的網際網路新聞網站、論文網站,包括數字圖書館的數據我們也要收集保存。
總之一切網際網路的文字信息,我們都要想辦法保存起來,形成一個無比龐大的數字資料庫。」
想了一下,隨後高年接著說道:
「光是直接爬取資料可能會引起媒體爭議,所以我們要建立一個搜尋引擎業務,開發極客搜尋引擎。
如此不僅可以通過搜尋引擎的GG盈利來維持自身運營,也可以減輕存儲數據的經濟壓力。
這開發搜尋引擎方面的事情就交給李俊與倪光海你們兩人負責了,該挖人才就挖人才,該買技術專利就買技術專利。」
聽聞到高年的話語,現場的人們深深皺起眉頭。
因為他們並沒有理解到花費這麼大代價,收集存儲這些文字與語音數據有什麼用。
畢竟千度搜索與骨歌搜索都不會這樣瘋狂的存儲數據啊,他們就算存儲數據也是有條件的存儲。
像極客科技公司這樣連遊戲裡的聊天數據都要保存,簡直有些太過誇張了。
雖然高年之前已經講解過這些數據是人工智慧強大的關鍵,但這些數據確定有用,確實投入這麼大,未來能收得回本嗎?
「高年,我們花費這麼大代價存儲這些數據真的有用?真的能回本?」
雷布斯也是忍不住皺眉問起了高年。
畢竟他也是公司的大股東,對於這種浪費公司大量錢財的行為,必須過問一下。
「自然有用,而且用處還相當之大,因為這些可都是無形的財富啊。
我們未來推出的人工智慧究竟強大不強大,聰明不聰明,那就得靠這些看起來相當垃圾的數據了。
1
生成式人工智慧的最大特點就是需要大量的數據,這數據量越多他就會越聰明。
就比如極客聊天軟體的聊天數據,雖然其中肯定會存在大量的垃圾數據。
但他們的聊天話題,實際就是生活的方方面面或者新聞時事。
在這其中,人工智慧看得多了,學習得多了,就會越來越了解這個世界。
最終生成式人工智慧回答問題的時候,不僅回答會更加精準,不會出現胡編亂造的現象,更可以變得更加聰明。
這就是為什麼一定要保存這些本該刪除掉的「垃圾數據」的原因。
至於前世的網際網路公司為了自己的生成式人工智慧,是否會購買數據?
答案是既有,但也沒有。
因為那些數據的價格太貴了,而且數據還在實時產生,長期來看沒有誰能燒得起這個錢,支付得起這個錢。
所以各個網際網路公司依然是選擇各自干各自的,最終導致了數據孤島的產生這數據孤島就限制了華夏的生成式人工智慧發展上限,限制它的聰明程度與知識廣度。
這也導致華夏的生成式人工智慧在回答問題的時候,會說出一些讓人忍俊不禁的無常識回答。
反之海外則不同,海外的應用生態閉環沒有華夏這邊這麼嚴重,至少沒有限制信息爬取。
最終就是海外的『優質文本資料」數量遠遠超過華夏,這也讓海外科技公司的人工智慧簡直聰明得可怕。
這就像你只是讀了一百本書,又怎麼能和別人讀了一萬本書的人相比呢?
這知識廣度完全比不了啊。
想到這裡,高年想了一下後說道:
「雷布斯。」
「嗯?」
雷布斯轉頭看向了高年,不知道高年為什麼突然會眉頭深深皺起。
「人工智慧的本質就是算法,但比算法更重要的是數據!」
「數據?」
聽聞高年的話語,現場的人們紛紛露出了說異的表情。
人工智慧的本質是算法他們知道,甚至可以說計算機產業就是建立在算法之上的。
但比算法更重要的竟然是數據這個理論他們就第一次聽說了,也沒有想到數據這東西會這麼重要。
不過現場的人們知道不知道這並不是很重要,只要他們依照高年的命令去執行就行了。
於是高年在人們的說異視線中接著說道:
「接下來我們要做好數據的存儲工作,我們要利用貴省的優勢,在貴省建立數據存儲中心。
這數據存儲中心,主要就是存儲一些用戶玩遊戲與使用極客聊天軟體等產品時,用戶實時聊天產生的文字數據與語音數據。」
聞言,現場不少人全都深深皺起眉頭,財務總監何彤更是當場皺眉說道:
「老闆,存儲這些日常聊天的文字數據與語音數據的成本太大了,用戶每時每刻都在產生信息。
我們的產品範圍是面向全球的,全球的網友那麼多,每時每刻產生的聊天數據與語音數據是相當驚人的。
我們想要存儲下來,而且還是長久存儲下來,那需要花費的代價太大了。
這些數據真的有用嗎?」
然而面對何彤的質疑,高年不僅沒有退縮,反而微微搖頭道:
「有用,甚至可以說這些數據是最好的財富。」
生活的細節體現在方方面面,生成式人工智慧是否聰明就體現在這方方面面頓了一下,高年接著說道:
「除了自身網際網路產品的文字數據與語音數據要永久存儲外。
接下來我們還要成立自己的百科全書,建立一個世界資料最多的極客百科。
為了加快『極客百科」的成長速度,我們可以花錢購買維基或者千度百科已經編撰好的資料文章,填充進自己的百科裡。
此外未來兩年內,我們還要拿出至少2億美元用作刺激,讓國內國外的用戶,
努力編撰出一篇篇合理合格的百科文章。
總之無論是大大小小的事情,還是日常生活里雞皮蒜皮的事情或新聞時事,
再或者常識性問題我們都要編撰文章。
我們要建立一個最詳細的百科全書,詳細到幾十或幾百年前,國內國外工人工資多少,物價多少等都要編撰記錄下來。
因此,我的目標是兩年內讓極客百科擁有至少1億篇百科文章!」
「嘶!」
聽到高年的話語,現場的人們瞬間倒吸一口涼氣,沒有想到高年竟然搞得這麼大。
因為真按照極客科技這樣搞,未來兩年裡砸出個幾億美元都絲毫不誇張啊。
兩年內燒掉幾億美元就為了搞出一個擁有一億篇文章的百科全書,這代價是否太大了?
然而高年的話語並沒有停止,只見高年在人們吃驚然的時候接著說道:
「此外我們還要收購天涯、貓撲等國內國外的知名論壇。
然後將他們統統改版,變成一個類似貼吧一樣的網際網路產品,然後用戶在上面的發帖與回覆信息等統統要保存起來。
至於不能收購的,我們就直接採取搜尋引擎爬蟲的形式爬取保存好他們的數據資料。
此外國內國外的網際網路新聞網站、論文網站,包括數字圖書館的數據我們也要收集保存。
總之一切網際網路的文字信息,我們都要想辦法保存起來,形成一個無比龐大的數字資料庫。」
想了一下,隨後高年接著說道:
「光是直接爬取資料可能會引起媒體爭議,所以我們要建立一個搜尋引擎業務,開發極客搜尋引擎。
如此不僅可以通過搜尋引擎的GG盈利來維持自身運營,也可以減輕存儲數據的經濟壓力。
這開發搜尋引擎方面的事情就交給李俊與倪光海你們兩人負責了,該挖人才就挖人才,該買技術專利就買技術專利。」
聽聞到高年的話語,現場的人們深深皺起眉頭。
因為他們並沒有理解到花費這麼大代價,收集存儲這些文字與語音數據有什麼用。
畢竟千度搜索與骨歌搜索都不會這樣瘋狂的存儲數據啊,他們就算存儲數據也是有條件的存儲。
像極客科技公司這樣連遊戲裡的聊天數據都要保存,簡直有些太過誇張了。
雖然高年之前已經講解過這些數據是人工智慧強大的關鍵,但這些數據確定有用,確實投入這麼大,未來能收得回本嗎?
「高年,我們花費這麼大代價存儲這些數據真的有用?真的能回本?」
雷布斯也是忍不住皺眉問起了高年。
畢竟他也是公司的大股東,對於這種浪費公司大量錢財的行為,必須過問一下。
「自然有用,而且用處還相當之大,因為這些可都是無形的財富啊。
我們未來推出的人工智慧究竟強大不強大,聰明不聰明,那就得靠這些看起來相當垃圾的數據了。
1
生成式人工智慧的最大特點就是需要大量的數據,這數據量越多他就會越聰明。
就比如極客聊天軟體的聊天數據,雖然其中肯定會存在大量的垃圾數據。
但他們的聊天話題,實際就是生活的方方面面或者新聞時事。
在這其中,人工智慧看得多了,學習得多了,就會越來越了解這個世界。
最終生成式人工智慧回答問題的時候,不僅回答會更加精準,不會出現胡編亂造的現象,更可以變得更加聰明。
這就是為什麼一定要保存這些本該刪除掉的「垃圾數據」的原因。