第324章 兌換:「搜尋引擎核心算法與網際網路廣告精準投放模型」

投票推薦 加入書籤 小說報錯

  2000年12月24日,平安夜。

  北京中關村的街道上瀰漫著節日氣氛,彩燈在光禿禿的樹枝間閃爍,音像店裡循環播放著《鈴兒響叮噹》。但「麒麟軟體」的辦公室里,三十七個程式設計師正對著一行行代碼發呆——他們遇到了一個幾乎無法逾越的技術障礙。

  「王總,真的不行。」張江摘下眼鏡,用力揉著布滿血絲的眼睛,「搜尋引擎的核心算法……我們試了十七種方案,最好的一個,準確率也只有62%。這離商用差太遠了。」

  王恪站在白板前,看著上面密密麻麻的公式和流程圖。三個月前,當「九州在線」的訪問量突破千萬時,他就意識到一個嚴重問題:用戶找不到他們想要的內容。

  當時有個用戶留言說:「你們的網站很好,內容很多,但我想要找『北京烤鴨的做法』,翻了十頁都沒找到。要是能有個搜索框就好了。」

  這個簡單的需求,卻成了技術上的大山。當時的搜尋引擎技術被美國公司壟斷,雅虎的搜索雖然不算頂尖,但背後是斯坦福的技術積累。而中國這邊,幾乎是一片空白。

  「大家先休息吧。」王恪看了看表,已經晚上九點了,「今天是平安夜,都早點回去。明天……明天我們再想辦法。」

  程式設計師們默默收拾東西。有人小聲嘀咕:「平安夜……我女朋友又生氣了,這已經是這個月第三次放她鴿子了……」

  另一個苦笑:「我兒子今天學校有演出,讓我一定要去,結果……」

  王恪心裡一緊。這些年輕人平均年齡二十五歲,本該是享受生活的年紀,卻跟著他在這裡啃最硬的骨頭。

  等所有人都走了,王恪獨自坐在會議室里。窗外飄起了小雪,北京的平安夜很安靜。

  他調出系統界面。情緒點餘額:8,547,623。

  三個月前,當「九州在線」成功上線並獲得用戶認可時,系統獎勵了300萬情緒點。加上之前的積累,終於夠兌換那個他覬覦已久的東西——

  【可兌換項目:搜尋引擎核心算法與網際網路GG精準投放模型】

  【消耗情緒點:800萬】

  【項目描述:包含基於連結分析的網頁排名算法、中文分詞與語義理解技術、用戶行為預測模型,以及配套的精準GG投放系統】

  【特別說明:該技術包為2005年國際先進水平,請合理控制技術釋放節奏】

  王恪的手指在【兌換】按鈕上懸停了很久。

  800萬情緒點,幾乎是全部家當。如果兌換了,接下來的幾個月,他將失去系統的預警和推演能力——在納斯達克崩盤、全球經濟動盪的時期,這很危險。

  但如果不兌換呢?

  「九州在線」可能會因為搜索功能太差而失去用戶。「麒麟軟體」可能永遠做不出有競爭力的產品。中國的網際網路,可能又要落後五年、十年。

  他想起了白天看到的那條用戶留言:「要是能有個搜索框就好了。」

  一句簡單的抱怨,背後是千萬用戶的期待。

  「幹了。」王恪輕聲說,按下了【兌換】。

  瞬間,海量的信息湧入腦海。不是簡單的文檔,而是深刻的理解——就像他親自研發了這些技術十年。PageRank算法的精妙,中文分詞的複雜性,用戶畫像的構建方法,GG競價系統的設計原理……

  更珍貴的是,技術包里還包含了這些技術在未來五年內的演進路徑,以及可能遇到的陷阱和解決方案。

  王恪閉著眼睛,消化了整整一個小時。當他再次睜開眼睛時,眼神變得無比清明。

  他知道該怎麼做了。

  第二天上午九點,所有人到齊。

  王恪沒有像往常一樣問進展,而是直接走到白板前,把昨天的公式全部擦掉。

  「各位,我們之前的方向錯了。」他拿起馬克筆,「搜尋引擎不是簡單的關鍵詞匹配,而是對網際網路整體結構的理解。」

  他在白板上畫了一個簡單的網絡圖:「假設網際網路是這張圖,每個網頁是一個點,連結是邊。那麼,一個網頁的重要性,不僅取決於它自身的內容,更取決於有多少重要網頁連結到它。」

  「這就是PageRank算法的核心思想。」王恪寫下公式,「通過疊代計算,我們可以給每個網頁一個權重。權重高的,在搜索結果中排名就靠前。」


  張江猛地站起來:「王總,這……這思路太棒了!但計算量……」

  「分布式計算。」王恪在另一塊白板上畫架構圖,「我們需要建一個伺服器集群。北京、上海、廣州、西安,四個節點,用專線連接。每個節點負責一部分網頁的抓取和計算,然後匯總。」

  會議室里鴉雀無聲。所有人都被這個宏大的構想震撼了。

  「這只是搜索部分。」王恪繼續說,「更關鍵的是中文處理。英文有空格分詞,中文沒有。所以我們需要一套智能分詞系統。」

  他寫下幾個例子:「『桌球拍賣完了』,怎麼分?是『桌球拍/賣完了』,還是『桌球/拍賣完了』?這需要結合上下文,甚至需要機器學習。」

  李薇舉手:「王總,這些想法……您是怎麼想出來的?」

  王恪笑了笑:「昨晚平安夜,我一個人坐在這裡,看著窗外的雪,突然就想通了。可能……是節日給了靈感吧。」

  這個解釋顯然不能完全說服大家,但沒有人深究——在技術公司,老闆突然「開竅」拿出革命性方案的事,並不少見。

  「接下來三個月,」王恪放下筆,「我們要做三件事。第一,搭建分布式計算集群。第二,開發中文分詞和語義理解引擎。第三,抓取和索引至少一億個中文網頁。」

  他看向張江:「辦公軟體那邊,你先放一放,全力攻關搜索。安全軟體那邊,李薇繼續負責,但可以調五個人過來幫忙。」

  「資金呢?」財務負責人問,「伺服器、帶寬、人力……這得花多少錢?」

  「錢不是問題。」王恪說,「我在雅虎上賺了8個多億,正愁沒地方花。先撥五千萬,不夠再加。」

  會議室里響起倒吸冷氣的聲音。五千萬!在2000年,這絕對是天文數字。

  「但是,」王恪語氣嚴肅,「我要在三個月內看到成果。明年三月,我要『九州在線』的搜索框,能準確找到用戶想要的內容。能做到嗎?」

  短暫的沉默後,張江第一個站起來:「能!大不了這三個月不回家了!」

  「對!拼了!」

  「讓美國人看看,中國人也能做出最好的搜尋引擎!」

  接下來的日子,「麒麟軟體」的辦公室徹底變成了「瘋人院」。

  伺服器到了,但機房還沒裝修好,程式設計師們就挽起袖子自己干。一群原本只會敲代碼的書生,硬是學會了布網線、裝機櫃、調交換機。

  何雨柱來送飯時,看到這一幕都驚呆了:「我的媽呀,王工,您這些手下……都是全能啊!又能寫代碼又能幹裝修!」

  王恪正和幾個程式設計師一起抬伺服器,滿頭大汗:「柱子,這叫……文武雙全!」

  「得嘞!」何雨柱把飯盒一放,「我也來幫忙!別看我胖,力氣大著呢!」

  他還真不是吹牛。那台最重的存儲伺服器,四個程式設計師抬都費勁,何雨柱一個人就扛起來了——雖然臉憋得通紅,但愣是給扛到了機架上。

  「柱子,你可以啊!」張江豎起大拇指。

  何雨柱喘著粗氣:「那是……我在軋鋼廠扛了二十年鋼錠,這算啥!」

  從那以後,何雨柱每周都來幫忙,順便帶各種吃的。紅燒肉、炸醬麵、餃子、包子……程式設計師們都說,何師傅的飯是他們堅持下去的最大動力。

  一月初,分詞算法遇到了瓶頸。

  無論怎麼優化,準確率始終卡在85%上不去。而王恪從系統得到的技術標準是:商用至少需要95%。

  連續一周的攻關失敗後,團隊士氣低迷。有個剛畢業的大學生甚至偷偷哭了——他負責的模塊問題最多,壓力最大。

  王恪知道,該用「技術包」里的另一個法寶了。

  他召集所有人開會:「我們換個思路。不要只依賴規則,要引入機器學習。」

  「機器學習?」張江皺眉,「這個概念我聽過,但國內幾乎沒人做……」

  「沒人做,我們就做第一個。」王恪調出他「連夜」寫的方案,「我們建立一個訓練數據集:找一萬篇各種類型的中文文章,人工標註好分詞結果。然後用這些數據訓練模型,讓機器自己學習分詞的規律。」

  這個想法在2000年絕對是超前的。團隊裡大多數人連「機器學習」這個詞都沒聽過。


  王恪花了整整一天,給大家科普基礎知識:什麼是特徵提取,什麼是損失函數,什麼是梯度下降……

  講到最後,他自己都笑了:「說實話,這些概念我也是最近才想明白的。咱們這是摸著石頭過河,但沒關係,摸著摸著就過去了。」

  訓練數據的構建是個苦力活。團隊三十七個人,加上王恪,每人領了三百篇文章,要逐字逐句標註。那幾天,辦公室里安靜得可怕,只有敲鍵盤的聲音——每個人都在和中文的複雜性搏鬥。

  何雨柱來送飯時,看到這一幕,小聲問王恪:「王工,他們這是在……打字比賽?」

  王恪笑了:「比打字比賽難多了。柱子,你知道『一行白鷺上青天』該怎麼分詞嗎?」

  「這還不簡單?一行/白鷺/上青天!」

  「但如果是古文呢?如果是『中國人民銀行』呢?是『中國/人民銀行』,還是『中國人民銀行』?」

  何雨柱撓撓頭:「我的媽呀,這麼複雜……怪不得你們掉頭髮。」

  一月底,訓練數據準備好了。模型跑起來後,準確率果然開始提升:86%、88%、91%……

  到二月十日,農曆臘月十六,準確率終於突破95%。

  當測試結果出來的那一刻,辦公室里爆發出瘋狂的歡呼。有人把鍵盤拋向空中,有人擁抱在一起,有人癱在椅子上淚流滿面。

  王恪站在人群中央,眼眶也濕了。他知道,真正的難關還在後面,但至少,他們邁出了最關鍵的一步。

  那天晚上,王恪請大家吃飯。在中關村最好的餐廳,擺了四桌。

  何雨柱也來了,還帶來了四合院的老街坊們。二大爺、三大爺、秦淮茹、閻解成、棒梗……小小的餐廳被擠得滿滿當當。

  「各位,」王恪舉起酒杯,「這三個月,辛苦大家了。特別是過年都不能回家……我敬大家一杯。」

  他一飲而盡。

  張江站起來:「王總,該我們敬您。沒有您,我們可能一輩子都想不到這些技術方向。」

  「對!敬王總!」

  所有人舉杯。

  何雨柱湊到王恪耳邊:「王工,您這些手下,都是好樣的。我看得出來,他們是真跟您干,不是圖錢。」

  王恪點頭:「我知道。」

  酒過三巡,王恪宣布了一個消息:「搜索算法基本成型了。接下來,我們要做另一件事:網際網路GG精準投放系統。」

  他解釋道:「『九州在線』現在每天有幾百萬訪問,但我們的收入主要靠GG。問題是,現在的GG都是隨機投放,用戶看到不感興趣的內容,GG商也浪費錢。」

  「我們要做的,是根據用戶的瀏覽歷史、搜索記錄、點擊行為,建立用戶畫像。然後,把合適的GG,推給合適的人。」

  這個想法再次震撼了所有人。在2000年,網際網路GG還處在「橫幅GG」的原始階段,精準投放簡直是天方夜譚。

  但王恪有系統給的技術包。他知道,這才是網際網路未來真正的商業模式。

  「過完年,」王恪說,「我們就啟動這個項目。張江,你繼續負責搜索。李薇,你帶一個新團隊,專攻GG系統。」

  「好!」李薇眼睛發亮——作為團隊裡少數的女性技術骨幹,她早就想證明自己了。

  那頓年夜飯吃到了深夜。送走所有人後,王恪一個人走在回住處的路上。

  北京冬夜的街道很安靜,積雪在腳下咯吱作響。

  系統界面自動彈出:

  【搜尋引擎核心技術突破】

  【中文分詞準確率:95.3%(達到2005年國際先進水平)】

  【GG精準投放模型架構完成】

  【情緒點恢復:+120萬(來自團隊成就感和用戶期待)】

  【特別提示:技術是武器,但如何使用武器,取決於持劍者的心】

  王恪關掉界面,看著夜空中的星星。

  他知道,自己手裡現在握著一把鋒利的劍。這把劍可以砍出一條路,也可以傷到無辜的人。

  如何用好這把劍,是他的責任。

  遠處傳來零星的鞭炮聲。快過年了。

  新的一年,新的時代,正在敲門。

  而他,已經準備好了開門的人。

  這就夠了。

章節目錄