第058章 數據的心跳
SOHO辦公室的角落裡,有一間常年拉著窗簾的小房間。
那裡是Halo的「大腦」——算法實驗室。
房間裡沒有雜亂的電線,也沒有那種極客風的塗鴉。
只有四面巨大的白板,上面寫滿了密密麻麻的數學公式。
空氣中瀰漫著一種乾燥的粉筆灰味道。
大衛·陳站在白板前,手裡的粉筆已經斷成了兩截。
這位從普林斯頓出來的數學博士,此時正面臨著他職業生涯中最大的挑戰。
「不行。還是不行。」
大衛把粉筆頭扔在地上,有些焦躁地抓了抓稀疏的頭髮。
「數據太稀疏了。雖然我們有幾百萬用戶,但大部分人只對自己感興趣的那一點點東西點讚。矩陣里全是零。按照現在的線性回歸模型,計算出來的推薦結果,誤差率高達40%。」
「也就是說,我給一個喜歡看貓的用戶推了狗的照片,他可能會覺得我在侮辱他的智商。」
顧清舟坐在旁邊的椅子上,手裡拿著一份數據報表。
他看著大衛,就像看著一個陷入死胡同的絕世高手。
在2007年,推薦算法還是個新鮮詞。
大部分網站還在用人工編輯的方式來決定用戶看什麼。所謂的「個性化」,頂多就是根據你填寫的性別和年齡,給你推不同的GG。
但Halo要做的是——猜你喜歡。
「大衛,你把問題想複雜了。」
顧清舟站起身,走到白板前。
「你試圖用一個完美的數學公式去解構人性。但人性是不完美的,是混沌的。」
他擦掉了一塊複雜的矩陣運算,畫了一個簡單的坐標軸。
「我們不需要知道用戶到底喜歡什麼。我們只需要知道,他和誰像。」
「協同過濾。」
顧清舟寫下了這四個字。
這是亞馬遜用來賣書的邏輯。
但在社交網絡里,它更有效。
「假設用戶A喜歡看美女、豪車和科技新聞。用戶B也喜歡看美女和豪車。」
「那麼,當用戶A給一張新的iPhone照點了贊時,我們就可以大膽地推測——用戶B也可能喜歡這張照片。」
「即使B從來沒看過科技新聞。」
大衛的眼睛亮了一下,但隨即又黯淡下去:「這個理論我知道。但在海量數據下,計算量太大了。我們要實時計算幾百萬用戶之間的相似度?伺服器會燒掉的。」
「降維。」
顧清舟在坐標軸上畫了幾個圓圈。
「我們不需要計算每個人。我們把人變成『向量』。」
「給每個用戶打標籤。比如:美妝、極客、攝影、美食、寵物……」
「用戶A不再是用戶A,他是一個向量:美妝: 0.1, 極客: 0.9, 攝影: 0.5。」
「我們只需要計算向量之間的夾角。夾角越小,這兩個人越像。」
「然後,把那個像的人看過的東西,推給他。」
大衛盯著白板上的那個坐標軸,腦海里仿佛有一道閃電划過。
作為數學家,他習慣了追求精確解。
但在商業應用里,有時候「模糊的正確」比「精確的錯誤」更有價值。
「向量化……」大衛喃喃自語,「這確實能極大地降低計算量。我們可以把用戶的行為日誌離線處理,生成用戶畫像向量,然後在線上實時匹配內容向量。」
「可是,還有一個問題。」
大衛推了推眼鏡,指出了關鍵,「冷啟動。對於那些剛註冊的新用戶,我們沒有任何數據,怎麼給他們生成向量?」
「那就『騙』他們交出數據。」
顧清舟笑了。
「在註冊流程里,加一步。讓用戶選三個感興趣的標籤。比如:你喜歡貓還是狗?你喜歡旅行還是宅家?」
「這不僅是為了收集數據,更是為了給用戶一種『被尊重』的錯覺。讓他們覺得,Halo是在為他們量身定製的。」
「而且……」
顧清舟走到大衛身邊,壓低了聲音。
「我們還有一個殺手鐧。」
「什麼?」
「位置服務。」
「一個人在哪,決定了他是誰。」
「如果一個用戶經常出現在華爾街,那他大概率對財經和豪車感興趣。如果他經常出現在蘇荷區,那他可能是個時尚達人。」
「把地理位置信息也加進向量里。」
大衛深吸了一口氣。
他看著顧清舟,眼神里多了一絲敬畏。
這個年輕人不僅懂產品,更懂那些隱藏在數據背後的邏輯。
「我明白了。」
大衛轉身,拿起一支新的粉筆。
「給我三天。我會重寫推薦引擎的核心算法。」
「我要把Halo的用戶,拆解成一千個維度的向量。我要讓算法,比他們的男朋友更懂他們。」
接下來的三天,算法實驗室的燈就沒有熄過。
大衛帶著他的兩個助手,像是在進行一場精密的手術。他們把Halo那龐大的資料庫切開,把每一個用戶的每一次點擊、每一次停留、每一次滑動,都轉化成了冰冷的數字,填進了那個名為「協同過濾」的巨大矩陣里。
三天後。
Halo的新版算法悄然上線。
沒有公告,沒有彈窗。
但在後台的數據監控室里,所有人都屏住了呼吸。
「上線了。」馬克·李盯著屏幕,「流量切過來了。10%的用戶正在使用新算法。」
一分鐘。
兩分鐘。
那條代表「用戶平均停留時長」的曲線,突然向上跳動了一下。
然後,開始爬升。
48分鐘……50分鐘……55分鐘……
「漲了!漲了!」
王胖子激動地拍大腿,「老顧,這玩意兒真神了!我看後台日誌,有個用戶本來只打算看兩分鐘,結果硬是刷了半個小時!因為系統一直給他推他喜歡的球鞋!」
大衛·陳靠在牆上,手裡拿著一杯咖啡,臉上露出了疲憊但滿足的微笑。
「這只是個開始。」大衛說,「現在的模型還很粗糙。等數據量再大十倍,等那個矩陣填滿的時候……」
「它會產生『心跳』。」
顧清舟接過了話頭。
「它會知道用戶什麼時候開心,什麼時候無聊,什麼時候寂寞。」
「它會在用戶最需要的時候,把那張最能觸動他神經的照片,送到他的眼前。」
「這就是——猜你喜歡。」
顧清舟看著屏幕上那條昂揚向上的曲線。
他知道,這才是Halo真正的護城河。
濾鏡可以抄,界面可以抄,但這種沉澱在數據里的智慧,是任何競爭對手都偷不走的。
那裡是Halo的「大腦」——算法實驗室。
房間裡沒有雜亂的電線,也沒有那種極客風的塗鴉。
只有四面巨大的白板,上面寫滿了密密麻麻的數學公式。
空氣中瀰漫著一種乾燥的粉筆灰味道。
大衛·陳站在白板前,手裡的粉筆已經斷成了兩截。
這位從普林斯頓出來的數學博士,此時正面臨著他職業生涯中最大的挑戰。
「不行。還是不行。」
大衛把粉筆頭扔在地上,有些焦躁地抓了抓稀疏的頭髮。
「數據太稀疏了。雖然我們有幾百萬用戶,但大部分人只對自己感興趣的那一點點東西點讚。矩陣里全是零。按照現在的線性回歸模型,計算出來的推薦結果,誤差率高達40%。」
「也就是說,我給一個喜歡看貓的用戶推了狗的照片,他可能會覺得我在侮辱他的智商。」
顧清舟坐在旁邊的椅子上,手裡拿著一份數據報表。
他看著大衛,就像看著一個陷入死胡同的絕世高手。
在2007年,推薦算法還是個新鮮詞。
大部分網站還在用人工編輯的方式來決定用戶看什麼。所謂的「個性化」,頂多就是根據你填寫的性別和年齡,給你推不同的GG。
但Halo要做的是——猜你喜歡。
「大衛,你把問題想複雜了。」
顧清舟站起身,走到白板前。
「你試圖用一個完美的數學公式去解構人性。但人性是不完美的,是混沌的。」
他擦掉了一塊複雜的矩陣運算,畫了一個簡單的坐標軸。
「我們不需要知道用戶到底喜歡什麼。我們只需要知道,他和誰像。」
「協同過濾。」
顧清舟寫下了這四個字。
這是亞馬遜用來賣書的邏輯。
但在社交網絡里,它更有效。
「假設用戶A喜歡看美女、豪車和科技新聞。用戶B也喜歡看美女和豪車。」
「那麼,當用戶A給一張新的iPhone照點了贊時,我們就可以大膽地推測——用戶B也可能喜歡這張照片。」
「即使B從來沒看過科技新聞。」
大衛的眼睛亮了一下,但隨即又黯淡下去:「這個理論我知道。但在海量數據下,計算量太大了。我們要實時計算幾百萬用戶之間的相似度?伺服器會燒掉的。」
「降維。」
顧清舟在坐標軸上畫了幾個圓圈。
「我們不需要計算每個人。我們把人變成『向量』。」
「給每個用戶打標籤。比如:美妝、極客、攝影、美食、寵物……」
「用戶A不再是用戶A,他是一個向量:美妝: 0.1, 極客: 0.9, 攝影: 0.5。」
「我們只需要計算向量之間的夾角。夾角越小,這兩個人越像。」
「然後,把那個像的人看過的東西,推給他。」
大衛盯著白板上的那個坐標軸,腦海里仿佛有一道閃電划過。
作為數學家,他習慣了追求精確解。
但在商業應用里,有時候「模糊的正確」比「精確的錯誤」更有價值。
「向量化……」大衛喃喃自語,「這確實能極大地降低計算量。我們可以把用戶的行為日誌離線處理,生成用戶畫像向量,然後在線上實時匹配內容向量。」
「可是,還有一個問題。」
大衛推了推眼鏡,指出了關鍵,「冷啟動。對於那些剛註冊的新用戶,我們沒有任何數據,怎麼給他們生成向量?」
「那就『騙』他們交出數據。」
顧清舟笑了。
「在註冊流程里,加一步。讓用戶選三個感興趣的標籤。比如:你喜歡貓還是狗?你喜歡旅行還是宅家?」
「這不僅是為了收集數據,更是為了給用戶一種『被尊重』的錯覺。讓他們覺得,Halo是在為他們量身定製的。」
「而且……」
顧清舟走到大衛身邊,壓低了聲音。
「我們還有一個殺手鐧。」
「什麼?」
「位置服務。」
「一個人在哪,決定了他是誰。」
「如果一個用戶經常出現在華爾街,那他大概率對財經和豪車感興趣。如果他經常出現在蘇荷區,那他可能是個時尚達人。」
「把地理位置信息也加進向量里。」
大衛深吸了一口氣。
他看著顧清舟,眼神里多了一絲敬畏。
這個年輕人不僅懂產品,更懂那些隱藏在數據背後的邏輯。
「我明白了。」
大衛轉身,拿起一支新的粉筆。
「給我三天。我會重寫推薦引擎的核心算法。」
「我要把Halo的用戶,拆解成一千個維度的向量。我要讓算法,比他們的男朋友更懂他們。」
接下來的三天,算法實驗室的燈就沒有熄過。
大衛帶著他的兩個助手,像是在進行一場精密的手術。他們把Halo那龐大的資料庫切開,把每一個用戶的每一次點擊、每一次停留、每一次滑動,都轉化成了冰冷的數字,填進了那個名為「協同過濾」的巨大矩陣里。
三天後。
Halo的新版算法悄然上線。
沒有公告,沒有彈窗。
但在後台的數據監控室里,所有人都屏住了呼吸。
「上線了。」馬克·李盯著屏幕,「流量切過來了。10%的用戶正在使用新算法。」
一分鐘。
兩分鐘。
那條代表「用戶平均停留時長」的曲線,突然向上跳動了一下。
然後,開始爬升。
48分鐘……50分鐘……55分鐘……
「漲了!漲了!」
王胖子激動地拍大腿,「老顧,這玩意兒真神了!我看後台日誌,有個用戶本來只打算看兩分鐘,結果硬是刷了半個小時!因為系統一直給他推他喜歡的球鞋!」
大衛·陳靠在牆上,手裡拿著一杯咖啡,臉上露出了疲憊但滿足的微笑。
「這只是個開始。」大衛說,「現在的模型還很粗糙。等數據量再大十倍,等那個矩陣填滿的時候……」
「它會產生『心跳』。」
顧清舟接過了話頭。
「它會知道用戶什麼時候開心,什麼時候無聊,什麼時候寂寞。」
「它會在用戶最需要的時候,把那張最能觸動他神經的照片,送到他的眼前。」
「這就是——猜你喜歡。」
顧清舟看著屏幕上那條昂揚向上的曲線。
他知道,這才是Halo真正的護城河。
濾鏡可以抄,界面可以抄,但這種沉澱在數據里的智慧,是任何競爭對手都偷不走的。