第二百五十六章|人比機器更貴 (4.6k)

投票推薦 加入書籤 小說報錯

  曹逸森站在那堆機器前,盯著NviCore的標識看了一會兒,忽然開口:

  「硬體我們有了。」

  麥克轉頭看他:「然後呢?」

  「軟體反而不是最大的問題了。」

  麥克一聽這句,眼皮跳了一下。他已經很熟悉曹逸森的說話邏輯了。

  一般他說「不是問題」的時候,意思往往不是這事很簡單,而是這事會很貴、很麻煩、但他已經決定要干。

  「你先等一下。」麥克抬手,「我有不好的預感。」

  曹逸森沒理他,繼續說:「2021年的AI軟體生態,還很原始。不是說沒有東西,而是太割裂。研究論文有,開源模型有,實驗項目也有,但真正能把它們真正做成產業工具的人,太少了。」

  他說著,伸手在空氣里比了個框。

  「我們要做的不是一個玩具。」

  「我要的是K-pop界的AI大腦。」

  麥克沉默兩秒。

  「你剛才還說自己不是反派。」

  「這是產品願景。」

  「聽起來像什麼反派產品願景。」

  「隨你怎麼理解。」曹逸森轉頭看他,「總之,機器只是基底,真正值錢的是人。」

  麥克一臉警惕:「你又看上誰了?」

  「不是誰,是三類人。」

  曹逸森往旁邊走了幾步,隨手拿起一支油性筆,在倉庫臨時白板上寫下三個詞。

  Architecture(結構)。

  Visual(視覺)。

  Audio(音頻)。

  麥克看著白板,表情一點點嚴肅起來。

  他知道,曹逸森這次不是隨便腦洞。

  這是要真開始組個AI團隊了。

  ——————————————

  第一類,深度學習架構師。

  曹逸森在白板第一欄下面寫下:

  Transformer /音樂生成模型/多模態規劃

  「2021年,大模型還在萌芽階段。GPT-3已經出來了,但它還沒有變成普通人手裡的對話工具。大眾還不知道以後會發生什麼,很多工程師也還停留在論文、實驗室、API演示的階段。」

  麥克點了點頭。

  「所以你要從CloseAI或者DeepMind挖人?」

  「對。」曹逸森說,「不一定要最頂層那幾個名字,我們也挖不動。我要的是那種真正懂Transformer架構、懂模型訓練、同時願意把東西落地到垂直產業的人。」

  他敲了敲白板。

  「我不需要他給我寫一個聊天機器人。」

  「我需要他把模型微調成K-pop策劃專家。」

  麥克一愣。

  「K-pop策劃專家?」

  「對。」曹逸森眼神亮了起來,「輸入藝人資料、練習生訓練數據、過往舞台反饋、粉絲評論、音樂榜單、短視頻傳播數據,它能給出方向建議。」

  「比如:這個練習生適合走清冷視覺,還是鄰家現實感。這個團該先發概念照,還是先發練習室視頻。某首demo適合哪個成員開頭,哪個成員壓副歌。甚至哪一段最適合剪成十五秒短視頻。」

  麥克聽完,愣了幾秒。

  「這聽起來不像AI大腦。」

  「那像什麼?」

  「像一個不會睡覺、不會加班費、還不會情緒崩潰的企劃部總監。」

  「嘿,所以我說它值錢。」

  曹逸森繼續寫:

  K-pop Strategy Model(kpop策略大模型)

  「現在別人還在討論語言模型會不會寫文章,我們要讓它先學會看飯圈、看舞台、看消費情緒。」

  麥克沉默了一會兒,忽然說:「你這個方向,矽谷那幫人未必看得上。」

  「所以要會講故事。」曹逸森回頭看他,嘴角帶著一點笑容,「你想像一下,我們直接派私人飛機去舊金山,把那些還在研究早期多模態的工程師接過來。」


  「然後你告訴他——」

  曹逸森清了清嗓子,換了一種很資本、很蠱惑的語氣。

  「在矽谷,你只能改變代碼。」

  「在我的公司,你可以定義全球年輕人的審美。」

  麥克看著他,沉默了幾秒。

  「……你這個人真的很適合當什麼邪教頭子。」

  「這是招聘話術。」

  「這比招聘話術危險多了。」

  「但會很有效的。」

  麥克想了想,竟然沒法反駁。

  因為對很多真正有野心的工程師來說,錢當然重要,但「我做的東西能改變什麼」更重要。你讓他去優化GG點擊率,他可能覺得無聊。可你告訴他,他能用AI參與塑造下一代全球流行文化,那誘惑力就完全不一樣了。

  「行。」麥克嘆了口氣,「第一類,深度學習架構師。OpenAI、DeepMind,或者相關大模型團隊。我要開始找獵頭?」

  「獵頭、校友、會議名單、GitHub活躍貢獻者,全都拉出來。」

  「你真是一點都不客氣。」

  「挖人不客氣,人才才會覺得你認真。」

  ——————————————

  第二類,GAN大神。

  曹逸森在白板第二欄寫下:

  StyleGAN2 /數字人生成/ 4K人臉紋理重建

  麥克一看到GAN(Generative Adversarial Network,生成式對抗網絡),表情立刻變得微妙起來。

  「你要搞AI換臉?」

  「別說得這麼難聽。」曹逸森瞥了他一眼,「我要搞視覺生成。」

  「這不就是更貴的說法?」

  「技術上類似,應用上完全不一樣。」

  曹逸森把筆帽咬開,又在旁邊寫了幾個詞。

  Virtual Idol(虛擬偶像系統)

  AI Skin(AI皮膚生成技術)

  Expression Rigging(高精度表情綁定)

  Aespa-like Extension(類aespa虛擬分身擴展架構)

  「2021年,是AI生成人臉和換臉技術特別活躍的階段。StyleGAN2這種模型,已經能生成非常有真實感的人臉。很多人在玩Deepfake,但那只是低級應用而已。」

  「而K-pop最看重什麼?」

  麥克想了想:「歌?」

  曹逸森看他,搖了搖手指。

  麥克改口:「臉。」

  「對,Visual。」曹逸森打了個響指說道,「視覺是K-pop的入口。概念照、預告片、MV、舞台鏡頭、短視頻,所有東西都先經過臉和身體。你有一套強大的視覺生成系統,就能在概念階段快速測試造型、發色、妝容、虛擬形象,甚至做完整的數字分身。」

  麥克皺眉:「你想做虛擬偶像?」

  「不是馬上做。」曹逸森說,「但一定要提前準備。」

  「SM已經在aespa那條線上做虛擬延伸了。問題是,大多數公司做出來的虛擬形象,質感很容易變得很假。臉假、皮膚假、表情假,動起來更假。粉絲一眼就能看穿。」

  他看著麥克,語氣變得更認真。

  「我要的是在4K鏡頭下也不穿幫的AI皮膚和表情紋理。」

  「虛擬偶像能在練習室里和真人一起跳舞。」

  「她不一定要完全替代真人,但她可以成為MV、AR舞台、短視頻挑戰、粉絲互動里的第二層角色。」

  麥克聽得慢慢坐直了。

  「這就不只是娛樂公司了。」

  「對。」曹逸森點頭,「這是虛擬內容資產。」

  他繼續說:「這類人,可以從NviCore內部、斯坦福、CMU、甚至一些做圖形學和視覺AI的實驗室挖。不要只找會調包的人,要找真的理解生成模型、渲染、表情捕捉和視覺美學的人。」


  麥克看著白板。

  「這類人才會很貴。」

  「便宜的人做不出好的東西的。」

  「你還真是要麼不做,要做就往燒錢方向做。」

  曹逸森笑了笑。

  「因為半吊子的虛擬偶像,會顯得很蠢。」

  「而一旦顯得蠢,就不如不做。」

  麥克點點頭:「這句我同意。」

  ——————————————

  第三類,音頻信號處理專家。

  曹逸森在第三欄下面寫下:

  DSP(數位訊號處理)

  Source Separation(聲源分離)

  Voice Cloning(語音克隆)

  Real-time Vocal Demo(實時聲樂Demo生成)

  這一次,麥克立刻明白了。

  「這個和K-pop最直接。」

  「對。」曹逸森說,「視覺能讓人點進來,音頻才能讓人留下。」

  他把筆放下,語氣放緩了一點。

  「2021年的音頻AI還沒那麼成熟。Spleeter這種伴奏分離工具已經有了,但還是粗糙,分離質量、實時性、可控性都不夠。語音克隆也在發展,可真正能用於音樂製作,尤其是高質量歌唱聲線的系統,還遠遠不夠。」

  「所以我們要從Spotify、IRCAM、Dolby、或者做音樂信息檢索、語音合成的人里挖。」

  「核心任務有三個。」

  他豎起一根手指。

  「第一,伴奏和人聲分離。」

  「練習室、live、舞台、綜藝、飯拍,只要音頻質量夠,它就能把人聲、伴奏、觀眾噪音拆開。以後我們做舞台復盤、live修復、短視頻剪輯,效率會高很多。」

  第二根手指。

  「第二,藝人聲線建模。」

  麥克挑眉:「這個會有點敏感啊。」

  「所以一定要在內部做,且有嚴格授權。」曹逸森說,「不是拿來偽造藝人聲音,而是拿來做demo預覽。」

  「比如製作人寫了一段副歌,不用每次都叫藝人進棚試唱。輸入歌詞和旋律,系統先用藝人的聲線生成demo。製作人聽完,判斷適不適合這個成員,再決定要不要安排正式錄音。」

  「這樣能省多少時間,你知道嗎?」

  麥克沒說話。

  他當然知道。

  如果一個團有五六個成員,每個人聲線不同,製作人光試分part就能耗掉大量時間。AI先生成草案,不是替代藝人,而是讓製作環節變快。

  第三根手指。

  「第三,實時修復和應急合成。」

  麥克看著他:「你是不是要說藝人感冒失聲,也能用AI上台?」

  「正式現場不行。」曹逸森搖頭,「那是找死。」

  麥克鬆了口氣。

  「但後台demo、彩排、電視台預錄參考、臨時替代guide vocal,可以。」

  「比如藝人感冒失聲,製作人還得趕某個版本。DSP專家在後台敲幾行Python,調用本地伺服器,根據授權聲線模型生成足夠逼真的高音demo。不是拿去騙粉絲,是拿去讓製作流程不中斷。」

  曹逸森頓了一下,又笑著補了一句:

  「當然,如果質量能做到足以騙過格萊美評委,那更好。」

  麥克舉手:「這句我建議不要寫進招聘郵件。」

  「我知道。」

  「也不要寫進商業計劃書。」

  「我沒那麼蠢。」

  麥克一臉懷疑地看著他。

  曹逸森懶得理他,繼續道:「這類DSP專家,是最先要落地的。因為音頻是我們最直接的業務。HZN也好,CUBE也好,田小娟也好,都立刻能用。」

  麥克點頭。

  「這個我支持優先招。」


  白板上很快寫滿了東西。

  深度學習架構師。

  GAN視覺大神。

  DSP音頻專家。

  幾條線擺出來以後,倉庫里那幾台DGX A100的意義也清晰了。

  它們不是買來擺著嚇人的。它們是給這些人準備的武器。

  麥克站在白板前,看了很久,最後低聲說:

  「這團隊要是組起來,成本會非常誇張。」

  曹逸森點頭。

  「我知道。」

  「CloseAI、NviCore、斯坦福……這些地方的人,一個比一個貴。你不只要開高薪,還得給他們項目自由、股權、實驗預算,甚至還要給他們一種『我不是來娛樂公司修音的,我是在定義新產業』的幻覺。」

  「不是幻覺。」曹逸森糾正,「是真實的項目。」

  麥克看著他,揉了揉太陽穴。

  曹逸森指了指白板,又指了指那台DGX A100。

  「你想想,我們現在手裡有什麼。」

  「紐約,有Unity的錢。」

  「首爾,有HZN的廠牌,有CUBE的運營權,有田小娟這種創作者,有GIDLE這種IP,有練習生,有舞台,有真實產業場景。」

  「洛杉磯,有機器,有工程師,有和美國音樂圈、科技圈連接的入口。」

  「矽谷那些AI團隊,很多人最缺什麼?」

  「真實場景。」

  「他們有論文,有模型,有benchmark,但沒有一個能讓他們立刻看見自己技術如何影響真實偶像、真實粉絲、真實舞台、真實商業回報的地方。」

  曹逸森看著麥克,聲音越來越穩。

  「這個我們能給他們。」

  「也能給他們數據,給他們舞台,給他們藝人,給他們反饋閉環。」

  「他們在別的地方只能做工具。」

  「在我們這裡,他們能做整個系統。」

  麥克沉默了。

  他不得不承認,這套話術如果真拿出去講ppt,確實會很有殺傷力。

  尤其對於那些不想一輩子待在大廠里優化推薦系統、GGCTR、內部API性能的工程師來說,這簡直就是另一個世界。

  一個更混亂、更商業、更冒險,但也更有故事感的世界。

  過了好一會兒,麥克才開口:

  「你知道最可怕的是什麼嗎?」

  「什麼?」

  「我一開始覺得你瘋了。」

  「現在我居然覺得,這事可能真能成。」

  曹逸森笑了。

  「那說明你開始進入狀態了。」

  「我不是進狀態,我是被你拖下水了。」

  「區別不大。」

  麥克嘆了口氣,拿出手機開始記。

  「行。第一步,我聯繫獵頭和灣區的人。CloseAI和DeepMind直接挖可能很難,但可以先找離職邊緣、合同快到期、或者想創業的人。」

  「第二步,視覺這塊我從NviCore和斯坦福那邊摸線。」

  「第三步,DSP這塊我去Spotify和紐約音樂科技圈問。IRCAM那邊我得找找歐洲關係。」

  曹逸森點頭。

  「別只用錢砸。」

  「知道。」麥克說,「用願景砸。」

  「還有股權。」

  「你終於說到他們真正愛聽的了。」

  曹逸森笑了一下。

  「願景負責讓他們上飛機,股權負責讓他們留下來。」

  麥克看著他,半天吐出一句:

  「你真的越來越像老闆了。」

  「我本來就是。」

  「以前你更像天才交易員。」

  「現在呢?」


  麥克看了眼白板,又看了眼那台DGX A100,最後說:

  「現在像一個準備把整個娛樂圈拆開重裝的瘋子。」

  曹逸森沒有反駁。

  他只是轉身看著倉庫里那幾隻還沒拆封的箱子,眼神里那點興奮慢慢沉成了更深的東西。

  「拆開重裝也沒什麼不好。」

  「韓娛這套系統,太依賴人肉經驗了。」

  「誰更會熬夜,誰資源多,誰關係硬,誰能壓榨團隊,誰就贏。」

  「我想換一種玩法。」

  麥克問:「用AI?」

  曹逸森點頭。

  「用AI,把經驗變成系統。」

  「用算力,把小公司的試錯成本打下來。」

  「用模型,把創作、訓練、宣發、視覺、發行,全都往前推一格。」

  他說完,輕輕拍了一下那台DGX A100。

  「先從這幾台機器開始。」

章節目錄