第58章 論文打假
關於這個問題,吳辰早已經有了想法。
「你有沒有想過,為什麼已經過去這麼久,Aβ*56還是只能由西爾萬的實驗室合成,以至於1克樣本就要300萬美元?」
「難度太大了。」
姜楠說。
Aβ*56是一個病變蛋白,只存在於阿爾茲海默症患者體內,提取過程非常繁瑣,並且成功率很低。
與其花費巨大風險去提取,還不如直接購買樣品。
「所以這就是醫藥類論文是造假重災區的一個重要原因啊。」
吳辰說。
聽到他的調侃,姜楠忍不住又是一個白眼,但卻沒有反駁。
不過她也懶的再問了,反正吳辰說不出一周就會有結果。
這一點上,她還是相信對方的。
到家後,姜楠一進門,就發現父母正坐在客廳里等自己。
看著他們八卦的眼神,她忍不住一陣扶額。
-----------------
在姜楠努力陳述自己還不想戀愛,兩人只是同事關係時,吳辰已經到家了。
簡單洗漱了一下,又把吳淑芬餵飽,他便打開電腦,找到了那篇著名的論文:
《A specific amyloid-β assembly in the brain impairs memory》。
中文名是《大腦中一種特定的β澱粉樣蛋白組裝體損害記憶》,第一作者西爾萬。
通讀了一遍論文後,吳辰果然發現了幾個問題。
首先是圖1中,Aβ*56的蛋白電泳條帶圖有造假痕跡。
不過讓他一點一點的去摳圖分析,那是不可能的。
這沒有一兩個星期是做不下來的,他不會在這件事情上浪費這麼久。
所以他選擇用圖像分析的方法來做,這樣就能非常輕易的檢查出圖像的拼接問題。
於是他基於OpenCV,快速編寫了一個圖像特徵分析算法,來計算每條條帶的灰度分布和背景噪點的標準差。
如果圖像涉嫌造假,那麼這兩個值的差異會非常大。
除此之外,為了更具有信服力,他又單獨用Canny算子檢測了條帶邊緣。
如果是拼接的圖片,那麼邊緣肯定會有像素級的斷裂痕跡,與正常條帶的連續邊緣差別很大,也可以作為實錘證據之一。
除了對圖像本身分析外,還需要對實驗數據進行處理。
吳辰先將論文中實驗小鼠的逃避潛伏期(escape latency)提取出來,然後計算了它的變異係數CV。
其中,逃避潛伏期是指生物實驗時,實驗動物從進入水迷宮,到成功爬上隱藏平台所需的時間。
正常小白鼠的時間,肯定要比注射了Aβ*56蛋白的時間要短。
將兩個算法在啟明一號上運行起來後,吳辰覺得有點餓,就去給自己煮了一包泡麵。
15分鐘後,數據結果剛好出來。
當然這是基於他OpenCL架構的電腦,如果是其他人的電腦,是不可能這麼快計算出結果的,時間至少要多十幾倍。
檢查一番後,吳辰發現計算結果果然如自己所料,存在大量的造假痕跡。
第一張圖經過掃描後,一眼就可以看出Aβ*56條帶的背景噪點,和其他條帶完全不是一個畫風。
很明顯就是拼接上去的。
而實驗數據就更離譜了。
論文中正常小白鼠的CV僅為3%,遠低於標準值15%,數值極不合理。
就像一場滿分100的期末考試,班級的平均分竟然是95。
這種方差的離散值,在常理計算中是不可能的。
有這兩份數據,基本就可以實錘西爾萬的這篇論文造假了。
但吳辰並不滿足於此。
因為這篇論文的問題,實際上在業內已經有過討論了。
最主要的一個問題,就是有多個實驗室在嘗試合成Aβ*56時,都以失敗告終。
但這篇文章是發表在《自然》上的,而且西爾萬的老師還是在阿爾茲海默症研究領域內的大牛卡倫.阿什,所以大家更多的時候都在懷疑自己。
或者說,就算這篇論文中的數據有問題,那也沒法證明Aβ*56是無效的。
因為阿爾茲海默症患者體內的β澱粉樣蛋白確實產生了病變。
問題的核心,在於到底是Aβ*56引起了阿爾茲海默症,還是阿爾茲海默症引發了Aβ*56蛋白的產生。
要證明這個問題,就像是辯證先有雞還是先有蛋一樣。
但吳辰也有自己的解決方案,那就是用支持向量機SVM和Rosetta(一個用於蛋白質結構建模的軟體),來預測Aβ*56的特性。
因為他記得一個關鍵點,就是後世已經證明,Aβ*56蛋白極不穩定,其特性根本不可能導致阿爾茲海默症。
有了思路後,吳辰從系統提供的全量醫藥資料庫中,找出了10萬條已知穩定性的蛋白序列,然後將序列特徵中的疏水指數、胺基酸電荷和二級結構作為算法的輸入特徵,來訓練SVM模型。
預測的結果,就是Aβ*56熱穩定性。
除此之外,還需要用Rosetta來預測 Aβ*56的三維結構。
不過這一次的計算量,就不是幾張圖片解析那麼容易了。
初步預估的計算時間在兩天以上。
確認算法運行穩定後,吳辰便將它丟在一邊,開始了今日份的學習。
「系統,啟動深度閱讀狀態!」
【深度閱讀狀態已開啟】
今天吳辰選擇的論文都是關於Doc2Vec(段落向量,與word2Vec相比更進一步,類似段落和單字的區別)的。
因為在下周六去京大講座時,他想和百度知識部門的人討論數據獲取的事情。
如果word2Vec打動不了他們的話,那麼doc2Vec他們肯定會心動的。
-----------------
接下來的幾天,日子就這樣平穩的過去。
算法運行中途出現一次參數偏差,不過經過調整後很快就解決了。
最終吳辰在周四的晚上得到了想要的結果。
數據清晰的顯示,Aβ*56的熱力學穩定性極差。
滿分10分的標準,它僅僅達到了1.2的分數。
同時它的生理環境半衰期還小於三個半小時,過後便會分解為沒有獨立生物活性的Aβ42二聚體。
所以最終的結論很明顯。
Aβ*56蛋白,根本就無法作為阿爾茲海默症藥物靶點。
吳辰將分析報告整理一番後,發送到了姜楠的郵箱。
他相信她會理解的。
看了看時間,已經是凌晨一點多,該睡覺了。
說好的再不熬夜,結果每次都因為這樣或那樣的事情耽誤。
他將手機靜音,然後給床頭的機械鬧鐘設定了早上六點後,就立即陷入了沉眠。
但他不知道的是,半小時後,他的手機幾乎被打爆。
-----------------
「楠楠,還是打不通電話嗎?」
江東藥廠的實驗室里,姜鴻約、來淑嫻以及一大群實驗人員竟然都在。
雖然已經快凌晨兩點,但此刻根本沒有一個人有睡意。
所有人都紅著眼睛盯著姜楠看。
「打不通。」
姜楠嗓音沙啞的回答。
「這……」
姜鴻約也很焦躁。
明天他就要和賽默飛公司簽購買Aβ*56樣本的合同了。
結果剛剛姜楠收到吳辰的郵件,說這是一個騙局?
就在眾人一籌莫展之際,姜楠突然將手機揣進兜里。
「我去他家找他。」
說罷,她不顧眾人詫異的目光,連白大褂也來不及脫,就大步走出了實驗室。
「你有沒有想過,為什麼已經過去這麼久,Aβ*56還是只能由西爾萬的實驗室合成,以至於1克樣本就要300萬美元?」
「難度太大了。」
姜楠說。
Aβ*56是一個病變蛋白,只存在於阿爾茲海默症患者體內,提取過程非常繁瑣,並且成功率很低。
與其花費巨大風險去提取,還不如直接購買樣品。
「所以這就是醫藥類論文是造假重災區的一個重要原因啊。」
吳辰說。
聽到他的調侃,姜楠忍不住又是一個白眼,但卻沒有反駁。
不過她也懶的再問了,反正吳辰說不出一周就會有結果。
這一點上,她還是相信對方的。
到家後,姜楠一進門,就發現父母正坐在客廳里等自己。
看著他們八卦的眼神,她忍不住一陣扶額。
-----------------
在姜楠努力陳述自己還不想戀愛,兩人只是同事關係時,吳辰已經到家了。
簡單洗漱了一下,又把吳淑芬餵飽,他便打開電腦,找到了那篇著名的論文:
《A specific amyloid-β assembly in the brain impairs memory》。
中文名是《大腦中一種特定的β澱粉樣蛋白組裝體損害記憶》,第一作者西爾萬。
通讀了一遍論文後,吳辰果然發現了幾個問題。
首先是圖1中,Aβ*56的蛋白電泳條帶圖有造假痕跡。
不過讓他一點一點的去摳圖分析,那是不可能的。
這沒有一兩個星期是做不下來的,他不會在這件事情上浪費這麼久。
所以他選擇用圖像分析的方法來做,這樣就能非常輕易的檢查出圖像的拼接問題。
於是他基於OpenCV,快速編寫了一個圖像特徵分析算法,來計算每條條帶的灰度分布和背景噪點的標準差。
如果圖像涉嫌造假,那麼這兩個值的差異會非常大。
除此之外,為了更具有信服力,他又單獨用Canny算子檢測了條帶邊緣。
如果是拼接的圖片,那麼邊緣肯定會有像素級的斷裂痕跡,與正常條帶的連續邊緣差別很大,也可以作為實錘證據之一。
除了對圖像本身分析外,還需要對實驗數據進行處理。
吳辰先將論文中實驗小鼠的逃避潛伏期(escape latency)提取出來,然後計算了它的變異係數CV。
其中,逃避潛伏期是指生物實驗時,實驗動物從進入水迷宮,到成功爬上隱藏平台所需的時間。
正常小白鼠的時間,肯定要比注射了Aβ*56蛋白的時間要短。
將兩個算法在啟明一號上運行起來後,吳辰覺得有點餓,就去給自己煮了一包泡麵。
15分鐘後,數據結果剛好出來。
當然這是基於他OpenCL架構的電腦,如果是其他人的電腦,是不可能這麼快計算出結果的,時間至少要多十幾倍。
檢查一番後,吳辰發現計算結果果然如自己所料,存在大量的造假痕跡。
第一張圖經過掃描後,一眼就可以看出Aβ*56條帶的背景噪點,和其他條帶完全不是一個畫風。
很明顯就是拼接上去的。
而實驗數據就更離譜了。
論文中正常小白鼠的CV僅為3%,遠低於標準值15%,數值極不合理。
就像一場滿分100的期末考試,班級的平均分竟然是95。
這種方差的離散值,在常理計算中是不可能的。
有這兩份數據,基本就可以實錘西爾萬的這篇論文造假了。
但吳辰並不滿足於此。
因為這篇論文的問題,實際上在業內已經有過討論了。
最主要的一個問題,就是有多個實驗室在嘗試合成Aβ*56時,都以失敗告終。
但這篇文章是發表在《自然》上的,而且西爾萬的老師還是在阿爾茲海默症研究領域內的大牛卡倫.阿什,所以大家更多的時候都在懷疑自己。
或者說,就算這篇論文中的數據有問題,那也沒法證明Aβ*56是無效的。
因為阿爾茲海默症患者體內的β澱粉樣蛋白確實產生了病變。
問題的核心,在於到底是Aβ*56引起了阿爾茲海默症,還是阿爾茲海默症引發了Aβ*56蛋白的產生。
要證明這個問題,就像是辯證先有雞還是先有蛋一樣。
但吳辰也有自己的解決方案,那就是用支持向量機SVM和Rosetta(一個用於蛋白質結構建模的軟體),來預測Aβ*56的特性。
因為他記得一個關鍵點,就是後世已經證明,Aβ*56蛋白極不穩定,其特性根本不可能導致阿爾茲海默症。
有了思路後,吳辰從系統提供的全量醫藥資料庫中,找出了10萬條已知穩定性的蛋白序列,然後將序列特徵中的疏水指數、胺基酸電荷和二級結構作為算法的輸入特徵,來訓練SVM模型。
預測的結果,就是Aβ*56熱穩定性。
除此之外,還需要用Rosetta來預測 Aβ*56的三維結構。
不過這一次的計算量,就不是幾張圖片解析那麼容易了。
初步預估的計算時間在兩天以上。
確認算法運行穩定後,吳辰便將它丟在一邊,開始了今日份的學習。
「系統,啟動深度閱讀狀態!」
【深度閱讀狀態已開啟】
今天吳辰選擇的論文都是關於Doc2Vec(段落向量,與word2Vec相比更進一步,類似段落和單字的區別)的。
因為在下周六去京大講座時,他想和百度知識部門的人討論數據獲取的事情。
如果word2Vec打動不了他們的話,那麼doc2Vec他們肯定會心動的。
-----------------
接下來的幾天,日子就這樣平穩的過去。
算法運行中途出現一次參數偏差,不過經過調整後很快就解決了。
最終吳辰在周四的晚上得到了想要的結果。
數據清晰的顯示,Aβ*56的熱力學穩定性極差。
滿分10分的標準,它僅僅達到了1.2的分數。
同時它的生理環境半衰期還小於三個半小時,過後便會分解為沒有獨立生物活性的Aβ42二聚體。
所以最終的結論很明顯。
Aβ*56蛋白,根本就無法作為阿爾茲海默症藥物靶點。
吳辰將分析報告整理一番後,發送到了姜楠的郵箱。
他相信她會理解的。
看了看時間,已經是凌晨一點多,該睡覺了。
說好的再不熬夜,結果每次都因為這樣或那樣的事情耽誤。
他將手機靜音,然後給床頭的機械鬧鐘設定了早上六點後,就立即陷入了沉眠。
但他不知道的是,半小時後,他的手機幾乎被打爆。
-----------------
「楠楠,還是打不通電話嗎?」
江東藥廠的實驗室里,姜鴻約、來淑嫻以及一大群實驗人員竟然都在。
雖然已經快凌晨兩點,但此刻根本沒有一個人有睡意。
所有人都紅著眼睛盯著姜楠看。
「打不通。」
姜楠嗓音沙啞的回答。
「這……」
姜鴻約也很焦躁。
明天他就要和賽默飛公司簽購買Aβ*56樣本的合同了。
結果剛剛姜楠收到吳辰的郵件,說這是一個騙局?
就在眾人一籌莫展之際,姜楠突然將手機揣進兜里。
「我去他家找他。」
說罷,她不顧眾人詫異的目光,連白大褂也來不及脫,就大步走出了實驗室。