第58章 論文打假

投票推薦 加入書籤 小說報錯

  關於這個問題,吳辰早已經有了想法。

  「你有沒有想過,為什麼已經過去這麼久,Aβ*56還是只能由西爾萬的實驗室合成,以至於1克樣本就要300萬美元?」

  「難度太大了。」

  姜楠說。

  Aβ*56是一個病變蛋白,只存在於阿爾茲海默症患者體內,提取過程非常繁瑣,並且成功率很低。

  與其花費巨大風險去提取,還不如直接購買樣品。

  「所以這就是醫藥類論文是造假重災區的一個重要原因啊。」

  吳辰說。

  聽到他的調侃,姜楠忍不住又是一個白眼,但卻沒有反駁。

  不過她也懶的再問了,反正吳辰說不出一周就會有結果。

  這一點上,她還是相信對方的。

  到家後,姜楠一進門,就發現父母正坐在客廳里等自己。

  看著他們八卦的眼神,她忍不住一陣扶額。

  -----------------

  在姜楠努力陳述自己還不想戀愛,兩人只是同事關係時,吳辰已經到家了。

  簡單洗漱了一下,又把吳淑芬餵飽,他便打開電腦,找到了那篇著名的論文:

  《A specific amyloid-β assembly in the brain impairs memory》。

  中文名是《大腦中一種特定的β澱粉樣蛋白組裝體損害記憶》,第一作者西爾萬。

  通讀了一遍論文後,吳辰果然發現了幾個問題。

  首先是圖1中,Aβ*56的蛋白電泳條帶圖有造假痕跡。

  不過讓他一點一點的去摳圖分析,那是不可能的。

  這沒有一兩個星期是做不下來的,他不會在這件事情上浪費這麼久。

  所以他選擇用圖像分析的方法來做,這樣就能非常輕易的檢查出圖像的拼接問題。

  於是他基於OpenCV,快速編寫了一個圖像特徵分析算法,來計算每條條帶的灰度分布和背景噪點的標準差。

  如果圖像涉嫌造假,那麼這兩個值的差異會非常大。

  除此之外,為了更具有信服力,他又單獨用Canny算子檢測了條帶邊緣。

  如果是拼接的圖片,那麼邊緣肯定會有像素級的斷裂痕跡,與正常條帶的連續邊緣差別很大,也可以作為實錘證據之一。

  除了對圖像本身分析外,還需要對實驗數據進行處理。

  吳辰先將論文中實驗小鼠的逃避潛伏期(escape latency)提取出來,然後計算了它的變異係數CV。

  其中,逃避潛伏期是指生物實驗時,實驗動物從進入水迷宮,到成功爬上隱藏平台所需的時間。

  正常小白鼠的時間,肯定要比注射了Aβ*56蛋白的時間要短。

  將兩個算法在啟明一號上運行起來後,吳辰覺得有點餓,就去給自己煮了一包泡麵。

  15分鐘後,數據結果剛好出來。

  當然這是基於他OpenCL架構的電腦,如果是其他人的電腦,是不可能這麼快計算出結果的,時間至少要多十幾倍。

  檢查一番後,吳辰發現計算結果果然如自己所料,存在大量的造假痕跡。

  第一張圖經過掃描後,一眼就可以看出Aβ*56條帶的背景噪點,和其他條帶完全不是一個畫風。

  很明顯就是拼接上去的。

  而實驗數據就更離譜了。

  論文中正常小白鼠的CV僅為3%,遠低於標準值15%,數值極不合理。

  就像一場滿分100的期末考試,班級的平均分竟然是95。

  這種方差的離散值,在常理計算中是不可能的。

  有這兩份數據,基本就可以實錘西爾萬的這篇論文造假了。

  但吳辰並不滿足於此。

  因為這篇論文的問題,實際上在業內已經有過討論了。

  最主要的一個問題,就是有多個實驗室在嘗試合成Aβ*56時,都以失敗告終。


  但這篇文章是發表在《自然》上的,而且西爾萬的老師還是在阿爾茲海默症研究領域內的大牛卡倫.阿什,所以大家更多的時候都在懷疑自己。

  或者說,就算這篇論文中的數據有問題,那也沒法證明Aβ*56是無效的。

  因為阿爾茲海默症患者體內的β澱粉樣蛋白確實產生了病變。

  問題的核心,在於到底是Aβ*56引起了阿爾茲海默症,還是阿爾茲海默症引發了Aβ*56蛋白的產生。

  要證明這個問題,就像是辯證先有雞還是先有蛋一樣。

  但吳辰也有自己的解決方案,那就是用支持向量機SVM和Rosetta(一個用於蛋白質結構建模的軟體),來預測Aβ*56的特性。

  因為他記得一個關鍵點,就是後世已經證明,Aβ*56蛋白極不穩定,其特性根本不可能導致阿爾茲海默症。

  有了思路後,吳辰從系統提供的全量醫藥資料庫中,找出了10萬條已知穩定性的蛋白序列,然後將序列特徵中的疏水指數、胺基酸電荷和二級結構作為算法的輸入特徵,來訓練SVM模型。

  預測的結果,就是Aβ*56熱穩定性。

  除此之外,還需要用Rosetta來預測 Aβ*56的三維結構。

  不過這一次的計算量,就不是幾張圖片解析那麼容易了。

  初步預估的計算時間在兩天以上。

  確認算法運行穩定後,吳辰便將它丟在一邊,開始了今日份的學習。

  「系統,啟動深度閱讀狀態!」

  【深度閱讀狀態已開啟】

  今天吳辰選擇的論文都是關於Doc2Vec(段落向量,與word2Vec相比更進一步,類似段落和單字的區別)的。

  因為在下周六去京大講座時,他想和百度知識部門的人討論數據獲取的事情。

  如果word2Vec打動不了他們的話,那麼doc2Vec他們肯定會心動的。

  -----------------

  接下來的幾天,日子就這樣平穩的過去。

  算法運行中途出現一次參數偏差,不過經過調整後很快就解決了。

  最終吳辰在周四的晚上得到了想要的結果。

  數據清晰的顯示,Aβ*56的熱力學穩定性極差。

  滿分10分的標準,它僅僅達到了1.2的分數。

  同時它的生理環境半衰期還小於三個半小時,過後便會分解為沒有獨立生物活性的Aβ42二聚體。

  所以最終的結論很明顯。

  Aβ*56蛋白,根本就無法作為阿爾茲海默症藥物靶點。

  吳辰將分析報告整理一番後,發送到了姜楠的郵箱。

  他相信她會理解的。

  看了看時間,已經是凌晨一點多,該睡覺了。

  說好的再不熬夜,結果每次都因為這樣或那樣的事情耽誤。

  他將手機靜音,然後給床頭的機械鬧鐘設定了早上六點後,就立即陷入了沉眠。

  但他不知道的是,半小時後,他的手機幾乎被打爆。

  -----------------

  「楠楠,還是打不通電話嗎?」

  江東藥廠的實驗室里,姜鴻約、來淑嫻以及一大群實驗人員竟然都在。

  雖然已經快凌晨兩點,但此刻根本沒有一個人有睡意。

  所有人都紅著眼睛盯著姜楠看。

  「打不通。」

  姜楠嗓音沙啞的回答。

  「這……」

  姜鴻約也很焦躁。

  明天他就要和賽默飛公司簽購買Aβ*56樣本的合同了。

  結果剛剛姜楠收到吳辰的郵件,說這是一個騙局?

  就在眾人一籌莫展之際,姜楠突然將手機揣進兜里。

  「我去他家找他。」

  說罷,她不顧眾人詫異的目光,連白大褂也來不及脫,就大步走出了實驗室。

章節目錄