一早醒來,發現搞蛋白質結構研究的朋友都在紛紛自嘲:要失業了,
啊這,怎么回事?原來是結構生物學,迎來了一個「革命性」的突破,
11月30日,DeepMind宣布:AlphaFold 2,這個AI已經成功解決蛋白質折疊的問題,
這一次,AlphaFold的“準確性”均分,直接從原本的60+/100,提升至了92.4/100,
而過去十幾年,其他方法只能在40分左右徘徊。
△圖源:Deepmind
兩年前,上一版本的AlphaFold便已經取得了里程碑的突破,但是,仍然沒有完全解決蛋白質折疊問題,而這次AlphaFold 2,則更進一步。
這一巨大的突破,直接引爆了全網,Nature、Science紛紛報道,生物界和AI大牛們也紛紛祝賀,
甚至很少露面的DeepMind創始人哈薩比斯,也親自出面介紹:
DeepMind背后的終極愿景一直是構建通用人工智能,利用通用人工智能來極大地加速科學發現的步伐,幫助我們更好地了解周圍世界。
而哥大生物學助理教授Mohammed AlQuraishi,更是評價道:
蛋白質結構AI進入“ImageNet時代”。
如此重大的突破,究竟帶來了什么呢?讓我們來快速且全面地了解一下。
CASP中斬獲92.4的均分
就在11月30日,第14次CASP評估的評價結果公布了。
CASP始于1994年,是蛋白質結構預測的評估標準和全球社區,評價每兩年進行一次。
△圖源:Science
從1994年起,隨著技術的進步,蛋白質的預測準確性在不斷增加,而在今年,迎來了重大突破,預測準確性得分達到了92.4/100,
而這,便是DeepMind的AlphaFold 2系統帶來的,
AlphaFold 2在所有目標上測試結果:GDT的平均得分為92.4,較難蛋白質的中位數得分也達到了87.0,這比第二名高出了25分,
GDT(Global Distance Test),是用來衡量預測準確性的主要指標,
簡單來說,GDT就是:預測結果對于正確位置,在距離上的一個綜合評分,
能斬獲92.4的準確性高分,這說明,預測的結果,誤差基本不超過一個原子的大小。
這無疑是巨大的突破,
對此,CASP發起人,計算生物學家約翰·莫爾特(John Moult)表示:
從某種意義上說,蛋白質折疊的問題已經解決了,
端到端的訓練
如此強大的AlphaFold 2系統,不免讓人好奇,它是如何訓練出來的呢?
首先,研究人員把折疊的蛋白質認為是一個「空間圖」,其中殘基是節點,邊緣連接著非常接近的殘基。
之后,建立了一個基于注意力機制的神經網路系統,端到端進行了訓練。
建立的這個系統會試圖解釋這個圖的結構,同時對它正在構建的隱式圖進行推理。
在這個推理過程,還會用到生物學中已知的資訊進行完善,如:進化中的同源序列,多序列比對(MSA)和氨基酸殘基對等。
通過重復這一過程,該系統對蛋白質的潛在物理結構進行了強有力的預測,并能夠在幾天內確定高度準確的結構,
此外,AlphaFold還使用了內部置信度度量指標來判斷蛋白質結構中哪些部分是可靠的,
之后,研究人員在公開的數據上訓練了這個系統,這些資料庫包括大約170000個蛋白質結構,其中便有許多未知結構的蛋白質序列,
這個訓練過程花費了幾周的時間,使用了大約128個TPUv3內核(大約相當于100-200個GPU)。
實驗證明AlphaFold確實靠譜
不過,所謂技術突破,都總會引來一些質疑。
連組織者都擔心:DeepMind可能一直在以某種方式作弊,
因此,德國馬克斯·普朗克發育生物學研究所蛋白質進化學系主任安德烈·盧帕斯(Andrei Lupas)提出了一個特殊的挑戰:預測一種來自古細菌群中古細菌物種的膜蛋白。
十年來,科學家雖然獲取了這個蛋白質的X射線晶體結構,但是一直無法解釋它,
而AlphaFold 2,輸出了一個三部分構成的蛋白質詳細圖像,中間有兩個長長的螺旋臂,
而該模型,使盧帕斯和他的同事能夠理解他們的X射線數據。
這個過程,只用了半小時,實驗結果完全符合AlphaFold的預測結構,
盧帕斯驚呼:「這幾乎是完美的。」
他們不可能這么作弊,我不知道他們是怎么做到的。
AlphaFold 2憑事實,告訴大家:這個進展確實真實而且靠譜的,
解決50年的挑戰
克里斯蒂安·安芬森在1972年諾貝爾化學獎的獲獎感言中,提出了一個著名的假設,即理論上,蛋白質的氨基酸序列應該完全決定其結構,
正是由于這一假設,引發了50年的探索,即能夠僅基于1D氨基酸序列通過計算預測蛋白質的3D結構,
然而,一個主要的挑戰是,一種蛋白質在進入最終的3D結構之前,理論上可以折疊的方式數量是天文數字,
1969年,Cyrus Levinthal指出,通過蠻力計算來列舉一種典型蛋白質的所有可能構型需要比已知宇宙的年齡更長的時間——Levin thal估計了一種典型蛋白質的10^300種可能構象。
要知道,AlphaGo面對的圍棋問題復雜度也就是10^171,蛋白質折疊問題比圍棋復雜度高出129個數量級!
DeepMind的研究人員對此說道:DeepMind方法將產生深遠的影響,其中包括極大地加快新藥的開發速度,
馬里蘭大學部的結構生物學家Shady Grove則表示:
這是一個已有50年歷史的問題,我從沒想過一輩子中能看到這個,