喜大普奔!今天一波Nature、Science齊發文,可把學術圈的嗑鹽人們高興壞了,
一邊是“AI界年度十大突破”AlphaFold2終于終于開源,登上Nature,
另一邊Science又出報道:華盛頓大學部竟然還搞出了一個比AlphaFold2更快更輕便的算法,只需要一個英偉達RTX2080 GPU,10分鐘就能算出蛋白質結構!
要知道,當年AlphaFold2橫空出世,那是真·沸騰了學術圈,
不僅谷歌CEO皮猜、馬斯克、李飛飛等大V紛紛點贊,連馬普所的演化生物研究所所長Andrei Lupas都直言:它會改變一切。
結構生物學家Petr Leiman感嘆,我用價值一千萬美元的電鏡努力地解了好幾年,Alphafold2竟然一下就算出來了,
更是有生物學網友表示絕望,感覺專業“前途渺茫”:
而今天這一波Nature、Science神仙打架,再次點燃話題度,
讓學界狂熱的Alphafold2
先說被頂刊爭相報道的Alphafold2,它作為一個AI模型,為何引起各界狂熱?
因為它一出來,就解決了生物學界最棘手的問題之一。這個問題于1972年被克里斯蒂安·安芬森提出,它的驗證曾經困擾科學家50年:
給定一個氨基酸序列,理論上就能預測出蛋白質的3D結構。
蛋白質由氨基酸序列組成,但真正決定蛋白質作用的,是它的3D結構,也就是氨基酸序列的折疊方式。
為了驗證這個理論,科學家們嘗試了各種手段,但在CASP14(蛋白質結構預測比賽)中,準確性也只達到40分左右(滿分100)。
直到去年12月,Alphafold2出現,將這一準確性直接拔高到了92.4/100,和蛋白質真實結構之間只差一個原子的寬度,真正解決了蛋白質折疊的問題,
Alphafold2于當年入選Science年度十大突破,被稱作結構生物學“革命性”的突破、蛋白質研究領域的里程碑,
它的出現,能更好地預判蛋白質與分子結合的概率,從而極大地加速新藥研發的效率。
今天,Alphafold2的開源,又進一步在AI和生物學界激起了一大波浪。
谷歌CEO皮猜很高興:
亦有生物學博士表示:未來已來!
來自UC伯克利AI實驗室的博士Roshan Rao在看過后表示,這份代碼看起來不僅容易使用,而且文檔也非常完善,
現在,是時候借著這份開源算法,弄清Alphafold2的魔術是怎么變的了。
AlphaFold2詳細資訊公開
研究人員強調,這是一個完全不同于AlphaFold的新模型。
2018年的AlphaFold使用的神經網路是類似ResNet的殘差卷積網路,到了AlphaFold2則借鑒了AI研究中最近新興起的Transformer架構,
Transformer使用注意力機制興起于NLP領域,用于處理一連串的文本序列,
而氨基酸序列正是和文本類似的數據結構,AlphaFold2利用多序列比對,把蛋白質的結構和生物資訊整合到了深度學習算法中,
AlphaFold2用初始氨基酸序列與同源序列進行比對,直接預測蛋白質所有重原子的三維坐標。
從模型圖中可以看到,輸入初始氨基酸序列后,蛋白質的基因資訊和結構資訊會在資料庫中進行比對,
多序列比對的目標是使參與比對的序列中有盡可能多的序列具有相同的堿基,這樣可以推斷出它們在結構和功能上的相似關系。
比對后的兩組資訊會組成一個48block的Evoformer塊,然后得到較為相似的比對序列,
比對序列進一步組合8 blocks的結構模型,從而直接構建出蛋白質的3D結構。
最后兩步過程還會進行3次循環,可以使預測更加準確,
△如何用三維坐標確定結構
還有更快、成本更低的算法?
AlphaFold2首次公布的時候并沒有透露太多技術細節。
在華盛頓大學部,同樣致力于蛋白質領域的David Baker一度陷入失落:如果有人已經解決了你正在研究的問題,但沒有透露他們是如何解決的,你該如何繼續研究?
不過他馬上重整旗鼓,帶領團隊嘗試能不能復現AlphaFold2的成功。
幾個月后,Baker團隊的成果不僅在準確度上和AlphaFold2不相上下,還在計算速度和算力需求上實現了超越。
就在AlphaFold2開源論文登上Nature的同一天,Baker團隊的RoseTTAFold也登上Science。
RoseTTAFold只需要一塊RTX2080顯卡,就能在10分鐘左右計算出400個氨基酸殘基以內的蛋白質結構,
這樣的速度,意味著什么?
那就是研究蛋白質的科學家不用再排隊申請超算資源了,小型團隊和個人研究者只需要一臺普通的個人電腦就能輕松展開研究。
RoseTTAFold的秘訣在于采用了3軌注意力機制,分別關注蛋白質的一級結構、二級結構和三級結構。
再通過在三者之間加上多處連接,使整個神經網路能夠同時學習3個維度層次的資訊,
考慮到現在市場上顯卡不太好買,Baker團隊還貼心的搭建了公共服務器,任何人都可以提交蛋白質序列并預測結構,
自服務器建立以來,已經處理了來自全世界研究者提交的幾千個蛋白質序列。
這還沒完,團隊發現如果同時輸入多個氨基酸序列,RoseTTAFold還可以預測出蛋白質復合體的結構模型。
對于多個蛋白質組成的復合體,RoseTTAFold的實驗結果是在24GB顯存的英偉達Titan RTX上計算30分鐘左右。
現在整個網路是用單個氨基酸序列訓練的,團隊下一步計劃用多序列重新訓練,在蛋白質復合體結構預測上還可能有提升空間。
正如Baker所說:我們的成果可以幫助整個科學界,為生物學研究加速。