深勢科技推出蛋白質結構預測工具:完全開源,精度和國外相當

蛋白質是生命的物質基礎,每個蛋白質的氨基酸鏈扭曲、折疊、纏繞成復雜的結構,想要破解這種結構通常需要花很長的時間,甚至難以完成。截至目前,約有10萬個蛋白質的結構已經用實驗方法得到了解析,但這在已經測序的數10億計的蛋白質中只占了很小一部分。

在蛋白質結構解析的幾十年歷史中,X射線晶體學、核磁共振波譜學(NMR)、冷凍電鏡(Cryo-SEM)技術紛紛發揮了巨大的貢獻。同時,通過蛋白質的氨基酸序列來預測其結構這一設想也在50多年前就已提出。2020年底,谷歌旗下人工智能公司DeepMind的新模型AlphaFold2帶來了巨大突破,在蛋白質結構預測準確性方面達到接近人類實驗結果,讓整個結構生物學界震驚。

實際上,大陸的學術界和產業界也在蛋白質結構預測領域緊追國際步伐。澎湃每日熱點(www.thepaper.cn)記者獲悉,12月8日,北京深勢科技有限公司(下稱“深勢科技”)宣布推出蛋白質結構預測工具 Uni-Fold,這是蛋白質結構研究領域首款完全開源并成功復現大規模訓練的工具。

據介紹,在相同的測試條件下,Uni-Fold 的預測精度超越了華盛頓大學部蛋白設計研究所David Baker教授課題組研發的RoseTTAFold,與DeepMind官方發布的AlphaFold2模型接近。深勢科技團隊使用Uni-Fold對CASP14蛋白預測任務中的序列數據集進行了直接測試,平均 Cα-lDDT 達到82.6。此外,Uni-Fold 的推理代碼更加輕量、高效,在相同硬件環境下,能夠獲得與公布的AlphaFold2代碼相比2-3倍的效率提升。

Uni-Fold預測的蛋白結構。灰色為實驗結果;藍色為預測結果。

深勢科技方面提到,在過去一年里,團隊克服了算法生態不佳、計算資源有限等難題,成功突破技術壁壘,復現了AlphaFold2的訓練過程,并決定將訓練代碼全部開源,讓這項高精度的蛋白質結構計算預測軟體真正惠及結構生物學領域研究者。

澎湃每日熱點記者此前報道,臺北時間7月15日,DeepMind團隊在頂級學術期刊《自然》(Nature)以“加快評審文章”(Accelerated Article Preview)形式在線發表了一篇題為“Highly accurate protein structure prediction with AlphaFold”的論文,全面詳述了2020年年底造成轟動的這一模型,并首次對外分享開源代碼。

DeepMind團隊當時向澎湃每日熱點(www.thepaper.cn)記者提供了一份聲明,公司創始人兼首席執行官Demis Hassabis在聲明中表示,去年在CASP14大會上我們揭曉了一個可以將蛋白質3D結構預測精確到原子水平的全新AlphaFold系統,此后我們承諾會分享我們的方法,并為科學共同體提供廣泛、免費的獲取途徑。

“今天我們邁出了承諾的第一步,在《自然》期刊上分享AlphaFold的開源代碼,并發表了系統的完整方法論,詳盡細致說明AlphaFold是如何做到精確預測蛋白質3D結構的。作為一家致力于推動科學進步的公司,我們期待看到我們的方法將為科學界啟發出什么其他新的研究方法,也期待很快能和大家分享更多我們的新進展。”Hassabis表示。

也就在同一天,另一頂級期刊《科學》(Science)也在線發表了另一預測蛋白質結構的研究文章,題為“Accurate prediction of protein structures and interactions using a three-track neural network”。來自華盛頓大學部、哈佛大學部、德克薩斯大學部西南醫學中心等團隊的研究人員開發了新的深度學習工具RoseTTAFold,其擁有媲美AlphaFold2的蛋白質結構預測超高準確度,而且更快、所需計算機處理能力更低。同樣,研究團隊也對外分享了開源代碼。

清華大學部生命科學學院院長、高精尖中心執行主任王宏偉在接受澎湃每日熱點(www.thepaper.cn)記者采訪時曾表示,“高質量結構預測的源代碼開放對整個科學界尤其是結構生物學領域的促進作用必然是巨大的。”他評價道,對于DeepMind這樣一家商業公司來說,“團隊愿意向公眾分享代碼,是一個新型科研范式的突破,將整體上有利于人類更好地探索未知。”

不過,深勢科技此次也提到一點,盡管DeepMind在半年后開源了AlphaFold2模型的推理代碼,但其訓練代碼并未被公布,且模型不可商用。研究者難以通過訓練或調整模型進一步提升 AlphaFold2 的表現,或遷移至更多應用場景,如蛋白質復合物結構預測、蛋白質與小分子相互作用、與電鏡實驗結合等。此外,該代碼基于Google自研的可微分計算框架JAX及TPU硬件平臺開發,高度依賴Google生態系統,造成了一定的使用限制。

深勢科技的Uni-Fold則克服了AlphaFold2未開源訓練代碼、硬件支持單一、模型不可商用等局限性,在訓練與推理環節進行了 NVIDIA GPU上的適配、性能優化及功能完善等工作,為更多人參與推動領域進一步發展提供了基礎。

中科院院士、北京大學部教授、深勢科技首席科學顧問鄂維南表示,“盡管DeepMind開源了推理代碼,但模型的訓練技術才是核心競爭力。在資源比較匱乏的情況下,深勢科技團隊在較短時間內實現模型訓練、開源訓練代碼,這是很不容易的。深勢科技在物理模型方面具備豐富的經驗,Uni-Fold進一步彌補了團隊在數據驅動方面的短板。下一步,物理模型和數據驅動結合的解決方案將為蛋白結構和藥物設計行業提供更好的基礎。”

對于開源,深勢科技聯合創始人兼首席科學家張林峰博士在接受澎湃每日熱點(www.thepaper.cn)記者專訪時曾表示,開源實際上是一個協同的研發,讓各行各業的人用,其實也是接受各行各業的評審。“解決方案都是一個不斷融合的過程,融合的過程中一定會有很多頻繁地從實踐中抽象問題、解決問題,再反作用于實踐的這樣的一個迭代的過程,我們也是希望通過開源社區能夠快速地把事情做好。”

據悉,過去三年,深勢科技致力于推動Deep Potential系列開源解決方案的普及與DeepModeling開源社區的發展。目前,社區中的開源軟體已得到大陸外一千余個研究組的近萬名科學家使用,涉及物理、化學、材料、生物、地質等多個領域,形成了良好的“飛輪效應”。

Uni-Fold在深勢科技Hermite藥物設計平臺上的使用。

目前,Uni-Fold相應解決方案已集成至深勢科技自主研發的藥物設計平臺 Hermite。深勢科技方面稱,作為藥物設計的第一環節,Uni-Fold 將與深勢科技AI輔助計算模擬的算法有機銜接,并與電鏡實驗技術相結合,為藥物設計領域打造一套模擬-AI-實驗三者驅動的解決方案。

深勢科技成立于2018年,致力于以新一代分子模擬技術解決微觀尺度工業設計難題,以打造切實服務于藥企、材料商和科研機構的模擬研發平臺為主要業務方向。該公司核心團隊由大陸科學院院士鄂維南等人領銜,主要來自世界一流高校、科研機構和企業,科研隊伍由物理建模、數值算法、機器學習、高性能計算及藥物和材料計算等多個領域的數十名優秀青年科學家構成。

0 条回复 A文章作者 M管理員
    暫無討論,說說你的看法吧