DeepMind攻破生物學領域50年難題:蛋白質結構預測準確性可達92.4分
導語:蛋白質的形狀與其功能密切相關,能夠預測這種結構可使人們更好地了解它的功能和工作原理,從而突破世界上許多強有力的挑戰(zhàn),如開發(fā)疾病治療方法或尋找分解工業(yè)廢物的酶等。因此在過去50年里,“蛋白質折疊問題”一直是生物學界的一個挑戰(zhàn)。近日,谷歌旗下人工智能技術公司 DeepMind 提出深度學習算法「Alphafold」,破解了這一難題。
蛋白質對于生命非常重要,它幾乎支撐著生命的所有功能。它們是由氨基酸鏈組成的復雜大分子,蛋白質的功能在很大程度上取決于它獨特的三維結構。搞清楚蛋白質會折疊成什么形狀被稱為“蛋白質折疊問題”,在過去的50年里,它一直是生物學界的一個重大挑戰(zhàn)。我們的人工智能系統(tǒng)AlphaFold的最新版本已經(jīng)被兩年一度的蛋白質結構預測臨界評估(CASP)組織會認可為這一重大挑戰(zhàn)的解決方案,是一項重大的科學進展。這一突破彰顯了人工智能技術對科學發(fā)現(xiàn)的影響,以及它在解釋和塑造世界上一些最基本領域上的潛力。
蛋白質的形狀與其功能密切相關,預測這種結構的能力可以使人們更好地了解它的功能和工作原理。世界上許多強有力的挑戰(zhàn),如開發(fā)疾病治療方法或尋找分解工業(yè)廢物的酶,基本上都與蛋白質及其所扮演的角色有關。
“近50年來,我們一直糾結于一個問題——蛋白質如何折疊??吹紻eepMind為這個問題找到解決方案,在經(jīng)歷了這么長時間的個人努力之后,經(jīng)過了這么多的反復嘗試,我想知道我們是否能做到這一點,這是一個非常特殊的時刻。”約翰·穆爾特教授,馬里蘭大學CASP聯(lián)合創(chuàng)始人兼主席 如此說到。
這是多年來科學研究的一個焦點,使用各種實驗技術來檢驗和確定蛋白質結構,如核磁共振和X射線晶體學。這些技術以及較新的方法,如低溫電子顯微鏡,都依賴于廣泛的實驗和誤差,每種結構可能需要數(shù)年艱苦的工作,并且需要使用價值數(shù)百萬美元的專門設備。
“蛋白質折疊問題”
在1972年諾貝爾化學獎的獲獎演說中,克里斯蒂安·安芬森(Christian Anfinsen)提出了一個著名的假設:理論上,蛋白質的氨基酸序列應該完全決定它的結構。這一假設引發(fā)了一個長達50年的探索,即能夠僅根據(jù)蛋白質的1D氨基酸序列來計算預測蛋白質的三維結構。然而,一個主要的挑戰(zhàn)是,理論上一種蛋白質在形成最終的三維結構之前可以折疊的方式是天文數(shù)字。1969年,賽勒斯·萊文塔爾(Cyrus Levinthal)指出,用強力計算法計算出一種典型蛋白質的所有可能的構型需要比已知宇宙年齡更長的時間——Levinthal估計了一種典型蛋白質的10^300種可能的構象。然而,在自然界中,蛋白質會自發(fā)折疊,有些在幾毫秒之內——這種二分法有時被稱為Levinthal悖論。
CASP14評估結果
1994年,JohnMoult教授和Krzysztof Fidelis教授創(chuàng)立了CASP,進行兩年一度的盲評估,以促進研究,監(jiān)控進展,并確立蛋白質結構預測的最新水平。它既是評估預測技術的金標準,也是建立在共同努力基礎上的獨特的全球社區(qū)。關鍵的是,CASP選擇最近才被實驗確定的蛋白質結構(有些在評估時仍在等待確定)作為團隊測試其結構預測方法的GroundTruth;它們均未提前發(fā)布。參與者必須盲目地預測蛋白質的結構,當這些預測變得可用時,這些預測將與基本事實的實驗數(shù)據(jù)進行比較。我們要感謝CASP的組織者和整個社區(qū),尤其是實驗人員,其組織架構使得這種嚴格的評估成為可能。
CASP用來衡量預測精度的主要指標是全距離檢驗(GDT),其范圍為0-100。簡單地說,GDT可以近似地認為是氨基酸殘基(蛋白質鏈中的珠子)在離正確位置一定距離內的百分比。根據(jù)Moult教授的說法,90 左右的GDT分數(shù)被非正式地認為與實驗方法得到的結果相似。
在今天發(fā)布的第14次CASP評估的結果中,我們最新的AlphaFold系統(tǒng)在所有目標中實現(xiàn)了92.4的GDT總分。這意味著我們的預測平均誤差(RMSD)約為1.6埃,相當于一個原子的寬度(或0.1納米)。即使對于最難的蛋白質目標,那些在最具挑戰(zhàn)性的自由建模類別,AlphaFold也達到了87.0 GDT的中位數(shù)(數(shù)據(jù)可在這里獲得)。
這些令人興奮的結果為生物學家將計算結構預測作為科學研究的核心工具打開了大門。我們的方法可能被證明會有助于重要的蛋白質類,如膜蛋白,這些蛋白質很難結晶,因此很難實驗測定。
“這項計算工作代表了蛋白質折疊問題的驚人進展,這是生物學界一個有50年歷史的重大挑戰(zhàn)。幾十年前,這個領域的許多人還沒有預料到??吹剿鼘母旧细淖兩飳W研究的許多方面,這非常令人興奮。”VENKI RAMAKRISHNAN教授,諾貝爾獎獲得者、英國皇家學會主席。
蛋白質折疊問題的探討
2018年,我們首次使用AlphaFold的初始版本進入CAP13,該版本在參賽者中達到了最高的精確度。之后,我們發(fā)表了一篇關于CASP13方法和相關代碼的文章,這篇文章進一步啟發(fā)了其他工作和社區(qū)開發(fā)的開源實現(xiàn)?,F(xiàn)在,我們開發(fā)的新的深度學習體系結構改變了我們對CASP14的方法,使其能夠達到無與倫比的精確度。這些方法從生物學、物理學和機器學習領域獲得靈感,當然也包括過去半個世紀以來蛋白質折疊領域許多科學家的工作。
折疊的蛋白質可以看作是一個“空間圖”,其中殘基是節(jié)點,邊將殘基緊密地連接在一起。這張圖對于理解蛋白質內部的物理相互作用以及它們的進化史很重要。對于CASP14使用的AlphaFold的最新版本,我們創(chuàng)建了一個基于注意力的神經(jīng)網(wǎng)絡系統(tǒng),經(jīng)過端到端的訓練,它試圖解釋這個圖的結構,同時對它所構建的隱式圖進行推理。它使用進化相關序列、多序列比對(MSA)和氨基酸殘基對的表示來細化該圖。
通過重復這個過程,系統(tǒng)可以對蛋白質的基本物理結構做出強有力的預測,并且能夠在幾天內確定高度精確的結構。此外,AlphaFold可以使用內部置信度來評估每個預測的蛋白質結構的哪些部分是可靠的。
我們利用蛋白質數(shù)據(jù)庫中的170000個蛋白質結構和包含未知結構蛋白質序列的大型數(shù)據(jù)庫對該系統(tǒng)進行了訓練。它使用大約128個TPUv3內核(大約相當于約100-200個gpu)運行數(shù)周。與我們的CASP13 AlphaFold系統(tǒng)一樣,我們正在準備一篇關于該系統(tǒng)的論文,以便在適當?shù)臅r候提交給同行評審的期刊。
對現(xiàn)實世界的影響
十年前,當DeepMind成立時,我們希望有一天人工智能的突破能夠成為一個平臺,幫助我們更好地理解基本科學問題?,F(xiàn)在,經(jīng)過4年的努力建立了AlphaFold,我們開始看到這一愿景的實現(xiàn),并對****物設計和環(huán)境可持續(xù)性等領域產(chǎn)生了影響。
馬克斯·普朗克發(fā)育生物學研究所所長、CASP評估師安德烈·盧帕斯教授告訴我們,“AlphaFold驚人準確的模型使我們能夠解決我們在近10年里一直堅持的蛋白質結構,重新啟發(fā)了我們對信號如何通過細胞膜傳遞的理解。”
我們對AlphaFold在生物學研究和更廣闊的世界的影響持樂觀態(tài)度,我們也很高興與其他人合作,在未來的歲月里進一步了解它的潛力。除了撰寫同行評議的論文外,我們還在探索如何以可伸縮的方式提供對系統(tǒng)更廣泛的訪問。
同時,我們也在研究蛋白質結構預測如何與少數(shù)專家小組一起幫助我們了解特定疾病,例如幫助識別出有故障的蛋白質并解釋它們如何相互作用。這些認識可以使****物的研發(fā)更精確,補充現(xiàn)有的實驗方法,更快地找到有希望的治療方法。
“預測蛋白質結構的速度是驚人的。這一飛躍展示了數(shù)值計算方法準備如何改變生物學研究,并有望加速****物發(fā)現(xiàn)?!眮喩·萊文森。博士,創(chuàng)始人兼首席執(zhí)行官卡利科,前董事長兼首席執(zhí)行官,基因泰克
我們也看到一些跡象表明,蛋白質結構預測在未來的疾病大流行應對工作中可能是有用的,它是科學界開發(fā)的許多工具之一。今年早些時候,我們預測了SARS-CoV-2病毒的幾種蛋白質結構,包括ORF3a,其結構以前是未知的。在CASP14,我們預測了另一種冠狀病毒蛋白質ORF8的結構。實驗家們已經(jīng)證實了ORF3a和ORF8的結構。盡管它們具有挑戰(zhàn)性,而且相關序列很少,但與實驗確定的結構相比,我們在兩種預測上都獲得了較高的準確度。
除了加速對已知疾病的了解外,這些技術仍然有潛力探索我們目前還沒有模型的數(shù)億蛋白質結構,這是一個生物學未知的廣闊領域。由于DNA指定了構成蛋白質結構的氨基酸序列,基因組學革命使得人們能夠大規(guī)模地從自然界中讀取蛋白質序列——有1.8億個蛋白質序列,并在通用蛋白質數(shù)據(jù)庫(UniProt)中計數(shù)。相比之下,考慮到從序列到結構所需的實驗工作,蛋白質數(shù)據(jù)庫(PDB)中只有大約170000個蛋白質結構。在這些尚未確定的蛋白質中,可能會有一些新的和令人興奮的功能,就像望遠鏡能幫助人們更深入地觀察未知的宇宙一樣,像AlphaFold這樣的技術可以幫助我們找到它們。
未來新的可能性
AlphaFold是迄今為止我們最重要的進展之一,但是,與所有科學研究一樣,仍然有許多問題需要回答。不是每一個我們預測的結構都是完美的。還有很多東西需要學習,包括多個蛋白質如何形成復合物,它們如何與DNA、RNA或小分子相互作用,以及我們如何確定所有氨基酸側鏈的精確位置。在與其他人的合作中,我們還需要學習如何最好地利用這些科學發(fā)現(xiàn)來開發(fā)新****、管理環(huán)境的方法等等。
對于我們所有致力于科學計算和機器學習方法的人來說,AlphaFold這樣的系統(tǒng)展示了人工智能作為幫助基礎發(fā)現(xiàn)的工具的潛力。正如50年前安芬森提出了一個遠遠超出科學研究范圍的挑戰(zhàn),我們宇宙的許多方面仍然是未知的。今天宣布的進展讓我們進一步相信,人工智能將成為人類拓展科學知識前沿最有用的工具之一,我們期待著未來多年的努力和發(fā)現(xiàn)!
原文鏈接:
https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。