生命所必需的幾乎所有基本生物過程都是由蛋白質(zhì)完成的。它們創(chuàng)造并保持細(xì)胞和組織的形狀;構(gòu)成催化維持生命的化學(xué)反應(yīng)的酶;充當(dāng)分子工廠,運(yùn)輸工具和電機(jī);用作蜂窩通信的信號和接收器;以及更多。
蛋白質(zhì)由長鏈氨基酸組成,通過將自身折疊成精確的3D結(jié)構(gòu)來控制它們與其他分子的相互作用,從而完成這些無數(shù)的任務(wù)。由于蛋白質(zhì)的形狀決定了它的功能及其在疾病中的功能障礙程度,因此闡明蛋白質(zhì)結(jié)構(gòu)的努力是所有分子生物學(xué)的核心 - 特別是治療科學(xué)以及拯救生命和改變生命的藥物的發(fā)展。
近年來,計算方法在基于其氨基酸序列的知識預(yù)測蛋白質(zhì)如何折疊方面取得了重大進(jìn)展。如果完全實(shí)現(xiàn),這些方法有可能改變生物醫(yī)學(xué)研究的幾乎所有方面。然而,目前的方法在可以確定的蛋白質(zhì)的規(guī)模和范圍方面受到限制。
現(xiàn)在,哈佛醫(yī)學(xué)院的一位科學(xué)家使用了一種稱為深度學(xué)習(xí)的人工智能來預(yù)測基于其氨基酸序列的任何蛋白質(zhì)的三維結(jié)構(gòu)。
系統(tǒng)生物學(xué)家Mohammed AlQuraishi于4月17日在Cell Systems上在線報道,詳細(xì)介紹了一種計算確定蛋白質(zhì)結(jié)構(gòu)的新方法 - 實(shí)現(xiàn)與當(dāng)前方法相當(dāng)?shù)木_度,但速度提高了一百萬倍。
“在過去的半個世紀(jì)里,蛋白質(zhì)折疊一直是生物化學(xué)家*重要的問題,這種方法代表了應(yīng)對這一挑戰(zhàn)的一種全新方式,”AlQuraishi說,他是HMS Blavatnik研究所系統(tǒng)生物學(xué)講師,同時也是系統(tǒng)藥理學(xué)實(shí)驗室。“我們現(xiàn)在有一個全新的遠(yuǎn)景來探索蛋白質(zhì)折疊,我想我們剛剛開始劃傷表面。”
容易說明
雖然非常成功,但使用物理工具識別蛋白質(zhì)結(jié)構(gòu)的過程既昂貴又耗時,即使使用低溫電子顯微鏡等現(xiàn)代技術(shù)也是如此。因此,絕大多數(shù)蛋白質(zhì)結(jié)構(gòu) - 以及引起疾病的突變對這些結(jié)構(gòu)的影響 - 仍然在很大程度上是未知的。
計算蛋白質(zhì)折疊方式的計算方法有可能顯著降低確定結(jié)構(gòu)所需的成本和時間。但是,經(jīng)過近四十年的緊張努力,這個問題很難解決。
蛋白質(zhì)由20種不同氨基酸的文庫構(gòu)建。這些行為像字母表中的字母,組合成單詞,句子和段落,以產(chǎn)生天文數(shù)字的可能文本。然而,與字母不同,氨基酸是位于3D空間中的物理對象。通常,蛋白質(zhì)的部分將在物理上接近,但在序列方面間隔很遠(yuǎn),因為其氨基酸鏈形成環(huán),螺旋,片和扭曲。
“這個問題引人注目的是它很容易陳述:采取一個序列并找出形狀,”AlQuraishi說。“一種蛋白質(zhì)起源于一種非結(jié)構(gòu)化的細(xì)胞系,必須具有三維形狀,一根細(xì)繩可以折疊成可能形狀的形狀是巨大的。許多蛋白質(zhì)長達(dá)數(shù)千個氨基酸,并且復(fù)雜性很快超過了人類直覺甚至是*強(qiáng)大的計算機(jī)。“
很難解決
為了應(yīng)對這一挑戰(zhàn),科學(xué)家利用氨基酸根據(jù)物理定律相互作用的事實(shí),尋找能量有利的狀態(tài),如滾球下坡到山谷底部。
的算法通過在超級計算機(jī)上運(yùn)行來計算蛋白質(zhì)結(jié)構(gòu) - 或者在Rosetta @ Home和Folding @ Home等項目中利用眾包計算能力來模擬氨基酸相互作用的復(fù)雜物理通過蠻力。為了減少大量的計算需求,這些項目依賴于將新序列映射到預(yù)定義的模板上,這些模板是先前通過實(shí)驗確定的蛋白質(zhì)結(jié)構(gòu)。
其他項目,如谷歌的AlphaFold,通過利用人工智能的進(jìn)步來預(yù)測蛋白質(zhì)的結(jié)構(gòu),*近產(chǎn)生了巨大的興奮。為此,這些方法解析了大量的基因組數(shù)據(jù),其中包含蛋白質(zhì)序列的藍(lán)圖。他們尋找可能一起進(jìn)化的許多物種的序列,使用這樣的序列作為與指導(dǎo)結(jié)構(gòu)組件緊密物理接近的指示物。
然而,這些AI方法不能僅基于蛋白質(zhì)的氨基酸序列預(yù)測結(jié)構(gòu)。因此,它們對于沒有先驗知識的蛋白質(zhì),進(jìn)化獨(dú)特蛋白質(zhì)或人類設(shè)計的新蛋白質(zhì)具有有限的功效。
深入培訓(xùn)
為了開發(fā)新方法,AlQuraishi應(yīng)用了所謂的端到端可微分深度學(xué)習(xí)。人工智能的這一分支極大地降低了解決圖像和語音識別等問題所需的計算能力和時間,從而實(shí)現(xiàn)了Apple的Siri和Google Translate等應(yīng)用程序。
本質(zhì)上,可微分學(xué)習(xí)涉及單一的,巨大的數(shù)學(xué)函數(shù) - 高中微積分方程的更復(fù)雜版本 - 被安排為神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的每個組成部分向前和向后饋送信息。
該功能可以在難以想象的復(fù)雜程度上反復(fù)調(diào)整和調(diào)整自身,以便“精確地”學(xué)習(xí)蛋白質(zhì)序列在數(shù)學(xué)上與其結(jié)構(gòu)的關(guān)系。
AlQuraishi開發(fā)了一種深度學(xué)習(xí)模型,稱為復(fù)發(fā)幾何網(wǎng)絡(luò),側(cè)重于蛋白質(zhì)折疊的關(guān)鍵特征。但在它可以進(jìn)行新的預(yù)測之前,必須使用先前確定的序列和結(jié)構(gòu)進(jìn)行訓(xùn)練。
對于每種氨基酸,該模型預(yù)測將氨基酸與其鄰居連接的化學(xué)鍵的*可能角度。它還預(yù)測圍繞這些鍵的旋轉(zhuǎn)角度,這會影響蛋白質(zhì)的任何局部區(qū)域與整個結(jié)構(gòu)的幾何關(guān)系。
這是重復(fù)進(jìn)行的,每次計算都通過每個其他氨基酸的相對位置進(jìn)行通知和改進(jìn)。一旦整個結(jié)構(gòu)完成,模型通過將其與蛋白質(zhì)的“基礎(chǔ)事實(shí)”結(jié)構(gòu)進(jìn)行比較來檢查其預(yù)測的準(zhǔn)確性。
對于數(shù)千種已知蛋白質(zhì),重復(fù)整個過程,模型學(xué)習(xí)并在每次迭代時提高其準(zhǔn)確性。
新的遠(yuǎn)景
一旦他的模型被訓(xùn)練,AlQuraishi測試了它的預(yù)測能力。他將其性能與*近幾年蛋白質(zhì)結(jié)構(gòu)預(yù)測的關(guān)鍵評估中的其他方法進(jìn)行了比較 - 這是一項年度實(shí)驗,測試計算方法是否能夠使用已經(jīng)確定但未公開發(fā)布的蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測。
他發(fā)現(xiàn)新模型在預(yù)測蛋白質(zhì)結(jié)構(gòu)方面優(yōu)于所有其他方法,其中沒有預(yù)先存在的模板,包括使用共同進(jìn)化數(shù)據(jù)的方法。當(dāng)預(yù)先存在的模板可用于進(jìn)行預(yù)測時,它也優(yōu)于除*佳方法之外的所有方法。
雖然這些準(zhǔn)確度的提高相對較小,但AlQuraishi指出,這些測試端的任何改進(jìn)都難以實(shí)現(xiàn)。并且因為這種方法代表了一種全新的蛋白質(zhì)折疊方法,它可以補(bǔ)充現(xiàn)有的計算和物理方法,以確定比以前更廣泛的結(jié)構(gòu)。
引人注目的是,新模型的預(yù)測速度比現(xiàn)有的計算方法快6到7個數(shù)量級。訓(xùn)練模型可能需要數(shù)月,但一旦訓(xùn)練,它可以在幾毫秒內(nèi)進(jìn)行預(yù)測,與使用其他方法所花費(fèi)的時間相比。這種顯著的改進(jìn)部分是由于它所基于的單一數(shù)學(xué)函數(shù),只需要幾千行計算機(jī)代碼而不是數(shù)百萬。
AlQuraishi說,這種模型預(yù)測的快速速度使得以前緩慢或難以實(shí)現(xiàn)的新應(yīng)用成為可能,例如預(yù)測蛋白質(zhì)在與其他分子相互作用時如何改變其形狀。
“深度學(xué)習(xí)方法,不僅僅是我的方法,將繼續(xù)增強(qiáng)其預(yù)測能力和普及性,因為它們代表了一種簡單,簡單的范例,可以比現(xiàn)有的復(fù)雜模型更容易地整合新思想,”他補(bǔ)充道。
AlQuraishi說,新模型還沒有立即用于藥物發(fā)現(xiàn)或設(shè)計,因為它的準(zhǔn)確度目前大約在6埃左右 - 距離解決完整原子結(jié)構(gòu)所需的1到2埃還有一段距離。一種蛋白質(zhì)。但他說,有很多機(jī)會可以優(yōu)化這種方法,包括進(jìn)一步整合化學(xué)和物理學(xué)的規(guī)則。
“準(zhǔn)確有效地預(yù)測蛋白質(zhì)折疊一直是該領(lǐng)域的圣杯,我希望并期望這種方法與已開發(fā)的所有其他卓越方法相結(jié)合,能夠在不久的將來實(shí)現(xiàn)這一目標(biāo), “AlQuraishi說。“我們很快就可以解決這個問題,而且我認(rèn)為五年前沒有人會這么說。這是非常令人興奮的,同時也是令人震驚的。”
為了幫助其他人參與方法開發(fā),AlQuraishi通過GitHub軟件共享平臺免費(fèi)提供他的軟件和結(jié)果。
“AlQuraishi工作的一個顯著特點(diǎn)是,嵌入哈佛醫(yī)學(xué)院和波士頓生物醫(yī)學(xué)界豐富的研究生態(tài)系統(tǒng)的單一研究人員可以與谷歌等公司在計算機(jī)科學(xué)*熱門的領(lǐng)域競爭,”彼得說。 Sorger,HMS Otto Krayer HMS Blavatnik研究所系統(tǒng)藥理學(xué)教授,HMS系統(tǒng)藥理學(xué)實(shí)驗室主任和AlQuraishi的學(xué)術(shù)導(dǎo)師。
“低估像AlQuraishi這樣的優(yōu)秀研究員在公共領(lǐng)域使用開源軟件的破壞性影響是不明智的,”Sorger說。