熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

"); //-->

博客專欄

EEPW首頁 > 博客 > 一個基于Transformer的深度學(xué)習(xí)架構(gòu),在基因調(diào)控中組蛋白代碼的定量破譯方面性能超群

一個基于Transformer的深度學(xué)習(xí)架構(gòu),在基因調(diào)控中組蛋白代碼的定量破譯方面性能超群

發(fā)布人:機(jī)器之心 時間:2022-11-19 來源:工程師 發(fā)布文章
編輯 | 蘿卜皮

通過組蛋白修飾對轉(zhuǎn)錄控制的定量表征受到許多計算研究的挑戰(zhàn),但其中大多數(shù)只關(guān)注啟動子周圍的狹窄和線性基因組區(qū)域,留下了改進(jìn)的空間。

韓國首爾大學(xué)的研究人員提出了 Chromoformer,這是一種基于 Transformer 的三維染色質(zhì)構(gòu)象感知深度學(xué)習(xí)架構(gòu),它在基因調(diào)控中組蛋白代碼的定量破譯方面實現(xiàn)了最先進(jìn)的性能。Chromoformer 架構(gòu)的核心本質(zhì)在于注意力操作的三個變體,每個變體都專門模擬轉(zhuǎn)錄調(diào)控的個體層次,涉及從核心啟動子到通過三維染色質(zhì)相互作用與啟動子接觸的遠(yuǎn)端元件。

對 Chromoformer 的深入解釋表明,它自適應(yīng)地利用了與轉(zhuǎn)錄起始和延伸相關(guān)的組蛋白修飾之間的長程依賴性。研究表明,Chromoformer 可以捕獲轉(zhuǎn)錄工廠和 Polycomb 基團(tuán)的定量動力學(xué)。總之,這項研究突出了基于注意力的表觀基因組中復(fù)雜相互作用的深度建模的巨大優(yōu)勢。

該研究以「Learning the histone codes with large genomic windows and three-dimensional chromatin interactions using transformer」為題,于 2022 年 11 月 5 日發(fā)布在《Nature Communications》。

圖片

基因表達(dá)的控制由不同組的調(diào)節(jié)因子進(jìn)行,包括轉(zhuǎn)錄因子、共激活因子、輔助抑制因子以及基因組序列元件。然而,這些因素相互作用背后的基本前提是在相關(guān)基因組區(qū)域中組蛋白尾部或組蛋白修飾(HMs)的共價修飾的適當(dāng)配置,因為它們在染色質(zhì)可及性的調(diào)節(jié)中起關(guān)鍵作用。因此,可以設(shè)想一定數(shù)量的 HM 及其組合編碼了附近基因組區(qū)域的調(diào)節(jié)潛力。

這個概念被稱為「組蛋白密碼假說」。已經(jīng)有許多計算和定量方法來破解由 HM 編碼的基因表達(dá)的調(diào)控代碼。它們中的大多數(shù)是預(yù)測模型,利用轉(zhuǎn)錄起始位點(TSS)周圍啟動子的 HMs 水平來預(yù)測相應(yīng)基因的表達(dá)水平。值得注意的是,最近的研究表明,在這項任務(wù)中,深度學(xué)習(xí)模型與傳統(tǒng)機(jī)器學(xué)習(xí)模型相比具有卓越的性能。

兩個挑戰(zhàn)

迄今為止,深度學(xué)習(xí)已經(jīng)在計算生物學(xué)的各個領(lǐng)域取得了顯著的突破,從表征結(jié)合 DNA 和 RNA 結(jié)合蛋白的特異性,到長期存在的基于氨基酸序列的蛋白質(zhì)結(jié)構(gòu)預(yù)測問題。如果沒有新的模型架構(gòu)的發(fā)明以及它們對復(fù)雜生物學(xué)問題的巧妙應(yīng)用,就無法在生物學(xué)中取得深度學(xué)習(xí)的這些成功。從這個意義上說,組蛋白代碼的高度復(fù)雜性確實使其成為深度學(xué)習(xí)的一個很好的目標(biāo),如現(xiàn)有方法所示,但它們?nèi)匀淮嬖趦蓚€主要的限制,推動了新方法的開發(fā)。

首先,他們只能在 TSS 周圍使用狹窄的基因組窗口。這是因為這些模型所基于的深度學(xué)習(xí)架構(gòu),例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),在對長序列內(nèi)的依賴關(guān)系進(jìn)行建模時效果不佳。CNN 高度專業(yè)于學(xué)習(xí)數(shù)據(jù)的局部模式,但對它們來說學(xué)習(xí)模式之間的遠(yuǎn)距離依賴關(guān)系具有挑戰(zhàn)性。

盡管 RNN 架構(gòu)是為對序列數(shù)據(jù)進(jìn)行建模而開發(fā)的,但由于嵌入在單個位置的信息逐漸被稀釋并被污染,而模型計算沿著兩個遙遠(yuǎn)位置之間的位置傳播,RNN 架構(gòu)也難以清楚地捕獲遠(yuǎn)程依賴關(guān)系。事實上,諸如門控循環(huán)單元或長短期記憶 (LSTM) 之類的 RNN 單元的高級形式部分地改善了這個問題,但是由于循環(huán)而對長序列進(jìn)行建模的內(nèi)在低效率仍然存在。

其次,大多數(shù)深度學(xué)習(xí)模型不考慮由三維(3D)染色質(zhì)折疊介導(dǎo)的遠(yuǎn)端順式調(diào)節(jié),盡管眾所周知,核心啟動子和遠(yuǎn)端順式調(diào)節(jié)元件之間的物理相互作用會嚴(yán)重調(diào)節(jié)基因表達(dá)。換言之,組蛋白代碼所傳達(dá)的調(diào)控信息不僅可以在本地傳播,還可以通過 3D 染色質(zhì)相互作用在遙遠(yuǎn)的基因組位點之間跳躍。

幸運(yùn)的是,Hi-C 等高通量測量技術(shù)的最新進(jìn)展成功地提供了千堿基規(guī)模的 3D 染色質(zhì)相互作用的高分辨率視圖,并為研究人員提供了前所未有的機(jī)會,來利用這些有價值的信息來模擬基因調(diào)控的綜合觀點。很少有新興研究明確考慮 3D 染色質(zhì)相互作用來預(yù)測基因表達(dá)。一個這樣的例子是 GC-MERGE,這是一種圖神經(jīng)網(wǎng)絡(luò) (GNN),用于在相互作用的基因組區(qū)域之間傳播信息以預(yù)測基因的表達(dá)水平。

雖然它是一個概念驗證模型,不能應(yīng)用于沒有任何染色質(zhì)相互作用的基因,并且只能執(zhí)行 10 kbp 基因組 bin 級別的預(yù)測,但不能在基因級別進(jìn)行預(yù)測,它仍然強(qiáng)調(diào)了對遠(yuǎn)端基因組區(qū)域以及啟動子的表觀基因組環(huán)境進(jìn)行建模的前景。

Transformer 也許是****方

與此同時,最初為自然語言處理而開發(fā)的名為 Transformer 的深度學(xué)習(xí)模型架構(gòu),在理解 DNA 序列、氨基酸序列甚至它們的比對的潛在語法方面表現(xiàn)出巨大的潛力。在這項研究中,研究人員注意到 Transformer 架構(gòu)的兩個主要功能非常適合解決上述兩個挑戰(zhàn)。

首先,Transformer 可以精確地建模序列數(shù)據(jù)中的長期依賴關(guān)系。這是通過向輸入序列添加位置編碼來優(yōu)雅地完成的。這些包含位置信息的輸入特征被獨立處理,并被輸入到隨后的自注意力模塊中,該模塊計算輸入特征之間的所有成對依賴關(guān)系。因此,可以在不受位于對之間的特征干擾的情況下捕獲遠(yuǎn)程依賴關(guān)系。

其次,Transformer 架構(gòu)也可以應(yīng)用于建模無序的實體集以及它們之間的交互。值得注意的是,對于大多數(shù)深度學(xué)習(xí)架構(gòu)來說,這并不簡單,因為包含它們的操作取決于輸入位置。另一方面,構(gòu)成變換器的操作基本上是置換不變的。

輸入特征之間的交互僅在 self-attention 操作中考慮,所有其他操作都以位置方式完成,因此它們可以應(yīng)用于模型的無序特征集??傊?,Transformer 架構(gòu)的這兩個優(yōu)勢使其成為組蛋白代碼定量建模的有希望的選擇,因為它允許研究人員同時在多個遠(yuǎn)端調(diào)控區(qū)域利用 TSS 附近更寬的基因組窗口和組蛋白代碼。

基于Transformer 的深度學(xué)習(xí)架構(gòu) Chromoformer

圖片

圖示:Chromoformer 模型架構(gòu)。(來源:論文)

在這里,首爾大學(xué)的研究人員提出了一種名為 Chromoformer 的基于 Transformer 的深度學(xué)習(xí)架構(gòu),以模擬組蛋白代碼在基因表達(dá)調(diào)控中的定量作用。Chromoformer 通過對涉及核心啟動子和 pCRE 的三級順式調(diào)節(jié)層次進(jìn)行建模,極大地提高了基因表達(dá)預(yù)測的性能。

通過對 self-attention 權(quán)重、潛在嵌入動力學(xué)和幾個特征消融研究的分析,研究人員對 Chromoformer 模型的行為提供了深入的生物學(xué)解釋。

圖片

圖示:促成 Chromoformer 卓越性能的因素。(來源:論文)

由于 Transformer 能夠理解序列中的遠(yuǎn)距離依賴性,Chromoformer 可以成功地學(xué)習(xí)關(guān)注基因體內(nèi)的特定區(qū)域,在該區(qū)域中,與基因表達(dá)相關(guān)的 HM 在高表達(dá)和低表達(dá)基因之間最為獨特。有趣的是,對基因體的關(guān)注程度取決于 TSS 的表觀遺傳背景,這意味著 Chromoformer 模型捕獲了放置在 TSS 和基因體的 HM 的遠(yuǎn)距離依賴性。

另一方面,通過使用 Transformer 對一組無序特征中的成對關(guān)系進(jìn)行建模,Chromoformer 可以了解由組蛋白代碼介導(dǎo)的信息如何通過 3D 染色質(zhì)折疊從 pCRE 傳播到核心啟動子以調(diào)節(jié)基因表達(dá)。對模型學(xué)習(xí)的組蛋白密碼的潛在表示的分析強(qiáng)調(diào),持家基因和細(xì)胞類型特異性基因的表達(dá)通過與增強(qiáng)子的相互作用得到加強(qiáng),而發(fā)育基因的表達(dá)主要通過與 PRC2 結(jié)合的消音器的相互作用受到抑制。

該團(tuán)隊使用 3D 染色質(zhì)相互作用的預(yù)編譯知識來指導(dǎo) Chromoformer 學(xué)習(xí)。那些通過實驗測量的交互頻率被用來確定將參與模型訓(xùn)練的 pCRE 的優(yōu)先級,這些 pCRE 被顯式地注入到自我注意得分矩陣中。

然而,僅從基因組序列信息中推斷 pCRE 和核心啟動子之間的相互作用頻率似乎也是可能的。這是因為順式調(diào)控相互作用的特異性很大程度上取決于 DNA 結(jié)合蛋白對 DNA 序列基序的識別,包括轉(zhuǎn)錄因子或 CCCTC 結(jié)合因子 (CTCF),它們作為分隔 3D 基因組構(gòu)象的絕緣體。因此,嵌入基因組中的那些結(jié)合基序可以作為隱藏的詞匯表,允許僅基于 DNA 序列推斷所需的染色質(zhì)構(gòu)象。

圖片

圖示:Chromoformer 學(xué)習(xí)的順式調(diào)節(jié)特征。(來源:論文)

同時,來自最近名為 Enformer 的模型的結(jié)果強(qiáng)烈支持,當(dāng)使用更廣泛的序列信息時,pCRE 的這種從頭排序更有效,從而表明通過使用 Transformer 架構(gòu)整合基因組和表觀基因組特征,實現(xiàn)基因表達(dá)調(diào)控的完全數(shù)據(jù)驅(qū)動建模的令人興奮的可能性。該團(tuán)隊將這種基于 Transformer 的多組學(xué)集成作為進(jìn)一步的工作。

從活躍的 TSS 跳轉(zhuǎn)到基因體的嵌入 Transformer 所學(xué)到的注意力表明,在預(yù)測穩(wěn)態(tài)基因表達(dá)水平時,放置在基因體上的 HM 確實是有用的,即使不是最關(guān)鍵的信息。從這個結(jié)果中,研究人員考慮使用分布在單個基因中的整個組蛋白代碼景觀,可以進(jìn)一步提高穩(wěn)態(tài) mRNA 水平的預(yù)測準(zhǔn)確性的可能性。

此外,由于研究所用的 H3K36me3 的外顯子比內(nèi)含子豐富得多,因此利用全長基因注釋將是模型訓(xùn)練的另一個有效指導(dǎo)。由于基因長度和外顯子-內(nèi)含子分布顯示出很大的可變性,研究人員需要對這種生物學(xué)先驗知識進(jìn)行一些巧妙的表示。

同樣,Transformer 架構(gòu)將是最強(qiáng)大的選擇之一,因為可以靈活地應(yīng)用掩碼來處理可變長度輸入,還可以擴(kuò)展位置編碼以形成復(fù)合編碼,同時包含基因組位置和基因結(jié)構(gòu)注釋的信息。

為 Chromoformer 模型提出的訓(xùn)練方案具有高度可擴(kuò)展性。例如,該團(tuán)隊展示了 Chromoformer 模型可以針對來自人類以外物種的細(xì)胞類型進(jìn)行訓(xùn)練,即小鼠胚胎干細(xì)胞,使用相關(guān)的組蛋白 ChIP-seq 和 Hi-C 配置文件,通過跨物種預(yù)測性能證明了兩個物種之間組蛋白代碼語法之間的總體相似性。

圖片

圖示:Chromoformer 的跨物種和跨細(xì)胞類型預(yù)測性能。(來源:論文)

此外,跨細(xì)胞類型預(yù)測實驗表明,在一種細(xì)胞類型中訓(xùn)練的 Chromoformer 模型在一定程度上仍適用于其他細(xì)胞類型(相對驗證AUC?>?92%),相似細(xì)胞類型的交叉預(yù)測性能更高。

這意味著以細(xì)胞類型特異性方式訓(xùn)練的 Chromoformer 不僅學(xué)習(xí)了基因調(diào)控的細(xì)胞類型特異性特征,而且仍然捕獲了可普遍應(yīng)用于其他細(xì)胞類型的一般規(guī)則。如果它可以表示為全基因組信號值的數(shù)組,則可以擴(kuò)展顯色體訓(xùn)練以包含任何額外的表觀基因組特征。這些特征包括轉(zhuǎn)錄因子 ChIP-seq 信號或用于隔間識別的第一主成分 (PC1) 信號。

圖片

圖示:在 Chromoformer 訓(xùn)練中加入 CTCF 結(jié)合信號。(來源:論文)

論文中介紹,CTCF 結(jié)合是 3D 基因組結(jié)構(gòu)的關(guān)鍵決定因素,并且通過遠(yuǎn)端增強(qiáng)子 - 啟動子相互作用在基因激活中也突出了啟動子 - 近端 CTCF 結(jié)合,如上圖所示。該團(tuán)隊證明,包括 CTCF 在內(nèi)的 Chromoformer-clf 性能有邊際但一致的增加,而嵌入 Transformer 的 Chromoformer-clf 模型的增加更大。

另一方面,使用 PC1 值作為附加特征通知 Chromoformer 細(xì)胞類型特異性基因組劃分狀態(tài)不會導(dǎo)致顯著的整體性能提升。盡管區(qū)室化與基因表達(dá)水平相關(guān),但由于關(guān)聯(lián)的絕對水平(皮爾遜相關(guān)系數(shù) 0.12–0.19)不夠大,該團(tuán)隊認(rèn)為,區(qū)室級特征的預(yù)測能力沒有超過基因級 HM 特征的預(yù)測能力。

圖片

圖示:在 Chromoformer 訓(xùn)練中納入基因組劃分狀態(tài)。(來源:論文)

總之,Chromoformer 是另一個示例性應(yīng)用,它強(qiáng)調(diào)了 Transformer 架構(gòu)在生物序列建模方面的巨大潛力。該研究還強(qiáng)調(diào)了開發(fā)有效嵌入生物先驗知識的專業(yè)深度學(xué)習(xí)架構(gòu)的重要性,不僅可以提高預(yù)測任務(wù)的性能,還可以定量表征生物實體之間的復(fù)雜關(guān)系。

論文鏈接:https://www.nature.com/articles/s41467-022-34152-5


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉