近年來,盡管人類基因組計劃和單細(xì)胞圖譜技術(shù)取得了重大突破,脊椎動物基因組中**非編碼調(diào)控序列的功能語法**仍未被完全解析。這些序列雖不編碼蛋白質(zhì),卻在基因表達(dá)調(diào)控、細(xì)胞命運決定、疾病發(fā)生等方面發(fā)揮著關(guān)鍵作用。如何從基因組序列出發(fā),精準(zhǔn)預(yù)測其在不同細(xì)胞類型中的功能,成為生命科學(xué)領(lǐng)域的核心挑戰(zhàn)之一。
2025年7月8日,浙江大學(xué)醫(yī)學(xué)院/良渚實驗室郭國驥教授團(tuán)隊在國際頂級期刊《Cell》發(fā)表題為《Modeling the vertebrate regulatory sequence landscape by UUATAC-seq and deep learning》的研究論文,宣布構(gòu)建了首個**基于基因組序列預(yù)測脊椎動物單細(xì)胞調(diào)控圖譜的AI模型——女媧CE(NuwaCE)**。
這項研究不僅開發(fā)了全球領(lǐng)先的超高通量超靈敏單核ATAC測序技術(shù)(UUATAC-seq),還首次實現(xiàn)了**從DNA序列到染色質(zhì)可及性圖譜的端到端預(yù)測**,揭示了脊椎動物調(diào)控序列在進(jìn)化過程中的保守性與功能模塊化,為解析“基因組語言”、推動精準(zhǔn)醫(yī)學(xué)和合成生物學(xué)提供了全新工具(http://www.weberwork.com/sell/l_5/)。
自主創(chuàng)新:UUATAC-seq——引領(lǐng)單細(xì)胞染色質(zhì)開放圖譜繪制技術(shù)
在本研究中,郭國驥團(tuán)隊自主研發(fā)了**超高通量、超高靈敏度的單核ATAC測序技術(shù)——UUATAC-seq**,實現(xiàn)了技術(shù)上的雙重突破:
- **超高靈敏度**:通過創(chuàng)新的雙端同型轉(zhuǎn)座酶切設(shè)計與體外精準(zhǔn)溫度控制策略,顯著提升了對染色質(zhì)開放區(qū)域的捕獲效率;
- **超高通量**:采用四輪組合標(biāo)簽策略,一次實驗即可獲得數(shù)量級高于現(xiàn)有技術(shù)的信息量,大幅提升了數(shù)據(jù)獲取效率。
此外,UUATAC-seq首次實現(xiàn)了**雙鏈模板測序**,突破了傳統(tǒng)單鏈測序技術(shù)的局限,顯著提升了對染色質(zhì)開放區(qū)域的解讀維度。該技術(shù)還具備**極強(qiáng)的樣本兼容性**,無論是新鮮樣本還是固定樣本,均能實現(xiàn)高效測序,解決了傳統(tǒng)方法中TSS(轉(zhuǎn)錄起始位點)偏好性的問題,提高了數(shù)據(jù)的準(zhǔn)確性和可靠性。
跨物種全景圖譜:五大脊椎動物染色質(zhì)可及性圖譜構(gòu)建完成
基于UUATAC-seq技術(shù),研究團(tuán)隊對五大代表性脊椎動物綱目進(jìn)行了系統(tǒng)性分析,包括:
- 哺乳類(小鼠)
- 鳥類(雞)
- 爬行類(守宮)
- 兩棲類(蠑螈)
- 水生類(斑馬魚)
團(tuán)隊成功構(gòu)建了跨物種、全身范圍的高質(zhì)量染色質(zhì)可及性圖譜,覆蓋數(shù)百萬個順式調(diào)控元件。通過深度解析這些調(diào)控元件,研究揭示了脊椎動物細(xì)胞類型演化過程中**調(diào)控程序的保守性與特異性**:
- 基因組大小與開放染色質(zhì)區(qū)域數(shù)量高度相關(guān);
- 單個開放區(qū)域的長度在不同物種間表現(xiàn)出高度一致性;
- 調(diào)控序列的“語法”保守性遠(yuǎn)高于其核苷酸序列本身。
這些發(fā)現(xiàn)為理解脊椎動物基因調(diào)控網(wǎng)絡(luò)的進(jìn)化機(jī)制提供了全新視角。
女媧CE模型:AI賦能基因組功能預(yù)測的新范式
依托高質(zhì)量的單細(xì)胞圖譜數(shù)據(jù),郭國驥團(tuán)隊開發(fā)了深度學(xué)習(xí)模型**女媧CE(NuwaCE)**,首次實現(xiàn)了**從基因組序列直接預(yù)測單細(xì)胞分辨率下的染色質(zhì)可及性圖譜**。
女媧CE的核心優(yōu)勢包括:
- **跨物種泛化能力**:無需額外訓(xùn)練即可預(yù)測包括人、猴、牛、豬、馬、羊、熊貓在內(nèi)的7種脊椎動物的單細(xì)胞調(diào)控圖譜;
- **高精度預(yù)測**:在人類細(xì)胞中,預(yù)測的調(diào)控元件可及性與實驗測量值高度一致(AUROC > 0.90);
- **突變效應(yīng)預(yù)測**:能夠準(zhǔn)確預(yù)測非編碼區(qū)突變對細(xì)胞類型特異性表觀修飾和基因表達(dá)的影響;
- **合成生物學(xué)應(yīng)用**:模型可預(yù)測合成DNA序列的功能,為設(shè)計具有特定調(diào)控功能的基因元件提供理論支持。
在一項功能驗證實驗中,女媧CE預(yù)測出一個**鐮刀型貧血癥的治愈性位點(HBG1-68:A>G)**,通過基因編輯后,成功實現(xiàn)了胎兒血紅蛋白表達(dá)水平的顯著提升。這是**首次在人體細(xì)胞中驗證AI設(shè)計的非編碼區(qū)治愈性位點**,標(biāo)志著基因組AI模型邁入精準(zhǔn)功能預(yù)測的新階段。
與國際前沿模型的比較:女媧CE展現(xiàn)強(qiáng)大優(yōu)勢
與當(dāng)前國際領(lǐng)先的基因組AI模型相比,女媧CE展現(xiàn)出獨特優(yōu)勢:
- **無需依賴ENCODE復(fù)雜數(shù)據(jù)集**,僅基于高質(zhì)量單細(xì)胞圖譜即可實現(xiàn)預(yù)測;
- **涵蓋更多在體細(xì)胞類型**,突破了傳統(tǒng)模型在細(xì)胞類型覆蓋上的局限;
- **專為脊椎動物設(shè)計**,相較斯坦福與英偉達(dá)研究院開發(fā)的evo2模型,更適用于復(fù)雜多細(xì)胞生物;
- **計算效率高**:采用分段式掃描策略,在降低計算資源消耗的同時,為后續(xù)調(diào)控元件相互作用建模提供基礎(chǔ)。
應(yīng)用前景:從基礎(chǔ)研究到臨床與農(nóng)業(yè)(http://www.weberwork.com/sell/l_33/)的廣泛轉(zhuǎn)化
這項研究不僅在技術(shù)與模型層面實現(xiàn)突破,也為多個領(lǐng)域帶來了深遠(yuǎn)影響:
共0條 [查看全部] 【浙大郭國驥團(tuán)隊發(fā)布“女媧CE”:首次實現(xiàn)從基因組序列預(yù)測脊椎動物單細(xì)胞調(diào)控圖譜】相關(guān)評論