DNA是生命的藍(lán)圖,蛋白質(zhì)是功能的執(zhí)行者,而RNA呢?它早已不再是那個(gè)默默傳遞信息的“信使”。如今,我們深知RNA是一位身兼編劇、導(dǎo)演與演員的多面手——它能催化反應(yīng)、調(diào)控基因、感知環(huán)境,其功能的多樣性,根植于它精巧復(fù)雜的三維結(jié)構(gòu)。
然而,從一條線性的核苷酸序列(A、U、C、G)如何折疊成一個(gè)功能完備的3D分子機(jī)器?這是分子生物學(xué)中懸而未決的“折疊難題”。傳統(tǒng)方法只能預(yù)測(cè)RNA的“骨架”(二級(jí)結(jié)構(gòu)),卻對(duì)決定其功能的“關(guān)節(jié)”與“開(kāi)關(guān)”(3D基序)束手無(wú)策。
2024年10月3日,發(fā)表于《自然·方法》(Nature Methods)的一項(xiàng)研究,為我們帶來(lái)了突破性的答案。研究團(tuán)隊(duì)開(kāi)發(fā)出一種名為 CaCoFold-R3D 的全新計(jì)算方法,它像一位精通進(jìn)化語(yǔ)言的密碼破譯專家,首次實(shí)現(xiàn)了一次性、全貌式地預(yù)測(cè)RNA的二級(jí)結(jié)構(gòu)與關(guān)鍵3D基序,被譽(yù)為“RNA結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的一次范式轉(zhuǎn)變”。
RNA的“暗物質(zhì)”:被忽視的3D基序
RNA的折疊是分層級(jí)的:
一級(jí)結(jié)構(gòu):核苷酸序列;
二級(jí)結(jié)構(gòu):通過(guò)A-U、G-C堿基配對(duì)形成的雙螺旋(莖區(qū));
三級(jí)結(jié)構(gòu):由非經(jīng)典相互作用驅(qū)動(dòng)的復(fù)雜3D折疊,其核心是散布在“環(huán)區(qū)”中的3D結(jié)構(gòu)基序(3D motifs)。
長(zhǎng)期以來(lái),研究焦點(diǎn)集中在預(yù)測(cè)“莖區(qū)”(二級(jí)結(jié)構(gòu))。但真正的功能奧秘,藏在那些看似松散的“環(huán)區(qū)”——如發(fā)夾環(huán)、內(nèi)部環(huán)等。這些區(qū)域并非無(wú)序,而是折疊成高度有序的3D基序,它們是RNA分子的“功能樞紐”:
K-轉(zhuǎn)角(K-turn):讓RNA鏈發(fā)生銳角彎折,是核糖體、剪接體等大型復(fù)合物的組裝關(guān)鍵;
GNRA四環(huán):一種超穩(wěn)定結(jié)構(gòu),常作為蛋白質(zhì)結(jié)合的“錨點(diǎn)”;
假結(jié)(pseudoknot):遠(yuǎn)程堿基配對(duì)形成的復(fù)雜拓?fù)浣Y(jié)構(gòu),參與基因調(diào)控。
這些基序不依賴標(biāo)準(zhǔn)堿基配對(duì),而是通過(guò)氫鍵、堆疊、離子相互作用等形成,其序列多變、尺寸微小,僅憑序列難以預(yù)測(cè)?,F(xiàn)有方法要么忽略它們,要么需分步預(yù)測(cè)——先猜二級(jí)結(jié)構(gòu),再在環(huán)區(qū)搜索基序,錯(cuò)誤會(huì)層層放大。
核心洞見(jiàn):用“進(jìn)化畫框”鎖定“功能畫作”
CaCoFold-R3D的突破,源于一個(gè)精妙的洞察:雖然3D基序內(nèi)部的進(jìn)化信號(hào)(共變)微弱,但“框住”它們的螺旋區(qū)域卻往往顯示出強(qiáng)烈的共變信號(hào)。
共變分析是結(jié)構(gòu)預(yù)測(cè)的黃金法則:如果兩個(gè)堿基在進(jìn)化中“協(xié)同突變”(如一個(gè)從G變A,另一個(gè)從C變U,維持配對(duì)),說(shuō)明它們?cè)诳臻g上緊密接觸。
研究團(tuán)隊(duì)發(fā)現(xiàn),許多3D基序的兩側(cè)螺旋,因維持整體結(jié)構(gòu)穩(wěn)定而受到強(qiáng)烈選擇壓力,其共變信號(hào)清晰可辨。這就像一幅畫的“畫框”非常堅(jiān)固,雖然畫中細(xì)節(jié)模糊,但畫框的位置和大小能告訴我們畫作的存在和范圍。
因此,CaCoFold-R3D不再“硬啃”基序內(nèi)部,而是利用兩側(cè)螺旋的共變信號(hào)作為“進(jìn)化畫框”,精準(zhǔn)定位基序可能出現(xiàn)的區(qū)域,從而極大縮小搜索空間,提高預(yù)測(cè)的準(zhǔn)確性和特異性。
方法革命:一體化的“概率語(yǔ)法”模型
CaCoFold-R3D的核心是一個(gè)名為 RBGJ3J4-R3D 的隨機(jī)上下文無(wú)關(guān)語(yǔ)法(SCFG)模型。它將RNA折疊視為一種“語(yǔ)言”,并建立了一套完整的“語(yǔ)法規(guī)則”。
這套語(yǔ)法實(shí)現(xiàn)了三大“一體化”創(chuàng)新:
萬(wàn)物一體化:將50余種、96種變體的已知3D基序全部編碼為語(yǔ)法規(guī)則,從K-轉(zhuǎn)角到假結(jié),一網(wǎng)打盡;
隨處一體化:允許基序出現(xiàn)在任何環(huán)區(qū),無(wú)論是簡(jiǎn)單發(fā)夾還是復(fù)雜的三路、四路連接;
一次性預(yù)測(cè):在一個(gè)統(tǒng)一的概率框架下,同步預(yù)測(cè)二級(jí)結(jié)構(gòu)和所有3D基序,避免分步預(yù)測(cè)的誤差累積。
其工作流程如下:
主干預(yù)測(cè):基于最強(qiáng)的共變信號(hào),預(yù)測(cè)主干二級(jí)結(jié)構(gòu)及嵌入的3D基序;
遠(yuǎn)程整合:加入支持假結(jié)等遠(yuǎn)程相互作用的共變證據(jù),完善高級(jí)結(jié)構(gòu)。
整個(gè)過(guò)程“一氣呵成”,如同一位閱讀大師,一眼看透句子的語(yǔ)法和修辭。
實(shí)驗(yàn)驗(yàn)證:在數(shù)據(jù)“考場(chǎng)”中脫穎而出
研究團(tuán)隊(duì)通過(guò)多輪嚴(yán)格測(cè)試,驗(yàn)證了CaCoFold-R3D的強(qiáng)大性能:
1. 原型機(jī)測(cè)試:精準(zhǔn)度飛躍
在僅預(yù)測(cè)GNRA四環(huán)和K-轉(zhuǎn)角的簡(jiǎn)化版中,加入共變信息后,靈敏度從84.5%提升至95.4%;
假陽(yáng)性率降低75%(K-轉(zhuǎn)角預(yù)測(cè)從0.24降至0.06/序列),特異性顯著提升;
對(duì)新發(fā)現(xiàn)的K-轉(zhuǎn)角,檢測(cè)靈敏度高達(dá)97.8%,展現(xiàn)強(qiáng)大發(fā)現(xiàn)潛力。
2. 全面掃描Rfam數(shù)據(jù)庫(kù):廣度與可靠性
在權(quán)威的Rfam數(shù)據(jù)庫(kù)中,成功識(shí)別出文獻(xiàn)報(bào)道的44個(gè)著名3D基序中的41個(gè);
共預(yù)測(cè)2124個(gè)3D基序?qū)嵗?,其?9%(1460個(gè))有共變信號(hào)支持;
通過(guò)“序列洗牌”對(duì)照實(shí)驗(yàn),有共變支持的預(yù)測(cè)假陽(yáng)性率僅為8.3%,而無(wú)支持的高達(dá)25.4%,凸顯進(jìn)化信息的決定性作用。
意義與展望:開(kāi)啟RNA功能研究新紀(jì)元
CaCoFold-R3D不僅是一項(xiàng)技術(shù)突破,更將深刻影響RNA生物學(xué)研究:
加速功能注釋:為數(shù)百萬(wàn)未表征的RNA序列提供結(jié)構(gòu)線索,揭示其潛在功能;
指導(dǎo)RNA設(shè)計(jì):為合成生物學(xué)、RNA藥物(如mRNA疫苗、RNA療法)的理性設(shè)計(jì)提供精準(zhǔn)藍(lán)圖;
理解疾病機(jī)制:許多遺傳病與RNA結(jié)構(gòu)異常相關(guān),該工具(http://www.weberwork.com/sell/l_5/)有助于解析致病機(jī)理。
正如研究者所言:“我們不再需要先畫出骨架再尋找關(guān)節(jié),而是可以一氣呵成地看到整個(gè)‘生命之舞’的完整姿態(tài)。”
這項(xiàng)研究標(biāo)志著RNA結(jié)構(gòu)預(yù)測(cè)正式邁入“三維時(shí)代”。它告訴我們,傾聽(tīng)進(jìn)化數(shù)億年的低語(yǔ),或許正是解開(kāi)生命最精巧密碼的鑰匙。