德克薩斯大學西南醫(yī)學中心的研究團隊近期在Science期刊上發(fā)表了一項重要研究,該團隊通過深度學習模型開發(fā)出名為Puffin的機器學習程序,成功揭示了人類基因組中啟動子調(diào)控基因轉(zhuǎn)錄的序列基礎。啟動子作為控制基因產(chǎn)生蛋白的關(guān)鍵DNA區(qū)域,其活性調(diào)控機制對于理解健康和疾病中的基因調(diào)控至關(guān)重要。
論文通訊(http://www.weberwork.com/sell/l_25/)作者Jian Zhou博士表示:“盡管啟動子對基因功能至關(guān)重要,但我們對它們運作機制的了解仍不完整。我們的研究揭示了這些序列在人類和其他哺乳動物體內(nèi)的工作原理。”
在轉(zhuǎn)錄過程中,RNA聚合酶蛋白識別并結(jié)合DNA上的啟動子區(qū)域,將遺傳信息轉(zhuǎn)錄成RNA分子,進而指導蛋白質(zhì)的合成。然而,人類啟動子通常包含數(shù)百個堿基對,且缺乏統(tǒng)一的特征序列,因此其調(diào)控機制一直是個謎。
Puffin程序通過分析大量人類啟動子數(shù)據(jù),發(fā)現(xiàn)它們由三種類型的序列模式組成:基序、起始子和三核苷酸。這些序列模式的特定排列方式能夠激活或抑制基因的轉(zhuǎn)錄,并影響RNA聚合酶對DNA單鏈或雙鏈的轉(zhuǎn)錄選擇。這一發(fā)現(xiàn)揭示了啟動子調(diào)控基因轉(zhuǎn)錄的復雜機制。
更重要的是,Puffin程序不僅適用于人類啟動子,還能預測小鼠和其他哺乳動物啟動子的運作規(guī)則。此外,該程序還能預測啟動子突變對轉(zhuǎn)錄的影響,為疾病相關(guān)的基因轉(zhuǎn)錄變化提供了重要線索。
Puffin程序現(xiàn)已在免費網(wǎng)絡服務(http://www.weberwork.com/sell/l_11/)器上開放使用,為科學界提供了測試任何感興趣啟動子序列的平臺。研究人員相信,這種機器學習方法同樣可以應用于基因組中其他尚未充分理解的領域,推動生物學研究的深入發(fā)展。