cao视频在线观看免费完整版,c0930眞野圭子在线视频,亚洲黄色福利,337P人体粉嫩胞高清,女优AV天,亚洲午夜福利国产精品

產(chǎn)品分類(lèi)導(dǎo)航
CPHI制藥在線 資訊 Science封面:華人學(xué)者開(kāi)發(fā)AI模型,學(xué)會(huì)生命的語(yǔ)言,生成新型CRISPR系統(tǒng)乃至整個(gè)基因組

Science封面:華人學(xué)者開(kāi)發(fā)AI模型,學(xué)會(huì)生命的語(yǔ)言,生成新型CRISPR系統(tǒng)乃至整個(gè)基因組

熱門(mén)推薦: CRISPR系統(tǒng) AI模型 DNA序列
作者:王聰  來(lái)源:生物世界
  2024-11-15
生命的基本指令都包含在所有生物體的DNA序列中。理解這些指令可以幫助我們更深入地了解生物學(xué)過(guò)程,并開(kāi)辟新途徑,將生物學(xué)轉(zhuǎn)化為有用的技術(shù)。

       眾所周知,生命的基本指令都包含在所有生物體的DNA序列中。理解這些指令可以幫助我們更深入地了解生物學(xué)過(guò)程,并開(kāi)辟新途徑,將生物學(xué)轉(zhuǎn)化為有用的技術(shù)。然而,即便是最簡(jiǎn)單的微生物基因組也極其復(fù)雜,例如被人類(lèi)研究的最為透徹的大腸桿菌,其基因組包含數(shù)百萬(wàn)堿基對(duì),用于編碼DNA、RNA和蛋白質(zhì)之間的相互作用,而這三者是細(xì)胞功能的關(guān)鍵參與者,它們之間的信息流動(dòng)構(gòu)成了生命的“中心法則”?;蚪M的這種復(fù)雜性存在于多個(gè)尺度上,從單個(gè)分子到整個(gè)基因組,代表著在進(jìn)化過(guò)程中經(jīng)過(guò)功能選擇的龐大的遺傳信息景觀。

       人工智能(AI)的快速發(fā)展使得大語(yǔ)言模型(large language model,LLM)能夠在大量數(shù)據(jù)的訓(xùn)練下展現(xiàn)出越來(lái)越先進(jìn)的多任務(wù)推理和生成能力。如果開(kāi)發(fā)出一種能夠在大基因序列上保持單核苷酸分辨率的模型,就可能提取出關(guān)于嵌入在自然進(jìn)化變異模式中的復(fù)雜分子相互作用的功能信息。

       2024年11月15日,Arc研究所的 Patrick D. HsuBrian L. Hie 團(tuán)隊(duì)在國(guó)際頂尖學(xué)術(shù)期刊 Sciencce 上發(fā)表了題為:Sequence modeling and design from molecular to genome scale with Evo 的研究論文【1】,該論文還被選為當(dāng)期的封面論文。

       該研究開(kāi)發(fā)了從分子到基因組尺度都能進(jìn)行預(yù)測(cè)和生成任務(wù)的基因組基礎(chǔ)模型——Evo模型。這是第一個(gè)在全基因組規(guī)模上以單核苷酸分辨率預(yù)測(cè)和生成DNA序列的模型。

       通過(guò)對(duì)整個(gè)基因組信息進(jìn)行學(xué)習(xí),Evo模型能夠?qū)W習(xí)微小的核苷酸序列變化如何影響整個(gè)生物體的適應(yīng)性,從而預(yù)測(cè)哪些基因?qū)τ谏矬w至關(guān)重要,還能夠生成長(zhǎng)度超過(guò)百萬(wàn)堿基對(duì)的具有合理基因組結(jié)構(gòu)的DNA序列。研究團(tuán)隊(duì)還使用Evo模型生成了CRISPR-Cas分子復(fù)合物和IS200/IS605轉(zhuǎn)座子,并驗(yàn)證了它們的功能活性,這也是首次通過(guò)語(yǔ)言模型實(shí)現(xiàn)蛋白質(zhì)-RNA和蛋白質(zhì)-DNA協(xié)同設(shè)計(jì)的實(shí)例。

       在生物中,一切都從DNA開(kāi)始,基因組攜帶構(gòu)成完整生命體的一整套DNA(遺傳密碼),這是世代進(jìn)化的結(jié)果,反映了生命對(duì)不斷變化的環(huán)境的適應(yīng)。其他復(fù)雜的生物語(yǔ)言則是從DNA衍生而來(lái),包括蛋白質(zhì)和RNA,蛋白質(zhì)負(fù)責(zé)執(zhí)行生命功能,RNA幫助DNA傳遞信息并幫助蛋白質(zhì)執(zhí)行功能。盡管這三者看起來(lái)是多層次的,但它們都被“中心法則”統(tǒng)一在基因組中。

       人工智能基礎(chǔ)模型的出現(xiàn),為生物序列建模指明了一條有前景的道路,但尚未實(shí)現(xiàn)全基因組水平的建模。DNA序列非常長(zhǎng),例如我們?nèi)祟?lèi)有著30億堿基對(duì),簡(jiǎn)單如大腸桿菌也有這數(shù)百萬(wàn)堿基對(duì)。要想充分理解進(jìn)化的影響,需要具有單個(gè)核苷酸分辨率的分辨率,這些問(wèn)題使得大規(guī)模預(yù)訓(xùn)練特別具有挑戰(zhàn)性。

       到目前為止,還不清楚人工智能(AI)模型是否能夠在這么長(zhǎng)的基因組序列中有效地學(xué)習(xí)其復(fù)雜模式。因此,現(xiàn)有的利用AI建模生物序列的突破主要集中在短上下文、特定任務(wù)和單模態(tài)能力,例如AlphaFold、ESMFold、Nucleotide Transformer。

       因此,我們需要一個(gè)基礎(chǔ)模型(Foundation Model),該模型可以整合長(zhǎng)基因組序列上的信息,同時(shí)保持對(duì)單核苷酸變化的敏感性。一個(gè)有效地學(xué)習(xí)基因組的模型不僅可以理解個(gè)體的DNA、RNA和蛋白質(zhì)組分,還可以理解這些成分如何通過(guò)相互作用來(lái)創(chuàng)建復(fù)雜系統(tǒng)。這有助于加速我們對(duì)生物學(xué)機(jī)制的理解,以及設(shè)計(jì)生命的能力。

Brian L. Hie(左)和Patrick D. Hsu(右)

       在這項(xiàng)研究中,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)DNA基礎(chǔ)模型——Evo模型,旨在捕捉生物的兩個(gè)基本方面:中心法則的多模態(tài)性和進(jìn)化的多尺度特性。中心法則(Central Dogma)將DNA、RNA和蛋白質(zhì)統(tǒng)一在一個(gè)編碼體系和可預(yù)測(cè)的信息流中,而進(jìn)化(Evolution)則將分子、通路、細(xì)胞和生物體這些在功能上極為不同的尺度統(tǒng)一起來(lái)。

       研究團(tuán)隊(duì)使用主流架構(gòu)進(jìn)行DNA預(yù)訓(xùn)練后發(fā)現(xiàn),Transformer模型在以單核苷酸、字節(jié)級(jí)分辨率進(jìn)行訓(xùn)練時(shí),可擴(kuò)展性不太好,這表明自然語(yǔ)言中的主要架構(gòu)不一定能遷移到DNA語(yǔ)言中。為了克服與長(zhǎng)序列和字節(jié)級(jí)分辨率的基因組序列建模相關(guān)挑戰(zhàn),研究團(tuán)隊(duì)使用了基于深度信號(hào)處理技術(shù)的最新架構(gòu)——StripedHyena,相比Transformer,StripedHyena架構(gòu)將Evo的參數(shù)數(shù)量擴(kuò)大到了70億,同時(shí)在131千堿基(131kb)的上下文長(zhǎng)度中保持了單核苷酸分辨率。

       Evo模型是在270萬(wàn)種原核生物噬菌體的基因組上進(jìn)行訓(xùn)練的,它能夠在DNA、RNA和蛋白質(zhì)模式下實(shí)現(xiàn)零樣本功能預(yù)測(cè),其性能與或優(yōu)于特定領(lǐng)域的語(yǔ)言模型。

基于原核生物基因組預(yù)訓(xùn)練的長(zhǎng)文本基因組基礎(chǔ)模型

基于StripedHyena的Evo模型架構(gòu)

       通過(guò)對(duì)整個(gè)基因組的信息進(jìn)行學(xué)習(xí),Evo能夠理解微小的核苷酸序列變化(基因突變)如何影響整個(gè)生物體的適應(yīng)性,從而預(yù)測(cè)哪些基因?qū)τ谏矬w至關(guān)重要。而在實(shí)驗(yàn)室中進(jìn)行基因必要性研究,通常需要6個(gè)月到1年時(shí)間。

       由于Evo模型是在包含蛋白質(zhì)編碼序列的長(zhǎng)基因組序列上訓(xùn)練的,因此研究團(tuán)隊(duì)測(cè)試了該模型是否也能很好地學(xué)習(xí)蛋白質(zhì)語(yǔ)言,從而執(zhí)行零樣本(Zero-shot)蛋白質(zhì)功能預(yù)測(cè)。結(jié)果顯示,Evo模型優(yōu)于所有其他已測(cè)試的核苷酸模型,包括僅在蛋白質(zhì)編碼序列上明確訓(xùn)練的模型,甚至可以與最先進(jìn)的蛋白質(zhì)語(yǔ)言模型競(jìng)爭(zhēng)(例如ESM或ProGen)。值得注意的是,Evo模型能夠?qū)崿F(xiàn)非編碼RNA(ncRNA)和調(diào)節(jié)性DNA的零樣本功能預(yù)測(cè),從而跨越“中心法則”的所有三種成分——DNA、RNA和蛋白質(zhì)。

Evo模型的學(xué)習(xí)能力橫跨蛋白質(zhì)、RNA和DNA

       目前,生物學(xué)的生成模型通常只關(guān)注一種模式——例如只生成蛋白質(zhì)或只生成RNA。而Evo模型的一個(gè)關(guān)鍵突破之處在于可執(zhí)行多模態(tài)生成任務(wù),研究團(tuán)隊(duì)使用Evo模型生成了全新的CRISPR系統(tǒng),這種由蛋白質(zhì)和RNA組成的大型蛋白復(fù)合體,是現(xiàn)有的生成模型無(wú)法做到的。

       CRISPR系統(tǒng)是原核生物中天然存在的免疫系統(tǒng),被改造用于基因編輯。通常情況下,我們需要從自然界基因組中搜尋以發(fā)現(xiàn)新的CRISPR系統(tǒng)。而現(xiàn)在,Evo模型能夠直接生成一個(gè)全新的CRISPR系統(tǒng),讓我們擁有了創(chuàng)造新型基因組編輯工具的能力。

設(shè)計(jì)生成新型CRISPR-Cas分子復(fù)合物

       研究團(tuán)隊(duì)將Evo模型設(shè)計(jì)生成的EvoCas9-1與sgRNA進(jìn)行重組表達(dá)和純化,其在體外的基因編輯效率與spCas9-sgRNA相當(dāng)。

Evo模型設(shè)計(jì)生成的CRISPR-Cas9系統(tǒng)及功能驗(yàn)證

       此外,研究團(tuán)隊(duì)還使用Evo模型設(shè)計(jì)生成了IS200/IS605轉(zhuǎn)座子系統(tǒng),并實(shí)驗(yàn)驗(yàn)證了其功能活性。

       據(jù)悉,這也是首次通過(guò)語(yǔ)言模型實(shí)現(xiàn)蛋白質(zhì)-RNA和蛋白質(zhì)-DNA協(xié)同設(shè)計(jì)的實(shí)例。

       并能夠生成長(zhǎng)度超過(guò)百萬(wàn)堿基對(duì)的具有合理基因組結(jié)構(gòu)的DNA序列。像Evo這樣的大規(guī)模生物序列模型的進(jìn)一步發(fā)展,結(jié)合DNA合成技術(shù)以及基因組工程技術(shù)的進(jìn)步,將加快我們對(duì)生命進(jìn)行工程化的能力。

       除了在多分子(蛋白質(zhì)和ncRNA)規(guī)模上生成序列,Evo模型還能夠生成長(zhǎng)度超過(guò)百萬(wàn)堿基對(duì)的具有合理基因組結(jié)構(gòu)的DNA序列,且生成的序列中包含了數(shù)千個(gè)潛在的蛋白質(zhì)編碼序列,從而讓我們擁有了全基因組規(guī)模序列生成的潛力。這種大規(guī)模的序列生成是由Evo模型的長(zhǎng)上下文功能和高效的推理模式實(shí)現(xiàn)的。

Evo模型,能夠從單個(gè)核苷酸到整個(gè)基因組學(xué)習(xí)生物復(fù)雜性

       研究團(tuán)隊(duì)表示,Evo模型標(biāo)志著我們?cè)谀M生物序列的一個(gè)轉(zhuǎn)折點(diǎn),相信這項(xiàng)技術(shù)有潛力加速我們科學(xué)(包括生物學(xué)、化學(xué)或材料科學(xué))的發(fā)現(xiàn)和理解,以及應(yīng)用于現(xiàn)實(shí)世界的問(wèn)題(包括藥物發(fā)現(xiàn)、農(nóng)業(yè)和可持續(xù)性)?;A(chǔ)模型將成為越來(lái)越重要的科學(xué)工具,期待訓(xùn)練更大的模型,提高它們的生成能力,并將Evo預(yù)訓(xùn)練擴(kuò)展到人類(lèi)基因組。通過(guò)增強(qiáng)這些模型學(xué)習(xí)的生物復(fù)雜性,相信我們可以在對(duì)抗復(fù)雜疾病和改善人類(lèi)健康方面取得重大進(jìn)展。

       最后,研究團(tuán)隊(duì)表示即將開(kāi)源更大規(guī)模的3000億token的訓(xùn)練數(shù)據(jù)集——OpenGenome,由270萬(wàn)個(gè)公開(kāi)可用的原核基因組和噬菌體基因組組成,這是公開(kāi)可用的最大的DNA預(yù)訓(xùn)練數(shù)據(jù)集,希望它將有助于加速DNA語(yǔ)言模型這個(gè)令人興奮和有影響的領(lǐng)域的研究。

       相關(guān)閱讀:

       2024年10月30日,北京理工大學(xué)邵斌教授課題組在 Nature Communications 期刊發(fā)表了題為:A long-context language model for deciphering and generating bacteriophage genomes 的研究論文【2】。詳情:邵斌團(tuán)隊(duì)實(shí)現(xiàn)首個(gè)生成式DNA大語(yǔ)言模型——破譯并生成病毒基因組

       該研究實(shí)現(xiàn)了首個(gè)生成式DNA大語(yǔ)言模型——megaDNA。該模型利用無(wú)標(biāo)注的噬菌體基因組數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,不僅能準(zhǔn)確預(yù)測(cè)噬菌體的必需基因,更能夠生成長(zhǎng)達(dá)10萬(wàn)堿基對(duì)的嶄新基因組片段,也就是能夠像寫(xiě)作自然語(yǔ)言一樣生成DNA序列。另外,該模型在學(xué)習(xí)過(guò)程中獲得的深層信息(embedding),還能應(yīng)用于蛋白質(zhì)突變效果預(yù)測(cè)、基因調(diào)控研究,以及無(wú)標(biāo)注DNA片段分類(lèi)等多個(gè)下游任務(wù),展現(xiàn)出良好的泛化能力。

       論文鏈接:

       1. https://www.science.org/doi/10.1126/science.ado9336

       2. https://www.nature.com/articles/s41467-024-53759-4

相關(guān)文章

合作咨詢

   肖女士    021-33392297    Kelly.Xiao@imsinoexpo.com

2006-2024 上海博華國(guó)際展覽有限公司版權(quán)所有(保留一切權(quán)利) 滬ICP備05034851號(hào)-57
安塞县| 固阳县| 武山县| 高陵县| 津南区| 当涂县| 永川市| 康乐县| 门头沟区| 永宁县| 遵化市| 蓬溪县| 长岭县| 陵水| 庐江县| 仁寿县| 航空| 兴隆县|