蛋白質(zhì)組學是當前生物制藥發(fā)展非常迅速的熱門領(lǐng)域之一,研究蛋白質(zhì)組學不但能夠加深對支持跨細胞、組織和整個生物體的生物狀態(tài)分子過程的理解,還能夠幫助包括人類、動物和植物生物學、個性化醫(yī)學和法醫(yī)學在內(nèi)的各個科學研究領(lǐng)域快速發(fā)展。這些研發(fā)收益在很大程度上都要歸功于蛋白質(zhì)組學技術(shù)、數(shù)據(jù)處理能力和數(shù)據(jù)共享的進步。在本文中,我們將與世界各地的蛋白質(zhì)組學權(quán)威專家一起,共同探討蛋白質(zhì)組學的最新進展及其更廣泛的潛在影響。
一、蛋白質(zhì)組學關(guān)鍵技術(shù)發(fā)展
1、質(zhì)譜蛋白質(zhì)組學
蛋白質(zhì)組學研究采用的分析技術(shù)大致分為低通量和高通量兩類。幾十年來,質(zhì)譜(MS)一直是在高通量分析中最廣泛使用的“金標準”。從歷史上看,基于質(zhì)譜的蛋白質(zhì)組學面臨的一項關(guān)鍵問題就是敏感性和特異性,不過近年來,質(zhì)譜技術(shù)的格局發(fā)生了翻天覆地的變化。供應(yīng)商推出了具有高速度、靈敏度和特異性功能的質(zhì)譜儀器,科學家們現(xiàn)在也可以憑借這些新型儀器更加深入研究蛋白質(zhì)組學。
諾和諾德基金會蛋白質(zhì)研究中心蛋白質(zhì)組學項目的研究主任和組長Matthias Mann教授在被問及質(zhì)譜蛋白質(zhì)組學的突破時,特別強調(diào)了Aebersold實驗室率在數(shù)據(jù)獨立采集(DIA)方面的進展。與其姊妹技術(shù)數(shù)據(jù)相關(guān)分析(DDA)不同的是,DIA在第二個循環(huán)(MS2)中將串聯(lián)MS(MS1)第一個循環(huán)中產(chǎn)生的所有前體離子分解,這也為研究人員提供了更好的無偏分析能力、更大的蛋白質(zhì)組覆蓋率和更高的再現(xiàn)性。近年來,在蛋白質(zhì)組學研究,特別是在腫瘤學領(lǐng)域,使用基于DIA質(zhì)譜的頻率也一直在持續(xù)增長。此外,DIA技術(shù)還在神經(jīng)科學蛋白質(zhì)組學領(lǐng)域取得了積極進展,包括發(fā)現(xiàn)了阿爾茨海默病的相關(guān)信息。
2、基于適體的蛋白質(zhì)組學
雖然質(zhì)譜技術(shù)多年來一直在蛋白質(zhì)組學研究領(lǐng)域占據(jù)主導(dǎo)地位,但最近出現(xiàn)的“第二代”蛋白質(zhì)組學平臺則是利用基于適體開發(fā)的新型技術(shù)。約翰霍普金斯大學醫(yī)學院研究員Benjamin Orsburn博士也表示,盡管LC-MS在蛋白質(zhì)組學領(lǐng)域已經(jīng)壟斷了幾十年,但現(xiàn)在的情況顯然已不再如此。
適體是一種短的單鏈(ss)DNA分子,能夠進行獨特的匹配確認,選擇性地與生物靶標結(jié)合。在生物標志物發(fā)現(xiàn)等領(lǐng)域,該技術(shù)具有特異性和選擇性等優(yōu)勢,因此要優(yōu)于受到動態(tài)范圍限制的MS蛋白質(zhì)組學。此前,研究人員基于適體的蛋白質(zhì)組學對來自Framingham心臟研究中的1895名女性進行了研究,以便確定心臟重塑和心力衰竭事件的生物標志物。試驗結(jié)果顯示,17種蛋白質(zhì)被發(fā)現(xiàn)與超聲心動圖特征相關(guān),6種蛋白質(zhì)與心力衰竭事件相關(guān),利用遺傳變異數(shù)據(jù)的進一步分析也進一步支持了這些發(fā)現(xiàn)。
Orsburn表示,與LC-MS技術(shù)相比,適體技術(shù)的使用將更少受到細胞中絕 對蛋白質(zhì)拷貝數(shù)的影響。然而,在能夠識別更高百分比的蛋白質(zhì)組之前,質(zhì)譜蛋白質(zhì)組學目前可能仍然將會是首選方法,而基于適體的技術(shù)通常會做為補充和輔助方法。最近,有研究人員提出的理想蛋白質(zhì)測序平臺,采用了條形碼DNA適體來識別肽的末端氨基酸,連接到下一代測序芯片可能會成為折衷方案。Orsburn對此稱該領(lǐng)域的全部研發(fā)潛力仍需要一定的時間才能實現(xiàn)。
二、人工智能和蛋白質(zhì)組學
1、人工智能和藥物發(fā)現(xiàn)蛋白質(zhì)組學
人工智能(AI)在蛋白質(zhì)組學中的應(yīng)用已經(jīng)深刻改變了藥物發(fā)現(xiàn)領(lǐng)域的研發(fā)工作。對研發(fā)人員來說,深入了解特定蛋白質(zhì)如何以及為何能夠相互作用,對于推進細胞生物學、開發(fā)新藥和確定藥物引發(fā)治療和副作用的機制至關(guān)重要,然而這絕非易事。美國麻省理工學院計算機科學與人工智能實驗室(CSAIL)博士后研究員Octavian-Eugen Ganea表示,為了掌握互相作用的蛋白質(zhì)如何相互連接,必須通過人工或計算機手段嘗試所有可能的連接組合,以便找到最合理的連接組合,而如果不借助人工智能單純使用人工進行,將會是一個非常耗時的過程。
目前已有多種商業(yè)化的蛋白質(zhì)對接方法可供選擇,但它們都依賴于候選采樣、模板和預(yù)計算網(wǎng)格的特定任務(wù)特征,而這些因素都會增加額外的計算時間。麻省理工學院Ganea團隊最近發(fā)表了一種新的深度學習模型EquiDock,采用了兩種蛋白質(zhì)的3D結(jié)構(gòu),并能直接識別哪些區(qū)域可能會發(fā)生相互作用。EquiDock模型能夠從約41000個蛋白質(zhì)結(jié)構(gòu)中捕獲復(fù)雜的對接模式,使用了具有數(shù)千個參數(shù)的幾何約束模型,這些參數(shù)能夠動態(tài)地在計算過程中自動調(diào)整。
訓(xùn)練完成后,EquiDock模型將與其他四個現(xiàn)有的對接軟件進行交叉比較,并且能夠在一到五秒內(nèi)預(yù)測最終的蛋白質(zhì)復(fù)合物,速度比現(xiàn)有軟件快80至500倍。Ganea表示,藥物副作用的快速計算掃描是非常必要的,能夠顯著減少搜索范圍,否則即便整合了全球的人工試驗資源,也無法取得滿意的結(jié)果。他強調(diào)稱,將EquiDock模型與其他蛋白質(zhì)結(jié)構(gòu)預(yù)測模型相結(jié)合,將有望進一步幫助其在藥物設(shè)計、蛋白質(zhì)工程、抗體生成和作用機制研究等方面的應(yīng)用。
2、人工智能和質(zhì)譜蛋白質(zhì)組學
基于人工智能的方法還將幫助研究人員從獲得的數(shù)據(jù)中獲得更多的研發(fā)見解。質(zhì)譜實驗需要數(shù)據(jù)庫搜索或光譜庫匹配來識別特定的蛋白質(zhì)。整個過程不但特別耗費時間,而且某些蛋白質(zhì)還可能會被錯誤識別或遺漏,對于依賴于通過DDA分析生成光譜庫的DIA質(zhì)譜技術(shù)來說,這些弊端似乎更加難以避免。為此,研發(fā)人員現(xiàn)在已經(jīng)建立了多種能夠預(yù)測光譜和肽特性的深度學習方法,包括但不限于Prosit、DeepMass和DeepDIA,預(yù)計此舉能夠優(yōu)化DIA方法的預(yù)測光譜庫,使蛋白質(zhì)組學領(lǐng)域朝著更好的方向發(fā)展。
3、人工智能和非質(zhì)譜蛋白質(zhì)組學
人工智能還能夠輔助非質(zhì)譜蛋白質(zhì)組學的發(fā)展,這一領(lǐng)域?qū)τ诶斫庖岳p結(jié)、聚集的蛋白質(zhì)為特征的病理學(如阿爾茨海默?。┦遣豢苫蛉钡摹T擃I(lǐng)域采用的關(guān)鍵方法包括顯微鏡和F?rster共振能量轉(zhuǎn)移(FRET),研發(fā)過程需要大量時間和足夠的專業(yè)知識對大型數(shù)據(jù)集進行分析解釋。為了克服這一數(shù)據(jù)難題,由Nikos Hatzakis教授領(lǐng)導(dǎo)的諾和諾德基金會蛋白質(zhì)研究中心的研究人員最近創(chuàng)建了DeepFRET模型。
DeepFRET是一種人工智能的機器學習算法,可以自動識別蛋白質(zhì)運動模式,在幾秒鐘內(nèi)對數(shù)據(jù)集進行分類(如果完全人工進行則通常需要幾天的時間)。蛋白質(zhì)組學中人工智能的未來發(fā)展還要求人工智能平臺必須遵守相關(guān)的標準、數(shù)據(jù)報告和共享方面實現(xiàn)跨組的同步。最近發(fā)布的關(guān)于在蛋白質(zhì)組學和代謝組學中進行和報告機器學習的數(shù)據(jù)、優(yōu)化、模型、評估(DOME)建議,可能將有助于重塑該領(lǐng)域未來的發(fā)展方向。
三、法醫(yī)學和蛋白質(zhì)組學
蛋白質(zhì)組學更廣泛的應(yīng)用也受益于前面討論的技術(shù)進步,例如在20世紀后期的“DNA革命”極大地促進了法醫(yī)學的發(fā)展,而現(xiàn)在的蛋白質(zhì)組學似乎有望產(chǎn)生類似的影響。對此,基于蛋白質(zhì)的人類鑒定技術(shù)發(fā)明者、加州大學博士Glendon Parker表示,總的來說,蛋白質(zhì)組學目前對法醫(yī)學的影響是有限的,這歸因于技術(shù)、法律、財務(wù)和文化因素,然而在刑事調(diào)查和起訴中采用和納入新方法將會成為根本性的驅(qū)動力。
Parker補充說,蛋白質(zhì)組學具有其獨特的內(nèi)在優(yōu)勢,比如蛋白質(zhì)比DNA更穩(wěn)定,并且能夠像DNA一樣可以包含特定的身份識別信息。在DNA核酸被降解的情況下,可以使用蛋白質(zhì)組學用于識別體液、性別、種族,并使用肌肉、骨骼和分解液樣本估計大致的死亡時間。Parker強調(diào)稱,雖然在法醫(yī)學中真正實施蛋白質(zhì)組學一直以來都存在一定的挑戰(zhàn),但在未來蛋白質(zhì)組學有可能顯著改變法醫(yī)證據(jù)的處理和分析方式。在短期內(nèi),該領(lǐng)域能夠輔助DNA技術(shù)用于DNA難以提供明確證據(jù)的法醫(yī)領(lǐng)域。
四、蛋白質(zhì)組學的挑戰(zhàn)和未來展望
1、亟待開放共享、加強全球合作
目前,蛋白質(zhì)組學領(lǐng)域面臨的最 大限制是技術(shù)的復(fù)雜性,需要研發(fā)人員在蛋白質(zhì)組學冗長的工作流程中熟練地操作復(fù)雜技術(shù)和專業(yè)軟件。雖然蛋白質(zhì)組學在靈敏度和速度方面已經(jīng)取得了飛速進步,研究成果也取得了相應(yīng)的進展,但在背后都付出了巨大的代價。
Johnston表示,嚴格執(zhí)行、深度覆蓋的質(zhì)譜實驗,特別是那些針對復(fù)雜的生物樣品上的試驗研究,需要大量的質(zhì)譜分析時間,因此研發(fā)人員必須要在研發(fā)成本、覆蓋范圍和樣本數(shù)量之間不斷進行利弊權(quán)衡。這也是當前限制蛋白質(zhì)組學更廣泛應(yīng)用的難題之一,Parker也強調(diào)稱這些困境限制了技術(shù)創(chuàng)新,導(dǎo)致大量具有發(fā)展前途的新興技術(shù)(包括蛋白質(zhì)組學),最終沒有得到充分利用。
在過去的十年里,蛋白質(zhì)組學領(lǐng)域中倡導(dǎo)開放、共享、合作的呼聲越來越高。目前已經(jīng)出現(xiàn)了增加可訪問性和可持續(xù)性的具體舉措,比如歐洲蛋白質(zhì)組學基礎(chǔ)設(shè)施聯(lián)盟(EPIC-XS)就聯(lián)合了一些歐洲領(lǐng) 先的實驗室和科學家,倡議將各種技術(shù)、專業(yè)知識和試驗數(shù)據(jù)進行匯集共享。共享的資源也不僅限于基于質(zhì)譜的蛋白質(zhì)組學,KTH訪問站點的細胞分析設(shè)施還開放了基于抗體的成像方面的專業(yè)知識。
2、推進臨床應(yīng)用困難重重
在蛋白質(zhì)組學正式被確定為臨床支柱之前仍有多項關(guān)鍵性挑戰(zhàn)需要克服,而這些挑戰(zhàn)具體取決于臨床蛋白質(zhì)組學中的特定應(yīng)用。Mann表示,如果要在臨床中大規(guī)模使用,基于質(zhì)譜的蛋白質(zhì)組學需要變得更加強大和易于使用,盡管許多研發(fā)團隊已經(jīng)試圖通過轉(zhuǎn)向高流量色譜系統(tǒng)來實現(xiàn)這一目標,但目前的成果并不理想,因為此舉會導(dǎo)致靈敏度受到影響。
目前,雖然分析技術(shù)一定程度上提高了深入挖掘蛋白質(zhì)組的能力,但產(chǎn)生的數(shù)據(jù)量也在同步增長,這也為蛋白質(zhì)組學的臨床應(yīng)用帶來了額外的瓶頸,包括如何對大量數(shù)據(jù)進行處理,以及如何在大規(guī)模數(shù)據(jù)集的基礎(chǔ)上制定生物學和臨床假設(shè)。此外,為了全面了解人類健康和疾病,蛋白質(zhì)組學數(shù)據(jù)通常必須與其他組學對應(yīng)物相結(jié)合使用,如代謝組學、基因組學和轉(zhuǎn)錄組學。
除此之外,倫理方面的問題也被視為蛋白質(zhì)組學進軍臨床的挑戰(zhàn)之一。蛋白質(zhì)組學分析可以提供原始診斷之外的信息,臨床醫(yī)生將如何處理這些數(shù)據(jù)仍存在監(jiān)管空白。雖然可以從此前的臨床基因組學的臨床實施中吸取一定教訓(xùn),但蛋白質(zhì)組學領(lǐng)域是一個完全不同的情況,因此在制定監(jiān)管框架和指南時很難直接套用此前的標準。
不過,盡管目前存在多種局限性,但權(quán)威專家對該領(lǐng)域的未來充滿信心,Mann指出,質(zhì)譜檢測技術(shù)將憑借其固有的特異性在臨床應(yīng)用中持續(xù)發(fā)展。
合作咨詢
肖女士 021-33392297 Kelly.Xiao@imsinoexpo.com