今天的新藥發(fā)現(xiàn),已經(jīng)離不開計算學(xué)科的支撐,與計算相關(guān)的各種技術(shù)也因新藥研發(fā),而備受行業(yè)的重視。機器學(xué)習(xí),作為AI的一個重要分支,憑借其輔助發(fā)現(xiàn)潛力化合物、預(yù)測相關(guān)參數(shù)、節(jié)約試驗成本、壓縮開發(fā)周期等優(yōu)勢,得到了研發(fā)及投行的極大關(guān)注。本稿件即對機器學(xué)習(xí)的歷史及其于醫(yī)藥領(lǐng)域的應(yīng)用進行概述,以期與同行進行共同學(xué)習(xí)。
未來:精準(zhǔn)醫(yī)學(xué)&藥物發(fā)現(xiàn)
近年來,精準(zhǔn)醫(yī)學(xué)的概念越來越被提及,其強調(diào)基于個體差異(包括基因&環(huán)境&生活方式等)來進行疾病的預(yù)防和治療,從而降低“一刀切”的治療方式。出于這個原因,近年來產(chǎn)生了大量生物醫(yī)學(xué)數(shù)據(jù),其來源非常多樣化:從小型的實驗室到大型的多中心研究;這些數(shù)據(jù)主要稱為組學(xué)數(shù)據(jù)(基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)、藥物基因組學(xué)等),是科學(xué)界取之不盡的信息來源,可用于對患者進行分類,獲得特定診斷,以及開發(fā)新的治療方法。
過去十年中,計算能力的快速提升,已逐漸形成了與傳統(tǒng)藥物發(fā)現(xiàn)過程中高通量篩選的競爭。機器學(xué)習(xí)(ML),作為人工智能的一個分支,已有多重方法應(yīng)用于藥物發(fā)現(xiàn)過程中,從而預(yù)測新化學(xué)實體的分子特征、生物活性、相互作用和不良反應(yīng)等。這些算法,正在改變著新藥發(fā)現(xiàn)的傳統(tǒng)模式。
圖1.1 精準(zhǔn)醫(yī)學(xué)背景下-新藥發(fā)現(xiàn)過程(見參考文獻)
ML在Drug-Discovery領(lǐng)域的發(fā)展
1964年,Hansch方程的提出,理化描述符(如疏水性參數(shù)、電子參數(shù)和空間參數(shù))的線性回歸模型,開始用于描述二維結(jié)構(gòu)-活性關(guān)系,QSAR的概念逐漸深化發(fā)展。
1998年,類藥性概念的提出,研究者開始建立可以高效預(yù)測分子是否具備藥物潛質(zhì)的模型,并從1D/2D描述符中慢慢深入。但總的來說,2000年以前,ML于藥物發(fā)現(xiàn)領(lǐng)域的應(yīng)用,并不多,主要原因是數(shù)據(jù)的可用性問題。
2004年,PubChem和ZINC數(shù)據(jù)庫的開發(fā),為ML于藥物發(fā)現(xiàn)的發(fā)展奠定了基礎(chǔ);并在2006年和2008年開發(fā)了DrugBank和ChEMBL,從而大大滿足了上述的數(shù)據(jù)可用性問題。
2016年,Molecular Graph Convolutions正式發(fā)布,相關(guān)研究人員的成果也于2020年在Cell雜志刊登,進一步展示了機器學(xué)習(xí)在該領(lǐng)域的潛力,并發(fā)現(xiàn)了一種具抗菌活性的分子halicin,并在實驗室中得到了驗證。
圖2.1 藥物發(fā)現(xiàn)領(lǐng)域-機器學(xué)習(xí)主要事件時間表(見參考文獻)
ML操作流程
藥物發(fā)現(xiàn)領(lǐng)域的ML方法,涵蓋以下步驟:1)數(shù)據(jù)收集;2)數(shù)學(xué)描述符的生成;3)搜索變量的最 佳子集;4)模型訓(xùn)練;5)模型驗證。
圖3.1 藥物發(fā)現(xiàn)-機器學(xué)習(xí)方法(見參考文獻)
如上所述,首先是收集數(shù)據(jù),數(shù)據(jù)除了有助于活性、選擇性、代謝、**、理化性質(zhì)外,甚至還需要易于生產(chǎn)制備等屬性;小分子和肽類藥物,可以使用SMILES和FASTA格式表示結(jié)構(gòu)的序列;數(shù)據(jù)庫如DrugBank、PubChem、ChEMBL、ZINC等,具有大量的數(shù)據(jù)儲備信息。隨著數(shù)學(xué)描述符(PCA、t-SNE、FS、Autoencoder相關(guān)技術(shù))的生成,可獲得一系列的數(shù)據(jù),ML模型即可以處理這些數(shù)據(jù)。數(shù)據(jù)可分為兩個子集,高比例數(shù)據(jù)用于模型訓(xùn)練,低比例數(shù)據(jù)用于測試,這一過程可獲得變量相關(guān)的最 佳子集。在模型訓(xùn)練后,可依此而完成后續(xù)的驗證,如果驗證結(jié)果具有統(tǒng)計意義,可以說,即創(chuàng)造了一種新的藥物預(yù)測模型。PS:最好的模型是以最低的總成本實現(xiàn)最高的性能價值。
輸入數(shù)據(jù)-極其重要
模型的訓(xùn)練,至關(guān)重要的一個環(huán)節(jié)就是具代表性描述特性的分子描述符的輸入,進一步相關(guān)QSAR、分子描述符、計算信息指紋、基于圖的機器算法,等等。
QSAR
QSAR,是通過結(jié)構(gòu)與活性的關(guān)系以數(shù)值的形式進行關(guān)聯(lián);即通過整合計算和統(tǒng)計,對生物活性進行理論預(yù)測,從而可以對未來可能的新藥進行理論設(shè)計,理論上節(jié)省了研發(fā)成本。要進行QSAR研究,需要3類信息:1)具有共同作用機制的不同化合物的分子結(jié)構(gòu);2)每個配體的生物活性數(shù)據(jù);3)理化性質(zhì)。
分子描述符
MD,即定量描述相應(yīng)理化性質(zhì)的分子的數(shù)字表示;依此,研究者可根據(jù)與計算描述符數(shù)值的相似性來找到具有相似物理化學(xué)性質(zhì)的分子。分子描述符可分為兩大類:1)實驗測量值,如logP、偶極矩、極化率等;2)理論值,如結(jié)構(gòu)、拓撲、幾何、電子、理化等等。理論分子描述符又可以根據(jù)其維度建立0D/1D/2D/3D/4D/5D/6D描述符,其中3D/4D的研究最為深入。
計算信息指紋
FP,是一種特殊形式的分子描述符,通過具有固定長度的位向量快速有效表示分子結(jié)構(gòu),以表明內(nèi)部子結(jié)構(gòu)或官能團的存在或不存在。不過,源自化學(xué)結(jié)構(gòu)的指紋忽略了生物特征,從而在分子結(jié)構(gòu)和生物活性之間關(guān)聯(lián)度度降低,以至于前者的微小變化都會產(chǎn)生生物活性的實質(zhì)性差異。FP在計算工作中,常常關(guān)聯(lián)MACCS、Pubchem、CDK等。
基于圖的機器算法
化合物結(jié)構(gòu)式在圖方面的表示,主要為分子網(wǎng)絡(luò),網(wǎng)絡(luò)中的每個原子都表示為網(wǎng)絡(luò)中的一個節(jié)點,使用的算法主要為人工神經(jīng)元網(wǎng)絡(luò)。早在2009年,即有研究者提出了圖神經(jīng)網(wǎng)絡(luò)模型;2016年,斯坦福大學(xué)和谷歌公司的研究人員開發(fā)了分子卷積圖,而正是由于將卷積算法應(yīng)用于圖形,藥物發(fā)現(xiàn)中的計算研究向前邁進了一步。
ML&生物學(xué)問題
現(xiàn)代生物學(xué)的復(fù)雜性,使計算成為支撐生物學(xué)實驗必不可少的工具,因為它們允許以高精度編碼理論模型來處理大量信息,從而促進和加速新藥的開發(fā)。無論是從hit-to-lead,還是一定程度的ADMET,計算都能給出一定的預(yù)測。通過抽取2016-2020年的文章樣本,統(tǒng)計相關(guān)生物學(xué)問題如下。
圖5.1 2016-2020年樣本文章解決的生物學(xué)問題(見參考文獻)
如上所述,比例最高的為“藥物-靶標(biāo)相互作用”。靶標(biāo)研究,位于疾病和藥物發(fā)現(xiàn)的最前端,這個“開頭”的重要性,自不必說?;衔?蛋白相互作用,已成為新藥發(fā)現(xiàn)的先決條件,如PDB數(shù)據(jù)庫的使用,通過積累大量的受體-配體結(jié)晶,為相互作用提供了大量的數(shù)據(jù),是藥物計算研究人員必不可少的數(shù)據(jù)來源,同時,相應(yīng)的也誕生了許多進行測算的軟件,如MPLs-Pred。
ML未來發(fā)展趨勢
貝葉斯、支持向量機、決策樹、人工神經(jīng)網(wǎng)絡(luò)的深入研究,無疑會為機器學(xué)習(xí)的精準(zhǔn)度大大助力;而基于結(jié)構(gòu)的藥物設(shè)計,將更加離不開機器學(xué)習(xí),從而達到快速、高效、低成本的行業(yè)要求。然而,機器學(xué)習(xí)的優(yōu)點已有大量研究進行展示,但不得不說的是,真正憑借機器學(xué)習(xí)、人工智能為核心技術(shù),而開發(fā)出的上市藥物,還沒有。故,基于機器學(xué)習(xí)的藥物發(fā)現(xiàn),也一直受到行業(yè)的質(zhì)疑。但技術(shù)上的重大突破,往往伴隨著前期的極度質(zhì)疑,而一旦實現(xiàn)質(zhì)的飛躍,也必將受到更大的投資回報。機器學(xué)習(xí),人工智能,正在發(fā)力,未來可期!
參考文獻:
1.review on machine learning approaches and trends in drug discovery. doi.org/10.1016/j.csbj.2021.08.011
2.AI-based language models powering drug discovery and development. doi.org/10.1016/j.drudis.2021.06.009
3.Integration of AI and traditional medicine in drug discovery. doi.org/10.1016/j.drudis.2021.01.008
合作咨詢
肖女士 021-33392297 Kelly.Xiao@imsinoexpo.com