AI能否運(yùn)用到承擔(dān)著人類健康使命的新藥研發(fā)行業(yè)中去?
編者按:本文來(lái)自微信公眾號(hào)GGV紀(jì)源資本(GGVCapital),編輯:張穎,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。
藥企花十幾年圍繞著一個(gè)靶點(diǎn)研發(fā)出一款藥,盡管面世后救人無(wú)數(shù),但面對(duì)下一個(gè)靶點(diǎn)依然要從頭做起。為什么幾十年過(guò)去了,新藥研發(fā)仍然如此低效?這曾經(jīng)是傳統(tǒng)新藥研發(fā)行業(yè)大家普遍的觀感。
(資料圖片)
另一方面,人們注意到AI不僅能識(shí)別內(nèi)容,還能夠創(chuàng)造內(nèi)容,AIGC(AI Generate Content,利用人工智能技術(shù)來(lái)生成內(nèi)容)行業(yè)近幾年的蓬勃發(fā)展已經(jīng)帶來(lái)太多驚喜,那么,AI能否運(yùn)用到承擔(dān)著人類健康使命的新藥研發(fā)行業(yè)中去?
圖:藥物研發(fā)的Eroom’s Law,即制藥公司正花費(fèi)越來(lái)越多的錢開(kāi)發(fā)更少的藥物。(來(lái)源:research gate)
這兩個(gè)問(wèn)題匯集到一起,就能夠清晰地看到“生物計(jì)算”(Bio-Computing)的價(jià)值:通過(guò)生物計(jì)算引擎,藥物研發(fā)者能夠利用大量的生物數(shù)據(jù),將人類細(xì)胞常見(jiàn)的7000個(gè)目標(biāo)蛋白所對(duì)應(yīng)的蛋白質(zhì)藥物彈頭都挖掘出來(lái),并且針對(duì)每一個(gè)彈頭做出上千種藥物干預(yù)的方案,而這意味著藥物研發(fā)這件曾經(jīng)如大海撈針的事情有望變成“按圖索驥”——毫無(wú)疑問(wèn),這將為行業(yè)帶來(lái)極大的沖擊。
藥物研發(fā)的新探索幾十年來(lái),藥物研發(fā)行業(yè)的發(fā)展趨勢(shì)可以以“精準(zhǔn)化”幾個(gè)字概括。最早的化療藥物進(jìn)入人體,由于識(shí)別能力有限,形成“殺敵一千、自損八百”的效應(yīng),于是專家們研發(fā)出更加精細(xì)化的小分子藥物,針對(duì)某一類的蛋白具有結(jié)合能力,形成更精準(zhǔn)的治療效果。再之后,靶向藥物的面世,使得一款藥物能夠精準(zhǔn)地去靶向具體的某一個(gè)蛋白。
而新一代的精準(zhǔn)藥物,不僅能夠在遇到一個(gè)靶點(diǎn)蛋白的時(shí)候才會(huì)引起觸發(fā),還能夠識(shí)別出在這個(gè)靶點(diǎn)蛋白所處的微環(huán)境里是否有對(duì)應(yīng)的、合適的酶。這類藥物甚至能夠精準(zhǔn)到,在含有A、B、C 三個(gè)目標(biāo)蛋白的時(shí)候才需要發(fā)揮作用,而只有某一個(gè)目標(biāo)蛋白的情況下則不會(huì)發(fā)生觸發(fā)。
不過(guò),如今的藥物研發(fā)行業(yè)出現(xiàn)了更新的進(jìn)展。
以往的藥物發(fā)現(xiàn)大多以真實(shí)物理世界篩選為主,以動(dòng)物實(shí)驗(yàn)作為驗(yàn)證主體。例如中國(guó)古人“神農(nóng)嘗百草”,古代蘇美爾人通過(guò)吃柳樹(shù)的樹(shù)皮來(lái)獲取其中的阿司匹林,再例如科學(xué)家從治愈的病人血液中去試圖發(fā)現(xiàn)疾病治愈的相關(guān)元素,通過(guò)給小白鼠去打上具有目標(biāo)靶點(diǎn)的蛋白,去篩選能夠治療疾病的藥物構(gòu)成。
而新藥研發(fā)行業(yè)的專家們正在探索的生物計(jì)算,則更像是將蛋白質(zhì)構(gòu)成視作一個(gè)巨大的模型,去探索人類進(jìn)化過(guò)程中,蛋白質(zhì)組合的各種可能性。這種通過(guò)理性設(shè)計(jì),而非僅僅依賴于對(duì)自然界觀測(cè)的研發(fā)手段,再經(jīng)由高通量的驗(yàn)證實(shí)驗(yàn)去判斷它針對(duì)目標(biāo)的效果之后,便帶來(lái)了更精細(xì)的新藥發(fā)現(xiàn)范式。
不過(guò),生物計(jì)算至今仍然是一個(gè)剛剛興起的領(lǐng)域。在這條賽道上探索的科學(xué)家試圖將原有手段發(fā)現(xiàn)的靶點(diǎn),依靠生物計(jì)算重新做一輪預(yù)測(cè)。而他們衡量成功與否的指標(biāo)是“親和力”,即通過(guò)生物計(jì)算所設(shè)計(jì)的藥物蛋白與目標(biāo)蛋白之間的親和程度是否足夠高,或者至少高于原有手段。目前他們的結(jié)論是,生物計(jì)算可以在人類已經(jīng)充分研究過(guò)的靶點(diǎn)上將親和力提高了1- 2個(gè)數(shù)量級(jí)。
而經(jīng)過(guò)數(shù)據(jù)計(jì)算,生物計(jì)算所設(shè)計(jì)的蛋白質(zhì)親和力還有極大的提升空間。對(duì)科學(xué)家來(lái)說(shuō),即使能夠做到更高的親和力,藥物本身也會(huì)避免與目標(biāo)蛋白過(guò)于緊密,因?yàn)檫^(guò)于緊密容易引發(fā)更多的副作用。通過(guò)生物技術(shù),藥物的親和力可以被調(diào)整為中等量級(jí),而這種調(diào)節(jié)能力,將直接讓這些藥物更安全、更有效。
歸根結(jié)底,生物計(jì)算能夠提高藥物研發(fā)的特異性。一家藥企在設(shè)計(jì)出一款藥物之后,就需要走完從篩選到臨床再到藥物上世的全過(guò)程,但當(dāng)他們發(fā)現(xiàn)了下一個(gè)未被人類征服的靶點(diǎn)時(shí),此前的研發(fā)經(jīng)驗(yàn)卻用處不大。沒(méi)有任何一家藥企能夠去“窮舉”人體內(nèi)的蛋白結(jié)合,這使得整個(gè)行業(yè)的關(guān)鍵進(jìn)展緩慢,每款藥物都需要十幾年甚至二十年的研發(fā)周期。
但是,生物計(jì)算的神奇之處恰恰在于,任何一個(gè)蛋白都可以被計(jì)算出來(lái),也都可以控制其與靶點(diǎn)的結(jié)合。
或許我們可以將生物計(jì)算與近期火爆的Chat GPT相類比。它們的發(fā)展同樣依賴于AI,后者經(jīng)歷了從GPT-1到GPT-4的一輪輪研發(fā),才達(dá)到今日令人驚艷的水準(zhǔn)。而生物計(jì)算也將經(jīng)歷對(duì)不同靶點(diǎn)結(jié)合效果的一輪輪試驗(yàn)。前路漫長(zhǎng),但這項(xiàng)探索意義重大,一旦解決了目前所有的研發(fā)問(wèn)題,新藥研發(fā)者便堪稱進(jìn)入了研發(fā)的“自由王國(guó)”,他們將在更短的時(shí)間內(nèi),借用更靈活的手段去研發(fā)更有效的藥物。
(圖片來(lái)源:百圖生科實(shí)驗(yàn)室真實(shí)拍攝)
生物計(jì)算能帶來(lái)什么臨床效果?進(jìn)入藥物研發(fā)的“自由王國(guó)”,對(duì)藥企來(lái)說(shuō),曾經(jīng)是一個(gè)可望而不可及的夢(mèng)。這些企業(yè)往往花十幾年時(shí)間圍繞著一個(gè)靶點(diǎn)來(lái)研發(fā)一款藥物,藥品上市后皆大歡喜,但同時(shí)也可能發(fā)現(xiàn),其他藥企使用類似的技術(shù)路徑,研發(fā)了同一個(gè)靶點(diǎn)上的藥物。這種行業(yè)格局使得大家同樣都需要在研發(fā)的苦行僧之路上長(zhǎng)期前行,再以零積累的狀態(tài),將目標(biāo)遷移到另一個(gè)靶點(diǎn)上。藥物研發(fā)只能夠針對(duì)單個(gè)靶點(diǎn),這是整個(gè)行業(yè)低效的源頭問(wèn)題。
而生物計(jì)算所帶來(lái)的最大價(jià)值是,科學(xué)界可以將人類的細(xì)胞常見(jiàn)的7000個(gè)目標(biāo)蛋白模擬出來(lái),并做好相關(guān)的彈頭,并針對(duì)每一個(gè)彈頭做出 100 種甚至1000 種選擇。由于研發(fā)者全程相當(dāng)于在虛擬空間內(nèi)進(jìn)行設(shè)計(jì),因此100 種或1000 種藥物構(gòu)成的研究與抉擇,并不會(huì)耗費(fèi)更多資源。
致力于生物計(jì)算的百圖生科(BioMap)CEO劉維提到,生物計(jì)算將創(chuàng)造出創(chuàng)新藥物研發(fā)的平臺(tái)型機(jī)會(huì),就像隨著汽車的復(fù)雜度提高,必然會(huì)進(jìn)化出幾家變速箱廠商,隨著飛機(jī)的普及,也會(huì)有專業(yè)的發(fā)動(dòng)機(jī)廠商誕生一樣,藥物研發(fā)行業(yè)完全有理由出現(xiàn)幾家關(guān)鍵部件的平臺(tái)級(jí)公司。
那么,對(duì)于整個(gè)行業(yè)來(lái)說(shuō),生物計(jì)算將帶來(lái)怎樣的臨床收益,它又將如何落地?
首先,它將使藥物本身的功能更加精準(zhǔn)。藥物研發(fā)的“老辦法”是基于生物篩選,大多數(shù)針對(duì)單一靶點(diǎn)或者簡(jiǎn)單地將幾個(gè)靶點(diǎn)拼到一起,在病人體內(nèi)碰到 A 靶點(diǎn)可以發(fā)揮作用,碰到B 靶點(diǎn)也可以發(fā)揮作用,但也因此無(wú)法提高安全性,更難以降低副作用。由于安全性有限,藥物的濃度也不會(huì)太高,藥效因此無(wú)法保證。
而更加精準(zhǔn)與更高的親和力恰恰是生物計(jì)算所追求的目標(biāo)。此外,在針對(duì)靶點(diǎn)的精細(xì)化研究之后,便是每一個(gè)“彈頭”觸發(fā)機(jī)制的改變,人體的細(xì)胞擁有自己的運(yùn)作規(guī)律,新一代藥物可以做到在針對(duì)A靶點(diǎn)激活后間隔5毫秒,再在B靶點(diǎn)釋放。
這帶來(lái)的直接臨床收益是,藥物的安全性大大提高,而安全性也恰恰是當(dāng)今藥物研發(fā)的最大桎梏之一;此外,藥物的有效性與長(zhǎng)期效果提高,降低患者耐藥性。
第三便是藥物的適用范圍,人們可以去預(yù)期能解決的疾病領(lǐng)域,例如此前很多實(shí)體瘤難以治療,就是因?yàn)樗幬餂](méi)有足夠濃度,穿透力不足以形成治愈,而生物計(jì)算能夠大幅度提高藥物的實(shí)用性。
實(shí)際上,人類對(duì)疾病的機(jī)理已經(jīng)形成了很多有效的初步判斷。例如大量疾病,包括腫瘤、衰老、感染都與免疫系統(tǒng)有關(guān),根本在于免疫細(xì)胞被過(guò)度激活或者沒(méi)有被激活。
因此,怎樣激活免疫細(xì)胞的蛋白,怎樣在細(xì)胞表面或者細(xì)胞里找到合適的蛋白,像“推開(kāi)關(guān)”一樣激活一些蛋白,抑制另一些蛋白,便是治療的根本。而以往的研發(fā)方式無(wú)法設(shè)計(jì)出精準(zhǔn)控制這些蛋白的藥物。換句話說(shuō),藥物研發(fā)這門科學(xué),受制于傳統(tǒng)的動(dòng)物發(fā)現(xiàn)原理,但今天這一切似乎有望改善。
生物計(jì)算的臨界點(diǎn),會(huì)在哪?百圖生科將其為生命科學(xué)問(wèn)題提供解決方案的AI平臺(tái)命名為AIGP(AI Generatived Protein),而這與AIGC(AI Generate Content,利用人工智能技術(shù)來(lái)生成內(nèi)容)確實(shí)有些異曲同工之妙。劉維概括,如果說(shuō)AIGC所使用的語(yǔ)言是人類的自然語(yǔ)言,那么Protein 更像是造物主的生命語(yǔ)言。自然語(yǔ)言是由字詞章句組成的,AIGP所研究的則是蛋白質(zhì)里的氨基酸序列,包括蛋白質(zhì)之間的互相作用。只不過(guò)AIGP與AIGC的研發(fā)進(jìn)展不太一樣,前者目前還停留在類似于GPT-1的階段。
那么,生物計(jì)算的臨界點(diǎn),或者關(guān)鍵條件會(huì)在哪里?
圖: AIGP3大功能模塊+12項(xiàng)核心能力示意圖。來(lái)源:百圖生科
與AIGC相似,AIGP所發(fā)展的首要基礎(chǔ)是數(shù)據(jù)。如果數(shù)據(jù)足夠多,科學(xué)家甚至不需要建立大模型就能獲取到想要的答案,但如果數(shù)據(jù)太少,大模型則沒(méi)有用武之地,無(wú)法蒸餾出能對(duì)新藥研發(fā)有所指導(dǎo)意義的東西。
單細(xì)胞組學(xué)的進(jìn)展是生物計(jì)算領(lǐng)域科學(xué)家的研發(fā)動(dòng)機(jī)之一,單細(xì)胞CRISPR的細(xì)胞擾動(dòng)以及對(duì)擾動(dòng)的觀測(cè)等一系列技術(shù)在過(guò)去的5年內(nèi)快速走向成熟,使得每一個(gè)細(xì)胞的基因組和轉(zhuǎn)錄組都可以被翻譯為這個(gè)細(xì)胞內(nèi)的蛋白表達(dá)。
因此,每一個(gè)細(xì)胞能夠被解讀的數(shù)據(jù)是原來(lái)的幾千萬(wàn)倍,而且這些數(shù)據(jù)都可以被映射到蛋白之中。在此之前,諸如蛋白是如何在一個(gè)細(xì)胞內(nèi)被組合的,細(xì)胞之間蛋白質(zhì)是如何互相作用的,這些大量的信息都像是在黑盒子里,無(wú)法被任務(wù)模型分析出來(lái)。
除了數(shù)據(jù)的快速增長(zhǎng)之外,另一個(gè)推動(dòng)行業(yè)進(jìn)入臨界點(diǎn)的關(guān)鍵點(diǎn)是大模型的框架,即通過(guò)大模型來(lái)表征蛋白質(zhì)相關(guān)的信息。對(duì)AIGC來(lái)說(shuō),自然語(yǔ)言的大模型也是靠人類的字詞章句組成,同時(shí)完成文字、圖片、視頻等跨模態(tài)描述。而到了AIGP這里,把氨基酸、蛋白、細(xì)胞、免疫系統(tǒng)等打通成一套表征的體系之后,人類便可以通過(guò)蛋白質(zhì)的“開(kāi)關(guān)”來(lái)調(diào)控細(xì)胞的功能。
第三個(gè)關(guān)鍵條件便是算力的快速發(fā)展,生物計(jì)算這個(gè)領(lǐng)域的大模型對(duì)算力有一些獨(dú)特的要求,這些大模型往往會(huì)和物理模型有更多的融合,如今算力的需求也正在與大模型進(jìn)行融合。
第四個(gè)條件,是在生物領(lǐng)域非常重要的高通量驗(yàn)證體系的成熟。GPT-1模型就已經(jīng)解決了自然語(yǔ)言識(shí)別的關(guān)鍵問(wèn)題,即依靠互聯(lián)網(wǎng)形成的信息快速閉環(huán)就能夠形成一套驗(yàn)證與反饋體系。然而,生物計(jì)算需要有一套自己的驗(yàn)證體系,而這個(gè)體系的建立并不容易。以百圖生科為例,經(jīng)過(guò)計(jì)算而發(fā)現(xiàn)的蛋白應(yīng)當(dāng)如何被“讀”“寫(xiě)”出來(lái)?人們無(wú)法利用公開(kāi)數(shù)據(jù)做驗(yàn)證,因?yàn)轭A(yù)測(cè)或設(shè)計(jì)出的往往都是全新蛋白。能否找CRO來(lái)輔助模擬呢?由于CRO的主要業(yè)務(wù)是面向當(dāng)前主流的蛋白去做優(yōu)化,因此這些廠商對(duì)新發(fā)現(xiàn)的蛋白普遍并不感冒。
從AI大模型的角度來(lái)講,無(wú)論是Positive結(jié)果的數(shù)據(jù)還是Negative結(jié)果的數(shù)據(jù),甚至多維數(shù)據(jù),一切數(shù)據(jù)皆有意義。因此,百圖生科的實(shí)驗(yàn)室整合了目前CRISPR的技術(shù)與高速蛋白表達(dá)的技術(shù),形成一個(gè)能高速閉環(huán)驗(yàn)證的系統(tǒng)來(lái)驗(yàn)證對(duì)蛋白的預(yù)測(cè)。一旦百圖生科獲得高價(jià)值的藥物研發(fā)項(xiàng)目,這套閉環(huán)就將支持它探索新的蛋白結(jié)構(gòu)。
圖:百圖生科的大模型xTrimo如何實(shí)現(xiàn)閉環(huán)迭代。來(lái)源:百圖生科
平臺(tái)研發(fā)者該如何構(gòu)建模式?在生物計(jì)算這條嶄新的路上探索,僅有技術(shù)積淀似乎不夠。對(duì)于以百圖生科為代表的平臺(tái)研發(fā)者,如何構(gòu)建自己的模式,才能最快地讓這件事落地并持續(xù)發(fā)展?
百圖生科將自己定位為AIGP平臺(tái)驅(qū)動(dòng)的co-development合作模式,一方面研發(fā)平臺(tái),另一方面也會(huì)做一些較為前沿的藥物管線,進(jìn)行直接的藥物開(kāi)發(fā)。
涉及到具體的藥物研發(fā),往往需要廠商擁有全鏈條的能力,因此百圖生科目前近300名員工中,很大一部分比例的人才儲(chǔ)備都涉及到具體的藥物研發(fā),而且一些自研藥物已經(jīng)進(jìn)入臨床前的后期。不過(guò),百圖生科更多地會(huì)將新藥推進(jìn)到IND(Investigational New Drug )狀態(tài),即獲得臨床批件或更早的階段,暫時(shí)不會(huì)在后面的臨床階段去做更大的投入。
實(shí)際上,百圖生科的優(yōu)勢(shì)是發(fā)現(xiàn)創(chuàng)新的分子。因此更希望能夠獲得大型藥企的青睞,將創(chuàng)新成果及時(shí)地轉(zhuǎn)讓出去。例如一些大型藥企在免疫細(xì)胞的調(diào)控能力方面很強(qiáng),在過(guò)往的靶點(diǎn)上也擁有成功上市的藥物,如果與百圖生科進(jìn)行合作,就免去了重復(fù)研發(fā),可以獲得雙贏效果。傳統(tǒng)CRO服務(wù)企業(yè)的項(xiàng)目收益較低,而通過(guò)百圖生科的co-development模式,更傾向于讓合作伙伴通過(guò)創(chuàng)新與深度介入項(xiàng)目,獲得每個(gè)項(xiàng)目少則 1 億美金,多則 10 億美金甚至更多的收益。
基于生物計(jì)算平臺(tái),自研藥物+共同開(kāi)發(fā),這兩方面業(yè)務(wù)構(gòu)成了百圖生科的主要模式。為了支撐這樣的創(chuàng)新模式,百圖生科也在開(kāi)拓各類技術(shù)合作,例如近期與穆罕默德·本·扎耶德人工智能大學(xué)MBZUAI宣布建立聯(lián)合實(shí)驗(yàn)室,其中的重要課題便是在中東聯(lián)合去做與石油產(chǎn)量、環(huán)保有關(guān)的酶的聯(lián)合設(shè)計(jì)和優(yōu)化。酶是一類關(guān)鍵的蛋白質(zhì),因此這類研究將充分受益于百圖生科的生物計(jì)算大模型上。
在生物計(jì)算領(lǐng)域,合作甚至是全球性合作是大勢(shì)所趨。由于全球科學(xué)家與醫(yī)學(xué)工作者的目標(biāo)都是擊退疾病與病毒,每個(gè)人肩上的使命與責(zé)任相同,因此生物醫(yī)藥是一個(gè)最不能形成“零和游戲”的領(lǐng)域。縱觀全球,美國(guó)市場(chǎng)由于擁有較多大藥廠,底層開(kāi)發(fā)技術(shù)進(jìn)展較快,臨床資源也比較豐富;歐洲擁有很多優(yōu)秀的藥企,在疾病科學(xué)領(lǐng)域有非常深度的研究和長(zhǎng)時(shí)間的積累,唯一的不足在于歐洲本土轉(zhuǎn)化的市場(chǎng)不夠大。
圖:百圖生科與MBZUAI共建的中東地區(qū)首個(gè)生物計(jì)算創(chuàng)新研究實(shí)驗(yàn)室。來(lái)源:MBZUAI 校網(wǎng)
在亞洲,中國(guó)與日本均有較高的研發(fā)水平,百圖生科在中國(guó)蘇州擁有的大型高通量實(shí)驗(yàn)室是世界上現(xiàn)在最大的生物計(jì)算行業(yè)的蛋白質(zhì)生產(chǎn)實(shí)施。背靠各家高校,中國(guó)的生物計(jì)算前沿能力不容小視;同時(shí),中東的醫(yī)藥行業(yè)也在快速崛起中,百圖生科與MBZUAI共建的中東地區(qū)首個(gè)生物計(jì)算創(chuàng)新研究實(shí)驗(yàn)室,也致力于吸引全球的AI 人才加入,而這些人才的主要方向便與AIGP緊密相關(guān)。
扎根于中國(guó)的百圖生科也在國(guó)內(nèi)進(jìn)行更多合作。例如,百圖生科正在與2022未來(lái)科學(xué)大獎(jiǎng)生命科學(xué)獎(jiǎng)得主李文輝共同探索一個(gè)由華人科學(xué)家里找到的、目前公認(rèn)最有前景的靶點(diǎn)。這個(gè)靶點(diǎn)本身極為復(fù)雜,而且在人體內(nèi)有很重要的功能,因此無(wú)法被簡(jiǎn)單地阻斷。李文輝所帶來(lái)了對(duì)于靶點(diǎn)生物學(xué)機(jī)理的深度理解,百圖生科也正在用獨(dú)特的研發(fā)平臺(tái)去探索針對(duì)這個(gè)靶點(diǎn)的解決方案。此外,百圖生科也在積極幫助以漸凍癥抗?fàn)幷摺⑶熬〇|副總裁蔡磊為代表的漸凍癥患者在相關(guān)的靶點(diǎn)上尋找解決方案。