来源:百亿基金经理内参
近期,“木头姐”带领她的ARK研究团队发布了名为《Big Ideas 2025》的报告,长达148页,深入探讨了当今不断发展的五个技术创新平台。
其中,在多组学测序方面,报告指出,在海量多组学数据的支持下,结合可编程生物学的驱动,运行自主实验室的AI系统可能会显著降低药物研发全流程的成本,从而改变这个长期停滞的制药行业的回报状况。
无独有偶,某重仓该板块的基金经理在近日的一场内部交流会上,也分享了其对 AI 医疗,尤其是 AI 制药领域的看法。(因录音转文字,可能会存在部分错误)
核心观点如下:
2014 年起,全球生物制药研发热,AI 在生物医药领域愈发重要,国内算力和算法问题逐步解决。
制药流程涵盖多阶段,药物类型多样,AI 在多环节有应用,但目前主要是辅助,尚无全流程成功案例,提升效率效果不显著。
算法方向渐趋一致,算力不是瓶颈,数据少制约发展。数据质量差,老药新用数据易获取,新靶点及新药研发数据挑战大。
AI 在小分子领域应用更顺,大分子生成有困难。药企多从公开数据获取信息,公开数据有质量问题。
技术上,蛋白预测、对接难,数据少;商业模式上,AI 制药成本高、CRO 服务盈利难。大模型目前效果不明显,收费合理时客户愿尝试 AI,AI 能减少实验分子、提供新思路,应用于 CRO 行业利弊共存 。
原文如下:
自 2014 年起,全球生物制药研发热潮涌起,与此同时,随着阿尔法 go 和 ChatGPT 等工具的出现,AI 在生物医药领域的重要性与日俱增。
曾经让人们忧心忡忡的算力和算法问题,如今随着DeepSeek 等开源算法工具的出现,在中国已逐步得到解决。
在制药过程中,制药流程一般涵盖靶点发现、药物发现、药物优化、工艺优化、临床试验等阶段,药物类型多样,包括小分子化学药、大分子的蛋白、RNA、基因治疗、细胞治疗等。
AI 在靶点发现、药物发现、优化及工艺优化等环节都有涉足,临床方面也有公司借助 AI 进行病人筛选和临床数据解读。不过,目前 AI 制药大多还处于辅助阶段,还没有端到端的成功案例。
虽然在蛋白结构预测、分子对接、性质优化、ADMET 预测、合成方法设计、细胞培养及纯化策略选择等方面有应用,但在大幅提高开发效率上效果还不太显著,和传统制药在时间上差异不大。
说到算法、算力和数据在 AI 制药中的关键作用,在算法方面,早年研究较为宽泛,2015 年起基于语言模型如 LSTM 开展工作,2017 - 2018 年开始很多人在小分子和大分子设计上使用 transformer 模型,方向逐渐趋于一致。
算力在 AI 制药上并非大瓶颈。而数据方面,有标签的数据太少是最大的痛点,严重制约着效率提升及端到端药物研发。
要确保数据质量和多样性以支持大模型训练,干湿闭环结合真实世界验证是很有必要的。
数据质量一直是生物医药行业的难题,生物医药期刊实验结论可重复率低,每批数据的产生受受试对象、检测方法、生物本身波动等多种因素影响。
对于研究较多的靶点,像 PD - 1、HER - 2,数据相对真实且量大,有利于大分子 AI 应用。但新靶点数据存在挑战。
目前在老药新用方面数据支持相对容易,全新的 first - in - class 药物研发数据挑战则很大。
目前 AI 在老药新用方面相对容易,因为有较多数据支持。在 first - in - class 药物研发上,虽然难度大,但已有团队在尝试。
比如 Baker 实验室及其公司 sarra,基于 transformer 和 diffusion model 生成大小分子药物,这是做 first - class 药物的方向之一。
其逻辑是通过预测靶点结构,确定影响蛋白质的机制和结合面,反推药物结构。不过目前通过此方式成功设计出来的大分子药较少,小分子药相对较多,因为小分子原子少、计算容易、筛选成本低,可通过结合面预测合成类似物进行筛选。
AI 在小分子领域应用相对更顺利,因为小分子原子少、结构相对刚性,计算容易,可通过高通量筛选得到更确定性答案。
而大分子是蛋白结构,原子多且具柔性,在溶液中构象动态变化,难以同时预测准确,目前在通过 AI 直接生成有做药能力的大分子方面存在困难,但可先通过传统方法获得阳性大分子候选数据,再训练优化模型得到不错的大分子药物。
如果以抗体为例,Baker 实验室做全新蛋白结构设计,其序列若通过 OS 数据库获取,需对数据调优,洗掉脏数据,以此做 process model ,生成的序列可能在训练数据规则内。
大家认为以人的数据生成普遍模型,再从中 generate 数据,大概率会靠近人的特性。但对于 AI 做蛋白设计,其生成序列的天然性一直是讨论热点,不过总体认为通过上述方式生成的抗体在成药性上问题不大,与传统方法筛选出的抗体相比,成药性更接近天然。
要是蛋白分子对接能做好,对大分子做药或从头设计药来说是重大突破。像 David Baker 等用数学 model 生成抗体等,最大问题是蛋白的柔性及结合位置构象变化大,仅做静态结构模拟远远不够。
目前阿尔法四三在蛋白相互作用方面做得不好,若有公司能在该方向取得进展,将是很大突破,但具体谁先成功还不确定。
药企进行药物开发时,大部分数据源从公开数据集获取,如 gam express、NCBI 等有大量数据,以前在美国学校还可 access 美国人类基因组数据,中国也有相关人类基因组数据获取途径,此外还有企业自身的 property 数据。
公开数据存在质量问题,受实验室操作、实验环境等影响大,且在疾病信息传导路径中起关键作用的上游数据变化量小、表达量少,难以被测出来,不利于发现新靶点和利用数据。
但通过数据清洗可一定程度改善。与医院私密数据相比,公开数据可能不是最核心的,但经过处理后仍有重要价值,同时自己进行数据设计和模型搭建也很关键。
药企对健康行业如手环或手表的数据需求不大,这类数据在药物开发中作用不明显。
在药物研发后续工作中,药物靶点及特性可能受人群基因型、种族、性别、年龄等影响,AI 可用于患者筛选,通过考量覆盖机型等因素选择合适人群。
在临床试验设计方面,AI 可根据召回患者情况,更合理地设计剂量、每期临床试验方法,提高药物成功几率。
在整个医疗领域终端应用方面,靶点发现上,美国 autun wise 较知名,国内相关公司较少。
药物发现与设计方面,David Baker 的公司、修定格等有潜力做 d novo 药物设计,多数公司做药物优化,如国内金太在 ADMVT、free energy proportion 方面较出名,与 first 有长期合作;大分子方面,b cat 在 CDR 区优化等方面表现较好。
临床方面相关公司较新。生产方面,美国有公司通过看细胞照片判断细胞是否适合生产,国内大湾生物可通过细胞数据或影像优化细胞培养。工艺方面,西门子在细胞工艺发酵过程引入相关工作。
底层服务方面,NVIDIA 集成很多工具。国内金泰是 AI 上市药企,在 reformation 等方面较出名;inc inc ical medicine 在靶点筛选等方面有较多工作;分子之心在大分子基于已有序列改造,提高成药性和亲和力方面有成功经验;百图四五年前开始做免疫知识图谱、药物发现等方向,但目前还未听到成功案例及相关更新。
从挑战来看,技术层面,蛋白结构动态预测难、分子对接难、标签数据少,特定靶点 AI 模型泛化能力不好。商业模式方面,AI 制药企业自己做药成本高,且临床成功率与是否用 AI 关系不大;提供 CRO 服务赚钱有限,客户付费意愿低;提供 AI 服务收 milestone 和 royalty 等较难,除非是非常特别的药物和靶点。
短期内,技术挑战难以完全解决,商业模式也需不断探索完善。
在药物发现上,大模型以及 deep seek 目前效果不大。小分子和大分子药物很早前就引入 transformer 相关模型,基于语义表达开展工作,如小分子用 ipc 式子表达、大分子把氨基酸当 token 用 transformers 模型。大家会用类似 gbt 或 deep seek 的模型架构,但不会直接用,而是用化合物库(如 ipc)或抗体数据库(如 OS)的数据训练模型。
大模型如 GPT、deep seek 这类通用文本模型,在总结文章、建立实体关系模型、靶点发现中读文献找 hint、建立知识库和知识图谱方面有帮助,但不是关键。
在化合物库和抗体序列处理上,会将其当作类似语言模型处理,但直接应用 GPT 或 deep seek 进行药物研发较难想象,更重要的还是自身训练的大模型、筛选模式和选取高质量数据的方式。
如果收费合理,客户愿意尝试 AI。目前保证成功的抗体或小分子优化 package 收费在几万到 10 万美元,使用 AI 可能增加 10% - 20% 费用,客户基本可接受。
但纯以 AI 提供服务,收取 milestone 和 royalty 难度大,因药物研发成功率低,整体投入大,客户不愿承担风险。
AI 最擅长在已有与靶点结合的 candidate 基础上,生成很大空间,看生成的化合物或大分子是否有相同结合能力,进行大小分子虚拟筛选和大分子虚拟筛选及药物优化。
与传统结构生物学家设计相比,AI 能提供更大空间,给出高潜力结合分子情况。例如在药物优化中,AI 生成序列约 20% 有结合力,其中约 10% 结合力更好,相比传统饱和点突变等方法,可大幅减少实验分子数量,提高效率。
在 AI 药物优化循环中,结构生物学家可辅助判断 AI 设计的分子,但因 AI 设计的分子与原本差异大,结构生物学家判断也有难度。
所以结构生物学家和 AI 都会进行设计,AI 设计的分子通过实验验证是否结合更高效。在药物优化中,传统方式需大量分子实验,AI 可减少实验分子数量,虽然不能保证每次 AI 表现都优于结构生物学家,但提供了新工具和不同序列类型,有很大价值。
从设计和表达纯化费用看,AI 减少实验分子数量可能使整体收入减少,但降低了制药门槛,可能带来更多生意。
在时间方面,虽然从 DNA 到 IND 部分工作时间可压缩,但该阶段时间和费用在整个药物研发中占比不大,更关键的是 AI 能提供更多解决思路和增加设计丰富度。
整体而言,AI 应用于 CRO 行业对推动医药行业发展是利好,可能带来更多需求,但在成本和时间压缩上空间有限,且在减少人力方面可能存在冲突。
责任编辑:江钰涵
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.