10年科学谜团,被谷歌“AI科学家”2天解决了

智东西
20 Feb

编译 | 陈骏达

编辑 | Panken

智东西2月20日报道,用48小时破解生物学家苦心钻研10年的“超级细菌”难题,还可免费申请使用,这是谷歌研究院(Google Research)昨日在AI for Science领域发布的最新成果:一个基于Gemini 2.0构建的AI协作科学家。

▲AI协作科学家架构(图源:谷歌)

谷歌此番发布的AI协作科学家基于多智能体系统,能作为虚拟科研合作者,帮助科学家生成新颖的假设和研究提案。

在实际测试中,AI协作科学家已经展现出惊人的实力:它独立提出了一个关于细菌基因转移机制(耐药性)的新颖假设,发现了一款白血病治疗再利用候选药物,还识别出了肝纤维化治疗的遗传学靶点。

这些研究之前从来没有发表过,这表明AI协作科学家是自主得出这一见解的。

谷歌AI协作科学家完成的上述科研任务被专业人员界定为中等到超高难度。参与验证的科学家称,AI虽然无法进行证明假设的实验,但如果能在项目开始之初就得到相关假设,那么就能节省几年的工作。

AI协作科学家能生成并验证研究假设,通过模拟辩论和完善假设,构建知识网络并进化假设,最终生成研究概述供科学家审查。这一系统的目的不是完全取代人类科学家,人类能够全程参与并指导AI的推理过程,从而更好地满足科研实际需求。

目前,谷歌已经将AI协作科学家测试版免费提供给研究人员,并且还将发布一个API接口,以允许网站使用其基础技术。

▲AI协作科学家论文(图源:谷歌)

论文地址:

https://storage.googleapis.com/coscientist_paper/ai_coscientist.pdf

一、跨学科合作推动科学发现,AI协作科学家适用于多个领域

科学发现的过程一直依赖于跨学科的合作,这种模式在历史上促成了许多重大的科学突破。

谷歌研究院团队认为,随着大语言模型的发展、AI多模态理解能力的提升,科学家们现在可以使用这些技术,帮助他们跨越学科的界限,整合不同领域的知识和数据。

此前,获得诺贝尔奖的谷歌DeepMind CEO Demis Hassabis和研究总监John Jumper等人,通过发明AlphaFold彻底改变了生物学研究的游戏规则,这一系统能预测蛋白质结构,大幅度节省研究时间。此外,也有不少研究者开发了类似的AI工具。

不过,现有的AI系统在科学发现中的应用仍存在局限性。例如,一些系统依赖于回顾性数据,缺乏端到端验证;另一些系统虽然在文献总结方面表现出色,但在生成新的科学假设方面能力不足。

谷歌研究院此番推出的AI协作科学家通用性更强,适用于多个研究领域,不仅能够进行文献探索和假设验证,还能通过模拟科学辩论和自我批判来完善假设,从而加速科学发现的进程。这一系统还能结合专家反馈和实验室验证,确保生成的假设不仅新颖,而且具有实验验证的可行性。

他们的目标不是将科学发现工作完全自动化,而是为科学家打造一个强大的AI协作者。这一系统通过灵活的自然语言交互和专家反馈机制,确保科学家能够全程参与并指导AI的推理过程,从而更好地满足科学家的实际需求。

二、多智能体协作进行科研,不断自我批评、迭代

AI协作科学家系统由多个智能体组成,每个智能体负责不同的任务,包括生成假设、反思假设、排名假设、进化假设等。系统的核心是通过生成、辩论和进化的方法,结合科学方法的启发,利用计算资源的扩展来加速假设生成。

系统的设计包括以下几个关键组件:

1、自然语言交互界面(Natural Language Interface)

科学家通过自然语言与系统交互,定义研究目标、提供反馈、提出自己的想法,并指导系统的推理过程。

2、异步任务执行框架(Asynchronous Task Execution Framework)

系统采用异步任务队列管理多个智能体的工作流程。监督智能体(Supervisor Agent)负责分配任务、管理资源,并根据需要动态调整计算资源的分配。

3、专用智能体(Specialized Agents)

系统由多个智能体组成,每个智能体负责特定的推理任务,共同协作生成高质量的研究假设和实验方案。这些智能体包括:

生成智能体(Generation Agent):负责生成初始假设和研究提案。

反思智能体(Reflection Agent):对生成的假设进行评估和审查,确保其合理性、新颖性和可行性。

排名智能体(Ranking Agent):通过锦标赛机制对假设进行排名,比较不同假设的优劣。

进化智能体(Evolution Agent):通过改进和优化排名靠前的假设,提升其质量。

相似性智能体(Proximity Agent):计算假设之间的相似性,帮助组织锦标赛并探索假设空间。

元评审智能体(Meta-review Agent):总结锦标赛中的反馈和模式,优化其他智能体的表现,并生成研究概述。

4、上下文记忆(Context Memory)

系统使用持久化上下文记忆来存储和检索智能体和系统的状态,支持长周期的迭代计算和科学推理。

5、工具使用(Tool Use)

系统能够调用外部工具(如网络搜索、专用AI模型等),以增强生成假设的依据和质量,确保其科学性和可行性。

6、科学家反馈(Scientist Feedback)

科学家可以通过自然语言提供反馈,直接参与系统的推理过程,指导系统生成更符合需求的假设和研究方案。

7、研究概述生成(Research Overview Generation)

元评审智能体将排名靠前的假设总结为详细的研究概述,供科学家进一步评估和指导后续研究。

这一系统的高质量回答得益于其推理过程中使用的大量计算资源,也就是所谓的测试时计算(Test-time Compute)。测试时计算主要用于迭代推理、演化和改进输出。

关键推理步骤包括基于自博弈的科学辩论以生成新假设、排名锦标赛以比较假设,以及一个用于质量改进的“进化”过程。系统的Agent性质促进了递归自我批评,包括使用工具进行反馈以细化假设和提案。

系统的自我提升依赖于从锦标赛中得出的Elo自动评估指标。谷歌团队在GPQA diamond基准测试上验证了,更高的 Elo评级与正确率呈正相关。

在科研问题上,谷歌让7位人类专家策划15个开放性研究目标,并让人类专家给出最佳的假设解决方案。通过自动化的Elo评估指标,AI协作科学家在解决这些复杂问题时超越了其他最先进的智能体和推理模型。

扩展测试时计算在这一测试中得到了鲜明的展现。随着系统投入更多时间进行推理和改进,其自动评估结果质量逐渐提升,最终超越了其他模型和未经辅助的人类专家。

在11个研究目标上,专家们对AI协作科学家生成的结果与其他相关基线模型进行了比较,评估了其新颖性和影响力,并给出了总体偏好的评价。

尽管样本量较小,但专家们认为AI协作科学家在新颖性和影响力方面具有更高的潜力,并且更倾向于信任其输出结果。此外,这些人类专家的偏好与之前的Elo自动评估指标相一致。

三、可解决超高难度科研问题,回溯数十年文献得出新假设

谷歌在三个关键生物医学领域对AI协作科学家生成的假设和研究方案进行了端到端的实验室验证:药物再利用(中等难度)、提出新的治疗靶点(高难度),以及阐释抗菌素耐药性的机制(超高难度)。这些验证过程均在专家指导下进行。

1、急性髓系白血病的药物再利用

药物开发是一个日益耗时且成本高昂的过程,针对每种疾病或适应症,都需要重新启动发现和开发过程的许多环节。药物再利用通过发现现有药物的新治疗用途来应对这一挑战,但这一任务的复杂性要求具备广泛的跨学科专业知识。

谷歌的AI成功为急性髓系白血病(AML)提出了新的再利用候选药物,后续实验验证了这些提议,确认所建议的药物在多种AML细胞系中以临床相关浓度(能达到预期效果的最低或最高浓度)抑制肿瘤活性。

相关论文:

https://storage.googleapis.com/coscientist_paper/penades2025ai.pdf

2、肝纤维化的靶点发现

与药物再利用相比,发现新的治疗靶点更为复杂,面临低效的假设选择过程和实验验证的优先级排序不佳等问题。AI辅助靶点发现有助于简化实验验证的过程,最终减少开发时间和成本。

AI协作科学家通过识别基于临床前证据的表观遗传学靶点,展示了其潜力,这些靶点在人类肝脏类器官(由人类细胞衍生的3D多细胞组织培养,旨在模拟人类肝脏的结构和功能)中显示出显著的抗纤维化活性。这些发现将在斯坦福大学合作者主导的即将发布的报告中详细介绍。

3、抗菌素耐药性的机制阐释

第三个验证案例聚焦于生成假设以解释与抗菌素耐药性(AMR)相关的细菌基因转移进化机制——即微生物进化出的抵抗感染治疗药物的机制。

这是一个复杂的挑战,需要理解基因转移的分子机制(接合、转导和转化)以及推动 AMR 基因传播的生态和进化压力。

在这一测试中,专家研究人员指导AI协作科学家探索其团队已经发现,但尚未公开的研究主题,即解释为什么噬菌体诱导的染色体岛(cf-PICIs)存在于多种细菌物种中。

AI协作科学家系统独立提出,cf-PICIs通过与多种噬菌体尾部的相互作用,来扩大其宿主范围。这一发现已经在研究人员之前的原始实验中得到了验证。

这一计算机模拟发现已在使用AI协作科学家系统之前进行的原始实验室实验中得到实验验证。

这展示了AI协作科学家系统作为辅助技术的价值,它能够利用同一研究主题上的所有开放权限的文献,在数十年研究成果的基础上做出新的判断。

结语:AI进一步加速科学发现

谷歌研究团队提出,未来他们还将进一步增强AI协作科学家在文献综述、事实核查、连贯性检查方面的能力,也会让更多领域的专家参与到系统的改进过程中,提升其可用性与可信度。

此外,强化学习、多模态数据整合、实验室自动化集成等方向的探索,将让现有系统的能力进一步提升,能更加端到端地完成复杂科研任务,进一步加速科学发现。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10