(圖片來源:unsplash)
中國、美國研究人員發佈的兩款AI生物學模型同日“撞車”。
鈦媒體AGI獲悉,2月20日,美國 AI 巨頭英偉達(NVIDIA)宣佈,其與美國弧形研究所、斯坦福大學、加州大學伯克利分校、加州大學舊金山分校等科研人員聯合推出開源生物學 AI 大模型Evo2,完整版擁有高達400億參數,包含12.8萬個物種的9.3萬億個核苷酸,可廣泛應用於分子研究、精準醫學、藥物研發,合成生物等。
這是迄今最大規模的開源AI生物學模型之一。目前,該模型已開放給全球科研人員,他們可通過網頁使用該模型,還可免費下載該模型的源代碼、訓練數據及參數。
同一天,清華大學人工智能產業研究院(AIR)與北京水木分子聯合發佈升級版生物醫藥多模態開源基礎大模型BioMedGPT-R1,用DeepSeek R1蒸餾版本模型更新百億參數規模的開源BioMedGPT中的文本基座模型,在USMLE美國醫師資格考試上達到了67.1%正確率,效果逼近人類專家水平。據悉,清華AIR是由清華大學智能科學講席教授、中國工程院外籍院士張亞勤創立。
隨着DeepSeek熱潮,加速AI for Science(AI4S)科學研究進程。
英偉達CEO黃仁勳(Jensen Huang)曾在2024 GTC大會堅定表示,AI 生物學研究是 AI 領域的三個關鍵方向之一。
“在人類歷史上,生物學第一次有機會成爲工程,而不是科學。”(For the very first time in human history, biology has the opportunity to be engineering, not science.)
中國工程院院士、之江實驗室主任王堅2月19日表示,儘管 AI 遠未到真正解決科學問題的時刻,但AI可以打通各個學科的壁壘,具有顛覆基礎科研的潛力。“AI不是一次工具的革命,而是一次科學革命的工具。”
一個關於 AI 生物科學時代的競賽已經開始。400億參數,引爆學術界“能思考”的 AI 生物學模型
儘管AI是計算機科學的一個子領域,但也與數據科學、機器學習以及統計學等研究領域密切相關,不僅加速接管數字世界,改變物理世界,而且深刻影響新一輪技術創新能力和競爭格局。
隨着2024年10月,三位計算機科學家獲諾貝爾獎,讓AI4S(科學智能)逐步成爲一種基本科研方法,利用 AI 技術打通各個學科的壁壘,解決複雜科研問題,讓 AI 在芯片設計、生物醫藥、材料能源、天文氣象、自動駕駛等一系列科研領域發揮重要作用。
AI技術在生物學領域一個比較直觀的例子是AlphaFold。
2018年,谷歌DeepMind研發的AlphaFold 1模型利用深度學習技術結合進化信息和物理約束,採用多序列比對和神經網絡來預測氨基酸間的距離和角度,構建蛋白質三維結構,成功預測出最困難目標的蛋白質結構;2020年發佈的AlphaFold 2模型,更進一步已預測出35萬種蛋白質結構,涵蓋98.5%的人類蛋白質組以及大腸桿菌、酵母菌和果蠅等20種生物的蛋白質,其中復現了44%的人類蛋白質結構,被美國《科學》雜誌評爲 2020 年十大科學突破之一。
2024年,谷歌DeepMind聯合推出的AlphaFold 3,能夠準確預測蛋白質、DNA、RNA、配體等生命分子的結構及相互作用,相比之前版本準確率提高一倍,成爲全球首個超越基於物理的生物分子結構預測 AI 模型。
如今,美國研究人員更進一步。最新發布的AI生物學模型Evo 2,在前代模型基礎上實現基於超過12.8萬個基因組數據的9.3萬億個核苷酸進行訓練,這些模型使 AI 能夠“用核苷酸語言來讀、寫和思考”。
與AlphaFold等蛋白質預測模型不同,Evo 2的訓練數據既包含指導蛋白質合成的“編碼序列”,也包含可調控基因活動時空特徵的非編碼DNA。同時,AlphaFold 一次處理一個蛋白質,而 Evo 2 可以管理多基因結構、調控區域,並同時設計蛋白質及其相應的RNA。
然而,在實踐中,兩者是互補的:Evo 2可以生成潛在的新型蛋白質或CRISPR基因編輯系統,然後AlphaFold(或類似的結構預測模型)可以評估它們可能的 3D 構象。所以,Evo 2可以將基因組數據與表觀基因組學、蛋白質組學和結構預測工具相結合。
美國弧形研究所的生物工程師Patrick Hsu團隊使用Evo 2預測乳腺癌相關基因BRCA1中已知突變的影響。在相關測試中,Evo 2在預測突變是良性突變、以及哪些是潛在致病突變等方面均達到90%以上的準確率。他表示,在判斷編碼區變異是否致病方面,其表現接近最佳生物AI模型,已達到頂尖水平。
這將有助於識別患者基因組中難以解讀的變異,以及節省大量用於細胞或動物實驗的時間和研究資金,通過找到人類疾病的遺傳原因來加速新藥研發。
但考慮到潛在的倫理和安全風險,研究人員在Evo2的基礎數據集中排除了感染人類和其他複雜生物的病原體,並確保該模型不會對這些病原體的相關查詢返回有效答案。
此外,根據論文,Evo2還可用於設計新的生物工具或治療方法,以及實現多種任務,它能夠識別影響蛋白質功能和生物體適應性的基因變化。目前,研究人員在探索一種概念驗證的完全由AI設計的生物體,在實驗室中合成Evo 2基因組。
美國生物模型開發公司Tatta Bio的計算生物學家Yunha Wang認爲,Evo 2或擅長將細菌和古菌基因組的規律應用於人類新蛋白質設計。
“蛋白質語言模型等AI工具已經引發一場生物設計革命。”斯坦福大學的計算生物學家Brian Hie表示。
顯然,這也意味着,人類能夠已經具備重寫生命最底層代碼——基因組的能力,這將打開新生物技術時代的大門。醫師資格考試67.1%準確率,清華AIR加速AI生物模型研發
繼月之暗面kimi楊植麟,以及DeepSeek創始人梁文鋒擔任作者的兩篇關於 AI 論文“撞車”後,如今,英偉達和中國清華大學AIR的新研究成果也同日“撞車”了。
今年2月20日,升級版生物醫藥多模態開源基礎大模型BioMedGPT-R1正式推出。全新BioMedGPT-R1擁有170億參數規模,基於DeepSeek R1蒸餾版本模型進行更新和進一步優化,實現生物模態與自然語言文本模態在同一個特徵空間的統一融合,從而探索生物多模態場景下模型深度推理能力。
事實上,早在2023年,清華AIR就和水木分子共同發佈了開源可商用、生物醫藥領域的多模態百億參數模型BioMedGPT,該模型在生物醫藥專業領域問答能力比肩人類專家水平,在自然語言、分子、蛋白質跨模態問答任務上達到SOTA,能夠同時處理多種生物醫學任務。
而如今發佈的BioMedGPT-R1,是由清華大學AIR和北京水木分子生物科技有限公司(水木分子)聯合研發。其中,清華大學智能產業研究院於2020年創立的 AI 產業型機構;而水木分子是源自清華大學AIR團隊,成立於2023年6月,目前,清華大學國強教授、AIR首席研究員聶再清教授擔任水木分子首席科學家。
早前,水木分子發佈了自研千億參數多模態生物醫藥專業大模型Chat DD-FM和新一代AI驅動藥物發現工具Chat DD。而目前,水木分子已與復星醫藥等超過十家頭部生物醫藥企業和機構建立了深度合作。
據介紹,BioMedGPT-R1的訓練分爲兩個主要步驟:首先,僅訓練對齊翻譯層Translator,使其能將編碼後的生物模態表徵映射到語義表徵空間;其次,同時微調對齊翻譯層Translator和基座大語言模型,激發其在下游任務上的多模態深度推理能力;最後,訓練推理之後,BioMedGPT-R1可應用到藥物分子深度理解分析、藥物靶點探索與挖掘等領域。
在推理階段的測試顯示,BioMedGPT-R1在生物醫藥相關文本問答任務上也展現出了較優效果。其中在USMLE美國醫師資格考試上,BioMedGPT-R1達到了67.1%正確率,效果逼近閉源商用大模型和人類專家水平,並在專家級醫療推理與理解評測集MedXpertQA上達到閉源商用大模型相當的效果。
水木分子團隊對鈦媒體AGI透露,下一步,團隊正在探索生物醫藥場景下的多個深度推理能力應用,讓“強推理慢思考”賦能醫藥研發。同時,後續團隊也將依託OpenBioMed平臺開源BioMedGPT-R1模型和生物醫藥研發Agent系統框架。
隨着1月初DeepSeek爆火,全球 AI 技術迎來了新的競爭狂潮,包括OpenAI GPT、xAI Grok等模型都在不斷更迭,預計今年3月初,阿里通義Qwen推理模型,以及GPT-4.5基座模型都將發佈。而對於生物領域來說,AI 加速生物科學研發已經成爲現實。
據2024年人工智能指數報告顯示,自2012年以來,美國食品藥品監督管理局(FDA)批准的AI相關醫療設備數量增加了45倍(4500%)以上。2022年,FDA批准了139種人工智能相關醫療設備,預估2023年批准 AI 醫療設備數量將同比增長30%以上,而絕大多數獲批設備與放射學有關。
阿里巴巴集團副總裁、大數據和智能實驗室負責人葉傑平則表示,相比20年前、10年前、甚至5年前,現在 AI 大模型在整個科研流程方面都可以發揮非常大的價值。
“其實這個時代在發生變化。我相信,最後是每個人的創造,決定了他能不能出最好的科研成果,而不是簡單的擁有一些別人擁有不到的科研資源,而能夠出更好的成績。如果我們能夠把這樣(AI For Science)技術用好,讓人類可以把真正的科技創新資源開放,這也是其意義和價值所在。”王堅稱。
清華大學教授、人工智能研究院常務副院長孫茂松表示,現在所有的科研領域都應該用AI過一遍。AI可以發現某個領域內最重要、根源性的問題,如果這些領域有高質量的數據,則AI大概率能給出答案。