作為全球生命科學基礎大模型的先行者,BioMap百圖生科在10月27日舉辦的第三屆中國生物計算大會上,正式發布了全新一代生命科學基礎大模型——xTrimo V3,為行業交上一份全新的答卷。
據悉,該模型在V2大模型突破千億參數、理解蛋白質語言的基礎上,進一步擴展到2100億參數,覆蓋蛋白質、DNA、RNA等七大生命科學主流模態,能夠建模更加廣泛的基因組學、細胞、系統等問題,為基因編輯、靶點發現、細胞調控、菌株改造、生命科學圖像分析等場景帶來新的能力。
xTrimo V3前傳:四年磨一劍,劍成龍光寒
作為全球最早專注于生命科學基礎大模型的平臺公司,自2020年成立以來,百圖生科始終致力于在這一高難度技術平臺上取得突破 —— 生命科學基礎大模型并非自然語言大模型 + 生物學文本的垂直應用、垂直“大模型”,而是需要圍繞生命科學的氨基酸、堿基等高復雜序列數據,開發一套與自然語言基礎大模型理念相近,但技術完全不同的基礎大模型底層技術,從Transformer到訓練框架,再到更關鍵的數據集與驗證閉環,都與自然語言大模型截然不同、更加挑戰、更加前沿。
如何與生命科學多樣化具體任務結合,如何理解和對齊復雜的生命科學組學數據,如何理解生命科學規律并建立基礎圖譜,如何建立生命科學行業原有數據規模百倍以上的超大規模數據集 —— 這些都是過去四年間,生命科學基礎大模型先行者們所面對的挑戰。
2022年和2023年,百圖生科先后發布xTrimo V1、V2,實現了世界首個千億參數的生命科學基礎大模型——利用海量蛋白質序列數據訓練的千億參數蛋白大模型,參數量較第二名高8倍以上,在數十個任務上超越行業達到SOTA水平,特別是支撐蛋白質結構預測等關鍵問題達到前所未有的準確度和性能,實現了大量的商業和技術突破;利用海量單細胞組學數據實現的單細胞大模型,初步驗證了多維度、跨模態的技術,為跨模態建模復雜生命體打下了堅實的基礎,并支撐十余個靶點發現、細胞分類等任務取得SOTA成績。相關工作多次登上Nature子刊封面和學術頂會。
xTrimo基礎大模型平臺上,目前已有200余個任務模型取得評測SOTA水平,在藥物研發中涉及通用蛋白、多種構型的抗體、細胞療法、基因療法等多個領域,以及靶點發現、工藝優化、合成生物學、生物制造、生命科學工具等多樣的方向。基礎大模型的貢獻,并不在于能以一個單一技術,一己之力解決前沿問題,而是在面對多樣化、缺乏數據的前沿問題、缺乏泛化能力的現有模型時,能夠利用千億參數和萬億數據中蘊含的知識,進行embedding賦能,為難解之題帶來一些來源于十億年生物進化樹上的高維信息。
百圖生科打造的200余個AI模型,已先后助力開發了20余種前沿抗體和酶、實現了10余個創新靶點的挖掘,并都經過了實驗驗證,推進進入臨床前研發等后續階段。AI模型驅動的高通量自動化流程,覆蓋從分子生成、實驗驗證、閉環迭代的完整鏈路,大幅提高合作客戶的研發效率,縮短研發周期。
截止目前,百圖生科服務全球300余家用戶,其中包括跨國藥企、大型CRO、明星創業公司、國內外研究機構,簽署了超過20億美元的總潛在訂單,共同在生命科學領域實現了一系列突破。
xTrimo V3:模態全家桶,生命科學新問題的探索利器
此次發布的基礎大模型xTrimo V3,覆蓋DNA、RNA、蛋白質、細胞、小分子、生物視覺和生物知識文本等生命科學7個主流模態,并在各個原有模態上依靠新的數據、新的架構,做了顯著的增強。“這一版本一舉實現了全模態的覆蓋,從而能支撐快速發展的生命科學新領域新問題探索需求。”百圖生科技術副總裁張曉明介紹,“與V2平臺相比,V3不僅鞏固了之前在蛋白質領域的基礎和繼續了在細胞領域的發展,還拓展至基因組學、轉錄組學、細胞復雜任務、影像分析和文本分析等領域,支持從分子早期研發到生產放大再到后期實驗分析的全流程AI建模需求。”
據悉,xTrimo V3參數量突破2100億,繼續保持全球規模最大的全模態生命科學大模型的領先地位。特別是在蛋白質大模型領域,成為全球首個引入先進專家混合(MOE)架構的生命科學大模型,參數量達到千億級規模;DNA大模型序列長度躍升至128K,實現超長序列解碼生命,這些升級充分體現了百圖生科在生命科學基礎大模型領域的持續創新。
如何用好基礎大模型?是否只有又懂生物又懂AI的前沿團隊才能得到大模型賦能?百圖生科在內部應用大模型平臺實現高效建模后,一直在探索更強的工具鏈和產品化能力。2023年 3月,百圖生科發布了基于xTrimo驅動的 AIGP(AI Generated Protein) 平臺。這個被業界譽為“能生成蛋白質的ChatGPT”,為生命科學領域的研究者提供了一個便捷的交互窗口,即使是不具備編程能力的科研人員也可利用大模型和數十個蛋白質相關任務模型、配套軟硬件系統,開展創新蛋白設計研究。
此次xTrimo V3平臺還發布了專為生命科學AI模型設計的模型工具鏈 — 包含面向多種數據場景和用戶需求的Model Builder模塊,支持模型管理和組裝的Model Hub模塊,以及加速模型調用和物理計算的Model Booster模塊等。
“基于xTrimo平臺構建專屬任務模型,讓大模型能力與企業的私有數據、特定需求相結合,快速為企業打造專屬的AI工具,是V3平臺的重要特征之一。”張曉明介紹,“我們還結合已有模型與模型定制能力,在不同行業提出了藥物研發解決方案、生物制造解決方案和AI4LS平臺解決方案,通過AI模型和配套的服務,幫助企業加速創新,提升研發效率、優化流程,讓企業能夠更快地從實驗室走向市場,直觀感受到大模型作為直接生產力的巨大效能,推動行業的全面智能化發展。”
關于BioMap百圖生科
BioMap 百圖生科是全球生命科學基礎大模型的先行者,通過2100億參數的跨模態生物語言大模型,解碼蛋白質、細胞、生物系統等底層規律,以更小的數據和成本消耗,構建高質量的生命科學AI任務模型。BioMap在藥物研發、生物制造、醫療健康等領域實現了200余個State-of-the-Art(SOTA)模型表現,服務全球300余家用戶,實現超過20億美元的總客戶訂單,助力用戶在AI全新蛋白質設計、AI靶點發現、AI酶設計等領域取得了眾多突破性成果。公司由百度創始人李彥宏與原百度風投CEO劉維共同創立,并由原諾和諾德全球副總裁、原SAP全球副總裁等業界高管組成核心團隊,在硅谷、北京、蘇州、香港設立研發中心,先后獲得超過2億美元風險投資。
公司官網: https://www.biomap.com
責任編輯: 江曉蓓