上智院发布系列垂直领域科学大模型
上智院发布系列垂直领域科学大模型
11月11日,以“AI for Science双螺旋引擎驱动科研新范式”为主题的2024科学智能创新论坛在复旦大学枫林校区举行。
论坛上,复旦大学、上海科学智能研究院(以下简称上智院)等联合发布了一系列突破性的垂直领域科学大模型,包括Planet Intelligence @ Climate(以下简称PI@Climate)、女娲-基因导航大模型、女娲-生命流体大模型、以及女娲-生物结构大模型等,涵盖气候科学、药物研发、基因组研究、生命流体力学等多个前沿领域,为应对气候变化、推动精准医疗和生物技术创新提供了强大支持。
成果发布仪式,从左至右依次为吴力波、程远、朱思语。图片由上智院提供
涉猎46个学科的“气候变化科学家”
“这是一个涵盖了气候变化科学事实、气候变化对自然和社会系统影响、气候减缓和适应行动的气候大语言模型。”“PI@Climate气候科学大语言模型”团队负责人、复旦大学校长助理、上智院理事长、上海创智学院副院长吴力波表示。
PI@Climate,是中国首个自主研发的气候科学大语言模型,同时也是目前全球数据量最大的气候科学大语言模型。模型整合了农学、林学、能源科学、水利工程、环境科学、管理学、经济学、学、法学等十多个相关学科,形成了综合性气候变化跨学科数据体系。
在预训练过程中,PI@Climate不仅融入了大量的气候变化领域专业数据,还涵盖了通用数学、计算机程序、通用百科等通用数据,使得大模型在保持强大通用性能的同时,具备了深厚的气候变化科学知识和能力。
“气候变化本身是非常复杂的科学问题,因此如何去评测模型的好坏,是气候大模型的一个关键挑战。”吴力波介绍。
为此,研究团队耗时大半年,动员了全国上百位气候领域的科学家共同参与,最终设计了一套包括7743个多类型、多学科问题的大模型评测数据PI@Climate Benchmark,填补了目前气候领域大模型复杂评测集的空白。该评测基准涵盖了46个气候相关的学科领域,包括选择题4656道,判断题692道,问答题2395道。
吴力波补充道:“这意味着建立了统一的标准来评估大模型在气候问题上的表现,反哺气候领域大模型的发展。”
随着技术的不断发展成熟,PI@Climate模型将为气候研究人员、国际气候谈判和政策制定提供智能支持,助力中国绿色低碳发展。目前,中国气候代表团已经试用过该模型,并反馈“相较于通用的大语言模型,PI@Climate模型在气候领域的表现更为专业”。
从微观到宏观,解答生命科学基本问题
“除了完备的平台,我们的团队成员中,既有科学家,也有AI算法专家、计算机工程师、洞悉产业的老师,因此可以快速挖掘应用需求,并找到解题思路。”在论坛现场,复旦大学人工智能创新与产业研究院副院长、上智院AI科学家程远,带来了团队的两项最新成果。
“女娲”源自中国古代神话,象征着对生命科学规律的探索和掌握。本次发布的“女娲-基因导航大模型”和“女娲-生命流体大模型”是程远团队第一阶段工作的部分成果,分别代表了微观和宏观层面所建模的两个生命科学基础问题。
其中,“女娲-基因导航大模型”所建模的是基因组中的“暗物质”。基因组中可以表达为蛋白质的区域仅占1.5%,剩余的98.5%非编码区被称为基因组中的“暗物质”,这些“暗物质”虽然不直接生成蛋白质,但对调节基因的表达至关重要,对解析衰老、发育、和疾病发生的过程至关重要。
“取名为‘基因导航大模型’,是希望提供一套基因组非编码区序列对生命活动作用机制的‘导航图’,最终构建出一套基因与基因之间、基因与环境之间、基因与药物之间的关联关系图谱。”程远解释。
在这张“导航地图”的帮助下,人们可以探究疾病与DNA序列之间的因果关系,发现新的靶点;模拟不同环境对基因的影响,为衰老机制提供新的研究框架;预测药物对基因表达的作用,从而预估药物效果,实现虚拟基因编辑等。
这项工作最大的难点在于对远端调控关系的建模以及如何构建对大部分组织都适用的基础模型。研究团队通过图神经网络预训练与调控关系知识图谱,目前已经可以做到对7Mb以上调控距离的调控关系进行预测,在调控距离在0.3~1.0Mb之间的远端调控关系预测精度、平均预测精度等表现良好。
“我们正在努力将这套‘导航系统’开放给学术界和工业界,为生命科学研究添砖加瓦。初期我们会首先开放基因调控关系图谱和预测接口,然后逐步完善功能。”程远表示。
“女娲-生命流体大模型”则能够支持复杂几何形状的高精度物理流场模拟。团队基于自建的全球最大规模器官流体力学数据库与物理方程约束方法,构建了一套可以适应内各种器官几何形状、多种流体边界条件的流体力学基础模型。
心脑血管中的血液、肺部气管中的气体、妊娠过程中子宫内的羊水……内的流体占自身重量的50%-60%,是生命健康的重要影响因素。而一套高效精准的流体力学模拟方法对于理解器官和组织的功能,探寻疾病发病机制并指导临床诊疗至关重要,
“直接使用我们的基础模型或在特定数据上进行微调,可以实现对生命流体的统一建模范式。相比学术界当前的SOTA方法,目前我们针对脑动脉中血液的速度场的模拟误差有了显著提升,计算效率相比于传统CFD方法提升了100倍。”程远期待,“女娲-生命流体大模型”可以助力学术界和工业界相关领域的发展。
创新模型架构,模拟蛋白动态结构
2018年,AlphaFold第13届国际蛋白质结构预测竞赛(CASP)中一举成名,自此,AlphaFold迅速成为火遍全球的“新星”,而蛋白质结构预测也日益成为生物医药领域常用的工具之一。
至今,AlphaFold已迈入3.0时代,在蛋白质静态结构预测方面颇具优势。复旦大学人工智能创新与产业研究院研究员、上智院AI科学家朱思语带领团队,耗时研发的“女娲-生物结构大模型”,则具备模拟蛋白质在生物体内动态结构变化的过程。此外,该模型能够对持续空间状态进行采样,即一次性采集较为稳定的状态。
在真实世界中,蛋白等分子结构往往是动态变化的,考虑到药物同靶点结合,必然伴随着结构瞬时变化,“女娲-生物结构大模型”展现出了在新药研发中的潜力。
此次发布的“女娲-生物结构大模型”的模型基于主流的DiT扩散模型架构。朱思语介绍,在前期研发过程中,团队先后尝试了两套技术方案。“我们在早期版本中加入了大量蛋白结构的先验知识,而当前版本则去掉了这些先验知识。研究表明,只要扩散模型足够强大且数据充足,这些先验知识是多余的,且加入它们反而会影响模型的性能。”
目前,年龄仅几个月的“女娲-生物结构大模型”仍在不断“学习”,取得了令人惊喜的成绩。在蛋白质-蛋白质复合物结构、蛋白质-配体复合物以及蛋白质- DNA复合物结构预测方面,该模型的表现均已优于AlphaFold3。
团队也在与国家蛋白质中心(上海设施)开展合作,以期通过分子动力学模拟积累更多动态蛋白数据,为模型生成提供支持。“蛋白质-RNA结构预测方面目前略有不足,主要是相关训练数据较为稀缺引起的。”朱思语解释。
值得一提的是,生物结构大模型在成果转化方面展现出巨大潜力,为疾病治疗和生物技术领域带来了创新。朱思语团队也已经开始拓展模型的应用场景。“从产业应用来看,目前我们已与一些CRO企业合作,开展药物结构合成的临床前验证。同时,我们还在探索通过官网提供API,供研究人员和企业申请调用女娲-生物结构大模型的服务。”