美国能源部展望生物学研究中的人工智能和计算前沿

作者: 2026-04-10 10:07 来源:
放大 缩小

1月,美国能源部(DOE)发布报告《人工智能和计算在生物研究中的前沿领域展望》[1]。该报告是能源部科学办公室(SC)的先进科学计算研究项目(ASCR)与生物环境研究项目(BER)于20252月联合举办的研讨会的共识,旨在确定利用人工智能、数字孪生和高性能计算方法来研究生物学、促进科学发现与创新的关键变革性研究方向,以支持能源部的使命。

人工智能技术为分析海量复杂生物数据提供了突破性新方法,可大幅提升人类对生物过程的理解、预测与设计能力。在实验室中,人工智能赋能的自动化实验技术、高性能计算和数字孪生的结合,将为研究人员提供强有力的工具,可探索生物学的基本性质,并挖掘其代谢潜能,服务于各类有益应用。ASCRBER的联合研讨会重点关注:高性能计算如何通过数字孪生、基础模型和数据驱动方法,推动自动化实验室实验、复杂生命系统建模,以及对能源部重点关注的植物和微生物系统进行新功能设计。来自植物科学、微生物学、数学、计算机科学和人工智能领域的与会专家,系统评估了植物生物学和微生物系统生物学与计算科学交叉领域的科学现状、发展趋势及人工智能面临的挑战,以确定具有重大影响的研究机遇。研讨会最终凝练出四大优先研究方向,为能源部科学办公室未来的科研工作提供指导。

一、多模态数据整合

推进用于数据融合的新型计算方法,整合不同来源的多模态数据,并将分子的生物过程与生物体的功能特征联系起来。

1、关键问题。具体为:可以开发哪些计算方法来融合复杂的生物数据,以发现新的生物学行为、机制和设计原理,同时解决数据的互操作性、噪声、标准化和不确定性量化问题。

2、挑战。生物数据通常是稀疏、有噪声、不确定且缺乏标准化的。此外,人们对分子机制和基本原理的了解是不完整的。而改善这种状况所需的、跨越从分子到生物体尺度的测量策略仍存在局限性。为应对这些挑战,需要开发受人工智能进展启发的新综合实验、计算和理论策略;用于数据融合的推理模型;优化实验设计策略和验证方法。这些模型需要利用高性能计算、自动化实验室和数字孪生在可扩展性方面取得进展,从而实现具有实验反馈的推理模型,以加速多尺度生物数据集的生成。

3、影响。通过寻求整合多样化数据流并使用先进计算方法,人们可以更深入地了解生物过程之间更广泛的相互作用,从而推动在理解和设计生物系统方面取得进展。

二、多尺度生物系统模拟

开发基于机理、数学上严谨的预测模型,以表征跨尺度的生物过程——从受控的实验室环境到复杂的自然环境,以及从分子动力学到现场尺度的动力学。

1、关键问题。包括:需要哪些新的可扩展数学和计算方法来连接基于基因组的模型与生态系统尺度的研究,确保在使用多模态数据时跨尺度的一致性;如何将人工智能驱动的多尺度建模与实验室及野外生态系统集成,以提高生物模拟的准确性、可解释性和泛化能力。

2、挑战。构建数学自洽的生物系统模型,其核心难点在于模型本身的高维特性,包括稀疏、不完整和有噪声的观测数据以及空间和时间尺度的耦合。人工智能模型有望打通基因组层面模型与生态系统尺度研究,但如何使能源部的高性能计算系统和算法适应人工智能的挑战,仍有待解决。具体而言,需要发展人工智能驱动的跨尺度耦合方法,融合百亿亿次计算平台、推理与因果学习、实验设计等优势,填补现有认知空白。这需要在硬件和软件协同设计、新型人工智能工作流集成、模拟和实验方面取得进展。

3、影响。基于数学的预测模型将改变人们跨尺度理解和控制生物过程的能力,从而在菌株工程和生态系统管理中实现精确模拟和有针对性的干预。

三、用于实验系统的人工智能驱动程序

建立人工智能赋能的实验系统驱动工具,以理解和探索生物分子、代谢途径和代谢网络的从头设计,从而拓展自然界生化能力的边界。

1、关键问题。包括:人工智能驱动的数字孪生如何能增强生物系统的设计和优化,确保不确定性量化的准确性和稳健的性能;自主实验如何能推进生物系统和生物过程的设计与优化。

2、挑战。生物系统是一个拥有巨大代谢潜力的宝库,可以利用蛋白质、代谢通路和(多)细胞过程制造几乎任何生物分子和生物材料。遗憾的是,人们在理解生命系统的复杂生物功能及其在时空尺度和环境背景下的相互作用方面存在巨大的知识缺口。此外,目前关键数据集的缺乏以及庞大的蛋白质、代谢通路和生物过程设计空间,阻碍了新型生物系统设计方案的开发。必须开发自主实验室,以高效地探索生物系统设计空间。需要开发和实施人工智能及机器学习工具(包括结合领域知识和基于物理的模型)、数字孪生以及可扩展的不确定性量化方法,以理解并利用生物系统设计空间所提供的巨大潜力。

3、影响/成果。将人工智能驱动的数字孪生和自主实验整合到生物系统设计中,可以增强人们建模和设计生物过程的能力,从而加速生物技术领域的发现。这些能力将极大地促进对生物系统的高效操纵和设计。

四、基因组学新算法

开发算法以检测物种内部和跨物种的基因和基因组组织模式,从而预测表型可塑性。

1、关键问题。具体为:如何将新型人工智能及机器学习方法与基因组学研究相结合,以发现和操纵植物、微生物和微生物群落中的分子机制。

2、挑战。当前难点在于解析不同物种及其群落中基因、基因组、蛋白质、代谢物和可观测性状之间错综复杂的关系。这需要开发新的人工智能范式,包括基础模型,这些模型能够进行设计并直接与实验集成,以克服组学数据的高维度和稀疏性。此外,开发具有不确定性量化功能、可与数字孪生对接且适合高性能计算的可扩展策略,有助于指导实验,从而推断出有趣的微妙关系。

3、影响。人工智能驱动的多组学整合技术在基因型-表型-环境关系的多尺度预测建模方面取得的进展,将揭示基因、蛋白质和代谢物如何调控目标生物系统中关键的突现过程。                      

(邢颖)



[1] Envisioning Frontiers in AI and Computing for Biological Research. https://science.osti.gov/-/media/ber/pdf/workshop-reports/2025/ASCR-BER-AI-Workshop-Report_010726.pdf


附件: