美国PCAST发布《利用人工智能应对全球挑战》报告
4月29日,美国总统科技顾问委员会(PCAST)发布《利用人工智能应对全球挑战》报告。报告由加州大学洛杉矶分校陶哲轩教授与美国国家强磁场实验室首席科学家格林领衔,AMD董事长苏姿丰等数十位专家学者参与撰写[1],旨在增强人工智能技术(AI)对科学家的赋能、促进科学家负责任地使用人工智能工具,最大化人工智能在科研中的正面效益等。
一、人工智能可为科学家赋能
首先,人工智能为科学家所能提供的最直接、最基础的作用,是协助处理论文撰写、代码开发、文献综述等日常工作。当前,ChatGPT、Claude等大语言模型已成为许多研究者工作中的助手,尽管目前的大语言模型输出质量并不完全可靠,但将来会有更多更具专业性的人工智能写作助手出现,并在科学界得到广泛应用。
其次,人工智能利用数据驱动的方法,对潜在的物质、药物以及芯片的设计进行筛选,从而实现对实验资源的合理分配,减少无效试验,加快研究进度,降低研究成本。在实验室工作中,融合了人工智能的机器人可以承担很多常规工作,这样既节约了大量的人力物力,又可以将科研人员的注意力集中到科研设计、数据分析以及团队合作等工作上。未来,人工智能有可能为各类现象提供全新见解,或者揭示不同科学领域间未被察觉的联系,乃至辅助发现新的科学规律。
此外,人工智能还将使从前难以实现的模拟成为可能。目前,人工智能正为复杂系统模拟带来变革,使地球气候、量子化学材料特性以及蛋白质和细胞结构等领域的动态过程的计算密集型模拟得到提速,减少从基本原理出发进行建模的耗时量。未来,如果能够发展出“基础模型”和轻量级大语言模型,有效地为不同领域构建出更具针对性的模型,并且减少其部署的开销,那么人工智能在模拟计算方面的前景将会更加广阔。
二、负责任地利用人工智能
首先要解决其局限性。由于机器学习等人工智能技术的输出往往是通过不透明的过程得出的,无法保证正确性,而且可能涉及使用受知识产权保护或包含个人敏感私密信息的数据。其训练数据集的偏差以及训练过程的系统性偏差,可能导致算法的问题性偏差,训练数据的真实性问题以及生成的概率性也可能导致人工智能模型生成可信却不准确的结果。此外,大模型训练所需的大量计算基础设施和能源等成本,也是其发展的限制之一。
“共享人工智能资源”有助于解决这些问题。通过建立国家人工智能研究资源(NAIRR)为研究人员提供获得标准化模型和经过整理的数据集,而无需大量的人工智能专业知识,能够有效减少人力资源的重复工作,并减少人工智能系统的总体成本。人工智能资源的共享,也将为跨维度的合作与思考带来新机遇。一方面,目前学界正致力于开发的多尺度与多模态基础模型,就能利用其联合表征学习与迁移学习的优势,结合起多种类型、多种尺度以及领域数据,为科学家提供能力来描述或模拟复杂系统。同时,人工智能也将为多个学科的交叉和协作提供新的契机,使不同学科都能从中获益。另一方面,凭借其理解复杂情境和处理现实世界复杂数据(如自然语言文本)的能力,人工智能还能自动化地整理、融合海量多元的科学数据集,有效筛除错误并发现数据中的隐藏规律。而且,人工智能还可以通过“合成”数据集来提高数据的价值,增强隐私保护,减少算法偏差,并从基础数据中得出更广泛领域的结论。
三、人工智能可能变革各个学科领域
人工智能有可能改变每个学科和我们进行科学研究的许多方面。科学家们已经在使用人工智能来创造我们目前不知道如何设计的新功能材料,包括超导体和热电材料,它们不仅可以提高能源效率,还可以减少碳足迹。同样,人工智能模型正在帮助研究人员为制造工艺和产品创建新的设计,以及开发新的药物疗法,在未来可以实现特定癌症和病毒的个体化治疗。人工智能模型还帮助工程师设计半导体芯片,以更少的人力和时间产生更好的设计。在医疗保健领域,人工智能技术正在创造新的方法来分析广泛的医疗数据,用于疾病的早期诊断,这些应用可以促成及时干预和检测医疗错误。人工智能驱动的超个性化医学,将针对特定的个人和疾病过程量身定制,其中包括病史的详细信息、遗传信息和信号,例如,健康和不健康细胞的行为方式。
1、人工智能可极大地提高气候模式的计算效率和精度。通过对历史气象资料的分析,人工智能模型可以对复杂的气象模态进行“降尺度”,使其在局地尺度上由粗到细的预报转换成局部高精度情景,进而对未来几十年中某一地区可能发生的火灾、洪涝、飓风等气候风险进行更为精确的预测。这意味着,公众和决策者能够便捷地获取多样化的气候信息,并为城市规划、防灾减灾等决策提供数据支持,甚至在建筑设计中融入适应未来气候变化的考量。人工智能模型则能够快速评估各种缓解策略的效果,帮助科学界和政策制定者找到性价比最高的解决方案。人工智能已在极端气候事件的实时预报中表现出了巨大的潜能,例如,利用机器学习的方法,可在短时间内对全球气候进行准确预报。
2、人工智能可在辅助药物研发和定制化医疗方面发挥突出作用。人工智能技术的发展,将为生命科学的发展带来全新的机遇,也为新药开发提供了新的思路。生成式人工智能正逐渐成为发现并设计针对特定靶点的新分子的有力手段,对于控制诸如耐药细菌、病毒等重大传染病,以及针对肿瘤、自身免疫性疾病等疾病的治疗开辟了一条新的途径。通过对上百万个潜在化合物的快速筛选,人工智能可以优选出最具应用前景的候选药物,从而使新药研发具有更多可能,如通过人工智能算法成功发现的抗多重耐药病原体的新型抗生素。另外,生成式人工智能可以为特定的药物靶点进行分子设计,例如通过分子设计来阻断病毒与人体组织的结合,从而预防感染。或是通过挖掘已批准药物的新用途,结合基因表达、蛋白质相互作用和药物-靶标关联等数据,在药物再利用方面发挥作用,扩展治疗手段。
3、人工智能在疾病检测和早期干预方面将发挥重要作用。特别是对于癌症等重大疾病,人工智能可以辅助医生发现早期的分子标志物,帮助完成更早、更准确的疾病诊断。此外,人工智能还可以通过整合 RNA、蛋白质组和基因组等多方面信息,实现个体化的风险评价和治疗方案的制定。通过多模态信息融合,实现基于个体特征的定制化诊疗。例如,在癌症治疗中,人工智能模型可以模拟各种干预措施的响应,对每个病人进行针对性地治疗。该方法还可扩展至心血管、神经系统、自身免疫性等疾病,并对其进行复杂的细胞网络及信号传导通路建模,从而预测干预效果,实现个体化治疗。
四、最大化利用人工智能技术应采取的措施
建议1:广泛而平等地分享人工智能的基础资源。提供易于获取的共享模型、数据集、基准和计算资源,是保证科研工作者、国家和联邦实验室、小企业和非营利机构能够将人工智能应用到国家利益中的关键。应尽快扩大NAIRR试点项目,使其达到NAIRR特别工作组所设想的规模,并为其提供充足资金。全面的NAIRR、在联邦和州层面的行业合作,以及其它的人工智能基础建设工作,都可以为高影响力的研究提供支撑。
建议2:在有适当保护和保障措施的情况下,扩大对联邦数据集的安全访问,以满足经批准的关键研究需要。授权研究人员有限度地、安全地访问联邦数据集,并允许向诸如NAIRR这样的资源中心发布经过仔细匿名处理的此类数据集。扩大现有的安全数据访问试点计划,并制定联邦数据库管理指南,将现有的尖端隐私保护技术加入其中。同时,将使用人工智能改进数据整理作为NAIRR的长期目标。共享在联邦政府资助的研究数据上训练的人工智能模型,同时提供充足的资源来支持所需的行动。
建议3:支持人工智能领域的基础研究和应用研究,包括学术界、产业界、国家和联邦实验室以及联邦机构之间的合作。当前,由美国联邦政府资助的学术研究与私营部门研究之间的界限模糊不清,许多研究人员流动于学术机构、非营利组织和私营公司之间。目前,私营公司的支持在人工智能研发中占据相当一部分的比例。要充分利用人工智能对科学的潜在益处,就必须支持各种有前景和有成果的假设和方法的研究。这就要求资助机构采取更加开放的态度,了解怎样与工业界协作,并让他们能够获得更多的帮助,从而推动各个领域的创新研究努力和合作。
建议4:在科学研究过程的所有阶段采用负责任、透明和可信的人工智能使用原则。联邦资助机构考虑更新其负责任的研究行为指南,要求研究人员制定负责任地使用人工智能的计划。为最大限度地减少研究人员的额外行政负担并建立责任文化,在列举主要风险之后,机构应提供风险缓解的示范流程。与此同时,美国国家科学基金会(NSF)和国家标准与技术研究院(NIST)等机构应继续支持负责任和可信赖的人工智能科学基础研究。这项研究应包括制定标准基准来衡量人工智能模型的特性,如准确性、可重复性、公平性、弹性和可解释的人工智能,以及监测自身这些特性的人工智能算法,并在基准不符合规定规范时进行调整。此类研究的另一个目标是开发工具,以评估数据集的偏差,并区分合成数据与真实世界的数据。
建议5:鼓励将人工智能协助纳入科学工作流程的创新方法。科学事业是一个绝佳的“沙盒”,可以在其中实践、研究和评估人类与人工智能助手之间合作的新模式。资助机构应重视这些新工作流的出现,并设计灵活的程序、评估指标、资助模式和挑战性问题,鼓励以新的人工智能辅助方式组织和执行科学项目的战略性实验。人工智能在科学研究中有着广泛的应用前景,但其健康发展还需要在技术创新和伦理道德之间寻求平衡。 (张秋菊)
[1] Supercharging Research: Harnessing Artificial Intelligence to Meet Global Challenges. https://www.whitehouse.gov/wp-content/uploads/2024/04/AI-Report_Upload_29APRIL2024_SEND-2.pdf