全球主要企业首次就人工智能的安全发展达成共识----中国科学院科技战略咨询研究院

首页 > 智库成果 > 月度快报 > 科技政策与咨询快报 > 2024年 > 第7期

全球主要企业首次就人工智能的安全发展达成共识

作者： 2024-10-29 11:31 来源：

5月21日，全球16家人工智能科技公司在人工智能首尔峰会上达成了安全开发人工智能的新承诺[1]，这在全球尚属首次。已签署这一“前沿人工智能安全承诺”的公司包括：亚马逊、Anthropic、Cohere、谷歌/谷歌DeepMind、G42、IBM、Inflection AI、Meta、微软、Mistral AI、Naver、OpenAI、三星电子、阿联酋技术创新研究所、xAI和智谱AI。为促进安全可信赖的人工智能，上述企业自愿承诺负责任地开发和部署其前沿人工智能模型和系统[2]，主要内容包括：

1、开发和部署前沿AI模型和系统时有效识别、评估和管理风险

（1）评估企业前沿模型或系统在整个人工智能生命周期中带来的风险。包括在部署该模型或系统之前，以及在训练之前和训练期间。风险评估应考虑人工智能模型的能力及其开发和部署的背景，以及已实施的风险缓解措施的有效性，以减少人工智能使用和误用带来的风险。还应酌情考虑其他来自内部和外部的评估结果，如独立的第三方评估、母国政府[3]认可的其他机构的评估结果。

（2）设定阈值[4]。在该阈值下，除非得到充分缓解，否则人工智能模型或系统构成的严重风险将被视为是不可容忍的。评估这些阈值是否被突破，要监测模型或系统中此类违规出现的程度。这些阈值应根据可信赖行为者（包括各企业的母国政府）的意见来定义，应与本国政府加入的相关国际协定保持一致。阈值应附有解释说明，阐明如何确定这些阈值，并应举例说明不可容忍风险的表现。

（3）阐明如何识别和实施风险缓解措施。将风险控制在规定的阈值内，包括安全与安保相关的风险缓解措施，例如修改系统和对未发布的模型实施强有力的安全控制。

（4）列出在模型或系统达到或超过预定义阈值的风险时计划遵循的明确流程。包括风险保持在阈值以下时，要进一步开发和部署系统和模型的过程。在极端情况下，如果无法通过缓解措施将风险保持在阈值以下，也应承诺不开发或部署该模型或系统。

（5）持续投资以提升风险评估和识别、阈值定义、缓解措施的有效性。包括评估和监测缓解措施充分性的流程，并根据需要确定其他缓解措施，以确保风险保持在预定义阈值以下。促进并考虑人工智能风险识别、评估和缓解方面新的最佳实践、国际标准和科学。

2、负责任地开发和部署安全的前沿AI 模型和系统

（6）遵守（5）中概述的承诺。包括制定并持续审查内部问责和治理框架，并为此分配角色、责任和足够的资源。

3、在前沿AI安全方面，对政府在内的外部行为者适当地保持透明

（7）公开透明地提供（6）的实施情况，除非这样做会增加风险或泄露与社会利益不符合的敏感商业信息。各企业仍应与可信任的各方（包括各自政府或指定机构）分享无法公开的更详细信息。

（8）政府、民间社会、学术界和公众等外部行为者充分参与。共同评估企业的人工智能模型和系统的风险、安全框架，以及它们对该框架的遵守情况。

上述企业还承诺将致力于实施与前沿人工智能安全相关的最佳实践，包括：对前沿人工智能模型和系统进行内部和外部的对抗测试，以应对严重和新兴的威胁；进行信息共享；投资于网络安全和内部威胁的防护措施，以保护专有和未发布的模型；激励第三方发现和报告安全问题和漏洞；开发和部署使用户能够辨识音频或视频内容是否由人工智能生成的机制；公开报告人工智能模型或系统的能力、限制及适用和不适用的领域；优先研究前沿人工智能模型和系统带来的社会风险；开发和部署前沿人工智能模型和系统，以帮助应对全球重大挑战。

（李宏赵梦珂）

[1] Historic first as companies spanning North America, Asia, Europe and Middle East agree safety commitments

on development of AI. https://www.gov.uk/government/news/historic-first-as-companies-spanning-north-america-asia-europe-and-middle-east-agree-safety-commitments-on-development-of-ai

^{^[2]} 前沿人工智能：功能强大的通用人工智能模型或系统，可以达到、甚至超过最先进模型的能力.

^{^[3]} 母国政府：企业总部所在国的政府

^{^[4]} 阈值：可以使用模型功能、风险估计、已实施的防护措施、部署环境和/或其他风险因素来定义.应该可以评估是否违反了阈值

全球主要企业首次就人工智能的安全发展达成共识

附件：