美国智库警告对AI智能体的信任危机
3月9日,新美国安全中心(CNAS)发布报告[1]指出:AI智能体因自主行动、概率性输出等特性,存在区别于传统软件与聊天机器人的独特安全风险,显著阻碍其规模化落地。报告系统梳理了AI智能体的安全威胁、风险差异、演化趋势以及多智能体特有的隐患,提出模型层、系统层、人工监督层三层技术管控方案,明确安全评估、检测取证、身份核验三大实施路径,并提出了标准化研究、生态协同、隐私与安全平衡等系列政策建议,强调安全与信任已成为AI智能体发挥效能的核心瓶颈。
一、AI智能体的安全威胁、风险与漏洞
1、AI智能体与传统软件的区别。相对于传统软件,AI智能体的行为由数十亿参数的相互关系定义,其输出具有概率性和可变性,无法被完全定义、追踪、检测或穷尽测试,漏洞难以可靠地消除,故障根因分析极难,被入侵后难以判定,修复后也无法保证问题彻底解决。
2、AI智能体与聊天机器人的区别。AI智能体具备自主执行实际操作、减少人工监督、多源输入、持久记忆、智能体间联动的五大特征,攻击面大幅扩大,信任要求显著提升。
3、影响AI智能体安全风险的十大因素。输入通道安全:通道越多、可信度越低,风险越高;记忆与存储持久性:跨生命周期存储带来持续威胁;允许操作与访问权限:权限越大,入侵后破坏力越强;沙箱与隔离:与敏感内部系统的隔离程度决定入侵的影响范围;监控:AI智能体的推理过程是检测部署异常和入侵的关键;控制流完整性:恶意输入影响AI智能体行为的难易程度;数据流完整性:攻击者可能操纵AI智能体收集和传递数据的风险;可逆性与重采样:可回滚的操作风险低于不可逆操作,用户可以生成多个输出选项以降低风险;日志与取证:完整的日志决定事后溯源能力;人工检查点:定期人工审查和授权高风险操作有助于在后果扩大前发现问题。
4、多智能体系统的特有风险。涌现冲突/失调、系统性风险(局部故障级联)、秘密勾结(高能力模型在监督下隐藏通信)、越狱病毒式传播(单智能体沦陷可快速感染全网)、核验困难(无法跨智能体验证安全标准,仅通道可信、主体不可信)。
5、AI智能体风险演化趋势。当前开源智能体(如OpenClaw)快速普及,安全性薄弱;未来将走向网络自主,具备持久驻留、自我维持、自适应逃逸和自我复制的能力。
二、AI智能体三层级安全实践与安全评估实施路径
1、模型层控制。分为对抗鲁棒性和模型对齐两类。对抗鲁棒性方面,提高聊天机器人对越狱攻击鲁棒性的方法为AI智能体提供了指南,包含分层防御、合成对抗数据、自适应对抗测试;模型对齐方面,训练原则性推理而非仅结果导向,防范欺骗与谋划行为。
2、系统层控制。可分为监控、控制流完整性、数据流完整性。监控方面,输出监控至关重要,监控效果取决于推理的诚实训练;控制流完整性方面,将可信规划和不可信执行进行分离,并固定执行流程;数据流完整性方面,CaMeL框架可追踪数据来源并强制执行策略。
3、人工监督层控制。人工监督层是模型层和系统层控制失败后的最后一道防线,高风险/不可逆操作强制人工审批,非结构化数据需要人工审核,默认固化安全检查点规则,降低用户配置负担。
4、安全评估实施路径。部署前进行自适应压力测试、红队演练以及原则性校验;部署后基于SIEM(安全信息与事件管理)监测API、算力和传输异常,云厂商提供引擎级威胁检测;建议30天元数据留存用于安全事件分析;上游开发者应构建AI智能体身份验证基础设施,部署AI智能体“意向声明”,用于行为合规校验;设置闭源、开源和本地部署不同核验机制。
三、核心政策建议
1、界定网络自主红线,检测OpenClaw等主流AI智能体平台,预警识别AI智能体的临界点,避免失控风险。
2、针对多智能体系统开展专项安全研究,并制定应对标准,解决多智能体特有的“不可解释、不可控、快速扩散”的安全问题。
3、推动建立“智能体身份核验”开放标准,让智能体交互从“盲目信任”变为可验证、可追溯、可追责。
4、对标网络安全实战知识库——MITRE ATT&CK(由MITRE公司开发的全球公开网络安全知识库)建立Agent异常行为统一分类,让全球安全厂商、云厂商、企业使用同一套语言监控、发现、响应AI智能体的安全事件。
5、制定数据留存自愿指南,平衡隐私与安全监测。
6、推动模型层与系统层的安全标准,强制内置防御能力,把安全从“事后补丁”变为内置基因,大幅降低提示注入、劫持、越权风险。
7、强化人工监督标准,明确高风险操作强制性人工审核,避免AI智能体在无监督下执行不可逆、高破坏性操作。
AI智能体的实现障碍正从能力转向安全和信任,确保其安全所需的基础尚不存在,尤其是在不可信环境和多代理交互中。开发者需持续投资于训练更稳健的模型、构建分层防御和安全支架,建立实现信任分配的验证基础设施、创建文档和事件响应的共享标准,人工智能系统网络安全倡议(CAISI)将是塑造这些挑战日益增长的标准与最佳实践的基础。
(赵梦珂)
[1] Recommendations for Securing and Promoting AI Agents. https://www.cnas.org/publications/commentary/recommendations-for-securing-and-promoting-ai-agents