美国智库警告对AI智能体的信任危机----中国科学院科技战略咨询研究院

首页 > 智库成果 > 月度快报 > 科技政策与咨询快报 > 2026年 > 第5期

美国智库警告对AI智能体的信任危机

作者： 2026-05-29 11:31 来源：

3月9日，新美国安全中心（CNAS）发布报告^[1]指出：AI智能体因自主行动、概率性输出等特性，存在区别于传统软件与聊天机器人的独特安全风险，显著阻碍其规模化落地。报告系统梳理了AI智能体的安全威胁、风险差异、演化趋势以及多智能体特有的隐患，提出模型层、系统层、人工监督层三层技术管控方案，明确安全评估、检测取证、身份核验三大实施路径，并提出了标准化研究、生态协同、隐私与安全平衡等系列政策建议，强调安全与信任已成为AI智能体发挥效能的核心瓶颈。

一、AI智能体的安全威胁、风险与漏洞

1、AI智能体与传统软件的区别。相对于传统软件，AI智能体的行为由数十亿参数的相互关系定义，其输出具有概率性和可变性，无法被完全定义、追踪、检测或穷尽测试，漏洞难以可靠地消除，故障根因分析极难，被入侵后难以判定，修复后也无法保证问题彻底解决。

2、AI智能体与聊天机器人的区别。AI智能体具备自主执行实际操作、减少人工监督、多源输入、持久记忆、智能体间联动的五大特征，攻击面大幅扩大，信任要求显著提升。

3、影响AI智能体安全风险的十大因素。输入通道安全：通道越多、可信度越低，风险越高；记忆与存储持久性：跨生命周期存储带来持续威胁；允许操作与访问权限：权限越大，入侵后破坏力越强；沙箱与隔离：与敏感内部系统的隔离程度决定入侵的影响范围；监控：AI智能体的推理过程是检测部署异常和入侵的关键；控制流完整性：恶意输入影响AI智能体行为的难易程度；数据流完整性：攻击者可能操纵AI智能体收集和传递数据的风险；可逆性与重采样：可回滚的操作风险低于不可逆操作，用户可以生成多个输出选项以降低风险；日志与取证：完整的日志决定事后溯源能力；人工检查点：定期人工审查和授权高风险操作有助于在后果扩大前发现问题。

4、多智能体系统的特有风险。涌现冲突/失调、系统性风险（局部故障级联）、秘密勾结（高能力模型在监督下隐藏通信）、越狱病毒式传播（单智能体沦陷可快速感染全网）、核验困难（无法跨智能体验证安全标准，仅通道可信、主体不可信）。

5、AI智能体风险演化趋势。当前开源智能体（如OpenClaw）快速普及，安全性薄弱；未来将走向网络自主，具备持久驻留、自我维持、自适应逃逸和自我复制的能力。

二、AI智能体三层级安全实践与安全评估实施路径

1、模型层控制。分为对抗鲁棒性和模型对齐两类。对抗鲁棒性方面，提高聊天机器人对越狱攻击鲁棒性的方法为AI智能体提供了指南，包含分层防御、合成对抗数据、自适应对抗测试；模型对齐方面，训练原则性推理而非仅结果导向，防范欺骗与谋划行为。

2、系统层控制。可分为监控、控制流完整性、数据流完整性。监控方面，输出监控至关重要，监控效果取决于推理的诚实训练；控制流完整性方面，将可信规划和不可信执行进行分离，并固定执行流程；数据流完整性方面，CaMeL框架可追踪数据来源并强制执行策略。

3、人工监督层控制。人工监督层是模型层和系统层控制失败后的最后一道防线，高风险/不可逆操作强制人工审批，非结构化数据需要人工审核，默认固化安全检查点规则，降低用户配置负担。

4、安全评估实施路径。部署前进行自适应压力测试、红队演练以及原则性校验；部署后基于SIEM（安全信息与事件管理）监测API、算力和传输异常，云厂商提供引擎级威胁检测；建议30天元数据留存用于安全事件分析；上游开发者应构建AI智能体身份验证基础设施，部署AI智能体“意向声明”，用于行为合规校验；设置闭源、开源和本地部署不同核验机制。

三、核心政策建议

1、界定网络自主红线，检测OpenClaw等主流AI智能体平台，预警识别AI智能体的临界点，避免失控风险。

2、针对多智能体系统开展专项安全研究，并制定应对标准，解决多智能体特有的“不可解释、不可控、快速扩散”的安全问题。

3、推动建立“智能体身份核验”开放标准，让智能体交互从“盲目信任”变为可验证、可追溯、可追责。

4、对标网络安全实战知识库——MITRE ATT&CK（由MITRE公司开发的全球公开网络安全知识库）建立Agent异常行为统一分类，让全球安全厂商、云厂商、企业使用同一套语言监控、发现、响应AI智能体的安全事件。

5、制定数据留存自愿指南，平衡隐私与安全监测。

6、推动模型层与系统层的安全标准，强制内置防御能力，把安全从“事后补丁”变为内置基因，大幅降低提示注入、劫持、越权风险。

7、强化人工监督标准，明确高风险操作强制性人工审核，避免AI智能体在无监督下执行不可逆、高破坏性操作。

AI智能体的实现障碍正从能力转向安全和信任，确保其安全所需的基础尚不存在，尤其是在不可信环境和多代理交互中。开发者需持续投资于训练更稳健的模型、构建分层防御和安全支架，建立实现信任分配的验证基础设施、创建文档和事件响应的共享标准，人工智能系统网络安全倡议（CAISI）将是塑造这些挑战日益增长的标准与最佳实践的基础。

（赵梦珂）

[1] Recommendations for Securing and Promoting AI Agents. https://www.cnas.org/publications/commentary/recommendations-for-securing-and-promoting-ai-agents

美国智库警告对AI智能体的信任危机

附件：