在代理式AI中构建信任 -- 飞象网

作者：红帽亚太区首席技术官Vincent Caldeira

随着AI系统从独立模型向自主、代理式系统转型，对信任、透明度和风险感知设计的需求从未如此迫切。这些由大语言模型（LLM）和多代理编排技术驱动的智能代理，正越来越多地做出影响企业、个人及整个社会的决策。然而，我们不能假定这些系统的可信度：它必须在系统层面进行设计、测量和持续强化，而不仅仅是模型层面。

AI可信度的关键驱动力之一是模型供应链透明度——一个允许企业评估和验证复杂系统中使用的AI组件的来源、安全性和一致性的框架。如果无法清晰了解AI模型是如何构建、训练和部署的，就几乎不可能对系统需求进行风险分析。本文探讨了模型供应链透明度为何至关重要，它如何支持代理式AI中的风险对齐，以及设计可信AI生态系统的最佳实践。

AI供应链日益增长的复杂性

现代AI系统不再是一个单一体，而是由多个相互关联的模型、API和组件（包括外部数据源和工具）组成。这种复杂性引入了新的风险因素，包括：

·数据来源不确定性：训练数据来自哪里？是否存在偏见或不完整？

·第三方模型风险：外部AI模型是否符合伦理和监管标准？

·API依赖关系：如果函数调用返回不可靠或不安全的输出，会发生什么？

·自动化决策不透明性：利益相关者能否审计并干预AI驱动的决策？

这些挑战凸显了模型供应链透明度的重要性。这就是为什么行业需要标准化AI供应链可见性，确保模型在构建时考虑了问责制和风险对齐。

为什么风险分析对代理式AI至关重要

与传统AI模型按要求提供输出不同，代理式AI系统基于高级目标自主行动。这种从反应式到主动式AI的转变要求新的风险评估方法。部署多代理编排和函数调用框架的企业必须评估：

1.可预测性与可靠性——系统能否产生一致且可解释的结果？

2.人机回圈控制——是否存在人类干预和对齐的机制？

3.伦理护栏——系统如何与人类价值观和政策对齐？

4.自适应风险缓解——AI能否根据不断变化的风险调整其行为？

风险对齐的AI系统不仅简单地执行功能——它理解自己的局限性，沟通不确定性，并在必要时允许人类监督。

提升AI系统可信度的最佳实践

为确保AI系统可信，企业必须在AI生命周期的每个阶段嵌入安全措施。以下最佳实践可提供帮助：

1.模型沿袭（model lineage）与可解释性：模型沿袭通过追踪AI模型的整个生命周期（从数据源到部署）确保透明度，支持偏见检测与问责制。可解释性为AI决策提供清晰可理解的洞察，帮助用户理解并信任系统输出。

2.风险感知的代理式编排：为防止意外行为，代理式AI系统必须包含安全措施，如提示调解（验证输入）、输出调解（过滤响应）和任务锚定（确保AI保持在一定范围之内）。这些机制有助于将AI行为与人类期望和安全标准对齐。

3.人机回圈治理：即使在自主AI中，人类监督对于防止错误和意外后果也至关重要。实施实时干预控制和故障安全机制，确保AI行为可被监控、纠正或在必要时覆盖。

4.透明的AI供应链：AI系统应基于可验证、可审计的组件构建，以确保信任和问责制。企业必须追踪模型来源、评估第三方AI风险，并使用开源框架提升AI开发和部署的透明度。

通过整合这些实践，企业可以主动设计信任机制，而非在部署后补救安全功能。从已建立的实施模式来看（例如ThoughtWorks的Martin Fowler和Bharani Subramaniam的《构建生成式AI产品的新兴模式》），在未来几年中，将信任设计元素融入其中并采用相关最佳实践，对于在企业规模成功部署AI而言，将会变得愈发重要。

结论：信任是系统级重要任务

随着AI从模型向系统过渡，企业必须采用整体方法来处理信任和透明度。这需要：

·模型供应链透明度，以评估和验证AI组件。

·系统风险分析，以预见故障并缓解偏见。

·主动设计模式，以落实安全、公平和问责制。

归根结底，信任不是功能，而是基础。为了确保AI系统安全、有效并与人类价值观对齐，我们必须在每个层面为信任展开设计——从数据和模型到决策和部署。