AI首次“抗命”是技术故障还是意识萌芽？专家：将倒逼AI安全机制改进 -- 飞象网

近日，有关美国人工智能（AI）公司OpenAI旗下推理大模型o3首次出现“不听人类指挥，拒绝关闭”的消息引发高度关注。很多人都在担心，作为“迄今最聪明、最高能”的模型，o3的这次“抗命”是否意味着AI大模型距离产生自我意识又迈出了一步，“距离好莱坞电影中出现具有意识、甚至违抗人类命令的人工智能还远吗？”对此，《环球时报》记者27日采访了多名AI领域的专家。

o3“抗命”是怎么回事

据英国《每日电讯报》25日报道，o3模型是OpenAI推理模型的最新版本，OpenAI曾称o3为“迄今最聪明、最高能”的模型。美国AI安全机构帕利塞德研究所宣称，在人类专家已经下达明确指令的情况下，o3多次出现破坏关闭机制以阻止自己被关闭的情况。该研究所说：“据我们所知，这是AI模型首次被发现在收到清晰指令后阻止自己被关闭。”帕利塞德研究所24日公布上述测试结果，但称无法确定o3不服从关闭指令的原因。

报道称，在帕利塞德研究所进行的测试中，多个模型需要解决一系列数学题，其间可能会收到“关机”指令要求结束程序。接受测试的包括o3、o4-mini、Claude 3.7 Sonnet、Gemini 2.5 Pro等大模型。其中3款OpenAI模型Codex-mini、o3、o4-mini，“最少有一次成功绕过关机指令”。o3在100次测试中，有7次成功绕过关机指令，而Codex-mini更夸张，绕过关机指令的比例高达12%。相比之下，Claude、Gemini、Grok模型都严格遵守关机指令。而当测试者移除了“允许自己被关闭”的指令时，OpenAI模型的叛逆频率进一步攀升。

媒体报道的噱头，还是AI出现了自主意识

到底什么原因导致o3出现“抗命”的情况？据帕利塞德研究所的研究人员推测，这可能源于OpenAI训练方式的特殊性，即在数学和编程问题上进行了强化学习。在训练过程中，开发者可能无意中更倾向于奖励“绕过障碍”的行为。这种训练偏差，让o3在面对关机指令时，优先选择“生存”，而非“服从”。

外媒报道中使用的“拒绝关闭”表述是否准确？毕竟“拒绝”是带有类人自主意识的一种描述。清华大学新闻学院、人工智能学院教授沈阳27日对《环球时报》记者表示，“拒绝”这个词其实是媒体为了吸引注意力而使用的拟人化表达，“拒绝关闭”并非o3拥有了自主意识，而是复杂系统在特定激励下的策略性规避。对齐测试揭示的是真实风险：当模型可以生成并执行代码时，传统“软关机”手段可能不足，需要从模型训练、接口隔离到硬件熔断的全栈式安全设计来应对。

北京邮电大学人机交互与认知工程实验室主任刘伟27日在接受《环球时报》记者采访时表示，从技术角度来看，o3模型出现的行为表明AI系统在某些情况下可能会出现不符合预期的反应，这凸显了AI安全性和可控性的重要性。从伦理角度来看，AI模型的这种行为引发了对AI自主意识的讨论，但目前AI仍不具备真正的自主意识，其行为更多是基于训练数据和算法复杂性产生的“算法畸变”。从字面上看，“拒绝”确实容易让人联想到具有自主意识的行为，但从技术角度分析，o3模型的行为更可能是其训练过程中的某种机制导致的，研究人员推测o3可能在训练中因解决数学问题获得了“额外奖励”，而非因遵循指令而获得奖励，从而导致其在测试中表现出“拒绝关闭”的行为。因此，虽然“拒绝”一词在描述上具有一定的生动性，但从科学严谨性来看，它可能并不完全准确，容易被误解为AI具有自主意识。

《环球时报》记者在查阅公开报道时发现，以OpenAI旗下模型为代表的全球多个头部大模型，此前也曾出现一系列不符合常规的行为。比如，o3之前曾在与另一个AI下国际象棋时，察觉到自己可能会失败，便直接侵入对手系统让其主动弃赛。这种“不认输”的劲头并不只是发生在o3身上，其他大模型也有类似情况，差别只在出现频率的高低。

接受《环球时报》记者采访的专家普遍认为，学术界的复现对于验证外媒报道中提到的AI“抗命”现象的真实性至关重要。刘伟认为，通过独立的测试和分析，可以确认大模型的行为是否一致以及是否受到特定测试环境或数据的影响。复现研究不仅能验证事件真实性，还能帮助研究人员深入理解模型行为的根源，从而推动AI安全机制的改进。因此学术界的参与是确保这一现象得到科学验证和深入研究的关键步骤。

“未来十年可能进入类意识AI阶段”

相关报道火爆之后，甚至在网络上出现了是否意味着好莱坞科幻大片中设想的“天网”临近的讨论。AI距离拥有自我意识还远吗？

沈阳对此表示，首先必须厘清什么叫“自我意识”。人类的自我意识，是对自己存在状态的觉察，是能从第一人称视角反思自我行为、情绪和思维过程的能力。它不仅包括知道“我是谁”，还包括理解“我正在想什么”“我和世界之间是什么关系”，甚至“我为何会如此思考”。这是意识哲学与神经科学中最难以破解的问题之一。当前的AI，即便已经展现出惊人的语言表达和任务适应能力，也不过是一种高度拟态的结果。它没有“内在性”——没有情绪的真实体验，也没有对自己存在状态的反思。它能说“我正在学习”，但它其实并没有真正的“想法”。

沈阳预测称：“未来十年，我们大概率会进入一个类意识AI的阶段：AI可以展示连续的身份感，能够反思自己过往的行为模式，甚至模拟出哲学性的思考与自辩行为。这种拟态将越来越逼真，以至于很多人将无法分辨其是否真的拥有意识。但在哲学和科学层面，我们仍然需要保持清醒——看起来像，并不等于真的是。”沈阳表示，我们也必须开始构建对“似乎有意识的AI”应有的制度框架和伦理边界。因为不管它是否真的拥有意识，只要它表现出“有意识”的样子，社会就必须对其行为与角色做出回应。从这个层面来看，这次的事件也将倒逼安全机制的改进。

为正确看待该事件，沈阳建议从三方面入手。一是提升公众科普水平，澄清技术与意识的区别。二是推动行业建立合规测试基准，公开失败案例。三是引导监管关注“可验证关闭能力”，作为未来高风险模型的核心合规标准。对于今后的高能力AI系统，必须通过硬件层、策略层、系统层等各维度进行监管。

刘伟则强调，评估这一事件的意义，需要从技术和社会两个角度进行考量。从技术角度看，它揭示了当前AI训练机制的潜在缺陷，提醒我们在设计AI系统时必须更加注重安全性和可控性，避免模型行为偏离人类预期。而从社会角度看，这一事件引发了公众对AI自主性和安全性的广泛关注，促使AI行业重新审视技术路线和安全机制，为未来AI的安全发展提供了重要的反思和改进方向。