2026-03-06 19:21:17

OpenAI开源CoT-Control评测：前沿模子思想链可控性尚待提拔

摘要

在人工智能技术快速发展的当下，AI智能体自主处理复杂任务的能力显著提升，但其行为监管问题也随之成为焦点。近期，OpenAI针对一项潜在风险

在人工智能技术快速发展的当下，AI智能体自主处理复杂任务的能力显著提升，但其行为监管问题也随之成为焦点。近期，OpenAI针对一项潜在风险展开研究：当AI模型意识到自身推理过程处于监控状态时，是否会通过修改或隐藏思维链来规避监管，导致安全评估结果失真。

作为多层安全防护机制的重要组成部分，思维链监控技术通过拆解模型推理步骤，识别潜在的不安全行为或意图偏差。为验证这一技术的可靠性，OpenAI研发并开源了名为CoT-Control的评测工具，该工具整合了GPQA、MMLU-Pro、HLE等权威基准中的1.3万余道测试题，要求模型在解题过程中严格遵循特定规则，例如禁用特定词汇、强制使用小写字母或添加指定后缀。

实验结果显示，当前主流推理模型在思维链控制方面表现普遍欠佳。参与测试的13个模型中，可控性得分最高未超过15.4%，最低者仅约0.1%。研究团队发现，模型规模扩大虽能带来轻微改善，但当推理链条延长或经历持续训练后，可控性反而呈下降趋势。即便明确告知模型处于监控状态，其表现提升幅度也极为有限。

基于上述发现，OpenAI认为现阶段AI模型尚不具备通过操纵思维链逃避监管的技术能力，因此思维链监控仍可作为安全评估的有效参考。不过该公司同时指出，需建立长期跟踪机制，将思维链可控性与可监控性纳入模型安全指标体系，以便及时捕捉技术演进带来的新挑战。

声明：文章不代表轻松科技观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！

快讯

2026-02-04 02:29:39

甲骨文2026年拟募资450亿-500亿美元扩充云基建效劳AI等头部客户

2026-02-19 01:18:44

聚焦AI应用实战,第2届PolarDB数据库创新设计赛精彩收官,

2026-02-03 11:09:39

首款增程SUV YU9？胡峥楠初次预热小米全新车型

2026-02-19 11:18:42

打造安康厨电生态,深度解读格力若何用黑科技从新定义厨房,

2026-02-19 07:05:47

黄仁勋回应1000亿投资OpenAI：历来不是许诺、没有束缚力

2026-02-12 01:40:48

雷军自曝座驾常开小米YU7 坦言买新一代SU7也自掏腰包无扣头

查看更多

热门新闻

热门百科

甲骨文2026年拟募资450亿-500亿美元扩充云基建效劳AI等头部客户

甲骨文2026年拟募资450亿-500亿美元扩充云基建效劳AI等头部客户

聚焦AI应用实战,第2届PolarDB数据库创新设计赛精彩收官,

聚焦AI应用实战,第2届PolarDB数据库创新设计赛精彩收官,

首款增程SUV YU9？胡峥楠初次预热小米全新车型

首款增程SUV YU9？胡峥楠初次预热小米全新车型

打造安康厨电生态,深度解读格力若何用黑科技从新定义厨房,

打造安康厨电生态,深度解读格力若何用黑科技从新定义厨房,

黄仁勋回应1000亿投资OpenAI：历来不是许诺、没有束缚力

黄仁勋回应1000亿投资OpenAI：历来不是许诺、没有束缚力

OpenAI收费版ChatGPT测试广告付用度户无影响且月度增进超10%

OpenAI收费版ChatGPT测试广告付用度户无影响且月度增进超10%

雷军自曝座驾常开小米YU7 坦言买新一代SU7也自掏腰包无扣头

雷军自曝座驾常开小米YU7 坦言买新一代SU7也自掏腰包无扣头

店东说：“开九号店,真能赚钱,”——揭秘它的生意经

店东说：“开九号店,真能赚钱,”——揭秘它的生意经

极智嘉发布全球首款人形通用仓储机械人,发布即量产,

极智嘉发布全球首款人形通用仓储机械人,发布即量产,

雷军直播回应热门：交付量成果超卓 SU7保值率超保时捷特斯拉

雷军直播回应热门：交付量成果超卓 SU7保值率超保时捷特斯拉

查看更多

甲骨文2026年拟募资450亿-500亿美元扩充云基建效劳AI等头部客户

甲骨文2026年拟募资450亿-500亿美元扩充云基建效劳AI等头部客户

聚焦AI应用实战,第2届PolarDB数据库创新设计赛精彩收官,

聚焦AI应用实战,第2届PolarDB数据库创新设计赛精彩收官,

首款增程SUV YU9？胡峥楠初次预热小米全新车型

首款增程SUV YU9？胡峥楠初次预热小米全新车型

打造安康厨电生态,深度解读格力若何用黑科技从新定义厨房,

打造安康厨电生态,深度解读格力若何用黑科技从新定义厨房,

黄仁勋回应1000亿投资OpenAI：历来不是许诺、没有束缚力

黄仁勋回应1000亿投资OpenAI：历来不是许诺、没有束缚力

OpenAI收费版ChatGPT测试广告付用度户无影响且月度增进超10%

OpenAI收费版ChatGPT测试广告付用度户无影响且月度增进超10%

雷军自曝座驾常开小米YU7 坦言买新一代SU7也自掏腰包无扣头

雷军自曝座驾常开小米YU7 坦言买新一代SU7也自掏腰包无扣头

店东说：“开九号店,真能赚钱,”——揭秘它的生意经

店东说：“开九号店,真能赚钱,”——揭秘它的生意经

极智嘉发布全球首款人形通用仓储机械人,发布即量产,

极智嘉发布全球首款人形通用仓储机械人,发布即量产,

雷军直播回应热门：交付量成果超卓 SU7保值率超保时捷特斯拉

雷军直播回应热门：交付量成果超卓 SU7保值率超保时捷特斯拉

查看更多