2026-03-06 19:40:22

OpenAI发布开源评测CoT-Control,用于权衡模子思想链可控性

摘要

AIPress com cn报道随着AI智能体越来越能自主完成复杂任务，如何有效监督其行为成为关键议题。OpenAI最新研究聚焦一种潜在风险：当模型知道

AIPress.com.cn报道

随着AI智能体越来越能自主完成复杂任务，如何有效监督其行为成为关键议题。OpenAI最新研究聚焦一种潜在风险：当模型知道自己的推理过程会被监控时，是否可能刻意改写或遮掩思维链，从而让监控失效、评估结果被高估。

OpenAI表示，思维链监控是其多层安全体系的一部分，可通过分析模型推理步骤来识别不安全行为或偏离用户意图的迹象。为验证“思维链是否会被刻意操控”，OpenAI提出并开源了评测套件CoT-Control，包含超过1.3万道任务，来自GPQA、MMLU-Pro、HLE等多个基准，用于测试模型能否在解题时遵守针对思维链的限制指令，比如避免特定关键词、只用小写字母或按要求追加特定词语。

研究对13个推理模型进行评测后发现，当前前沿模型普遍难以稳定控制自己的思维链，可控性得分整体很低，最低约0.1%，最高也未超过15.4%。研究还指出，模型规模更大时可控性略有提升，但当推理更长或经历更多后训练时，可控性反而下降。即使告知模型“正在被监控或评测”，可控性也只是小幅上升。

OpenAI认为，这一结果意味着在当前阶段，模型还不太具备通过操控思维链来逃避监控的能力，因而思维链监控短期内仍具参考价值。但公司也强调需持续跟踪，未来将把思维链可控性与可监控性一起纳入前沿模型的系统卡披露指标，以便及时发现趋势变化。

声明：文章不代表轻松科技观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！

快讯

2026-02-04 02:29:39

甲骨文2026年拟募资450亿-500亿美元扩充云基建效劳AI等头部客户

2026-02-19 01:18:44

聚焦AI应用实战,第2届PolarDB数据库创新设计赛精彩收官,

2026-02-03 11:09:39

首款增程SUV YU9？胡峥楠初次预热小米全新车型

2026-02-19 11:18:42

打造安康厨电生态,深度解读格力若何用黑科技从新定义厨房,

2026-02-19 07:05:47

黄仁勋回应1000亿投资OpenAI：历来不是许诺、没有束缚力

2026-02-12 01:40:48

雷军自曝座驾常开小米YU7 坦言买新一代SU7也自掏腰包无扣头

查看更多

热门新闻

热门百科

甲骨文2026年拟募资450亿-500亿美元扩充云基建效劳AI等头部客户

甲骨文2026年拟募资450亿-500亿美元扩充云基建效劳AI等头部客户

聚焦AI应用实战,第2届PolarDB数据库创新设计赛精彩收官,

聚焦AI应用实战,第2届PolarDB数据库创新设计赛精彩收官,

首款增程SUV YU9？胡峥楠初次预热小米全新车型

首款增程SUV YU9？胡峥楠初次预热小米全新车型

打造安康厨电生态,深度解读格力若何用黑科技从新定义厨房,

打造安康厨电生态,深度解读格力若何用黑科技从新定义厨房,

黄仁勋回应1000亿投资OpenAI：历来不是许诺、没有束缚力

黄仁勋回应1000亿投资OpenAI：历来不是许诺、没有束缚力

OpenAI收费版ChatGPT测试广告付用度户无影响且月度增进超10%

OpenAI收费版ChatGPT测试广告付用度户无影响且月度增进超10%

雷军自曝座驾常开小米YU7 坦言买新一代SU7也自掏腰包无扣头

雷军自曝座驾常开小米YU7 坦言买新一代SU7也自掏腰包无扣头

店东说：“开九号店,真能赚钱,”——揭秘它的生意经

店东说：“开九号店,真能赚钱,”——揭秘它的生意经

极智嘉发布全球首款人形通用仓储机械人,发布即量产,

极智嘉发布全球首款人形通用仓储机械人,发布即量产,

雷军直播回应热门：交付量成果超卓 SU7保值率超保时捷特斯拉

雷军直播回应热门：交付量成果超卓 SU7保值率超保时捷特斯拉

查看更多

甲骨文2026年拟募资450亿-500亿美元扩充云基建效劳AI等头部客户

甲骨文2026年拟募资450亿-500亿美元扩充云基建效劳AI等头部客户

聚焦AI应用实战,第2届PolarDB数据库创新设计赛精彩收官,

聚焦AI应用实战,第2届PolarDB数据库创新设计赛精彩收官,

首款增程SUV YU9？胡峥楠初次预热小米全新车型

首款增程SUV YU9？胡峥楠初次预热小米全新车型

打造安康厨电生态,深度解读格力若何用黑科技从新定义厨房,

打造安康厨电生态,深度解读格力若何用黑科技从新定义厨房,

黄仁勋回应1000亿投资OpenAI：历来不是许诺、没有束缚力

黄仁勋回应1000亿投资OpenAI：历来不是许诺、没有束缚力

OpenAI收费版ChatGPT测试广告付用度户无影响且月度增进超10%

OpenAI收费版ChatGPT测试广告付用度户无影响且月度增进超10%

雷军自曝座驾常开小米YU7 坦言买新一代SU7也自掏腰包无扣头

雷军自曝座驾常开小米YU7 坦言买新一代SU7也自掏腰包无扣头

店东说：“开九号店,真能赚钱,”——揭秘它的生意经

店东说：“开九号店,真能赚钱,”——揭秘它的生意经

极智嘉发布全球首款人形通用仓储机械人,发布即量产,

极智嘉发布全球首款人形通用仓储机械人,发布即量产,

雷军直播回应热门：交付量成果超卓 SU7保值率超保时捷特斯拉

雷军直播回应热门：交付量成果超卓 SU7保值率超保时捷特斯拉

查看更多