2026-05-30 09:48:22

AI科学展望才能大揭秘:知识赅博却难窥将来,界限事实在哪?

摘要
牛津大学、斯坦福大学与艾伦人工智能研究所联合开展的一项研究,以预印本形式发布在arXiv平台,编号为2605.22681v1。该研究构建了名为CUSP...

牛津大学、斯坦福大学与艾伦人工智能研究所联合开展的一项研究,以预印本形式发布在arXiv平台,编号为2605.22681v1。该研究构建了名为CUSP的测评框架,旨在系统评估当前最先进的人工智能系统是否具备预测科学发展趋势的能力。这一探索源于科学界长期存在的期待:若人工智能掌握人类积累的全部知识,能否像资深学者般预见下一个重大科学突破?

研究团队从《自然》《科学》《细胞》三大顶级期刊及多个AI能力排行榜中,筛选出2024年1月至2026年3月间4760个真实科学里程碑事件,涵盖生物学、人工智能、医学等九大领域。通过"时间封锁"方法,要求AI仅使用指定时间节点前的知识,预测后续科学事件。为确保评估公正性,所有题目均剔除了可能泄露答案的线索,最终生成17429个结构化预测任务,分为五种题型:判断科学声明能否在指定日期前实现的"是否题"、微调原始声明的变体"是否题"、四选一的机制推理题、开放性设计题以及预测科学里程碑发生月份的时间预测题。每道题目均经过独立AI系统审核与人类专家复核双重质量把关。

参与测试的六款AI系统包括GPT-5.4、GPT-4o、Claude Sonnet 4.5等当前最先进模型。在机制推理题中,GPT-5.4以81.9%的准确率领先,显著优于随机猜测的25%,表明AI具备从竞争性方案中识别合理技术路径的能力。然而在"是否题"上,所有模型准确率仅在45%至52%之间徘徊,与随机猜测无异。更值得注意的是,不同模型呈现截然相反的答题倾向:LLaMA 3.3过度乐观,93%的题目回答"能实现";而GPT-4o和GPT-OSS则过度悲观,仅19%的题目给出肯定回答。时间预测题中,所有模型均系统性低估科学进展速度,平均预测误差在4至36个月之间,且预测点呈现横向带状分布,而非理想的对角线分布。

开放性设计题暴露了AI能力的独特缺陷。GPT-5.4虽以60.3%的通过率领先,但其技术方案往往"精确地跑偏"——技术具体性得分比方向吻合度高1至3分,表明AI能生成专业细节丰富的方案,却常偏离正确方向。这种表现如同厨师写出步骤详尽却与目标料理相差甚远的菜谱。进一步分析发现,AI在已知事件与未知事件上的得分差距极小,GPT-5.4在机制推理题中,已知事件得分0.830,未知事件得分0.792,说明AI缺乏将知识转化为可靠预测的能力。

研究团队通过受控实验发现,为AI提供历史知识增强虽能提升表现——GPT-4o在"是否题"的正确率从19.2%提升至47.6%,但与"全知模式"仍存在巨大"预测鸿沟"。这种鸿沟在高影响力突破性发现上尤为显著:GPT-5.4对低引用论文的预测鸿沟为0.060,而对高引用论文的鸿沟飙升至0.875。这表明AI更擅长预测普通研究,对改变领域走向的重大发现则几乎无法准确预见。

不同科学领域的预测难度呈现明显差异。环境科学、神经科学和物理学在机制推理题中准确率较高,而化学、材料科学和AI领域表现较差,这可能反映物理学实验手段相对固定,而化学合成路线变化多端。时间预测领域差异更为突出,AI领域得分显著高于其他领域,因其进展高度依赖可量化的基准测试成绩,数据公开且模式规律。相比之下,生物学、化学的突破常来自意外实验发现,难以从历史趋势推断时间节点。

自信度与准确率的失衡是AI预测的另一突出问题。所有模型在所有题型上均系统性过度自信,"是否题"平均自信度比实际准确率高0.2分,时间预测题中GPT-4o的过度自信幅度达0.6分。更矛盾的是,面对未知事件时,多数模型在机制推理题上的过度自信程度反而增加,而在时间预测题上则趋于保守。这种碎片化的自信模式表明,AI缺乏稳定的不确定性感知机制。

研究还构建了一组等待未来验证的"时间胶囊"问题,涵盖科学里程碑、机构荣誉、量化指标及AI能力预测等领域。在全球碳排放预测上,模型分歧明显:LLaMA 3.3给出最高预测值,而Claude S4.5等模型则接近历史趋势延续。在AI能力预测方面,六款模型均预期2026至2027年间能力持续提升,但对开放测试Humanity's Last Exam的得分预测分歧较大,GPT-5.4最为乐观,DeepSeek R1则相对保守。

为确保评估公正性,研究团队采取多重质量控制措施:使用GPT-4o分解论文摘要时剔除所有可能泄题的线索;由Grok-3独立审核题目质量,标准包括忠实性、可验证性等四类指标;招募十位高校专家进行人工复核,并与AI审核结果比对。开放性设计题评分则先由GPT-5.4 mini检查泄题情况,再从方向吻合度、技术具体性等四个维度打分,并通过人机一致性验证确保评分可靠性。

这项研究描绘了当前AI的能力边界:它如同知识渊博的图书管理员,能快速检索资料并在候选方案中识别合理路径,但面对"研究何时成功"或"突破何时出现"等问题时,其回答与随机猜测无异,且常以过度自信的语气呈现。特别是对真正改变领域走向的重大发现,AI的预测能力最弱——而这恰是科学预测最具价值的部分。详细研究内容可通过arXiv编号2605.22681查阅完整论文。

声明:文章不代表轻松科技观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!
热门新闻
热门百科
回顶部