2026-05-30 12:50:06

Gamma-World打破单智能体局限:让多智能体世界模子走向通用化新阶段

摘要
在人工智能领域,多智能体场景下的世界建模长期面临技术瓶颈。传统视频世界模型多基于单智能体假设设计,即通过单一玩家的动作序列预测其视...

在人工智能领域,多智能体场景下的世界建模长期面临技术瓶颈。传统视频世界模型多基于单智能体假设设计,即通过单一玩家的动作序列预测其视角下的未来画面。然而当场景扩展至多个玩家共享同一演化世界时,模型需要同时处理跨视角一致性、交互一致性等复杂问题,这要求系统在架构层面实现根本性突破。

针对这一挑战,科研团队提出名为Gamma-World的创新框架,通过重构位置编码与注意力机制两大核心组件,构建出首个支持任意数量智能体的生成式世界模型。该研究突破传统方案将玩家身份编码为固定向量的局限,创新性引入正单纯形几何结构,使所有智能体在表示空间中保持等距关系。这种设计无需可训练参数,仅通过几何坐标区分不同玩家,从根本上解决了身份对称性问题。

在跨智能体通信机制方面,研究团队摒弃了全连接注意力模式,转而采用稀疏枢纽注意力架构。该方案通过引入可学习的枢纽token,构建出轮辐式信息传递网络。每个智能体仅需与自身历史及枢纽token交互,信息经"智能体→枢纽→智能体"两跳传递,将计算复杂度从平方级压缩至线性级。实验数据显示,当玩家数量从2人增至8人时,该架构使计算量增幅从16倍降至可控范围,同时保持24帧/秒的实时推理速度。

为平衡生成质量与推理效率,研究团队开发出三阶段训练范式。首先训练可访问完整序列的双向教师模型,随后训练仅能观测历史帧的因果学生模型,最终通过条件自强制蒸馏将多步采样压缩为4步。这种渐进式训练策略使模型在保持动作可控性的前提下,实现视频生成质量指标FVD平均降低40%的突破。

在多人Minecraft环境测试中,该模型展现出显著优势。当玩家同时操作同一物体时,系统能准确维护共享环境状态;当玩家移出彼此视野时,模型仍可保持正确的空间定位。更引人注目的是,仅用双人数据训练的模型可直接生成四路同步视角画面,各视角间维持严格的世界状态一致性,验证了架构的零样本泛化能力。

该技术的通用性在真实机器人场景中得到进一步验证。研究团队将模型应用于双臂机器人协同任务,生成的未来帧准确反映了机械臂的协同运动轨迹。这种从虚拟游戏到物理操作的跨领域迁移能力,证明其架构设计并非针对特定场景的专项方案,而是为多智能体系统提供了统一建模框架。

论文指出,现有方案多通过增加数据规模弥补架构缺陷,而Gamma-World的成功表明,将领域知识直接编码进模型结构能带来更高效的解决方案。其核心创新点包括:基于正单纯形的身份编码机制、稀疏枢纽注意力通信架构、渐进式训练范式,这些设计共同解决了多智能体建模中的身份对称表示、高效交互建模、质量效率平衡三大难题。

该研究已开放模型代码与预训练权重,为自动驾驶、工业机器人、多智能体协作等需要处理复杂交互关系的领域提供了新的技术路径。随着生成模型对物理规律还原度的提升,神经网络驱动的模拟生成或将取代传统数据采集方式,为物理人工智能发展开辟新的可能性。

声明:文章不代表轻松科技观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!
热门新闻
热门百科
回顶部