2026-05-30 12:50:06

Gamma-World打破单智能体局限：让多智能体世界模子走向通用化新阶段

摘要

在人工智能领域，多智能体场景下的世界建模长期面临技术瓶颈。传统视频世界模型多基于单智能体假设设计，即通过单一玩家的动作序列预测其视...

在人工智能领域，多智能体场景下的世界建模长期面临技术瓶颈。传统视频世界模型多基于单智能体假设设计，即通过单一玩家的动作序列预测其视角下的未来画面。然而当场景扩展至多个玩家共享同一演化世界时，模型需要同时处理跨视角一致性、交互一致性等复杂问题，这要求系统在架构层面实现根本性突破。

针对这一挑战，科研团队提出名为Gamma-World的创新框架，通过重构位置编码与注意力机制两大核心组件，构建出首个支持任意数量智能体的生成式世界模型。该研究突破传统方案将玩家身份编码为固定向量的局限，创新性引入正单纯形几何结构，使所有智能体在表示空间中保持等距关系。这种设计无需可训练参数，仅通过几何坐标区分不同玩家，从根本上解决了身份对称性问题。

在跨智能体通信机制方面，研究团队摒弃了全连接注意力模式，转而采用稀疏枢纽注意力架构。该方案通过引入可学习的枢纽token，构建出轮辐式信息传递网络。每个智能体仅需与自身历史及枢纽token交互，信息经"智能体→枢纽→智能体"两跳传递，将计算复杂度从平方级压缩至线性级。实验数据显示，当玩家数量从2人增至8人时，该架构使计算量增幅从16倍降至可控范围，同时保持24帧/秒的实时推理速度。

为平衡生成质量与推理效率，研究团队开发出三阶段训练范式。首先训练可访问完整序列的双向教师模型，随后训练仅能观测历史帧的因果学生模型，最终通过条件自强制蒸馏将多步采样压缩为4步。这种渐进式训练策略使模型在保持动作可控性的前提下，实现视频生成质量指标FVD平均降低40%的突破。

在多人Minecraft环境测试中，该模型展现出显著优势。当玩家同时操作同一物体时，系统能准确维护共享环境状态；当玩家移出彼此视野时，模型仍可保持正确的空间定位。更引人注目的是，仅用双人数据训练的模型可直接生成四路同步视角画面，各视角间维持严格的世界状态一致性，验证了架构的零样本泛化能力。

该技术的通用性在真实机器人场景中得到进一步验证。研究团队将模型应用于双臂机器人协同任务，生成的未来帧准确反映了机械臂的协同运动轨迹。这种从虚拟游戏到物理操作的跨领域迁移能力，证明其架构设计并非针对特定场景的专项方案，而是为多智能体系统提供了统一建模框架。

论文指出，现有方案多通过增加数据规模弥补架构缺陷，而Gamma-World的成功表明，将领域知识直接编码进模型结构能带来更高效的解决方案。其核心创新点包括：基于正单纯形的身份编码机制、稀疏枢纽注意力通信架构、渐进式训练范式，这些设计共同解决了多智能体建模中的身份对称表示、高效交互建模、质量效率平衡三大难题。

该研究已开放模型代码与预训练权重，为自动驾驶、工业机器人、多智能体协作等需要处理复杂交互关系的领域提供了新的技术路径。随着生成模型对物理规律还原度的提升，神经网络驱动的模拟生成或将取代传统数据采集方式，为物理人工智能发展开辟新的可能性。

声明：文章不代表轻松科技观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！