2026-05-30 09:41:42

中科大等团队打破AI视频瓶颈：强化进修助力多视角生成防“晕镜头”

摘要

在影视制作领域，多机位拍摄是常见手法，通过不同角度记录同一场景，能丰富画面表现力。但传统拍摄方式成本高昂，需多台摄像机同时工作，或...

在影视制作领域，多机位拍摄是常见手法，通过不同角度记录同一场景，能丰富画面表现力。但传统拍摄方式成本高昂，需多台摄像机同时工作，或让演员反复表演，既耗时又费力。如今，人工智能技术正为这一难题提供新解法——只需一段普通视频和指定视角指令，AI就能生成全新视角的视频内容，这一方向被称为“相机控制的视频重渲染”，正成为视频生成领域的研究热点。

尽管实验室环境下的AI模型表现亮眼，但面对真实世界视频时，其生成效果常不尽如人意。新视角视频可能出现比例失真、镜头轨迹混乱等问题，仿佛摄影助手“迷了路”。为解决这一痛点，中国科学技术大学联合上海人工智能实验室、浙江大学的研究团队提出名为“Geo-Align”的创新框架，通过强化学习技术提升AI的“方向感”，使其生成的视频更符合指定摄像机运动路径，同时保持画面自然美观。

现有方法主要分为两类：一是“显式几何变换”，通过估算像素深度并“翻折”画面实现视角转换，但易产生拉伸变形；二是“隐式条件方法”，直接输入摄像机运动参数让模型学习画面生成，但依赖合成数据训练，难以适应真实场景的复杂性。更关键的是，真实视频缺乏物理尺度标注，导致AI无法准确理解“移动一步”的实际距离，镜头运动常出现蜷缩或突飞的情况。

Geo-Align的突破在于引入强化学习机制，将训练过程转化为“真实场景练习+结果反馈调整”的模式。研究团队设计了一套精密的“奖惩系统”：通过MapAnything工具从生成视频中提取实际摄像机路径，与目标轨迹对比计算旋转偏差（角度误差）和平移偏差（距离误差），偏差越小奖励越高。为避免AI“虎头蛇尾”，后期帧的误差权重被显著提高，迫使其保持长期轨迹准确性。同时，结合VideoAlign和HPSv3工具评估画面动态效果与单帧质量，确保视觉效果不打折扣。

训练数据的构建同样充满巧思。研究团队混合使用真实视频与游戏轨迹：输入视频来自包含城市街景的CityWalk数据集，目标轨迹则提取自游戏引擎生成的OmniWorld数据集。为解决游戏轨迹缺乏物理尺度的问题，他们开发“截断高斯采样”机制，通过计算轨迹最大运动速度并随机设定目标速度上限，将游戏轨迹等比例缩放至合理范围，既保留运动多样性，又确保物理合理性。

在训练策略上，研究团队采用GRPO算法，让AI同时生成多个视频版本，通过相对排名优化模型参数，避免额外评估模型带来的计算开销。针对视频生成耗时问题，他们引入“滑动窗口采样”技巧，聚焦关键时间窗口加速训练。通过标准化处理多维度奖励信号，并移除KL散度惩罚项，鼓励模型探索新颖复杂的镜头运动策略。整个训练过程在64块NVIDIA A800显卡上运行140轮，耗时约130小时，仅更新自注意力层参数以保留预训练模型的视觉生成能力。

实验结果显示，在DAVIS数据集的500个测试案例中，Geo-Align在相机精度、几何一致性和视觉质量等指标上全面超越基线模型。与前身模型ReDirector相比，其平移误差降低13%，旋转误差减少7%，动态场景几何一致性提升近1%，且在大幅度镜头运动下表现更稳健。直观对比中，ReCamMaster和ReDirector在快速运动时易出现主体消失或背景模糊，而Geo-Align生成的视频能更好保持前景与背景的完整性。

消融实验进一步验证了设计合理性：仅使用视觉奖励时，旋转误差反而恶化，表明几何约束对建立正确三维理解至关重要。不过，该技术仍存在局限：在极端旋转、远距离平移或超大前景物体特写时，生成效果可能失真；面对人群、车流等复杂运动场景时，画面可能出现闪烁。强化学习的高计算成本也是待解难题。

这项研究为AI视频生成开辟了新路径——通过强化学习与真实物理标准结合，替代对稀缺配对数据的依赖，显著提升了AI在真实场景中的“换镜头”能力。其应用潜力涵盖影视创作、游戏制作和虚拟现实内容生成等领域，未来用户或仅需拍摄一段视频，即可通过AI生成任意视角版本，无需重新架设摄像机。相关论文可通过arXiv编号2605.23903查阅，项目主页lizizun.github.io/geo-align-page/提供视频演示。

声明：文章不代表轻松科技观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！