2026-05-30 09:41:42

中科大等团队打破AI视频瓶颈:强化进修助力多视角生成防“晕镜头”

摘要
在影视制作领域,多机位拍摄是常见手法,通过不同角度记录同一场景,能丰富画面表现力。但传统拍摄方式成本高昂,需多台摄像机同时工作,或...

在影视制作领域,多机位拍摄是常见手法,通过不同角度记录同一场景,能丰富画面表现力。但传统拍摄方式成本高昂,需多台摄像机同时工作,或让演员反复表演,既耗时又费力。如今,人工智能技术正为这一难题提供新解法——只需一段普通视频和指定视角指令,AI就能生成全新视角的视频内容,这一方向被称为“相机控制的视频重渲染”,正成为视频生成领域的研究热点。

尽管实验室环境下的AI模型表现亮眼,但面对真实世界视频时,其生成效果常不尽如人意。新视角视频可能出现比例失真、镜头轨迹混乱等问题,仿佛摄影助手“迷了路”。为解决这一痛点,中国科学技术大学联合上海人工智能实验室、浙江大学的研究团队提出名为“Geo-Align”的创新框架,通过强化学习技术提升AI的“方向感”,使其生成的视频更符合指定摄像机运动路径,同时保持画面自然美观。

现有方法主要分为两类:一是“显式几何变换”,通过估算像素深度并“翻折”画面实现视角转换,但易产生拉伸变形;二是“隐式条件方法”,直接输入摄像机运动参数让模型学习画面生成,但依赖合成数据训练,难以适应真实场景的复杂性。更关键的是,真实视频缺乏物理尺度标注,导致AI无法准确理解“移动一步”的实际距离,镜头运动常出现蜷缩或突飞的情况。

Geo-Align的突破在于引入强化学习机制,将训练过程转化为“真实场景练习+结果反馈调整”的模式。研究团队设计了一套精密的“奖惩系统”:通过MapAnything工具从生成视频中提取实际摄像机路径,与目标轨迹对比计算旋转偏差(角度误差)和平移偏差(距离误差),偏差越小奖励越高。为避免AI“虎头蛇尾”,后期帧的误差权重被显著提高,迫使其保持长期轨迹准确性。同时,结合VideoAlign和HPSv3工具评估画面动态效果与单帧质量,确保视觉效果不打折扣。

训练数据的构建同样充满巧思。研究团队混合使用真实视频与游戏轨迹:输入视频来自包含城市街景的CityWalk数据集,目标轨迹则提取自游戏引擎生成的OmniWorld数据集。为解决游戏轨迹缺乏物理尺度的问题,他们开发“截断高斯采样”机制,通过计算轨迹最大运动速度并随机设定目标速度上限,将游戏轨迹等比例缩放至合理范围,既保留运动多样性,又确保物理合理性。

在训练策略上,研究团队采用GRPO算法,让AI同时生成多个视频版本,通过相对排名优化模型参数,避免额外评估模型带来的计算开销。针对视频生成耗时问题,他们引入“滑动窗口采样”技巧,聚焦关键时间窗口加速训练。通过标准化处理多维度奖励信号,并移除KL散度惩罚项,鼓励模型探索新颖复杂的镜头运动策略。整个训练过程在64块NVIDIA A800显卡上运行140轮,耗时约130小时,仅更新自注意力层参数以保留预训练模型的视觉生成能力。

实验结果显示,在DAVIS数据集的500个测试案例中,Geo-Align在相机精度、几何一致性和视觉质量等指标上全面超越基线模型。与前身模型ReDirector相比,其平移误差降低13%,旋转误差减少7%,动态场景几何一致性提升近1%,且在大幅度镜头运动下表现更稳健。直观对比中,ReCamMaster和ReDirector在快速运动时易出现主体消失或背景模糊,而Geo-Align生成的视频能更好保持前景与背景的完整性。

消融实验进一步验证了设计合理性:仅使用视觉奖励时,旋转误差反而恶化,表明几何约束对建立正确三维理解至关重要。不过,该技术仍存在局限:在极端旋转、远距离平移或超大前景物体特写时,生成效果可能失真;面对人群、车流等复杂运动场景时,画面可能出现闪烁。强化学习的高计算成本也是待解难题。

这项研究为AI视频生成开辟了新路径——通过强化学习与真实物理标准结合,替代对稀缺配对数据的依赖,显著提升了AI在真实场景中的“换镜头”能力。其应用潜力涵盖影视创作、游戏制作和虚拟现实内容生成等领域,未来用户或仅需拍摄一段视频,即可通过AI生成任意视角版本,无需重新架设摄像机。相关论文可通过arXiv编号2605.23903查阅,项目主页lizizun.github.io/geo-align-page/提供视频演示。

声明:文章不代表轻松科技观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!
热门新闻
热门百科
回顶部