在人工智能图像生成领域,一项突破性研究为提升生成图像质量与文字匹配度提供了全新思路。传统方法在强化学习训练中,往往只关注策略网络(负责根据文字生成数字代号序列)的优化,而将解码器(负责将数字代号还原为图像)视为固定不变的组件。这种做法导致策略网络生成的代号序列分布逐渐偏离解码器初始训练时的标准模式,最终引发图像质量下降。研究团队通过创新性的“接力协同训练法”,成功解决了这一长期存在的矛盾。
主流的离散自回归图像生成系统由两个核心组件构成:词汇表编解码器将真实图像压缩为数字代号序列,自回归策略网络则学习根据文字提示生成类似序列。在“后训练”阶段,研究人员通常通过高质量评分反馈优化策略网络,使其生成更符合人类偏好的图像。然而,解码器在初始训练时仅接触标准化的数字代号,当策略网络生成的代号分布发生变化后,解码器无法有效还原这些“陌生密码”,导致图像出现颜色条纹、模糊区域等视觉伪影。
研究团队将这种现象命名为“潜在协变量偏移”,并通过实验量化验证了其影响。在775亿参数的LlamaGen-XL模型上,标准强化学习训练使文字匹配度(CLIP分数)从31.54提升至32.45,但图像质量指标(FID分数)却从15.24恶化至17.76。进一步分析发现,策略网络生成的代号分布与真实图像代号分布的差距在训练过程中持续扩大24%,直接导致解码器还原能力下降。
针对离散系统梯度信号无法反向传递的技术障碍,研究团队提出“基于排名的端到端对齐”(RankE)方法。该方案通过交替训练策略网络和解码器实现协同进化:策略网络训练阶段采用群体相对策略优化(GRPO),通过比较八张生成图像的奖励分数调整代号序列生成策略;解码器训练阶段则结合四种损失函数,包括奖励直接反传、Rank-GAN权重分配、真实密码重建和EMA一致性约束,确保解码器既能适应策略网络的变化,又保持对标准密码的还原能力。
实验数据显示,RankE方法在多个模型和奖励函数上均取得显著效果。在LlamaGen-XL模型上,CLIP分数提升至33.76(较标准强化学习高1.31分),FID分数改善至15.21(较标准强化学习低2.55分)。训练动态曲线显示,RankE使CLIP和FID指标同步优化,而标准强化学习的FID指标持续恶化。在10亿参数的Janus-Pro-1B模型上,RankE同样在CLIP分数(33.86 vs 33.60)和FID分数(25.19 vs 25.59)上超越标准方法。
机制验证表明,RankE通过控制代号分布的KL散度和代号熵,从根源上抑制了潜在协变量偏移。标准强化学习训练后,代号分布KL散度扩大24%,代号熵降低;而RankE训练过程中,KL散度始终维持在接近初始水平,代号熵保持在约13.87比特的健康范围。消融实验进一步证明,只有策略网络和解码器联合训练才能同时改善文字匹配度、图像质量和泛化能力。
该方法在超参数设置上表现出较强鲁棒性。一致性损失权重设为1、重要性采样温度设为0.1、EMA衰减速率设为0.999时,系统达到最佳平衡点。计算代价方面,RankE的显存需求增加约70%,但训练时间仅增加5%,显示出较高的实用性。研究团队同时指出,当前方法在调度策略优化、数据分布匹配和编码器联合训练等方面仍存在改进空间。
这项研究为离散自回归图像生成系统提供了新的训练范式,其核心价值在于认识到解码器需要与策略网络动态协同进化。随着多模态大模型对图像生成精度的要求不断提高,如何让“密码创作者”与“密码解读者”保持同步进化,将成为提升生成式AI性能的关键方向。完整技术细节可查阅预印本论文arXiv:2605.21195。