AI视觉创作总差点意思？中科大等综述500+篇文献，系统分析生成一致性,ai视觉检测算法原理

新智元报道

【新智元导读】扩散模型已经越来越会「画」，却还远没有学会「守住要求」。决定系统是否可靠的，已不再只是画质，而是生成结果能否持续遵守条件、维持状态，并符合人类与现实世界的基本标准。

过去几年，扩散模型最显著的进步，是生成质量越来越高。

从文生图、图像编辑，到个性化生成、视频和三维内容创建，模型已经能够产生非常逼真的视觉结果。很多时候，一张生成图片单独摆在面前，我们甚至很难判断它是否来自真实世界。

但当生成任务变得复杂，一个比画质更基础的问题开始暴露出来：

图像看起来正确不代表模型真的完成了任务。

你要求模型生成三只猫，它可能只画出两只；你要求红色方块位于蓝色圆球左边，模型可能生成了两个物体，却把颜色和位置关系弄反；你让模型连续生成同一个人物，它可能在每张图片里都画出一张好看的脸，但这些脸并不属于同一个人。

视频中的问题更加明显。每一帧单独看都很逼真，人物的衣服却不断变化，手里的物体会突然消失，前一秒建立的场景状态在后一秒不复存在。多视图生成也一样：每个角度都像一件合理的物体，但这些视图放在一起，却无法还原成同一个三维结构。

这些失败并不完全属于「生成质量差」。更准确地说，它们属于另一类问题：

模型没有稳定地遵守它应该遵守的关系，即生成一致性。

中国科学技术大学、火箭军工程大学、清华大学、华中科技大学、剑桥大学等机构的研究者们共同发表的重磅综述，系统梳理了超过500篇论文，揭示了扩散模型视觉内容合成繁荣表象下的「一致性危机」，并将领域内的混乱研究梳理的条理清晰，描绘了一幅关于「一致性」关系分类、评估方法与优化策略、核心挑战与未来机遇的全景图。

论文地址：https://www.preprints.org/manuscript/202606.0870/v1

开源地址：https://github.com/Shawn-CodeDev/Awesome-Consistency-Diffusion-Visual-Generation

与按照文生图、编辑、个性化、视频、三维生成和安全等任务分别介绍不同，研究人员尝试从更基本的问题出发：

生成结果究竟需要和什么保持一致？

沿着这个问题，原本分散在文生图、可控生成、编辑等领域中的研究可以被重新组织为三种关系：生成结果与外部条件的一致、不同生成状态之间的一致，以及生成内容与人类及现实世界标准的一致。

这三种关系分别对应扩散生成从「听懂要求」，到「维持状态」，再到「符合可部署标准」的三个层次。

沿着这一框架，研究人员进一步讨论一致性可以在生成流程的哪些位置被实现、为什么现有指标经常测不准，以及当多种要求相互冲突时，下一代生成模型真正需要解决什么问题。

生成模型需要维护三种关系

三类一致性关系及其失败模式

第一种关系，是结果与用户条件之间的关系。

用户输入了一段文本、一个布局、一张参考图或一条编辑指令，模型是否真正实现了这些要求？将其称为外部一致性。

外部一致性

文生图中的物体遗漏、属性错绑、数量错误和空间关系混乱，都属于外部一致性失败。模型可能理解了prompt的主题，却没有把文本中的对象、属性和关系准确对应到视觉内容中。

Attend-and-Excite原理

例如，「一只戴着皇冠的狮子」并不只是要求画出狮子和皇冠，还要求皇冠被正确绑定到狮子上。模型如果只画出狮子，或者把皇冠放在旁边，即使图像本身很漂亮，任务也没有完成。

Attend-and-Excite、BoxDiff、GLIGEN 等方法所解决的，本质上就是语言条件没有被充分落实的问题。它们通过注意力修正、空间约束或 grounding 机制，加强文本单元与视觉实体之间的对应关系。

ControlNet原理

ControlNet、T2I-Adapter和IP-Adapter则把外部条件从文本扩展到姿态、深度、边缘、布局和参考图像。它们试图确保这些条件不只是「提供给模型」，而是真正进入去噪过程并影响最终结果。

图像编辑同样属于外部一致性，但它多了一层特殊要求：模型不仅要执行指令，还要保护不应该变化的内容。

DiffEdit原理

而「把马变成斑马」这一指令并不意味着允许模型重新生成整个画面。一个合格的结果必须改变目标对象，同时保持原有姿态、构图、背景和其他区域。DiffEdit、Prompt-to-Prompt 和 InstructPix2Pix 等方法的核心差异，就在于它们如何划定编辑范围，以及如何减少编辑对无关内容的影响。

因此，外部一致性关注的并不是模型有没有接收到条件，而是这些条件是否可以在最终结果中被清楚追踪。

第二种关系，是多个生成结果之间的关系。

当同一个主体出现在不同图片、不同视角或不同时间中时，模型是否仍然维护着同一个对象和同一个世界？我们将其称为内部一致性。

内部一致性

个性化生成是最直观的例子。

Dreambooth和PhotoMaker原理

DreamBooth 将人物身份写入模型参数，PhotoMaker 和 InstantID 则把参考图片编码成身份特征，在推理时注入生成过程。

两条路线使用了不同的技术手段，但解决的是同一个问题：当背景、姿态、动作和风格发生变化时，哪些信息必须保持稳定，才能让人仍然认为这是同一个主体？

这里需要区分外观复制和身份持续。复制一张参考图中的脸相对容易，困难的是在视角、姿态和场景改变后，仍然保持人物的脸部结构、发型、服装、配饰和角色特征。

SyncDreamer原理

多视图生成将同一个问题推进到了三维层面。模型不能只生成若干张彼此相似的图片，而必须让这些图片能够由一个共同的几何结构解释。Zero-1-to-3 通过参考图和相机变化预测新视角，SyncDreamer 和 MVDream 则在过程中联合多个视角，使它们共享中间状态。

AnimateDiff和StoryDiffusion原理

视频和故事生成面对的也是类似问题，只是共享状态沿时间延伸。AnimateDiff 通过运动模块建立短程帧间联系，StoryDiffusion、TaleCrafter 等方法进一步尝试维护角色、服装、场景和事件状态。

从这个角度看，视频生成并不是连续生成很多张图片，而是在不断回答一个状态问题：

前面已经发生了什么，接下来允许发生什么？

只要模型缺乏持久状态，即使每一帧都足够真实，长序列仍然会出现身份漂移、物体消失、动作断裂和事件矛盾。

第三种关系

不来自当前prompt，也不只存在于不同生成结果之间，而来自系统默认应该遵守的评价标准，将其称为规范一致性。

规范一致性

一张图可以完全符合 prompt，也可以在不同场景中保持人物身份，但它仍然可能不符合人类偏好、包含不安全内容，或者违反基本的物理和因果规律。

偏好优化、安全生成和物理世界建模表面上属于不同研究方向，但它们共享一个结构：模型需要与某种长期生效的标准保持一致。

Diffusion-DPO原理

ImageReward、HPS 和 VisionReward 等方法尝试从人类选择中学习「什么样的结果更好」；Diffusion-DPO、FlowGRPO 和 DiffusionNFT 等方法进一步利用这些信号优化生成模型。

安全方法则通过训练目标、参数编辑、采样引导或输出过滤，降低危险内容的生成概率。

物理和因果一致性关注的是另一类标准。一个视频可能运动平滑、画面逼真，却出现物体穿透、重力失效、状态跳变或因果倒置。PhyBench、VideoPhy、PhyGenBench 等基准正是为了暴露这类传统图像质量指标无法发现的问题。

小结

三种关系并不是互相排斥的任务标签

一个个性化编辑系统通常同时需要遵守编辑指令、保持人物身份，并满足安全和审美标准。一个长视频系统既要按照文本脚本生成内容，也要维护人物和场景状态，还要保证事件演化符合基本物理规律。

因此，三种一致性更像三个观察角度：

外部一致性回答模型是否遵守条件；

内部一致性回答模型是否维护已经建立的状态；

规范一致性回答模型是否符合默认生效的评价标准。

一致性写入生成流程的不同位置

优化扩散模型生成一致性的几个位置

知道模型要维护什么关系之后，下一步问题是：这些关系应该在哪里被加强？

现有方法虽然数量庞大，但大体可以放进一条扩散生成流水线中理解。

有些方法在训练阶段改变数据和目标函数，将身份、偏好、安全或结构约束直接写入模型参数。它们通常具有较强的持续性，但需要额外训练，也可能影响模型的其他能力。

有些方法工作在条件接口。ControlNet、T2I-Adapter、GLIGEN 和 IP-Adapter 关心的是文本、布局、姿态、深度和参考图如何被编码，以及这些信号如何进入扩散模型。它们的核心目标，是让外部条件成为生成过程中的有效约束，而不只是一个弱提示。

另一类方法直接干预去噪轨迹。Attend-and-Excite 检查哪些文本概念在注意力中被忽略，Prompt-to-Prompt 控制编辑过程中的注意力变化，BoxDiff 则通过空间目标修正中间 latent。这类方法不一定需要重新训练模型，但干预过强时，可能降低视觉质量、多样性或采样效率。

对于身份、多视图和视频任务，仅仅修正单条生成轨迹往往不够。模型需要让多张图片、多个相机视角或多个视频帧共享特征、注意力、中间状态或外部记忆。此时，一致性不再属于单个样本，而属于整个联合生成过程。

最后，还有大量方法不修改生成器本身，而是在生成完成后使用奖励模型、安全过滤器、重排序器或物理验证器筛选结果。这种方式容易接入现有系统，但它主要处理已经产生的错误，而不能从根本上改变模型生成不一致内容的倾向。

五类位置说明，一致性不对应某个万能模块。

它可以被写入参数，可以通过条件注入，可以在去噪过程中修正，也可以通过多个样本的联合生成或事后验证来维持。

不同位置之间还可以组合。但组合越多，新的问题就越明显：不同模块可能同时修改同一组特征，甚至提出相互矛盾的要求。

为什么现有评价经常测不清一致性

一致性的评估方法

一致性研究中的一个常见误区，是试图找到一个能够概括全部能力的总分。

但 prompt 忠实度、身份保持、时间连续性、安全和物理合理性，并不是同一种属性。更重要的是，它们甚至不能在同一种观察对象上被测量。

Prompt 一致性通常比较一张图片和一段文本。图像编辑需要比较编辑前后的图像。

身份一致性需观察由同一主体生成的结果。

多视图一致性必须同时检查多个视角。

视频和故事一致性则需要沿时间追踪人物、物体和事件状态。

因此，很多评价失败并不是因为指标不够先进，而是因为观察单位选择错误。

单张图片中不存在「跨帧身份漂移」这个问题。两张相邻视频帧看起来平滑，也不能证明几十秒后的角色和场景仍然一致。人脸相似度很高，不代表服装、配饰和角色属性没有变化。图文相似度很高，也不代表对象数量和空间关系正确。

评价一种一致性，至少需要明确四件事：

观察的是单张图、图像对、图像集合、多视图还是序列；

检查的是语义、结构、身份、几何、时间状态还是规范标准；

使用的是 VQA、特征相似度、几何信号、奖励模型、安全分类器还是人工判断；

输出的是正确率、保持度、兼容性、偏好分数还是风险诊断。

所以，一致性评价不是寻找一个万能指标，而是建立一个覆盖不同关系的评价组合。

一个可信的生成系统不应该只报告「整体表现更好」，而应该说明它在哪些约束上得到提升，又在哪些能力上付出了代价。

一致性并不是越强越好

如果三种一致性都很重要，一个自然想法是把它们同时加强。

真实情况是，不同一致性之间经常发生冲突。

更严格地执行 prompt，可能迫使模型生成不自然的构图，降低审美质量。更强的身份绑定可以减少人物漂移，却也可能把服装、背景和姿态一起锁死，使人物难以编辑。

更强的跨帧共享能够减少视频闪烁，但可能限制运动幅度，让结果显得僵硬。更激进的安全擦除可以降低危险内容，却可能误伤正常概念和无害请求。严格物理约束适合机器人和仿真，未必适合超现实主义和开放式艺术生成。

因此，一致性真正困难的部分，并不是把某个单独指标做到最高，而是在多个目标同时出现时处理它们之间的关系。

系统需要知道哪些条件是必须满足的硬约束，哪些只是可以调整的软偏好；需要检测不同条件是否发生冲突，并说明为了提升一个目标牺牲了什么。

目前多数方法仍然围绕单个目标设计。一个模块负责身份，一个模块负责姿态，一个模块负责安全，另一个奖励模型负责美学。把这些模块接到同一个系统上，并不会自动产生协调。

这也是一致性研究下一阶段最关键的问题：从分别强化不同约束，走向能够理解、解释和处理约束冲突的生成系统。

从「高质量生成」走向「可靠生成」

过去几年，视觉生成的主要目标是让模型产生更真实、更清晰、更美观的内容。

但当生成模型走向编辑、个性化、长视频、三维资产、仿真和具身智能时，视觉质量已经不再足够。

模型必须学会维护三类关系：

它需要遵守用户给出的条件，需要记住自己已经建立的主体和世界状态，也需要在用户没有逐条说明时，仍然符合安全、偏好、物理和因果标准。

这要求未来的生成模型具备几种今天仍然不足的能力。

第一，是冲突感知。模型不能只接收多个条件，还需要理解这些条件何时互相矛盾，以及应该如何确定优先级。

第二，是持久但可编辑的状态。人物身份、场景结构和故事历史需要被稳定保存，但这些状态又不能僵化到无法被新指令修改。

第三，是可解释评价。系统不应该只输出一个总分，而要能够说明自己在哪种一致性上成功或失败。

第四，是从视觉相关性走向世界结构。对于视频、世界模型和具身智能，仅仅生成连续像素并不够，模型还需要维护对象、状态、动作、物理关系和因果演化。

因此，一致性并不是生成质量之外的附加要求。它更接近一条分界线：一侧是能够产生漂亮样本的生成模型，另一侧是能够在复杂条件下长期、稳定、可控地工作的生成系统。

结语

从「美观」到「可靠」

回看扩散视觉生成的发展，过去几年的核心进步主要体现在一个维度上：模型越来越擅长生成局部真实、视觉精致的内容。但当任务从单张图像扩展到复杂提示词、图像编辑、个性化、多视图、长视频和世界建模时，视觉质量不再足以判断一个系统是否真正完成了任务。

一个结果可以在像素层面几乎无可挑剔，却在语义、身份、时间、空间或物理关系上完全错误。生成模型面临的关键问题，正在从「能不能生成」转向「能不能持续维护正确的关系」。

这也是本文提出一致性视角的根本意义。外部一致性要求模型对用户条件负责，保证文本、结构、参考图像和编辑指令能够在结果中被准确落实；内部一致性要求模型对自身已经建立的状态负责，使人物、场景、几何和事件不会随着视角或时间任意漂移；规范一致性则要求模型对更广泛的评价标准负责，即使用户没有逐项声明，系统仍应遵守偏好、安全、常识、物理和因果约束。

三者分别对应生成系统的控制能力、记忆能力和世界约束能力，也共同构成了生成模型从视觉工具走向可靠系统的基础。

从这个角度看，一致性并不是附加在图像质量之外的又一个指标，而是一种重新理解生成任务的方式。它提醒我们，生成质量本质上不是单个样本的孤立属性，而是输出与条件、输出与输出、输出与评价标准之间的一组关系。

很多过去被分散讨论的问题——提示词遗漏、身份漂移、视频闪烁、多视图矛盾、安全失效和物理错误——并非彼此独立，而是在不同尺度上暴露了同一个缺陷：模型能够产生合理的局部表象，却缺乏稳定维护全局约束的能力。

这也解释了为什么一致性无法依靠一个统一模块或一个总分解决。不同关系需要在训练目标、条件接口、去噪轨迹、跨实例状态和输出验证等不同位置被约束，也需要单图、图像对、集合、视角组和长序列等不同观察单位来评价。

未来真正可信的评估体系，不应只告诉我们模型「整体更好」，而应明确指出它遵守了哪些关系、在哪些关系上失败，以及为提升一种一致性牺牲了哪些其他能力。

更深层的挑战在于，不同一致性目标并不总是方向一致。更强的提示词约束可能损害美感，更稳定的身份绑定可能降低可编辑性，更紧密的时间耦合可能压缩运动多样性，更严格的安全或物理约束也可能限制正常能力与开放式创造。

因此，下一阶段的研究重点不应只是继续强化单个约束，而应让模型能够识别冲突、表示优先级、保留长期状态，并在不同任务和用户需求下进行可解释的权衡。

如果说过去的生成模型主要学习「怎样产生一幅看起来合理的画面」，那么未来的生成系统还必须进一步学习：什么必须保持不变，什么可以被修改，哪些状态需要长期记住，哪些约束在冲突时应当优先，以及一次生成行为会对后续世界产生什么影响。

只有当模型能够稳定回答这些问题，视觉生成才会真正从高质量内容合成，迈向可控制、可持续、可验证的智能生成。

参考资料：

https://www.preprints.org/manuscript/202606.0870/v1

编辑：LRST