经常刷短剧,短视频的各位差友,应该对这张脸不陌生。

没看过的人可能以为这是哪个新晋网红,实际上,这是最近在各种视频里,反反复复出现的一张 AI 生成脸。

五官精致,眼睛够大,鼻子够小,皮肤永远白皙,永远柔光滤镜,嘴角弧度刚刚好。


如果是真人站在面前,估计世超都舍不得嘴一句。可就是这么一张看起来人畜无害的脸,却被狠狠地 “ 网暴 ” 了。

倒不是因为她有多难看,而是她就像 AI 界带资进组的关系户一样,看点啥都有她出演。

校园里的白月光是她,古装剧里的大小姐还是她。

五六岁的小女孩是她,七八十的老太太还是她。

再仔细一看,woc,怎么旁边系着头巾的大爷还是她???


每天打开手机看到的全是同一张脸,刷短视频愣是刷出了被伪人包围的恐惧感。

而随着发现的人越来越多,到处都是网友铺天盖地的吐槽:

“ 这张脸,我快看吐了。”

“ 现在看到这张脸就生理性厌恶。”

“ 有多少人看见她就反感?”

也有人纳闷了,这 AI 怎么生成的人全一个样,到底是偷了谁的脸?

评论区有猜某已封号女主播的,有说像演员李川的,还有说像朴灿烈他姐姐的。。。你还真别说,国内国外,男的女的看起来都能沾点边。


但问题是,猜来猜去也没个准信。因为比起具体的哪张脸被偷了,这更可能是从 AI 的审美流水线上,被反复捏出来的,一个本不存在的 “ 平均标准脸 ”。

那这张脸到底是怎么来的呢?

不信邪的世超,干脆把 Seedance、可灵、海螺、HappyHorse 这些主流视频模型挨个试了一遍,在实验的过程中,还真发现了一点规律。

我们给所有模型两次机会,相同的 “ 女生骑自行车 ” 提示词,按理说,它们每次生成的脸都会不一样,甚至有时候跳亚洲人,有时候跳外国人,这才是大模型的天性。

因为咱们只限定了性别,没有任何其它提示,不只是人脸,它应该随机生成任何国籍,任何肤色,任何发型穿着等等,完全不一样的人。

可实际上,同样的提示词,几乎所有模型两次生成的都是一样的脸,穿着打扮,背景环境,拍摄角度,全基本相同。


在 Seedance 2.0 Fast 这里,世超更是找到了和开头一模一样的 AI 脸,看来这就是万恶之源了。

如果只有一个模型犯错,也许是它的问题。但要是所有模型同时丧失了多样性。。。世超研究了一下,发现这里面可能有两层原因。

第一层,常用视频模型的差友应该都知道,视频模型对提示词是非常敏感的。有时候一个词,几个字的排序,都可能影响生成的最终效果。

而为了让大伙儿能尽量稳定地每次抽卡出金,我们的提示词往往在生成的后台会被二次优化。


以前 “ 提示词增强 ” 会作为一个单独的按钮放在一边,用户可以开挂,也可以原提示词直接冲。但世超翻了不少平台,似乎现在很少见了,提示词润色成了默认项。

比如我输入的是 “ 女生正在骑自行车,边骑边笑 ”,而被优化后实际输给模型的提示词,就可能变成了:

“ 一个年轻漂亮的亚洲女孩,在阳光明媚的林荫道上骑自行车。她皮肤白皙,五官精致,大眼睛,小鼻子,长发自然飘动,穿着白色连衣裙,脸上带着甜美微笑。镜头为中近景,柔和自然光,浅景深,电影感画面,清新唯美风格,人物表情自然,动作流畅,画面高清写实。”

一次两次看,这叫提示词优化,成千上万次都这么补,可不就成流水线了嘛。

所以,在世超修改提示词,对外貌进行一些特征描写以后,右下角的脸明显不一样了。但没有额外环境提示,女生依然骑在林荫道上。


不过,五官精致也分很多种,世界上美女那么多,为什么 AI 认的就这一个?

这就来到了第二层原因,图像、视频模型天生就有审美偏见。

去年一篇发表在《 Nature 》上的论文,就明确地讨论了这个问题。他们在研究中发现,如果你指定一个种族,模型摇出来的脸,个个都像亲兄弟。

这样的审美偏差最开始来自数据,比如大部分人喜欢网红脸,它们自然会被打上美女的标签。模型啥也不懂,反正以后提示美女,往这个方向靠就完事了。

模型在训练过程中,还会进一步放大这种偏见,导致相同的特征提示词,生成的脸越来越像。


另外,视频模型为了关注前后一致性,还可能进一步加剧审美同化。

毕竟视频模型生成的人脸,不光要好看,还要稳,要保证几十帧上百帧,前后左右都像一个人。

所以模型也会天然偏爱那些更容易维持一致性的脸,五官对称,轮廓标准,特征不极端,表情好控制,转头不易崩。

总之,平台喜欢安全漂亮的,用户喜欢短剧网红的,模型喜欢稳定标准的,三边一合计,让大伙儿看吐的脸就诞生了。

说实话,不只是最近广为流传的那张,几乎所有 AI 生成的毫无缺陷的美女,世超都不大喜欢。

来源:小红书 @Alexander


让 AI 脸进入我们的信息流,堪称一次无意促成的大型赛博异化实验。

没有现实对照的脸,在无数网红数据的洗涤蒸馏下诞生。

而当它们挤兑我们刷手机的时间,取代曾经各色各样真人美女的时候,世超感觉相当难受。因为我们对世界的感知,对审美的定义正在被 AI 压迫。

所以,大伙儿反感 AI 脸,一方面也许是那种不真实带来的恐怖谷效应,其实也有对同质化的本能抗拒。

有人说,AI 视频以后应该越来越清晰,越来越细节,越来越像真人,等大家分辨不出来真假的时候,就会喜欢了。

但世超觉得,就算技术能做到真假难辨,我们也无法爱上一张完美假脸,没有灵魂。

撰文:莫莫莫甜甜

编辑:江江 & 面线

美编:素描

图片、资料来源:

《AI-generated faces influence gender stereotypes and racial homogenization 》N AlDahoul

小红书、抖音