随着最先进扩散模型(如Midjourney、Stable Diffusion和Firefly)生成的图像具有高度的逼真度,未经训练的我们很难区分真实照片和AI生成的图像。为了解决这个问题,这份指南,帮助读者培养更批判的眼光,识别AI生成图像中经常出现的人工痕迹、不一致性和不可信之处。
根据AI生成图像中出现的人工痕迹和不合理性的五个高级类别组织了这份2024年的指南:解剖学上的不合理性、风格上的人工痕迹、功能性上的不合理性、违反物理规律和社会文化上的不合理性。然而,并非总是能够轻易地识别图像中的人工痕迹和不合理性,尤其是在肖像图像中。同样,真实的照片有时也会包含看起来不合理或像视觉人工痕迹的元素。本指南的目标是帮助你培养对视觉不一致性的敏锐眼光,并校准你对图像是否由AI生成、真实或太模糊而无法在没有进一步信息的情况下知道的直觉。
可以在阅读前,先测试一下自己的技能,测试网址如下:
DeepFakes, Can You Spot Them?
你可以挑出下列图中哪两张是真实照片吗?仔细看看(答案在最后)
1 背景
1.1 AI 图像生成技术发展
- 从 GAN 到扩散模型:AI 图像生成技术经历了从 GAN 到扩散模型的演变。GAN 是最早用于生成逼真图像的模型,但扩散模型在 2024 年成为主流,能够生成更具表现力和可控性的图像。
- 扩散模型的工作原理:通过向图像添加噪声并学习逐步去除噪声来生成图像。例如 Midjourney、Stable Diffusion 和 Firefly 等平台都使用扩散模型。
1.2 AI 图像的识别难度
- 高度逼真:AI 生成的图像可以达到高度逼真的程度,即使是未经训练的人类也难以区分真实照片和 AI 图像。
- 人工痕迹:尽管 AI 图像非常逼真,但它们往往存在一些人工痕迹,例如人体不合理之处、风格痕迹、功能不合理之处、违反物理原理和社会文化不合理之处。
1.3 影响识别难度的因素
- 姿势复杂度:姿势复杂的图像更容易出现人工痕迹。
- 背景细节:背景细节丰富的图像更容易识别,而背景模糊的图像则更难识别。
- 人数:人数较多的图像更容易出现人工痕迹,因为模型难以处理复杂的人物关系。
- 面部大小:面部较小的图像更容易出现人工痕迹,因为细节更难识别。
- 图像分辨率:低分辨率图像更难识别,因为信息量更少。
1.4 指南结构和目标
- 五个类别:指南将人工痕迹和不合理之处分为五个类别:人体不合理之处、风格痕迹、功能不合理之处、违反物理原理和社会文化不合理之处。
- 目标:帮助读者发展更敏锐的视觉洞察力,并培养判断图像是否为 AI 生成的直觉。
2 人体不合理之处
人体不合理之处是 AI 生成的图像中常见的特征之一,它们通常出现在手部、眼睛、牙齿、身体、身体合并和生物识别特征等方面。
2.1 手部
手指缺失/多余:AI 生成的图像中,人物的手指可能缺失、多余或合并,导致手部看起来不自然。
指甲缺失:人物的手指甲可能缺失,使其看起来不完整。
手部比例不合理:手部可能过大或过小,与身体比例不协调。
2.2 眼睛
瞳孔对齐不当:瞳孔可能对齐不当,导致眼睛看起来不自然。
瞳孔形状不圆:瞳孔可能呈现不规则形状,而不是圆形。
眼睛过于光亮:眼睛可能过于光亮,缺乏自然的光泽和细节。
空洞的眼神:人物的眼神可能空洞无神,缺乏情感表达。
2.3 牙齿
牙齿排列不齐:牙齿可能排列不齐,甚至重叠,导致口腔看起来不自然。
牙齿数量异常:人物可能拥有过多或过少的牙齿,与正常情况不符。
2.4 身体
多余/缺失肢体:人物可能拥有多余或缺失的肢体,导致身体结构不合理。
身体弯曲方式不合理:身体部分可能以不自然的方式弯曲,例如膝盖反方向弯曲。
身体比例不合理:身体比例可能不协调,例如头过大或过小。
2.5 身体合并
身体部位合并:AI 模型可能无法区分不同人物的身体部位,导致身体部位合并,例如手指或脚趾合并。
2.6 生物识别特征
面部特征差异:与真实照片相比,AI 生成的图像中人物的面部特征(例如耳朵、鼻子、嘴巴的大小、形状和比例)可能存在差异。
2.7 识别人体不合理之处的要点
- 手部是否有任何人工痕迹?
- 人物的四肢比例是否不自然?
- 不同人之间是否有身体部位合并?
- 任何人的目光看起来不自然吗?
- 眼睛或嘴巴/牙齿有什么不自然的地方吗?
- 图像是否似乎描绘了一个你有其他图像的人?如果是,与其他图像相比,生物特征的大小、形状和比例是否有明显差异?
3 风格上的人工痕迹
风格上的人工痕迹是指AI生成图像中,与真实照片相比,在风格上出现的明显或不明显的人工痕迹。这些痕迹可能源于AI对图像细节的过度优化或缺乏对真实世界逻辑的理解,从而导致图像看起来过于“完美”或不符合现实世界的规律。
3.1 常见风格痕迹
- 塑料质感:人物的皮肤可能看起来蜡质、反光、卡通化或过于光滑,缺乏真实皮肤的自然纹理和光影变化。
- 电影化风格:图像可能呈现出戏剧化、戏剧性的氛围,类似于电影或杂志照片,缺乏真实场景的自然感。
- 超现实细节:某些部分的细节可能过于精细,例如头发看起来过于柔软、细腻且被风吹拂,与场景中的其他元素不协调。
- 分辨率和颜色不一致:图像中不同部分的分辨率或颜色可能不一致,例如人物和背景之间,或不同物体之间,看起来像是从不同场景拼接而成。
- 缺失背景或背景不自然:图像可能缺少背景,或背景看起来不真实,例如绿幕背景或被照片编辑工具篡改的痕迹。
- 光线和阴影问题:阴影可能投射方向不一致,或形状与光源不符。
- 反射问题:镜面、水面或其他光滑表面上的反射可能与场景中的其他元素不匹配。
- 深度和透视问题:图像可能出现扭曲,或深度和透视关系不符合现实世界的规律。
3.2 识别风格上的人工痕迹的要点
- 图像中的人物看起来是否蜡质、光滑、闪亮或塑料感?
- 场景是否看起来不自然地戏剧化和电影化?
- 是否有缺失的背景或不自然的背景?
- 图像的不同部分是否看起来像是从不同的场景中剪切出来的?
- 脸部是否看起来与图像的其余部分处于不同的照明下?
- 图像中不同组件的边缘是否有类似涂抹的故障?
答案如下: