今年2月,经过多年研究的JPEG AI国际标准正式发布。该标准采用机器学习技术,旨在实现更小、更易传输和存储的图像编解码,同时保持感知质量不下降。

JPEG AI官方发布流中,峰值信噪比(PSNR)与JPEG AI机器学习增强方法的对比。来源:https://jpeg.org/jpegai/documentation.html

这一突破未能引起广泛关注的原因之一是其核心PDF文件(颇具讽刺意味地)未通过Arxiv等免费门户公开。不过,Arxiv此前已发布多项研究,探讨了JPEG AI在多个方面的重要意义,包括该方法独特的压缩伪影及其对取证的挑战。

一项研究比较了包括JPEG AI早期草案在内的压缩伪影,发现新方法存在模糊文本的倾向——在编解码可能作为证据链环节的情况下,这一问题不容忽视。来源:https://arxiv.org/pdf/2411.06810

由于JPEG AI改变图像的方式与合成图像生成器的伪影相似,现有取证工具难以区分真实与伪造内容:

根据2025年3月的最新论文,经JPEG AI压缩后,最先进的算法无法在定位图中可靠分离真实内容与篡改区域。左侧源示例为伪造图像,标准取证技术下篡改区域清晰可辨(中图);而JPEG AI压缩为伪造图像增添了可信度(右图)。来源:https://arxiv.org/pdf/2412.03261

原因之一是JPEG AI采用的模型架构与取证工具旨在检测的生成系统相似:

新论文揭示了AI驱动的图像压缩与AI生成图像在方法上的相似性。来源:https://arxiv.org/pdf/2504.03191

因此,从取证角度看,两种模型可能产生某些相似的底层视觉特征。

量化技术

这种交叉现象源于两者共有的量化技术。在机器学习中,量化既是一种将连续数据转换为离散数据点的方法,也是一种能显著缩小训练模型文件大小的优化技术(普通图像合成爱好者对官方模型发布与社区量化版本间的等待时间并不陌生)。

在此背景下,量化指将图像潜在表示中的连续值转换为固定离散步骤的过程。JPEG AI通过简化内部数值表示,减少存储或传输图像所需的数据量。

尽管量化提高了编码效率,但也引入了结构规律性,这些规律性与生成模型留下的伪影相似——细微到难以察觉,却足以干扰取证工具。

对此,一篇题为《JPEG AI图像的三项取证线索》的新研究提出了可解释的非神经网络技术,用于检测JPEG AI压缩、判断图像是否被重新压缩,以及区分压缩后的真实图像与完全由AI生成的图像。

方法

色彩相关性

论文提出了三种针对JPEG AI图像的"取证线索":JPEG AI预处理步骤引入的色彩通道相关性;多次压缩中图像质量的可测量失真(揭示重新压缩事件);以及帮助区分JPEG AI压缩图像与AI生成图像的潜在空间量化模式。

关于色彩相关性方法,JPEG AI的预处理流程在图像色彩通道间引入了统计依赖关系,形成可作为取证线索的特征。

JPEG AI将RGB图像转换为YUV色彩空间,并进行4:2:0色度二次采样,即在压缩前对色度通道降采样。这一过程导致红、绿、蓝通道高频残差间产生微妙关联——未压缩图像中不存在这种关联,其强度也不同于传统JPEG压缩或合成图像生成器产生的相关性。

JPEG AI压缩如何改变图像中色彩相关性的对比。

上图展示了论文中JPEG AI压缩如何改变图像色彩相关性的对比,以红色通道为例。

图A比较未压缩图像与JPEG AI压缩图像,显示压缩显著增加了通道间相关性;图B隔离JPEG AI预处理(仅色彩转换和二次采样)的效果,表明仅此步骤已明显提升相关性;图C显示传统JPEG压缩也轻微增加相关性,但程度不同;图D分析合成图像,Midjourney-V5和Adobe Firefly显示中度相关性增加,而其他生成器更接近未压缩水平。

码率-失真

码率-失真线索通过追踪峰值信噪比(PSNR)衡量的图像质量在多次压缩中的可预测下降模式,识别JPEG AI重新压缩。

研究指出,使用JPEG AI反复压缩图像会导致图像质量逐渐下降(通过PSNR量化),这种渐进式劣化构成检测图像是否被重新压缩的取证线索。

与传统JPEG早期方法追踪特定图像块变化不同,JPEG AI的神经压缩架构需要不同方法。因此作者提出监测码率与PSNR在连续压缩中的演变。每轮压缩对图像的改变小于前一轮,这种递减变化(绘制为码率函数)可揭示图像是否经历多阶段压缩:

不同编解码器下重复压缩对图像质量影响的示意图,包含JPEG AI与https://arxiv.org/pdf/1802.01436开发的神经编解码器结果;两者均显示PSNR随每次额外压缩稳步下降,即使低码率下亦然。相比之下,传统JPEG压缩在多次压缩中保持相对稳定质量,除非码率较高。

上图中,JPEG AI、另一种AI编解码器和传统JPEG的码率-失真曲线显示,前两者在所有码率下均呈现PSNR持续下降,而传统JPEG仅在更高码率下出现明显劣化。此行为提供可量化信号,用于标记重新压缩的JPEG AI图像。

通过提取码率与图像质量在多轮压缩中的演变,作者构建了特征,帮助判断图像是否被重新压缩,为JPEG AI提供实用取证线索。

量化

如前所述,JPEG AI带来的取证难题之一是其与扩散模型生成合成图像的视觉相似性。两种系统均采用编码器-解码器架构,在压缩潜在空间处理图像,常留下细微上采样伪影。

这些共同特征可能混淆检测器——即使针对JPEG AI图像重新训练。但关键结构差异仍存:JPEG AI应用量化(将潜在值舍入到离散水平以实现高效压缩),而生成模型通常不这样做。

新研究利用这一区别设计取证线索,间接测试量化存在。该方法分析图像潜在表示对舍入的响应,假设若图像已被量化,其潜在结构将呈现与舍入值对齐的可测量模式。

这些模式虽肉眼不可见,但产生的统计差异有助于区分压缩的真实图像与完全合成的图像。

平均傅里叶频谱示例显示,JPEG AI压缩图像与Midjourney-V5、Stable Diffusion XL等扩散模型生成图像在频域均呈现规则网格状模式——通常与上采样相关的伪影。相比之下,真实图像缺乏这些模式。这种频谱结构重叠解释了为何取证工具常混淆压缩真实图像与合成图像。

重要的是,作者证明此线索适用于不同生成模型,即使压缩强度足以将潜在空间整段归零仍有效。而合成图像对此舍入测试响应弱得多,提供了区分两者的实用方法。

该结果旨在成为轻量级、可解释的工具,针对压缩与生成的核心差异,而非依赖脆弱的表面伪影。

数据与测试

压缩

为评估色彩相关性线索能否可靠检测JPEG AI压缩(即从未压缩源的首次处理),作者测试了RAISE数据集的高质量未压缩图像,使用JPEG AI参考实现在多种码率下压缩。

他们训练了一个简单随机森林分析色彩通道相关性的统计模式(特别是各通道残差噪声如何对齐),并与直接在图像像素上训练的ResNet50神经网络对比。

使用色彩相关性特征检测JPEG AI压缩的准确率,跨多种码率对比。该方法在低码率(压缩伪影更强)下最有效,且比基线ResNet50模型对未见压缩水平的泛化能力更好。

虽然ResNet50在测试数据与训练条件接近时准确率更高,但难以泛化到不同压缩水平。基于相关性的方法虽简单得多,却在各码率下更一致,尤其在JPEG AI预处理效果更强的低压缩率下。

这些结果表明,即使无需深度学习,利用可解释且稳健的统计线索也能检测JPEG AI压缩。

重新压缩

为评估JPEG AI重新压缩能否被可靠检测,研究人员测试了码率-失真线索,使用一组以不同码率压缩的图像——部分仅压缩一次,其他用JPEG AI二次压缩。

该方法提取17维特征向量,追踪图像码率与PSNR在三次压缩中的演变。该特征集捕捉每一步的质量损失程度,以及潜在和超先验率的行为——传统基于像素的方法难以获取这些指标。

研究人员训练随机森林分析这些特征,并与基于图像块训练的ResNet50对比性能:

随机森林使用码率-失真特征检测JPEG AI图像是否被重新压缩的分类准确率结果。当初始压缩较强(即低码率)时方法表现最佳,且始终优于基于像素的ResNet50——尤其是第二次压缩比第一次更温和时。

随机森林在初始压缩较强(即低码率)时效果显著,能清晰区分单次与双重压缩图像。与此前线索相同,ResNet50版本泛化能力差,尤其在测试未经训练的压缩水平时。

相比之下,码率-失真特征在广泛场景中保持稳定。值得注意的是,该方法适用于其他AI编解码器,表明其推广性不限于JPEG AI。

JPEG AI与合成图像

最后测试中,作者验证了基于量化的特征能否区分JPEG AI压缩图像与Midjourney、Stable Diffusion、DALL-E 2、Glide和Adobe Firefly等模型生成的完全合成图像。

研究人员使用Synthbuster数据集的子集,混合RAISE数据库的真实照片与多种扩散和GAN模型生成的图像。

Synthbuster中合成图像示例,使用受RAISE-1k数据集自然照片启发的文本提示生成。图像由多种扩散模型创建,提示设计旨在生成逼真内容与纹理,而非风格化或艺术渲染。来源:https://ieeexplore.ieee.org/document/10334046

真实图像以多种码率经JPEG AI压缩,分类任务设为二选一:JPEG AI对抗特定生成器,或特定码率对抗Stable Diffusion XL。

从固定256×256区域计算量化特征(从潜在表示提取的相关性),输入随机森林分类器。作为基线,ResNet50在同一数据的图像块上训练。

随机森林使用量化特征分离JPEG AI压缩图像与合成图像的分类准确率。

多数情况下,基于量化的方法优于ResNet50基线,尤其在压缩伪影更强的低码率下。

作者指出:

"基线ResNet50对Glide图像表现最佳(准确率66.1%),但其他情况下泛化能力不如量化特征。量化特征对压缩强度和生成器类型展现出良好泛化性。"

"被量化归零的系数重要性体现在截断[特征]的出色表现上,其性能常与ResNet50分类器相当。"

"但使用未截断完整整数[向量]的量化特征表现明显更好。这些结果证实,量化后的零值数量是区分AI压缩与AI生成图像的重要线索。"

"不过,其他因素也有贡献。完整向量检测JPEG AI的准确率在所有码率下均超过91.0%,且压缩越强准确率越高。"

使用UMAP对特征空间投影显示,JPEG AI与合成图像明显分离,低码率增大了类别间距。Glide是 consistent outlier,其图像聚类不同,检测准确率为测试生成器中最低。

基于量化特征的JPEG AI压缩与合成图像的二维UMAP可视化。左图显示低JPEG AI码率增大与合成图像的分离度;右图展示不同生成器图像在特征空间中的 distinct 聚类。

最后,作者评估了特征在典型后处理(如JPEG重新压缩或降采样)下的稳健性。虽然性能随处理强度下降,但下降平缓,表明该方法在 degraded 条件下仍保持一定鲁棒性。

量化特征在JPEG重新压缩(JPG)和图像缩放(RS)等后处理下的鲁棒性评估。

结论

JPEG AI能否广泛采用尚无定论。一方面,现有基础设施的惯性足以对任何新编解码器形成阻力;即使是AV1这种价值公认、血统纯正的"传统"编解码器,也难以撼动长期占据主导地位的现有方法。

关于该系统与AI生成器的潜在冲突,当前AI图像检测器依赖的特征量化伪影可能在后期系统中减弱或被其他痕迹取代(假设AI生成器总会留下取证残留,这并不确定)。

这意味着JPEG AI自身的量化特征——连同新论文发现的其他线索——最终可能与最有效的新生成AI系统的取证痕迹并不冲突。

但若JPEG AI持续作为事实上的"AI漂白剂",显著模糊真实与生成图像的界限,其应用前景将难以乐观。

精选文章:

字体搭配艺术:打造平衡设计的终极指南

柔和粗野主义:2025年最意想不到的室内设计风潮

忘掉尖角:5种意想不到的曲线设计,让你的家焕发新生

浪漫的野蛮主义:米兰设计周上的波兰工艺与设计

AI内容悖论:自动化时代下的创造力导航