苹果另辟蹊径：利用“归一化流”技术打造 AI 生图模型 -- 飞象网

业界通常使用扩散模型或自回归模型来研发 AI 生图模型，苹果公司近期发布的论文显示该公司正在选择一条被“遗忘”的归一化流（Normalizing Flows）技术路线研发相应模型。

据介绍，这一“归一化流”技术是一种通过学习数学变换的方式，将真实世界的数据（如图像）转换成结构化噪声，并再将噪声还原为图像样本的生成模型。其最大优势是能够精确计算生成图像的概率，这是扩散模型无法做到的。这一特性使得归一化流在对概率要求较高的任务中具有独特吸引力。不过此类模型并不常见，原因在于其研发成本更高，同时早期采用相应技术生成的模型往往相对模糊、缺乏细节。

参考苹果公司《Normalizing Flows are Capable Generative Models》论文，其推出一种名为 TarFlow（Transformer AutoRegressive Flow）的新型归一化流技术模型，该模型的核心思路是将一张待生成的大图拆成“小区块”，再以相应区块为单位进行生成一系列像素值，每一块图像像素值的生成都依赖于前面已生成的部分，继而形成完整的图像，因此能够有效避免图像被压缩为固定词汇表时产生的质量损失与表现僵化的问题。

当然，TarFlow 在生成高分辨率图像方面仍存在局限，这就引出了第二篇研究《STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis》。

参考这篇论文，苹果在 TarFlow 的基础上进一步提出了增强版本：STARFlow（Scalable Transformer AutoRegressive Flow）。

该模型最大的改进在于，它不再直接在像素层面生成图像，而是在“潜空间”（latent space）中工作，首先生成图像的压缩表示，再通过解码器进行放大还原。因此模型可无须再预测数百万个像素值，而是先处理图像的大体结构，细节部分留给解码器进行补充，从而在不损失质量的前提下提升生成效率。

此外，STARFlow 还改进了对文本提示的处理方式。它不再内建专用文本编码器，而是支持调用现有语言模型（例如谷歌推出的小语言模型 Gemma，理论上可以直接在设备上运行）来处理用户的语言指令。这样一来，模型的图像生成部分可以专注于图像细节的生成与优化。