首页|必读|视频|专访|运营|制造|监管|芯片|物联网|量子|低空经济|智能汽车|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|大数据|报告|智慧城市|移动互联网|会展
首页 >> 终端 >> 正文

苹果另辟蹊径:利用“归一化流”技术打造 AI 生图模型

2025年6月24日 09:07  IT之家  作 者:漾仔

业界通常使用扩散模型或自回归模型来研发 AI 生图模型,苹果公司近期发布的论文显示该公司正在选择一条被“遗忘”的归一化流(Normalizing Flows)技术路线研发相应模型。

据介绍,这一“归一化流”技术是一种通过学习数学变换的方式,将真实世界的数据(如图像)转换成结构化噪声,并再将噪声还原为图像样本的生成模型。其最大优势是能够精确计算生成图像的概率,这是扩散模型无法做到的。这一特性使得归一化流在对概率要求较高的任务中具有独特吸引力。不过此类模型并不常见,原因在于其研发成本更高,同时早期采用相应技术生成的模型往往相对模糊、缺乏细节

参考苹果公司《Normalizing Flows are Capable Generative Models》论文,其推出一种名为 TarFlow(Transformer AutoRegressive Flow)的新型归一化流技术模型,该模型的核心思路是将一张待生成的大图拆成“小区块”,再以相应区块为单位进行生成一系列像素值,每一块图像像素值的生成都依赖于前面已生成的部分,继而形成完整的图像,因此能够有效避免图像被压缩为固定词汇表时产生的质量损失与表现僵化的问题。

当然,TarFlow 在生成高分辨率图像方面仍存在局限,这就引出了第二篇研究《STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis》。

参考这篇论文,苹果在 TarFlow 的基础上进一步提出了增强版本:STARFlow(Scalable Transformer AutoRegressive Flow)

该模型最大的改进在于,它不再直接在像素层面生成图像,而是在“潜空间”(latent space)中工作,首先生成图像的压缩表示,再通过解码器进行放大还原。因此模型可无须再预测数百万个像素值,而是先处理图像的大体结构,细节部分留给解码器进行补充,从而在不损失质量的前提下提升生成效率

此外,STARFlow 还改进了对文本提示的处理方式。它不再内建专用文本编码器,而是支持调用现有语言模型(例如谷歌推出的小语言模型 Gemma,理论上可以直接在设备上运行)来处理用户的语言指令。这样一来,模型的图像生成部分可以专注于图像细节的生成与优化。 

编 辑:章芳
飞象网版权及免责声明:
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
推荐新闻              
 
人物
韦乐平:大模型时代将开启新一波“光进铜退”
精彩视频
2025MWC上海丨中兴通讯副总裁熊杰就AI万兆全光园区话题进行交流
2025MWC上海|中国信科:全栈算力创新应用 为AI时代构筑数智基石
2025MWC上海丨智能加速度 中兴通讯展台直击
2025MWC上海|京信通信:AI赋能5G-A 重构连接的价值
精彩专题
2025 MWC 上海
2025工业互联网大会
2025世界电信和信息社会日大会
第八届数字中国建设峰会
关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图
CCTIME飞象网 CopyRight © 2007-2024 By CCTIME.COM
京ICP备08004280号-1  电信与信息服务业务经营许可证080234号 京公网安备110105000771号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像