单卡RTX 4090可运行 、96 FPS,Soul App开源实时数字人生成模型SoulX-FlashHead
在实时数字人赛道,开发者们曾长期面临一个困扰:追求高画质就需要具备昂贵的 H800 集群,追求低成本就得忍受“面瘫”和画面崩坏。
为解决这一问题,继开源 14B 的实时数字人生成模型SoulX-FlashTalk 之后,近日,Soul App AI团队(Soul AI Lab)推出了SoulX-FlashHead。这款1.3B参数的轻量化模型,能够在单张消费级显卡( RTX 4090 )上跑出96FPS的工业级速度,同时实现高质量画质,为行业提供新的实时数字人方案。

目前,SoulX-FlashHead 的权重与代码已全面开放:
论文:https://www.arxiv.org/pdf/2602.07449
项目:https://soul-ailab.github.io/soulx-flashhead/
代码:https://github.com/Soul-AILab/SoulX-FlashHead
模型:https://huggingface.co/Soul-AILab/SoulX-FlashHead-1_3B
数据集:https://huggingface.co/datasets/Soul-AILab/VividHead
SoulX-FlashHead核心亮点:
不仅是实时,更是“算力自由”
在消费级显卡上,SoulX-FlashHead 的表现:
·Lite版本(高速率):单卡4090推理帧率可达96FPS,仅需6.4G显存,最高支持3路并发,让实时数字人模型真正走到了消费级终端上。
·Pro版本(高画质):单卡5090推理帧率16.8FPS,双卡可实时(25fps+),FID(视觉质量指标)和Lip-sync(唇形一致指标)在benchmark上达到了SOTA,甚至超过了更大参数量的模型,解决了“小模型没好画质”的行业痛点。
原理介绍
如何让 1.3B 模型“以小博大”?SoulX-FlashHead创新引入了:
训练“先知”:双向蒸馏机制 (Oracle-Guided Distillation)
长视频生成的“身份漂移”一直是行业痛点。SoulX-FlashHead引入了“上帝视角”教师模型,利用 Ground Truth 作为先知锚点进行强约束。
效果: 像给模型装了校准器,无论视频多长,人物特征始终稳定。

8秒记忆:时序音频上下文缓存 (TACC)
流式生成中,音频切片太短会导致口型抖动。
创新: 强制模型缓存 8秒 历史音频特征,补偿上下文缺失。
体验: 解决“嘴瓢”和“对不上号”问题,开播即进入理想状态。
高质量数据底座:自研 VividHead 数据集
从 10,000+ 小时素材中精炼出 782 小时高质量音画数据:
严苛筛选: 经过切分、DWpose 关键点、唇形一致分数过滤等多个处理步骤,为模型提供了最纯净的“养料”。

客观表现
在 HDTF 与 VFHQ 两大权威数据集的实测中,SoulX-FlashHead 展现了出色的表现:
画质新标杆:在高清视频(HDTF)评测中,Pro 版本以 8.31 (FID) 和 103.14 (FVD) 的成绩刷新纪录,视觉细腻度超过 一些“大参数”模型。
口型精准捕捉:面对野外复杂场景(VFHQ),凭借独创的“时序音频上下文缓存”策略,其 Sync-C 得分高达 5.60,大幅领先此前相关工作,解决对不上口型的尴尬。
速度“快”:仅凭 1.3B 的轻量化体量,Lite 版本在单张 RTX 4090 上跑出了 96 FPS 的吞吐量。这不仅是实时基准(25 FPS)的 近4倍,推理效率更是行业同类主流模型的 100倍以上。


应用场景:
“人人可用”的数字人技术
今年1月,Soul AI Lab开源了实时数字人生成模型SoulX-FlashTalk,能够实现0.87s亚秒级超低延时、32FPS高帧率,并支持超长视频稳定生成。
对比SoulX-FlashTalk,SoulX-FlashHead的价值在于,将高保真技术进一步从“算力机房”解放到了“个人工作站”,让更广泛的场景应用成为可能:
·7x24h矩阵直播:个人主播用一台游戏 PC,即可搭建高保真电商直播间。
·游戏NPC引擎:1.3B 体积极易集成,NPC 毫秒级响应,且不抢占核心渲染资源。
·AI一对一外教:支持 15 种语言,实时将音频转化为生动的教学画面。
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
盘点2025|光纤光缆:周期性放缓之下,确定性开始凸显
在2025年,光纤光缆厂商们习惯于用“周期性”一词来描述当前的困难,相比于宽带普及、4G升级换代带来的流量需求猛增这一巨大业务增长。可如今在刷着短视频、看着带货的新日常生活常态下,尽..[详细]
盘点2025|人工智能:破局前行、以智启新,同赴人机共生新未来
2025年,人工智能行业迎来技术迭代与价值落地的双重关口。这一年里既延续着近年来的高速增长态势,也迎来从野蛮生长向规范提质的深刻转型。 [详细]
盘点2025|算力行业:量质齐升的进阶之路
在数字经济加速渗透全球经济社会各领域的今天,算力已成为继电力、水资源之后的关键生产要素,是支撑数字中国建设、推动高质量发展的核心基础设施。算力的规模与质量直接决定了数字经济的发..[详细]
盘点2025|芯片:AI依旧是挖潜点,应用进一步多样化
时至2025年年底,人们已经开始渐渐习惯,有事听听AI给出的参考意见。其背后的算力支撑也在逐步加强,像是更先进的制程,以及向更多端侧设备的拓展。另一方面,AI又一石激起千层浪,机遇与需..[详细]
盘点2025 | 从5G到6G:深耕与突破并行,开启智能连接新纪元
2025年,全球通信产业站在了一个关键的历史交汇点。这一年既是“十四五”规划的收官年,5G建设成果全面转化的验收年,也是“十五五”规划启幕,6G布局从技术探索迈向工程落地的奠基之年,更..[详细]
盘点2025|量子信息:三大领域技术持续演进,产业发展未来可期
以量子计算、量子通信和量子精密测量为代表的量子信息技术是挑战人类调控微观世界能力极限的世纪系统工程,是对传统技术体系产生冲击、进行重构的重大颠覆性创新,将引领新一轮科技革命和产..[详细]
盘点2025|2025年智能终端趋势洞察:AI重构体验,超级终端时代加速到来
2025年,全球智能终端行业站在了技术革新与生态重构的十字路口。AI技术的规模化渗透、折叠屏形态的成熟落地、跨设备协同的深度演进,正在重塑终端产品的价值逻辑与市场格局。[详细]
我国制造业数字化转型步伐加快,仍有深层次挑战亟需系统解决
当前,新一轮科技革命和产业变革深入发展,全球产业格局深度调整,我国制造业也正处于由大变强的关键时期,应以数字化转型抢抓未来人工智能等技术产业变革机遇。近日,中国信息通信研究院发..[详细]
Seedance2.0,改写AI视频赛道格局!
孙悟空对战超人、单挑詹姆斯扣篮、小猫咪打怪兽、迈克尔•杰克逊街头热舞……最近,字节跳动的AI视频模型Seedance2.0引爆全网,由其生成的各类短视频刷屏了![详细]
全球人工智能飞速发展,技术、应用、生态协同共振
近日,中国信通院发布的《人工智能产业发展研究报告(2025 年)》(以下简称《报告》)指出,2025 年,全球人工智能飞速发展,技术、应用、生态协同共振,重塑开发范式、改变人机交互模式,催..[详细]













