降低数字人应用门槛,Soul 上市进程以技术创新拓展场景价值
数字人技术长期受限于高算力成本与复杂部署门槛,难以大规模普及应用,而轻量化 AI 模型的出现正在改变这一格局。近期 Soul 发布的新一代数字人生成模型,凭借小参数、高帧率、高画质的特点,让实时数字人走进消费级设备,相关技术突破也成为 Soul 上市进程中的重要亮点。在 Soul IPO 稳步推进的过程中,平台以开源模式共享技术能力,既拓展了自身技术生态,也为行业带来了更具实用性的发展思路。

在实时数字人赛道,开发者们曾长期面临一个困扰:追求高画质就需要具备昂贵的 H800 集群,追求低成本就得忍受“面瘫”和画面崩坏。为解决这一问题,继开源 14B 的实时数字人生成模型SoulX-FlashTalk 之后,近日,Soul App AI团队(Soul AI Lab)推出了SoulX-FlashHead。这款1.3B参数的轻量化模型,能够在单张消费级显卡( RTX 4090 )上跑出96FPS的工业级速度,同时实现高质量画质,为行业提供新的实时数字人方案。
目前,SoulX-FlashHead 的权重与代码已全面开放:
论文:https://www.arxiv.org/pdf/2602.07449
项目:https://soul-ailab.github.io/soulx-flashhead/
代码:https://github.com/Soul-AILab/SoulX-FlashHead
模型:https://huggingface.co/Soul-AILab/SoulX-FlashHead-1_3B
数据集:https://huggingface.co/datasets/Soul-AILab/VividHead
SoulX-FlashHead核心亮点:
不仅是实时,更是“算力自由”
在消费级显卡上,SoulX-FlashHead 的表现:
• Lite版本(高速率):单卡4090推理帧率可达96FPS,仅需6.4G显存,最高支持3路并发,让实时数字人模型真正走到了消费级终端上。 • Pro版本(高画质):单卡5090推理帧率16.8FPS,双卡可实时(25fps+),FID(视觉质量指标)和Lip-sync(唇形一致指标)在benchmark上达到了SOTA,甚至超过了更大参数量的模型,解决了“小模型没好画质”的行业痛点。
原理介绍
如何让 1.3B 模型“以小博大”?SoulX-FlashHead创新引入了:
训练“先知”:双向蒸馏机制 (Oracle-Guided Distillation)
长视频生成的“身份漂移”一直是行业痛点。SoulX-FlashHead引入了“上帝视角”教师模型,利用 Ground Truth 作为先知锚点进行强约束。
效果: 像给模型装了校准器,无论视频多长,人物特征始终稳定。

8秒记忆:时序音频上下文缓存 (TACC)
流式生成中,音频切片太短会导致口型抖动。
创新: 强制模型缓存 8秒 历史音频特征,补偿上下文缺失。
体验: 解决“嘴瓢”和“对不上号”问题,开播即进入理想状态。
高质量数据底座:自研 VividHead 数据集
从 10,000+ 小时素材中精炼出 782 小时高质量音画数据:
严苛筛选: 经过切分、DWpose 关键点、唇形一致分数过滤等多个处理步骤,为模型提供了最纯净的“养料”。

客观表现
在 HDTF 与 VFHQ 两大权威数据集的实测中,SoulX-FlashHead 展现了出色的表现:
画质新标杆:在高清视频(HDTF)评测中,Pro 版本以 8.31 (FID) 和 103.14 (FVD) 的成绩刷新纪录,视觉细腻度超过 一些“大参数”模型。
口型精准捕捉:面对野外复杂场景(VFHQ),凭借独创的“时序音频上下文缓存”策略,其 Sync-C 得分高达 5.60,大幅领先此前相关工作,解决对不上口型的尴尬。
速度“快”:仅凭 1.3B 的轻量化体量,Lite 版本在单张 RTX 4090 上跑出了 96 FPS 的吞吐量。这不仅是实时基准(25 FPS)的 近4倍,推理效率更是行业同类主流模型的 100倍以上。


应用场景:
“人人可用”的数字人技术
今年1月,Soul AI Lab开源了实时数字人生成模型SoulX-FlashTalk,能够实现0.87s亚秒级超低延时、32FPS高帧率,并支持超长视频稳定生成。
对比SoulX-FlashTalk,SoulX-FlashHead的价值在于,将高保真技术进一步从“算力机房”解放到了“个人工作站”,让更广泛的场景应用成为可能:
• 7x24h矩阵直播:个人主播用一台游戏 PC,即可搭建高保真电商直播间。 • 游戏NPC引擎: 1.3B 体积极易集成,NPC 毫秒级响应,且不抢占核心渲染资源。 • AI一对一外教: 支持 15 种语言,实时将音频转化为生动的教学画面。
依托多项自研技术优化与高质量数据支撑,Soul 实现了数字人模型在性能与成本上的双重突破,将专业级效果下放至普通硬件环境中。在 Soul 上市推进过程中,这种面向实际场景、坚持开源共享的技术路线,持续提升平台在 AI 领域的行业口碑,也为 Soul IPO 积累了扎实的技术资产与生态价值,让技术创新真正转化为可感知、可应用的实际价值。
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
2026十大科技趋势
2026 十大科技趋势,定义新一年的每一次突破。祝大家马年大吉,马到成功!初八启新程,万事皆顺遂!
[详细]
体验新经营!5G-AxAI打造“山海智联第一城”
走进福州烟台山景区,随处可见赏心悦目的哥特式、古罗马式近现代建筑,这里原本是游客们的天堂,现在也是线上直播的天堂。徜徉在景区里,经常能碰到旅游主播在轻声细语地讲述景点故事,生活..[详细]
手机电脑内存过度焦虑?个人设备找到平衡点即可
随着内存的价格上涨,以及预测显示此轮上涨至2027年底可能都不会有好转,从而引发了很多消费者在当下时间点进行消费电子产品选购时的内存焦虑。
无论是手机或电脑,此前内存的预设配置基..[详细]中国电信打造五位一体智能云,发力Token经济
当前,人工智能技术迭代持续提速,智能体应用加速普及,Token成本不断下降、需求呈爆发式增长,Token经济已成为智能时代经济发展的新引擎,为数据要素价值释放与AI产业规模化落地开辟全新路..[详细]
FTTR用户逆势增长,AI成为宽带价值升级核心引擎
随着数字经济向纵深发展,千兆光网普及进入攻坚阶段,FTTR(光纤到房间)正加速突破家庭组网边界,向园区、政企、城市光网等多场景延伸,成为全光接入网络升级的核心载体。而AI技术的深度融..[详细]
495.8万基站背后:中国数字基建如何从“有”到“优”?
作为新型数字基建核心抓手,全国“信号升格”行动持续纵深推进,并取得丰硕成果。4月21日,在国务院新闻办公室举行的新闻发布会上,工信部副部长张云明介绍了2026年一季度我国工业和信息化的..[详细]
28年后愿望已成的蓝牙,战略布局四大发展方向
1998年5月,爱立信、IBM、英特尔、诺基亚以及东芝达成一个共同愿景,成立如今的蓝牙技术联盟,以便能够在全球实施一个互联互通、低成本的无线技术愿景。当时他们的想法是,如果想建立一个全..[详细]
6G现场亮“绝活” 解锁未来新惊喜!
人形机器人“守门员”精准扑球、全息投影实时直播互动、人形机器人与机器狗精彩“热舞”……如果你还觉得6G是遥远的未来概念,走进 2026 全球 6G 技术与产业生态大会打造的沉浸式 6G “黑科..[详细]
华为ICT大赛十年:让每一颗ICT“种子”都能长成参天大树
当前全球围绕AI、云计算、5G、大数据等科技的竞争不断加剧,而科技竞争的根本是人才的竞争,因此中国一直提倡产学研用紧密结合,通过学科知识竞赛、企业出题高校揭榜等方式培养ICT创新型、实..[详细]
预算缩减与 AI 期许, CIO 如何在不确定性高点下应对
“砍预算了。”这可能是近年来,经常听到的一话。Gartner的数据也印证了这点,自2014年开始,中国企业的IT预算占比基本维持在10%左右,但在2018年开始逐步下跌,2025年甚至达到最低点-0.8%,..[详细]













