工业级稳定可用、零样本歌声合成,Soul App 联合吉利汽车研究院人工智能中心(AIC)、天津大学及西北工业大学开源SoulX-Singer
过去一年,生成式人工智能在音乐行业的应用正不断创造新体验,但歌唱语音合成领域(SVS,Singing Voice Synthesis)整体进展相对缓慢。
为拓展这一领域,近日,Soul App AI 团队(Soul AI Lab)联合吉利汽车研究院人工智能中心(AIC)、天津大学视听觉认知计算团队和西北工业大学音频语音与语言处理研究组(ASLP@NPU),正式开源歌声合成模型SoulX-Singer,这是一个面向真实应用场景设计的高质量零样本歌声合成模型,超42000小时训练数据,覆盖多语言、多音色及多种演唱风格,在稳定性、可控性与泛化能力方面,均达到了当前开源 SVS 模型中的领先水平。

Demo Page:https://soul-ailab.github.io/soulx-singer/
Technical Report:https://arxiv.org/pdf/2602.07803
Source Code:https://github.com/Soul-AILab/SoulX-Singer
Hugging Face:https://huggingface.co/Soul-AILab/SoulX-Singer
SoulX-Singer介绍

SoulX-Singer 结构简图
过去一段时间,语音合成与音乐生成领域迎来了快速发展,大模型与生成式 AI 持续刷新行业认知。然而,与这一热潮形成对比的是,行业内仍缺乏一个真正稳定可用、同时支持零样本(Zero-shot)生成的开源歌声合成(SVS)模型,这很大程度上制约了 SVS 技术在真实业务场景中的应用与落地。
SVS(Singing Voice Synthesis,歌唱语音合成)是一种根据歌词和乐谱生成歌声的技术。相比于普通语音合成(TTS,Text-to-Speech Synthesis),SVS 需要对音高、音律以及演唱风格等进行精细控制,以实现自然且富有表现力的歌声输出。与近期热门的 Music Generation(自动生成整段音乐或伴奏)不同,SVS 专注于可由 MIDI 控制的人声生成,因此在虚拟歌手、歌词演绎以及多语言歌声创作等场景中展现出独特价值。
在这样的背景下,SoulX-Singer 正式开源。SoulX-Singer 是一个面向真实工业应用场景设计的零样本歌声合成模型,其核心目标是在未见过歌手音色的情况下,实现稳定、自然且高度可控的歌声生成。为此,模型在整体架构、建模范式以及控制机制上进行了针对 SVS 场景的系统性设计。
在模型架构上,SoulX-Singer 采用基于Flow Matching 的生成建模范式,并将歌声合成问题建模为一种 audio infilling(音频补全)任务。针对歌声合成中“歌词—旋律—发声”三者强耦合的特点,SoulX-Singer 在建模阶段显式引入了 note 级别的对齐机制。
模型通过构建歌词、MIDI 音符(note)与声学特征之间的精细对齐关系,使得每一个音符的 起止时间、音高(pitch)以及持续时长 都能够被准确建模和独立控制。这一设计使得模型不仅能够忠实还原乐谱信息,还可以在生成阶段灵活调整音符结构,从而满足音乐编辑、重编曲等复杂需求。
大规模 SVS 训练数据,夯实零样本能力基础
零样本歌声合成对训练数据的规模、多样性与覆盖范围提出了极高要求。SoulX-Singer 得益于超过 42000 小时的高质量歌声数据进行训练,覆盖多语言、多音色及多种演唱风格。
在如此大规模数据的支持下,模型在面对未见过的歌手与复杂音乐条件时,依然能够保持稳定、自然且高质量的合成表现。在实际测试中,SoulX-Singer 展现出了良好的鲁棒性和一致性,为零样本歌声合成技术从“可演示”走向“可使用”提供了坚实基础。
Music Score 与 Melody 多种控制方式
在生成控制能力方面,SoulX-Singer同时支持基于Music Score(MIDI) 和基于 Melody 的两种歌声合成控制方式:
·Music Score(MIDI)驱动生成支持直接基于乐谱与歌词生成歌声,适用于音乐创作、歌词编辑、歌曲重制等场景,具备音符级别的时长与节奏控制能力。
·Melody驱动生成支持从已有歌曲旋律出发进行歌声合成,可复刻参考音频中的演唱技巧与表达方式,适用于翻唱、风格迁移等应用场景。
这种双控制范式为实际音乐制作流程提供了更高的灵活性,使SoulX-Singer能够覆盖从“从零创作”到“基于已有歌曲再创作”的多种使用需求。
多语言支持,面向真实应用场景
SoulX-Singer 当前支持普通话、英语和粤语三种语言的歌声合成,并在不同语言和音乐风格下均展现出稳定一致的合成质量。这一多语言能力为其在内容创作、虚拟歌手、互动娱乐等应用场景中的落地提供了更广阔的空间。
客观表现

在评测方面,SoulX-Singer 在 GMO-SVS 和 SoulX-Singer-Eval 两个数据集上,对零样本歌声合成、歌词编辑后的歌声合成以及跨语言歌声合成等多项任务进行了系统评测。
其中,GMO-SVS 综合了 GTSinger、M4Singer 和 Opencpop 等主流开源 SVS 数据集;而 SoulX-Singer-Eval 则专门面向严格的零样本场景构建,通过独立音乐人等渠道采集数据,确保测试歌手未出现在训练集中。
实验结果表明,SoulX-Singer 在语义清晰度、歌手相似度、基频一致性以及整体合成质量等多个维度上均显著优于此前的相关工作;在主观听感评测中,其表现同样取得了明显领先优势。

尽管此前歌声合成领域已经涌现出一些优秀的研究工作,但受限于训练数据规模或控制方式单一等因素,相关模型在真实使用场景中仍面临诸多挑战。SoulX-Singer 的发布提供了一个真正鲁棒、灵活可控且面向场景落地的零样本歌声合成解决方案,为歌声合成技术在UGC音乐创作等方向的实际应用探索带来了积极意义。
SoulX-Singer 也延续了Soul AI团队的开源工作。此前,Soul AI团队已陆续开源了播客语音合成模型SoulX-Podcast、实时数字人生成模型SoulX-FlashTalk,在语音、歌声、实时数字人、视频等不同领域提供了可落地的多模态生成方案。
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
盘点2025|光纤光缆:周期性放缓之下,确定性开始凸显
在2025年,光纤光缆厂商们习惯于用“周期性”一词来描述当前的困难,相比于宽带普及、4G升级换代带来的流量需求猛增这一巨大业务增长。可如今在刷着短视频、看着带货的新日常生活常态下,尽..[详细]
盘点2025|人工智能:破局前行、以智启新,同赴人机共生新未来
2025年,人工智能行业迎来技术迭代与价值落地的双重关口。这一年里既延续着近年来的高速增长态势,也迎来从野蛮生长向规范提质的深刻转型。 [详细]
盘点2025|算力行业:量质齐升的进阶之路
在数字经济加速渗透全球经济社会各领域的今天,算力已成为继电力、水资源之后的关键生产要素,是支撑数字中国建设、推动高质量发展的核心基础设施。算力的规模与质量直接决定了数字经济的发..[详细]
盘点2025|芯片:AI依旧是挖潜点,应用进一步多样化
时至2025年年底,人们已经开始渐渐习惯,有事听听AI给出的参考意见。其背后的算力支撑也在逐步加强,像是更先进的制程,以及向更多端侧设备的拓展。另一方面,AI又一石激起千层浪,机遇与需..[详细]
盘点2025 | 从5G到6G:深耕与突破并行,开启智能连接新纪元
2025年,全球通信产业站在了一个关键的历史交汇点。这一年既是“十四五”规划的收官年,5G建设成果全面转化的验收年,也是“十五五”规划启幕,6G布局从技术探索迈向工程落地的奠基之年,更..[详细]
盘点2025|量子信息:三大领域技术持续演进,产业发展未来可期
以量子计算、量子通信和量子精密测量为代表的量子信息技术是挑战人类调控微观世界能力极限的世纪系统工程,是对传统技术体系产生冲击、进行重构的重大颠覆性创新,将引领新一轮科技革命和产..[详细]
盘点2025|2025年智能终端趋势洞察:AI重构体验,超级终端时代加速到来
2025年,全球智能终端行业站在了技术革新与生态重构的十字路口。AI技术的规模化渗透、折叠屏形态的成熟落地、跨设备协同的深度演进,正在重塑终端产品的价值逻辑与市场格局。[详细]
私有AI规模化落地,平台能力让智能不止“聪明一时”
很多企业员工都在过去两年,经历着AI逐步规模化落地所带来的改变。 Cloudera大中华区技术总监刘隶放就在近期的一场技术趋势分享会上,讲述了自己准备这场演讲的过程。以往他需要在笔记软件中..[详细]
走进宁夏 探寻算电协同发展新路径
如今中国各行各业都在积极推进数字化、智能化升级,对高性能算力的需求也日益高涨,而先进算力的正常运行又离不开充沛的电力供应。随着越来越多算力基础设施陆续建成、投用,如何做到算电协..[详细]
我国机器人实现跨越式发展,AI+算力将为产业带来更多可能
最近这几年,机器人太火了,尤其是随着人工智能以及算力产业的发展,机器人的进程已然next level!过去的一年时间里,我们看到机器人能歌善舞,会炒菜能干活,在各行各业的技能越来越全面,..[详细]













