网易有道开源Confucius4-TTS,3 秒音频即可克隆音色
创始人
2026-06-26 00:50:44
0

网易有道近日发布“子曰4.0”TTS语音合成引擎Confucius4-TTS,并已将该模型全量开源。

据官方介绍,这是业内首个支持14种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。

用户仅需提供3秒音频素材,无需参考文本与前期训练,模型即可完成音色克隆,官方称克隆音色与原声相似度超过85%,克隆任务准确度达97%。

输入中文音频后,模型能够以原声音色输出其他13种目标语言的语音,全程保持音色一致。模型还可自动提取参考音频中的情感特征,实现语调、韵律与情绪的跨语种迁移。

在底层架构上,Confucius4-TTS采用1.3B参数规模,引入GPT式语义大模型作为主干,搭配基于SSL预训练特征和ECAPA-TDNN的可学习说话人编码器,并采用Flow Matching流匹配生成框架,不再沿用传统的声码器方案。

相较于网易有道此前的EmotiVoice仅支持训练集内音色且无法克隆,Confucius4-TTS实现了零样本语音克隆的跨越。

模型采用Apache 2.0开源协议,商用无限制,开发者可下载54GB完整资源包进行本地离线部署。GitHub仓库已面向全球开发者开放。

目前开源语音克隆赛道已有多款成熟方案。Fish-Speech训练数据超过1000万小时,支持约50种语言,采用双自回归架构;GPT-SoVITS在GitHub拥有超过4.5万星标,支持5秒零样本克隆。

Chatterbox支持23种语言,需要5到10秒参考音频;阿里的CosyVoice则需要10到20秒音频样本;Zyphra的ZONOS2为8B参数的MoE架构模型。

Confucius4-TTS在克隆速度(3秒)和免参考文本两个维度上具备差异化优势。

不过该模型也存在一些待验证之处,54GB的完整资源包对本地部署的硬件门槛要求较高,普通开发者可能难以直接运行。官方公布的85%相似度和97%准确度均为自测数据,缺乏第三方独立评测验证。

有技术博主实测后表示,虽整体听感自然流畅,但无法100%复刻细微音色。此外,模型仅支持14种语言,在语种覆盖上不及Fish-Speech的50种和Chatterbox的23种。

从行业趋势来看,2026年开源语音克隆模型正朝着更大参数规模、更低克隆门槛和更强多语言能力演进。

Confucius4-TTS的发布为开发者提供了新的选择,但其实际表现和社区生态的建设仍需时间检验。

[本文作者i黑马,i黑马原创。如需转载请联系微信公众号(ID:iheima)授权,未经授权,转载必究。]

相关内容

热门资讯

智能体AI如何变革芯片设计与验... 关键要点:智能体AI有望提升工程师的工作效率,加快产品上市速度,并将部分重复性工作自动化。对于芯片设...
AI时代如何守卫信息安全?石景... 比耶拍照、随手转发、下载陌生工具……这些习以为常的日常动作里,正藏着换脸诈骗、生物信息泄露、虚假信息...
AI辟谣短剧:《汛情谣言零容忍... 出品:湖北网络辟谣&极目新闻
当AI长出双手,耳畔亦有全能助... 2026年,AI产业迎来全新拐点。从对话问答到自主执行,从虚拟交互到实体落地,左手智能体思考决策,右...
百度开源Unlimited O... IT之家6月25日消息,百度于6月22日开源推出UnlimitedOCR模型,总参数量30亿,推理时...
网易有道开源Confucius... 网易有道近日发布“子曰4.0”TTS语音合成引擎Confucius4-TTS,并已将该模型全量开源。...
M-Robots社区正式启动共... 6月25日上午,2026开放原子开源生态大会在北京北人亦创国际会展中心盛大开幕。作为大会开幕式的重要...
开源鸿蒙社区底座共建研讨会成功... 2026年6月25日,由开源鸿蒙项目群工作委员会主办的“开源鸿蒙社区底座共建研讨会"在北京成功召开。...
领益智造涨10.03%,开源证... 今日领益智造(002600)涨10.03%,收盘报17.66元。2026年5月6日,开源证券研究员陈...