模型新闻 / Zyphra

Zyphra ZONOS2：开源 TTS MoE 把高保真语音克隆带到站内工具流

发布：2026-06-12
Apache-2.0
8B 总参数 / 约 900M 激活参数
ZONOS2 人声克隆 TTS 已可在 TelkNet 使用

摘要

ZONOS2 是 Zyphra 在 2026 年 6 月发布的开源实时 TTS 模型。官方资料把它描述为 Apache-2.0 许可、8B 总参数、约 900M 激活参数的稀疏 MoE 语音模型，并强调高保真 voice cloning、低延迟 TTS、超过 600 万小时多语言语音训练数据，以及 seed-tts eval 与 ZTTS1-Eval 等评测口径中的 state-of-the-art 表现。

这篇文章的重点不是重复“又一个语音模型发布了”，而是解释 ZONOS2 为什么值得被当作一个可落地的生产工具来看：它把开源权重、高采样率 DAC 音频链路、语言层级和说话人条件放在同一条路线里。TelkNet 已将 ZONOS2 人声克隆 TTS 接入本站工具，用户可以上传参考人声、输入文本，并通过本站任务流程生成 WAV 语音。

Zyphra ZONOS2 官方发布图片 — 官方图 1：Zyphra/ZONOS2 模型卡提供的官方发布图，突出实时 TTS、语音克隆和多语言生成能力。

独到看法：ZONOS2 的价值不只在“像不像”

语音克隆模型最容易被一句“相似度很高”带偏，但真正决定它能否成为工具的，是相似度、自然度、稳定性、语言覆盖、延迟、许可和使用门槛之间的综合平衡。ZONOS2 有意思的地方在于，它没有只走“闭源 API 更像真人”的叙事，而是把高保真克隆和开放运行路径放在一起：模型权重可获取，官方提供本地推理方式，许可证也比许多研究版模型更适合真实集成。

这会改变使用者的选择逻辑。闭源 TTS API 往往适合快速调用、统一计费和平台托管；普通开源 TTS 往往便于实验，但声音细节、跨语言稳定性和产品化体验可能需要大量调参。ZONOS2 的路线介于两者之间：它把高质量 voice cloning、开放模型资料和可集成的工具体验放在同一个讨论框架里。

所以，ZONOS2 对 TelkNet 的意义不是把网站变成一个“语音 API 转发器”，而是把 TTS 纳入本站现有的工具执行范式：用户直接在工具页完成上传、文本输入、参数选择、任务记录和结果下载。

Zyphra ZONOS2 官方推理概览动图 — 官方动图：模型卡展示了 ZONOS2 使用文本、说话人条件和 MoE backbone 生成 DAC 音频 tokens 的推理概览。

它到底新在哪里

官方资料里最值得抓住的是三个层次。第一是架构：ZONOS2 是稀疏 Mixture of Experts TTS 模型，官方称每次推理约 900M 激活参数、总规模 8B。这意味着它不是简单把密集模型放大，而是用 MoE 让更大参数规模和实时 TTS 目标共存。

第二是音频表示。Zyphra 的模型卡说明，ZONOS2 在推理中使用 nemo TN normalized UTF-8 bytes 和 ECAPA-TDNN 说话人 embedding，并通过 MoE backbone 生成 DAC tokens；官方博客进一步说明 DAC 路线用于生成 44.1 kHz 音频。这个细节很重要，因为它解释了为什么 ZONOS2 的定位不是低带宽电话语音，而是面向更高细节的播客、角色音、旁白和多语言 voice cloning。

第三是数据与语言。官方模型卡列出了语言层级：Tier 1 包括 English、Mandarin Chinese、Japanese；Tier 2 包括 Korean、Russian、Italian、Portuguese、French、Spanish、Vietnamese、German、Hebrew、Dutch；Tier 3 还覆盖 Swedish、Hindi、Tamil、Telugu、Thai、Norwegian、Bengali、Tagalog、Arabic、Danish、Indonesian、Polish、Ukrainian、Romanian、Finnish、Hungarian、Lithuanian、Estonian、Slovak、Croatian、Latvian。这个分层本身就是边界提示：支持不等于每种语言、每种口音、每种参考音频都同等稳定。

怎么准确理解“SOTA”

Zyphra 官方发布页称 ZONOS2 在 seed-tts eval 与新提出的 ZTTS1-Eval 等口径中达到 state-of-the-art，并特别强调 speaker similarity、prosody、自然度和 voice cloning fidelity。这里需要准确解读：这是 Zyphra 基于其官方评测和样例给出的发布表述，不等于所有场景下对所有闭源/开源模型的绝对结论。

更值得注意的是 Zyphra 对评测本身的观点。官方文章指出，TTS 的 WER 指标存在微妙问题：有些模型生成的语音可能比真实人声更“干净”，因而更容易被 ASR 听写，但这未必代表更忠实地克隆了参考说话人的音色和表达。ZONOS2 明确把 vocal fidelity 放在核心位置，并提供 stable 与 expressive 两类取向，分别面向更干净稳定的输出和更忠实自然的克隆。

这也是本站写作时不会把“ZONOS2 是最强 TTS”写成无条件结论的原因。更准确的说法是：ZONOS2 是 2026 年 6 月发布的、官方称在特定 TTS/voice cloning 评测中达到 SOTA 口径的开源 MoE TTS 模型；它的真实价值要结合参考音频质量、目标语言、文本长度、语气控制、任务排队状态和实际听感来判断。

和常见 TTS 路线的对比

维度	ZONOS2 / TelkNet 路线	闭源 TTS API 路线	普通开源 TTS 自行运行
权重与许可	官方权重开放，模型卡标注 Apache-2.0。	通常只能通过厂商 API 使用，权重不可控。	依模型而定，常见问题是许可、商用边界和模型质量不一致。
使用方式	TelkNet 提供清晰的输入、参数和 WAV 结果下载体验。	托管方便，但延迟、地区、审计和数据路径受厂商影响。	控制权强，但用户需要自己处理环境、权重、质量调试和排错。
声音克隆	官方重点强调 high-fidelity 与 naturalistic voice cloning。	质量可能很高，但通常受账号、授权、额度和平台策略限制。	效果跨度较大，参考音频和模型家族影响明显。
语言边界	官方按 Tier 1/2/3 分层列出语言支持。	通常产品化覆盖较广，但不一定公开训练/评测细节。	覆盖取决于训练数据和 tokenizer/phonemizer 设计。
用户体验	上传参考人声、输入文本、等待本站任务产出 WAV。	通常是实时 API 或控制台调用。	常需要命令行、脚本、显卡环境和音频后处理。

在 TelkNet 中怎样使用

当前站内工作流面向普通用户：上传一段参考人声音频，输入希望朗读的文本，选择语言和参数，然后获得 WAV 文件结果。

对用户来说，重点是降低试用门槛：不用自己准备研究环境，也不用理解模型论文里的全部实现细节，就能围绕参考人声、文本、语言和质量参数来评估 ZONOS2 的实际表现。

实际使用建议

参考音频越干净越好

优先上传单人、近讲、少混响、少背景噪声的片段。10 到 30 秒的清晰人声，通常比一整段带伴奏或视频环境声的素材更适合作为 voice prompt。

语言支持有层级

English、Mandarin Chinese、Japanese 属于官方 Tier 1；其他语言虽在模型卡中列出，但实际效果仍应以任务输出和人工听感为准。

不要误用“SOTA”

SOTA 是特定官方评测和样例语境下的表述。本站会保留评测边界，不把它写成所有场景的无条件保证。

合规边界

请只克隆你有权使用的声音，不要冒充真人、绕过授权，或把生成语音用于误导性身份表达。

ZONOS2 官方信息与本站解读

项目	官方或本站事实	准确含义
发布日期	Zyphra 官方页标注 2026-06-12。	这是模型发布新闻时间，不代表每个下游产品同时更新。
许可证	Hugging Face 模型卡标注 apache-2.0。	更适合本地运行和集成，但使用者仍需遵守责任边界。
模型规模	8B 总参数 / 约 900M 激活参数。	MoE 让每次推理只激活部分专家，不等于单次推理跑满 8B 密集模型。
训练数据	官方称超过 600 万小时多语言语音。	数据规模很大，但语言层级、录音条件和参考音频仍会影响输出。
音频链路	官方说明通过 DAC tokens 生成 44.1 kHz 音频。	定位更接近高细节语音/旁白/角色音，而不是低采样率通讯音频。
TelkNet	本站已接入 ZONOS2 人声克隆 TTS 工具和站内任务链路。	用户可通过网页提交任务，但输出质量仍取决于输入素材和运行负载。

Zyphra ZONOS2：开源 TTS MoE 把高保真语音克隆带到站内工具流

参考资料

Zyphra ZONOS2：开源 TTS MoE 把高保真语音克隆带到站内工具流

独到看法：ZONOS2 的价值不只在“像不像”

它到底新在哪里

怎么准确理解“SOTA”

和常见 TTS 路线的对比

在 TelkNet 中怎样使用

实际使用建议

ZONOS2 官方信息与本站解读

参考资料