Zyphra ZONOS2:开源 TTS MoE 把高保真语音克隆带到站内工具流
Zyphra 发布 Apache-2.0 的 ZONOS2。它采用 8B 总参数、约 900M 激活参数的 MoE TTS 架构,训练数据超过 600 万小时;本文基于官方资料解释 SOTA 口径、语言层级、voice cloning 边界,以及 TelkNet 已接入的 ZONOS2 人声克隆 TTS 工具体验。

Zyphra 发布 Apache-2.0 的 ZONOS2。它采用 8B 总参数、约 900M 激活参数的 MoE TTS 架构,训练数据超过 600 万小时;本文基于官方资料解释 SOTA 口径、语言层级、voice cloning 边界,以及 TelkNet 已接入的 ZONOS2 人声克隆 TTS 工具体验。

模型新闻 / Zyphra
ZONOS2 是 Zyphra 在 2026 年 6 月发布的开源实时 TTS 模型。官方资料把它描述为 Apache-2.0 许可、8B 总参数、约 900M 激活参数的稀疏 MoE 语音模型,并强调高保真 voice cloning、低延迟 TTS、超过 600 万小时多语言语音训练数据,以及 seed-tts eval 与 ZTTS1-Eval 等评测口径中的 state-of-the-art 表现。
这篇文章的重点不是重复“又一个语音模型发布了”,而是解释 ZONOS2 为什么值得被当作一个可落地的生产工具来看:它把开源权重、高采样率 DAC 音频链路、语言层级和说话人条件放在同一条路线里。TelkNet 已将 ZONOS2 人声克隆 TTS 接入本站工具,用户可以上传参考人声、输入文本,并通过本站任务流程生成 WAV 语音。
语音克隆模型最容易被一句“相似度很高”带偏,但真正决定它能否成为工具的,是相似度、自然度、稳定性、语言覆盖、延迟、许可和使用门槛之间的综合平衡。ZONOS2 有意思的地方在于,它没有只走“闭源 API 更像真人”的叙事,而是把高保真克隆和开放运行路径放在一起:模型权重可获取,官方提供本地推理方式,许可证也比许多研究版模型更适合真实集成。
这会改变使用者的选择逻辑。闭源 TTS API 往往适合快速调用、统一计费和平台托管;普通开源 TTS 往往便于实验,但声音细节、跨语言稳定性和产品化体验可能需要大量调参。ZONOS2 的路线介于两者之间:它把高质量 voice cloning、开放模型资料和可集成的工具体验放在同一个讨论框架里。
所以,ZONOS2 对 TelkNet 的意义不是把网站变成一个“语音 API 转发器”,而是把 TTS 纳入本站现有的工具执行范式:用户直接在工具页完成上传、文本输入、参数选择、任务记录和结果下载。
官方资料里最值得抓住的是三个层次。第一是架构:ZONOS2 是稀疏 Mixture of Experts TTS 模型,官方称每次推理约 900M 激活参数、总规模 8B。这意味着它不是简单把密集模型放大,而是用 MoE 让更大参数规模和实时 TTS 目标共存。
第二是音频表示。Zyphra 的模型卡说明,ZONOS2 在推理中使用 nemo TN normalized UTF-8 bytes 和 ECAPA-TDNN 说话人 embedding,并通过 MoE backbone 生成 DAC tokens;官方博客进一步说明 DAC 路线用于生成 44.1 kHz 音频。这个细节很重要,因为它解释了为什么 ZONOS2 的定位不是低带宽电话语音,而是面向更高细节的播客、角色音、旁白和多语言 voice cloning。
第三是数据与语言。官方模型卡列出了语言层级:Tier 1 包括 English、Mandarin Chinese、Japanese;Tier 2 包括 Korean、Russian、Italian、Portuguese、French、Spanish、Vietnamese、German、Hebrew、Dutch;Tier 3 还覆盖 Swedish、Hindi、Tamil、Telugu、Thai、Norwegian、Bengali、Tagalog、Arabic、Danish、Indonesian、Polish、Ukrainian、Romanian、Finnish、Hungarian、Lithuanian、Estonian、Slovak、Croatian、Latvian。这个分层本身就是边界提示:支持不等于每种语言、每种口音、每种参考音频都同等稳定。
Zyphra 官方发布页称 ZONOS2 在 seed-tts eval 与新提出的 ZTTS1-Eval 等口径中达到 state-of-the-art,并特别强调 speaker similarity、prosody、自然度和 voice cloning fidelity。这里需要准确解读:这是 Zyphra 基于其官方评测和样例给出的发布表述,不等于所有场景下对所有闭源/开源模型的绝对结论。
更值得注意的是 Zyphra 对评测本身的观点。官方文章指出,TTS 的 WER 指标存在微妙问题:有些模型生成的语音可能比真实人声更“干净”,因而更容易被 ASR 听写,但这未必代表更忠实地克隆了参考说话人的音色和表达。ZONOS2 明确把 vocal fidelity 放在核心位置,并提供 stable 与 expressive 两类取向,分别面向更干净稳定的输出和更忠实自然的克隆。
这也是本站写作时不会把“ZONOS2 是最强 TTS”写成无条件结论的原因。更准确的说法是:ZONOS2 是 2026 年 6 月发布的、官方称在特定 TTS/voice cloning 评测中达到 SOTA 口径的开源 MoE TTS 模型;它的真实价值要结合参考音频质量、目标语言、文本长度、语气控制、任务排队状态和实际听感来判断。
| 维度 | ZONOS2 / TelkNet 路线 | 闭源 TTS API 路线 | 普通开源 TTS 自行运行 |
|---|---|---|---|
| 权重与许可 | 官方权重开放,模型卡标注 Apache-2.0。 | 通常只能通过厂商 API 使用,权重不可控。 | 依模型而定,常见问题是许可、商用边界和模型质量不一致。 |
| 使用方式 | TelkNet 提供清晰的输入、参数和 WAV 结果下载体验。 | 托管方便,但延迟、地区、审计和数据路径受厂商影响。 | 控制权强,但用户需要自己处理环境、权重、质量调试和排错。 |
| 声音克隆 | 官方重点强调 high-fidelity 与 naturalistic voice cloning。 | 质量可能很高,但通常受账号、授权、额度和平台策略限制。 | 效果跨度较大,参考音频和模型家族影响明显。 |
| 语言边界 | 官方按 Tier 1/2/3 分层列出语言支持。 | 通常产品化覆盖较广,但不一定公开训练/评测细节。 | 覆盖取决于训练数据和 tokenizer/phonemizer 设计。 |
| 用户体验 | 上传参考人声、输入文本、等待本站任务产出 WAV。 | 通常是实时 API 或控制台调用。 | 常需要命令行、脚本、显卡环境和音频后处理。 |
当前站内工作流面向普通用户:上传一段参考人声音频,输入希望朗读的文本,选择语言和参数,然后获得 WAV 文件结果。
对用户来说,重点是降低试用门槛:不用自己准备研究环境,也不用理解模型论文里的全部实现细节,就能围绕参考人声、文本、语言和质量参数来评估 ZONOS2 的实际表现。
优先上传单人、近讲、少混响、少背景噪声的片段。10 到 30 秒的清晰人声,通常比一整段带伴奏或视频环境声的素材更适合作为 voice prompt。
English、Mandarin Chinese、Japanese 属于官方 Tier 1;其他语言虽在模型卡中列出,但实际效果仍应以任务输出和人工听感为准。
SOTA 是特定官方评测和样例语境下的表述。本站会保留评测边界,不把它写成所有场景的无条件保证。
请只克隆你有权使用的声音,不要冒充真人、绕过授权,或把生成语音用于误导性身份表达。
| 项目 | 官方或本站事实 | 准确含义 |
|---|---|---|
| 发布日期 | Zyphra 官方页标注 2026-06-12。 | 这是模型发布新闻时间,不代表每个下游产品同时更新。 |
| 许可证 | Hugging Face 模型卡标注 apache-2.0。 | 更适合本地运行和集成,但使用者仍需遵守责任边界。 |
| 模型规模 | 8B 总参数 / 约 900M 激活参数。 | MoE 让每次推理只激活部分专家,不等于单次推理跑满 8B 密集模型。 |
| 训练数据 | 官方称超过 600 万小时多语言语音。 | 数据规模很大,但语言层级、录音条件和参考音频仍会影响输出。 |
| 音频链路 | 官方说明通过 DAC tokens 生成 44.1 kHz 音频。 | 定位更接近高细节语音/旁白/角色音,而不是低采样率通讯音频。 |
| TelkNet | 本站已接入 ZONOS2 人声克隆 TTS 工具和站内任务链路。 | 用户可通过网页提交任务,但输出质量仍取决于输入素材和运行负载。 |