产品更新、模型变更与关键修复都会记录在这里。
工具目录现已加入 ZONOS2 人声克隆 TTS。用户可以上传参考人声、输入多语言文本,并生成 44.1 kHz WAV 语音。默认运行使用最高质量参数,页面展示模型与来源信息。
工具目录现已加入 ZONOS2 TTS。用户可以上传参考人声、输入多语言文本,并通过本地双卡 ZONOS2 运行时生成 44.1 kHz WAV 语音。默认运行使用最高质量本地参数,模型权重需要提前下载到 GPU 服务器,任务运行时不会依赖 Hugging Face token 拉取模型。
所有工具的使用界面和详情页现在会在模型卡与模型对比行下方显示对应的公开来源链接,包括 GitHub 仓库、Hugging Face 模型页、MVSep 榜单、MIREX/AMT 挑战赛、论文或官方技术页面。链接按模型和对比项归类展示,方便直接核对当前工具使用的模型、替代模型和公开基准来源。
MIDI 转码器现在直接在浏览器中把现有 .mid/.midi 文件的文本 Meta 事件转换为所选目标编码,支持 UTF-8、Shift_JIS、GBK、Big5、EUC-KR 和 ISO-8859-1,不再上传文件或创建服务器任务。页面说明也明确了它只处理歌词、轨道名、乐器名、标记、提示点等文本事件,不会修改音符、tempo、力度、控制器或音频。
修正工具详情和使用界面里的公开模型基准来源、榜单排名、指标单位和多语言指标名称,避免把来源单位误标为秒、把旧榜单行当作当前排名,或把 SDR、伴奏、人声等音频指标翻译成不准确的术语。
工具入口、使用界面和详情页现在统一展示对应模型链路、推荐参数、论文或技术来源,并在有公开榜单或论文指标的工具中显示公开基准依据。可运行工具页会把当前模型链路和公开基准图表合并到上方一个模型依据面板,避免同一排行榜在页面中重复出现。MIDI 转换器会明确标注为确定性转换工具,不伪装成神经模型。
人声伴奏分离工具现在使用 RoFormer ensemble 分离链,输出带和声的人声、原始人声、带和声的伴奏和不带和声的伴奏。工具参数也会显示推荐值,并跟随页面语言显示。
修复工具任务在处理中或完成后刷新页面时状态跳转不一致的问题;处理中刷新会继续显示当前进度,完成后刷新会回到可提交的工具界面,避免误停留在旧完成结果。
工具目录现已加入 Ideogram 4 文生图。用户可直接输入提示词生成 PNG 图片;支持 256-2048px、16 倍数的显式宽高,默认使用 2048x2048 和官方 V4_QUALITY_48 高质量采样预设,并提供 seed 与 1-4 张候选图控制。
工具详情页现在会展示每个工具对应的模型、固定适配器、关键参数说明、官方仓库和论文/技术资料链接;AI 声音转换更名为 AI 翻唱,钢琴踏板 AMT 等专用钢琴工具也不再展示不适用的 YourMT3 通用参数。
GPU bridge 现在会在超时取消后保持 worker 不可调度,直到 worker 真正恢复,避免后续任务被派到仍在后台运行的进程;六轨工具也修复了模型导入路径与 female/male 输出文件识别,真实 MP3 现在可以产出完整 12 个结果文件。
修复任务取消后工具页仍停留在跟踪状态的问题;取消或超时的任务现在会释放当前任务缓存,显示重新开始入口,并避免排队任务继续占用队列。
文档首页移除了 API 快速开始卡片,保留面向普通用户的快速开始和积分用量入口,让页面更聚焦常用 Web 使用流程。
首页现在直接展示工具目录和可运行工具详情。用户可以从同一个工作台进入变声、分轨、F0 提取、检索、清理和后期处理流程。
本次更新同步修复任务状态刷新、结果文件命名和下载回传中的不一致,降低用户在变声、分轨和 MIDI 转换流程里遇到输出不清晰或状态不同步的概率。