以清晰的第三方研究视角整理 AI 模型文章、参考链接、模型卡、仓库和插图说明。
模型ChordEdit 是一篇 CVPR 2026 Oral / Best Student Paper Honorable Mention 论文。它把 one-step 文本引导图像编辑重新表述为源提示和目标提示之间的动态最优传输问题,并用 Chord Control Field 降低直接漂移差分带来的高能量扰动。TelkNet 现已接入 ChordEdit 图像编辑工具,公开参数与官方演示保持一致,并默认使用最高质量的 n_samples 设置。
阅读全文YourMT3+ 面向多乐器自动音乐转写,适合把完整歌曲、编曲片段或合奏录音转换为可在 DAW 中继续清理的 MIDI 草稿。
阅读全文MIROS 使用 MusicFM 多解码器路线处理多乐器转写,适合作为 YourMT3+ 之外的公开 AMT 方案对照。
阅读全文人声分离工具面向翻唱、练习、混音参考和素材整理,输出人声、伴奏以及不同人声层次的可下载音频。
阅读全文六轨分离面向更细粒度的编曲分析和素材再整理,比二轨人声/伴奏分离提供更多后期控制点。
阅读全文TransKun 面向钢琴复音转写,把钢琴录音转换为包含音符起止信息的 MIDI,适合练习复盘、扒谱和 DAW 编辑。
阅读全文Aria Piano MIDI 使用 Aria-AMT 相关公开资料作为技术来源,适合快速把钢琴音频整理成可编辑 MIDI。
阅读全文ByteDance 钢琴踏板转写关注延音、弱音等踏板事件,适合需要更完整钢琴演奏信息的 MIDI 工作流。
阅读全文AI Cover Vocals 使用 RVC 相关公开项目、HuBERT 表征、音高估计和可选分离流程,面向翻唱实验和声音风格转换。
阅读全文Ideogram 4 面向海报、商品图、排版和带文字的图像生成,工具页根据官方模型页、技术博客和开源权重资料说明能力边界。
阅读全文MIDI Converter 不是神经模型,而是确定性文件转换工具,用于在标准 MIDI 文件和文本编码之间做可复现转换。
阅读全文Zyphra 发布 Apache-2.0 的 ZONOS2。它采用 8B 总参数、约 900M 激活参数的 MoE TTS 架构,训练数据超过 600 万小时;本文基于官方资料解释 SOTA 口径、语言层级、voice cloning 边界,以及 TelkNet 已接入的 ZONOS2 人声克隆 TTS 工具体验。
阅读全文
模型更新后的第三方研究简报引入 Google 官方图表,梳理 MRT2 的低延迟控制、MIDI/文本/音频输入、2.4B/230M 双模型结构、SpectroStream/MusicCoCa 链路,以及它和一键生成整首歌工作流的差异。
阅读全文