Mel-Band RoFormer for Music Source Separation
arXiv / ISMIR late-breaking demo - 2023
Mel-RoFormer 用重叠的 mel-band 子带取代了启发式非重叠带,并报告在 MUSDB18HQ 上的人声、鼓和其他主干方面比 BS-RoFormer 具有更好的分离度。
想先拿到更干净人声,再做练习、配唱或二次创作的用户
人声与伴奏分轨,可继续练唱、采样、转写或接入翻唱链路
打开对应长文,了解模型背景、工作流程、局限性和实际使用建议。
输入
完整歌曲、翻唱素材或带伴奏的人声文件;先做 RoFormer stem 分离
音频格式
输出
人声与伴奏分轨,可继续练唱、采样、转写或接入翻唱链路
最适合
想先拿到更干净人声,再做练习、配唱或二次创作的用户
人声/伴奏分离现在是固定的 RoFormer 分离器链。它不调用 YourMT3,输出带和声的人声、不带和声的伴奏、原始人声和带和声的伴奏。
主要人声/伴奏分离阶段。TelkNet 使用针对人声和 RVC 输入优化的 audio-separator RoFormer ensemble,而不是转录模型。
第二遍主唱/后唱分离。它仅在提取的声干上运行,因此可以保留和声作为和声感知的伴奏。
UVR/MVSep 风格分离器 checkpoint 的运行时封装。它提供该工具使用的模型加载、WAV stem 导出和 FFmpeg 音频格式处理。
arXiv / ISMIR late-breaking demo - 2023
Mel-RoFormer 用重叠的 mel-band 子带取代了启发式非重叠带,并报告在 MUSDB18HQ 上的人声、鼓和其他主干方面比 BS-RoFormer 具有更好的分离度。
SDX23 music separation track - 2023
BS-RoFormer 使用带分割频谱图功能加上 RoPE Transformer; SDX23系统在音乐源分离音轨中排名第一,较小的版本在MUSDB18HQ上报告了9.80 dB平均SDR。
TISMIR - 2024
SDX23 音乐解混论文记录了强大的 MSS 基准测试、听力测试,并且最佳系统在 MDXDB21 上比之前的挑战提高了 1.6 dB SDR 以上。