人声伴奏分离 (RoFormer) · TelkNet

分离与拆轨GPU 工作流

人声伴奏分离

想先拿到更干净人声，再做练习、配唱或二次创作的用户

人声与伴奏分轨，可继续练唱、采样、转写或接入翻唱链路

4 积分/次音频文件输入最大 50 MB预计 180-900 秒

查看这项工具的技术介绍

打开对应长文，了解模型背景、工作流程、局限性和实际使用建议。

输入

完整歌曲、翻唱素材或带伴奏的人声文件；先做 RoFormer stem 分离

音频格式

mp3wavflacoggm4aaac

输出

人声与伴奏分轨，可继续练唱、采样、转写或接入翻唱链路

最适合

想先拿到更干净人声，再做练习、配唱或二次创作的用户

模型、参数和来源

人声/伴奏分离现在是固定的 RoFormer 分离器链。它不调用 YourMT3，输出带和声的人声、不带和声的伴奏、原始人声和带和声的伴奏。

RoFormer vocal_rvc ensemble

主要人声/伴奏分离阶段。TelkNet 使用针对人声和 RVC 输入优化的 audio-separator RoFormer ensemble，而不是转录模型。

python-audio-separator MVSep algorithms Mel-Band RoFormer BS-RoFormer

活动检查点：vocal_rvc 合奏中的 melband_roformer_big_beta6x 加上 mel_band_roformer_vocals_fv4_gabox。
主要输出：vocals_with_harmony 和 accompaniment_without_harmony。
质量预设：WAV 输出、segment_size 256、overlap 50、batch_size 1、pitch_shift 0。

Karaoke lead/back vocal ensemble

第二遍主唱/后唱分离。它仅在提取的声干上运行，因此可以保留和声作为和声感知的伴奏。

MVSep Karaoke python-audio-separator Mel-Band RoFormer

活跃的 Karaoke 检查点：aufr33/viperx、gabox v2 和 becruily MelBand RoFormer 变体。
Karaoke 输出：从声干中提取的原始主唱和和声。
最终的和声感知输出将和声与和声伴奏混合在一起，同时保持原始主唱分离。

audio-separator runtime

UVR/MVSep 风格分离器 checkpoint 的运行时封装。它提供该工具使用的模型加载、WAV stem 导出和 FFmpeg 音频格式处理。

python-audio-separator

运行时：具有本地模型资产的音频分离器 0.44.1 兼容链；生产环境不需要运行时下载。
通过 FFmpeg/ffprobe 路径验证的输入格式：mp3、wav、flac、ogg、m4a 和 aac。

型号对比

模型

作用

选择原因

影响的输出

模型RoFormer vocal_rvc ensemble

python-audio-separator MVSep algorithms Mel-Band RoFormer BS-RoFormer

作用主要人声/乐器分离

选择原因选择质量第一的人声分离并与 RVC 风格人声兼容。

影响的输出和声的人声+不和声的伴奏

模型Karaoke ensemble

python-audio-separator MVSep algorithms Mel-Band RoFormer BS-RoFormer

作用主音/后音分离

选择原因添加该工具所要求的和声区别：主唱保持独立，和声可以返回伴奏。

影响的输出原始人声 + 和声伴奏

模型YourMT3 / MIROS

mimbres/YourMT3 amt-os/ai4m-miros

作用本分离工具中未使用

选择原因YourMT3/MIROS 是转录后端；它们属于 MIDI 工具，而不是音频干分离。

影响的输出这里没有茎输出

论文与基准说明

Mel-Band RoFormer for Music Source Separation

arXiv / ISMIR late-breaking demo - 2023

Mel-RoFormer 用重叠的 mel-band 子带取代了启发式非重叠带，并报告在 MUSDB18HQ 上的人声、鼓和其他主干方面比 BS-RoFormer 具有更好的分离度。

arXiv:2310.01809

Music Source Separation with Band-Split RoPE Transformer

SDX23 music separation track - 2023

BS-RoFormer 使用带分割频谱图功能加上 RoPE Transformer； SDX23系统在音乐源分离音轨中排名第一，较小的版本在MUSDB18HQ上报告了9.80 dB平均SDR。

arXiv:2309.02612

The Sound Demixing Challenge 2023 - Music Demixing Track

TISMIR - 2024

SDX23 音乐解混论文记录了强大的 MSS 基准测试、听力测试，并且最佳系统在 MDXDB21 上比之前的挑战提高了 1.6 dB SDR 以上。

官方 / 仓库

python-audio-separator MVSep algorithms MVSep Karaoke

论文/技术笔记

Mel-Band RoFormer BS-RoFormer

参数指南

先分离：在转写目标音频前先分离人声/伴奏或 stem。
保存分离轨：保留 stem 或分轨输出，便于单独下载。
人声和声分离：尝试拆分主唱与和声。
固定适配器：由 tool_id 选择专用模型，不暴露通用 YourMT3 参数。

推荐场景

提取清唱做人声练习或二次创作
分离伴奏后继续做混音、剪辑或采样
给后续 MIDI 转写和 RVC 翻唱流程先清理素材

操作建议

1上传整首歌或人声混合素材
2先拿到人声/伴奏分轨
3根据分轨结果继续转写、翻唱或导出使用

提交前检查

优先上传主体清晰、混响不过重的音频
如果只需要伴奏练习，先确认原文件左右声道没有严重失衡
输出更适合继续加工，不是最终母带修复结果

使用工具需要登录

登录或注册账户后即可上传文件、提交任务，并在工作台查看结果。

浏览工具信息始终免费，无需账户。