模型2026-06-08

Google Magenta RealTime 2：实时音乐模型从“生成器”走向“可演奏乐器”

更新后的第三方研究简报引入 Google 官方图表，梳理 MRT2 的低延迟控制、MIDI/文本/音频输入、2.4B/230M 双模型结构、SpectroStream/MusicCoCa 链路，以及它和一键生成整首歌工作流的差异。

参考资料

官方资料Magenta RealTime 2 official pageOfficial Google Magenta release page and figures.模型卡google/magenta-realtime-2Official model card with data notes and limitations.

摘要

Google Magenta RealTime 2（MRT2）不是传统意义上“输入提示词、等待完整曲目”的音乐生成器。官方发布页把它定义为 open model、实时推理引擎和示例应用的组合：2.4B 参数 base 模型、230M 参数 small 模型、SpectroStream 音频 codec、MusicCoCa 风格表征、MIDI/文本/音频控制，以及可在本地设备上运行的实时音乐生成体验。

这篇更新版文章加入 Google 官方图表和模型卡证据，重点解释 MRT2 的独特位置：它不是要直接替代编曲、混音或完整歌曲制作，而是把 AI 音乐模型向“可演奏、可控制、可嵌入 DAW 和现场互动”的方向推进。换句话说，它更像一个实时合奏对象，而不是一台离线出歌机器。

维度	Magenta RealTime 2	常见 prompt-to-track 生成器	对用户的实际影响
交互节奏	听、演奏、调整、继续生成。	输入提示词后等待完整结果。	MRT2 更适合实时实验和演出，后者更适合快速拿到成品草稿。
控制输入	MIDI、文本、音频共同控制。	通常以文本提示词和少量结构参数为主。	MIDI 让模型能跟演奏动作发生关系。
运行位置	官方强调本地、open weights、Apple Silicon 示例应用和 DAW 插件。	多为云端服务。	MRT2 更便于研究、插件和本地创作软件集成，但也要求本地硬件。
输出目标	连续、可被引导的音乐音频流。	完整歌曲或完整片段。	MRT2 更像实时乐器/伴奏者，不是成品歌曲工厂。
创作边界	模型卡强调主要支持 instrumental music，并提到非词汇化 vocal sounds 的限制。	常以人声歌曲生成作为主要卖点。	MRT2 更适合器乐、纹理、伴奏和互动音乐场景。

维度	官方资料	准确解读
许可	代码 Apache-2.0，模型权重 CC-BY 4.0。	不是单一许可；集成时要同时看代码、权重和使用条款。
模型规模	2.4B base / 230M small。	base 与 small 对应质量和本地运行门槛的不同取舍。
音频 codec	SpectroStream 将 48kHz stereo 音频转换为 tokens，25Hz frame rate、64 RVQ depth、10 bit codes、16kbps。	实时性来自模型和 codec/流式表示的共同设计，而不只是采样率。
输入控制	文本、音频示例、MIDI。	三种输入分别承担风格、上下文和演奏状态控制。
训练数据	约 7.1 万小时 stock music，主要是器乐。	应谨慎期待人声歌词生成；模型卡也提示 vocal sounds 多为非词汇化。
评测	模型卡称 MRT2 技术报告和评测结果将后续发布。	当前不应编造排行榜或未公开分数；只能引用官方已给出的结构和限制。

Google Magenta RealTime 2：实时音乐模型从“生成器”走向“可演奏乐器”

参考资料

Google Magenta RealTime 2：实时音乐模型从“生成器”走向“可演奏乐器”

独到看法：MRT2 真正改变的是交互关系

技术证据：不是只把模型做大

低延迟到底意味着什么

和“一键生成整首歌”的区别

MRT2 官方资料中的关键事实

TelkNet 读法

参考资料