Swipe to the left

ACE Studio 2.0 人声合成软件

2026年3月18日

ACE Studio 2 开始雄心勃勃地扩展，超越其声音合成的本源。

当 SOS 在 2024 年 11 月刊首次评测 ACE Studio 时，这款产品已经在尝试一项相当宏大的任务：一款虚拟乐器，提供基于 AI 的声音合成，能够从 MIDI 音符和歌词数据生成自然的人声。总体而言，它表现得相当出色，让你可以为项目创建虚拟人声，其质量足以满足许多显而易见的应用场景。

ACE Studio 2.0 依旧以人声合成为核心卖点，但 v2 版本让 ACE Studio 进化为一体化 AI 音乐工作室：引入更接近录音软件的工作流程、全新的乐器合成思路、声音克隆，以及多种生成式 AI 音乐功能。

伦理训练

在深入体验这些扩展功能之前，先直面房间里的大象。ACE Studio 的各项 AI 功能显然需要训练数据。母公司 Timedomain 明确表示，他们采用伦理方式获取数据：与音乐人/表演者合作并给予合理报酬。无论你对人声合成或生成式音乐持何态度，至少基于训练内容版权或知识产权的批评，在这里已被妥善化解。

Vocal Chops

人声合成仍是 ACE Studio 2.0 的核心功能，其操作方式与初代大体相同。在类似录音软件的轨道-时间线界面里，你可以先在轨道上创建一段 MIDI，给音符填入歌词，再选一个声库，ACE Studio 就会用所选声音把这段音符/歌词唱出来。

MIDI 片段可手动编辑、实时录制、导入 MIDI 文件，也可以先录一段自己的“草稿”干声，再用强大的“人声转 MIDI”功能。该功能会从你的干声里提取音高与歌词，生成适合合成引擎的 MIDI 片段。虽然后续可能还需微调，但只要原始录音干净、没有和声或混响延迟等效果，即使你不自认是歌手，也能高效完成。和之前一样，渲染可在云端完成；若本机 CPU/GPU 达标，也可启用本地“Turbo”模式，进一步缩短耗时。

ACE Studio 2.0 在虚拟乐器音色的合成方面带来了一种非常有趣的尝试。

该合成引擎会尝试为你所选声库渲染出的人声加入一些自然的表演元素。由于 2.0 大幅扩充了可用声库目录，现已涵盖多种音乐风格、性别、年龄段和母语，你可以尽情实验，找到最适合自己音乐项目的嗓音特质。全新的 Verse25 合成引擎提供四个参数——Power、Soft、Breathy 和 Chest，以及可选的呼吸噪声——均可自动化，以进一步丰富人声表现。若你使用的是 2.0 之前的声库，也可以随时调用早期版本的合成引擎。

人声合成功能集中新增了两项关键功能：合唱模式与混合声线。后者概念上很简单：你只需通过音轨头面板添加额外的声库，调整它们的音量比例，合成引擎在渲染时就会融合它们的音色特征。合唱模式则允许你从同一段 MIDI/歌词片段生成多重人声，并可控制它们的时间紧密度（偏移）、立体声宽度（扩散）与增益。当然，你也可以使用多个不同的声库来获得真正的合唱效果，或使用同一声库的多个实例来实现人声叠加等效果。结果令人印象深刻。

除了新增大量声库外，引擎现在还包含了混合声线与合唱模式。

此外，你现在还可以克隆自己的声音（或你录下的其他歌手的声音）。正如我最近评测 IKM 的 ReSing 时体验到的类似功能，这可不是一件能轻率对待的事。我确实用 ACE Studio 的这项技术做了实验，尽管训练数据相当有限，结果依然令人惊喜——像我又不太像我——但我猜，你得准备一套庞大且多样、录制干净的演唱样本，才能让克隆效果媲美内置声库。

类录音软件环境

焕然一新的主工作区——画布——提供了一个熟悉的录音软件风格环境，你可以在其中添加音频和 MIDI 轨道，并在时间线上录制或排列片段。这些片段或其内容的基础编辑工具并不像主流 DAW 那样功能齐全，但 MIDI 编辑环境针对 ACE Studio 的亮点——AI 人声与乐器音色——做了专门优化。对于音频片段，你可以在这里使用全新的 Stem 分离器，它提供三种不同的分离模式。分离效果总体不错，能在软件内直接完成这一流程也非常方便。

除了 Vocal To MIDI 功能外，音频片段现在还可以直接使用分轨工具。

额外的轨道类型包括和弦轨道与速度/拍号变更轨道。对于后两者，现有 MIDI 数据会自动跟随所做的更改，但目前尚未对现有音频片段进行类似的时间拉伸。和弦轨道允许你在时间线上编排和弦进行。播放时，它仅触发一段简单的钢琴声部，非常适合在你创作基于 MIDI 的声乐或乐器创意时作为伴奏。然而，它不会与画布中的其他内容（MIDI 或音频）互动；在和弦轨道中更改和弦不会重新编排你的声乐、乐器或现有音频以匹配新和弦。

与更传统的录音软件相比，混音环境相当基础，但你当然可以通过 ACE Bridge 2 插件或在支持 ARA 的录音软件中使用 ARA，将 ACE Studio 与录音软件集成。

乐器的声乐合成

对我来说，2.0 版最吸引人的新功能是 AI 乐器合成。首批乐器集中在非和弦类选项，如小提琴、大提琴、小号或萨克斯。它们采用与歌声合成引擎相同的方法：用真实演奏家的演奏构建“声库”，然后引擎尝试将这些人味注入渲染出的演奏。同样，引擎还能“智能”地根据演奏性质自动切换奏法。贴心的是，在渲染前，每种乐器都会提供基础音色，方便你在录制初始 MIDI 时实时监听。

这里面的理念非常有趣。借助从真实演奏者身上提取的信息来驱动虚拟演奏，其潜力显而易见。我敢打赌，主流采样型虚拟乐器开发商很快就会把研发脚趾伸进这片水域。事实上，就在我们发稿前，ACE Studio 已宣布与 EastWest 展开新合作，这一进程或许已经启动。

即时交付

ACE Studio 的新 AI 音乐生成功能通过三种途径实现——Inspire Me、Add A Layer 和 Music Enhancer——它们都能根据合适的提示生成音乐创意。Inspire Me 可以从一个提示想法或歌词出发，生成完整歌曲，可选择是否带人声（不过该人声由 AI 生成，并未使用 ACE Studio 自有的歌声合成引擎）。

生成式音乐现已纳入 ACE Studio 的功能套件，Inspire Me 让你只需输入一句简单文字提示，即可生成一首完整歌曲。

“添加层”提供类似功能，但你可在画布中定义片段长度，若只想先写几小节。评测开始时我使用的是 v2.0.2，此时生成的音乐似乎并未真正参考项目内已有内容。然而就在我即将完成评测时，v2.0.5 发布，该功能因此显著改善。举例而言，若你想在画布已有构思上再添加新元素——吉他、贝斯、人声、鼓等——现在已可实现。我尝试了摇滚、House、EDM 等几种风格，结果虽谈不上音乐原创性大奖，偶尔还会出现怪诞片段，但大体上都算贴切。

文档表明，Music Enhancer 会选取你在 Canvas 中当前内容的一段用户定义区域，对其进行分析，然后借助 AI“重新想象”成另一种音乐风格。实际使用时，我发现它时好时坏，经常弹出“分析失败”的提示。不过，Music Enhancer 和 Add A Layer 目前都标注为测试版功能，因此 presumably 后续还会有更多改进……

AI 工具包的另一个组成部分是随附的生成式套件。这是一份可下载的音乐项目与项目元素目录，涵盖多种风格，可作为灵感起点，助你开启创作。歌曲套件通常包含一条伴奏音轨（以音频形式提供，可进行分轨拆分）以及一段演唱人声。后者使用 ACE 自有声库，因此可替换声音，且 MIDI 部分完全可编辑。这些套件充分展示了语音合成引擎的实力，仅为此也值得新用户一试。

演奏 ACE

那么，这些全新且雄心勃勃的功能实际用起来如何？人声合成引擎依旧令人惊艳，更丰富的声库选择也颇受欢迎。总体而言，它的操作极其简单，因此快速完成旋律/歌词初稿并继续深化并不困难。生成的人声已足以应对多种真实场景，例如制作副歌钩子、伴唱与和声。你也可以轻松生成完整的主唱样带，为真人歌手提供参考。若打算让合成主唱真正挑大梁，则需视具体情况而定，能否跨过质量门槛，很大程度上取决于歌曲的最终用途。Voice Cloning 功能也展现出良好开端。

我通过先把自己模仿目标乐器的“哼唱”录成草稿，再用“人声转 MIDI”功能，最后挑选合适的 AI 乐器来演奏生成的 MIDI，成功让各种弦乐和铜管发出非常可用的演奏。

ACE Studio 推出的自研 AI 虚拟乐器也大受欢迎。我录下自己用“哼唱”方式模仿目标乐器，再用 Vocal To MIDI 功能转换，最后挑选合适的 AI 乐器演奏生成的 MIDI，轻松获得非常可用的弦乐与铜管乐段。过程充满乐趣，潜力更是令人期待。拭目以待……好戏或许还在后头。

全新的 Canvas 环境确实让你在 ACE Studio 里能做的远不止人声合成，但它距离成为一款成熟的 DAW 仍有差距；例如，它尚不支持第三方 VST/AU 插件。就基于 AI 的生成式音乐功能而言，由文字提示生成的完整混音在质量与多样性上都像大多数 AI 音乐一样较为通用，而且多样性似乎受限于流派。尽管如此，亲耳听到一首“成品歌曲”如此轻松地诞生，依旧令人震撼；随着 AI 引擎训练库的持续扩充，其效果想必还会进一步提升。

然而，对我来说，缺失的一环在于 AI 生成功能如何与 ACE Studio 的声乐合成整合。例如，当你使用生成流程来创作音乐创意时，输出中的任何人声都是以音频形式生成的。或许这要求有些过高，但如果生成阶段能包含一个选项，直接创建基于 MIDI 的合成歌声，而不是嵌入混音中的音频，那就太棒了。这将真正把 ACE Studio 的两大技术主线以切实有用的方式连接起来。

AI 的五十道阴影

仅凭一条提示就让 AI 生成音乐，这种做法无疑会引发黑白分明、乃至其间无数灰度的争议。好在训练素材的伦理溯源已解决了最显眼的法律顾虑，却仍留下广阔空间，让人出于各种艺术理由持保留态度。那是改日再谈的话题。

在 2.0 版本中，ACE Studio 招牌的声乐合成功能得到了一些非常实用的扩展，我依然认为这应该是决定购买与否的核心卖点。如果你的主要需求就是声乐合成，那么 Dreamtonics 的 Synth V 无疑是其最直接的竞争对手。

Timedomain 显然已将 ACE Studio 视为一个更宏大的概念，在原有的出色虚拟歌姬基础上，新增了三大方向：更贴近录音软件的 Canvas、生成式 AI 音乐以及虚拟乐器合成。其中部分愿景的成果或许尚未落地，但就乐器合成所采用的技术路径而言，我认为它确实颇具看点。这套扩展后的概念是否合你胃口？

优点

人声合成在诸多实际应用中确实有用。

新的乐器合成技术具有相当大的潜力。

声音克隆已有了一个令人鼓舞的开端。

缺点

人声合成与 AI 音乐生成功能的整合或许仍在进行中？

Canvas 尚未成为完全成熟的录音软件替代品。

摘要

ACE Studio 2.0 将软件的功能范围从原本的人声合成大幅拓展，尽管其中一些雄心壮志或许尚未完全实现。

信息

德声科技是ACE Studio中国代理商，ACE Studio Artist 永久版 1995 元，Artist Pro 永久版2780元；

https://www.prettysound.net/brands/ace-studio.html