Jukebox 音乐生成模型解读

Jukebox

Jukebox是OpenAI发布的一个自动点唱机,这是一种生成音乐的神经网络,它能生成包括基本唱法在内的、包含各种流派和艺术家风格的原始音频音乐。

本作品不仅能完成乐曲生成,还能完成完成歌声合成的任务,并且可以指定生成条件(流派、歌手等),生成音频效果清晰,基于pytorch实现的VQ-VAE,训练应用比较便利。同时作者训练使用的120万英文歌曲数据,以及模型的可拓展性、可自定义非常具有吸引力

1 动机和之前的工作

音乐的自动生成可以追溯到半个多世纪以前。一个主要的方法是以钢琴卷帘的形式象征性的生成音乐,这种卷帘指定了要演奏的每个音符的时间、音高、速度和乐器。这已经产生了令人印象深刻的结果,如生成巴赫合唱团,多乐器复调音乐,以及分钟级长的音乐作品。(主要参照MIDI音乐)

但是符号发生器有其局限性--它们无法捕捉人类的声音,也无法捕捉许多对音乐至关重要的更微妙的音色、动态和表现力。另一种不同的方法是直接用波形建模音乐。在音频级别生成音乐是一种挑战,因为序列非常长。一首CD质量的、典型的4分钟歌曲(44khz,16-bit)有超过1000万个时间步。相比之下,GPT-2是1000个时间步,而OpenAI Five每局游戏为数万个时间步。因此,未来学习音乐的高级语义,模型必须处理极其长期的依赖关系。

解决长输入问题的一种方法是使用自动编码器,通过丢弃一些感知上无关的信息,将原始音频压缩到低维空间。然后我们可以训练一个模型在这个压缩空间上生成音频,然后上采样回到原始音频空间。

作者团队选择从事音乐工作,是因为想继续推动生成模型的边界。之前的MuseNet上的工作探索了基于大量MIDI数据的音乐合成。现在在原始音频中,模型必须学会处理高多样性和非常长的结构,而原始音频领域,短期、中期、长期的错误接受度都很低。

2 实现方法

2.1 把音乐压缩成离散编码

点唱机的自动编码模型将音频压缩到一个离散空间,使用一种称作VQ-VAE的基于量化的方法。层级VQ-VAEs能从几组伴奏中生成短的伴奏片段,但由于使用连续的编码器和自回归解码器,它们遭受了分层崩溃。一个简化的变种称作VQ-VAE-2避免了这些问题,它只使用前馈编码器和解码器,在产生高保真图像显示时令人印象深刻。

从VQ-VAE-2中获得灵感,并将他们的方法应用到音乐中。修改了他们的架构如下:

  • 为了减轻VQ-VAE模型常见的码本崩溃,使用随机重启,当使用量低于阈值时,随机将码本向量重置为其中一个编码的隐状态;
  • 为了最大限度地利用上层,使用单独的解码器,并独立地重建每个层次的编码输入;
  • 为了使模型能够容易地重建更高的频率,增加了光谱损耗,惩罚输入和重建光谱图差异的标准;

在VQ-VAE中使用三个级别,分别将44kHz的原始音频压缩为8x、32x和128x,每个级别的码本大小为2048。这种下采样失去了大部分的音频细节,当我们进一步下降层级,声音明显嘈杂。但是,它保留了音频的音调、音色和音量的基本信息。

2.2 使用transformers生成编码

接下来,我们训练先前的模型,其目的是学习VQ-VAE编码的音乐编码的分布,并在这个压缩的离散空间中生成音乐。像VQ-VAE一样,我们有三个层次的先验:一个顶层先验产生最多的压缩编码,两个上采样先验产生较少的压缩编码。

顶层先验模型描述了音乐的远程结构,从这个层次解码的样本具有较低的音频质量,但是捕获了高级语义,如歌唱和旋律。中层和底层的上采样先验添加了本地音乐结构,如音色,显著改善音频质量。

我们使用一个简化的变种稀疏Transformers来训练这些自回归模型。每个模型都有72层分解的在8192个编码上下文的自注意,分别相当于在24秒、6秒、1.5秒的原始音频,分布在顶层、中层和底层。

一旦所有的先验都经过训练,我们就可以从顶层生成编码,使用上采样器对它们进行上采样,然后使用VQ-VAE解码器将它们解码回原始音频空间,从而对新颖的歌曲进行生成。

2.3 数据集

训练这个模型,使用了网上搜索的120万首歌曲(其中60万首是英文歌曲),并与LyricWiki中相应的歌词和元数据进行了配对。元数据包括歌曲的作者、专辑和年份,以及与每首歌相关的常见情绪或播放列表关键字。在32位、44.1kHz的原始音频上进行训练,并通过随机混合左右声道产生单声道音频来实现数据增强。

2.4 艺术家和流派条件作用

顶层Transformer接受“预测压缩音频令牌”的训练。可以提供额外的信息,比如每首歌的歌手和风格。这有两个优点:第一,它减少了音频预测的熵,因此模型能够在任何特定的风格中获得更好的质量;第二,在生成时,我们能够引导模型按照我们选择的风格生成。

2.5 歌词条件作用

除了艺术家和流派,我们可以通过调节歌曲的歌词模型,在训练时提供更多的背景。

一个重大的挑战是缺乏一个良好对齐的数据集:只有歌词级别的歌曲,没有对齐的音乐,因此对于给定的音频块,不知道歌词的哪一部分(如果有的话)出现。也有可能有与歌词版本不匹配的歌曲版本,如果一首给定的歌曲是由几个不同的歌手以略有不同的方式演唱,就可能发生这种情况。此外,歌手经常重复短语,或以其他方式改变歌词,而这些并不总是被写在歌词里。

为了将音频部分与相应的歌词匹配,从一个简单的启发式方法开始,将歌词的字符线性地跨越每首歌的持续时间,并在训练期间传递一个固定大小的字符窗口,该窗口以当前片段为中心。虽然这种简单的线性对齐策略出人意料的奏效,但发现它对于某些歌词速度快的流派来说是失败的,比如嘻哈。为了解决这个问题,使用Spleeter从每首歌中提取人声,并在提取的人声上运行NUS AutoLyricsAlign,以获得歌词的精确单词级比对。选择了一个足够大的窗口,以便实际的歌词有很高的可能性在窗口内。

为了关注歌词,添加了一个编码器来生成歌词的表示,并添加了注意力层,它使用音乐解码器的索引来关注歌词编码器的keys和values。经过训练,模型能学习到一个更精确的校准。

3 局限性

尽管自动点唱机代表着音乐质量、连贯性、音频样本长度以及对艺术家、流派和歌词进行调整的能力上向前迈进了一步,但这些与人类创造的音乐之间还是存在巨大的差距。例如,虽然生成的歌曲表现出当地音乐的连贯性,遵循传统的和弦模式,甚至可以表现出令人印象深刻的独奏,但我们没有听到熟悉的更大的音乐结构,如重复的合唱。

下采样和上采样过程中引入了可辨别的噪声,改善VQ-VAE,使其编码捕捉更多音乐信息,将有助于减少这一点。

由于抽样的自回归性质,模型抽样速度也很慢。通过模型渲染一分钟的音频大约需要9个小时,因此它们还不能用于交互式应用程序。使用将模型提取到并联取样器的技术可以显著加快取样速度。

最后,目前训练的还是英语歌词和西式音乐,在未来,期望能包括其他语言和世界各地的歌曲。

4 个人展望

采用VQ-VAE直接对音频进行建模,并使用当下流行的Transformer做编码预测,使得该工作有很扎实的基础。其实在考虑完全的有人声歌曲的时候,可以考虑限定使用范围,让模型更专注和高效。例如,通过人声分离,构建专门的伴奏数据集,同时限定片段生成长度,例如1分钟内。更长时间的结构和样式可以用人工pattern来替代。生成有限伴奏音乐,同时这样对于错误的容忍度也比人声歌曲要高很多。

构建伴奏数据集也是一项重要和富有考验的事情,并且可以先期应用到其他APP里。

张健源

人工智能 图像识别 语音合成 自动作曲 自动绘画 复杂系统

北京 海淀