阿里巴巴语音交互智能团队：基于线性网络的语音合成说话人自适应

好句子 2011-03-21 12:20:22

相关推荐

语音领域的顶会 ICASSP 2018 将于 4 月 15-20 日在加拿大阿尔伯塔卡尔加里市举行。据机器之心了解，国内科技巨头阿里巴巴语音交互智能团队有 5 篇论文被此大会接收。本文对论文《Linear networks based speaker adaptation for speech synthesis》做了编译介绍。欢迎大家向机器之心推荐优秀的 ICASSP 2018 相关论文。

论文：Linear networks based speaker adaptation for speech synthesis

原文链接：https://arxiv.org/abs/1803.02445

摘要：说话人自适应算法利用说话人少量语料来建立说话人自适应语音合成系统，该系统能够合成令人满意的语音。在本文中，我们提出了基于线性网络的语音合成说话人自适应算法。该算法对每个说话人学习特定的线性网络，从而获得属于目标说话人的声学模型。通过该算法，使用 200 句目标说话人的自适应语料训练的说话人自适应系统能够获得和使用 1000 句训练的说话人相关系统相近的合成效果。

研究背景

对于一个目标说话人，如果他（她）拥有充足的训练数据，那么我们便可以建立一个说话人相关的声学模型，基于该声学模型的系统称之为说话人相关的语音合成系统。利用该系统，我们能够合成和目标说话人声音很像的语音。但是，大多数时候，目标说话人没有充足的数据，这使得合成出来的语音效果不太理想。利用说话人自适应算法，能够基于比较有限的数据来获得较好的语音合成系统，该类算法节省了大量的录音、转录和检查工作，使得建立新的声音的代价变得很小。

本文中，我们提出了基于线性网络（Linear Network, LN）的语音合成说话人自适应算法。该算法通过在源说话人声学模型的层间插入线性网络，然后利用目标说话人的数据来更新该线性网络和神经网络的输出层，从而能够获得属于目标说话人的声学模型。另外，一种基于低秩分解（low-rank plus diagonal，LRPD）的模型压缩算法被应用于线性网络。实验发现，当数据量较少的时候，通过 LRPD 来移除一些冗余的参数，从而能够使得系统合成的声音更加稳定。

算法描述

本文中，源说话人声学模型是一个基于多任务（multi-task）DNN-BLSTM 的声学模型，见 Fig. 1 左侧。声学模型的输入为语音学特征，输出为声学特征。声学特征包括梅尔倒谱系数等。实验证明，在声学模型的底层使用深层神经网络（Deep Neural Network，DNN）可以获得更好的底层特征，并且收敛速度上相比于不使用 DNN 更快。在输出层上，不同的声学特征使用各自的输出层，它们仅共享声学模型的隐层。

基于线性网络的自适应算法首先被提出于语音识别领域，它的系统结构见 Fig. 1 右侧。根据线性网络插入的位置不同，它可以被分为线性输入网络（Linear Input Network，LIN）、线性隐层网络（Linear Hidden Network，LHN）和线性输出网络（Linear Output Network，LON）。

结论

本文中，基于线性网络的说话人自适应算法被应用于语音合成领域，基于 LRPD 的模型压缩算法能够提高声音的稳定性。通过三对不同的源说话人-目标说话人的实验，我们发现，当自适应句子数目非常少的时候，LRPD 能够提升声音的稳定性。另外，通过提出的算法，使用 200 句目标说话人的训练语料训练的说话人自适应系统能够获得和使用 1000 句训练的说话人相关系统相近的效果。

阅读剩余内容

阿里巴巴说话人语音智能团队

阿里巴巴语音交互智能团队：基于线性网络的语音合成说话人自适应

华裔科学家成功解码脑电波 AI直接从大脑中合成语音

新技术将脑信号合成语音有望帮助失语者重获“说话”能力

吴恩达盛赞的Deep Voice详解教程教你快速理解百度的语音合成原理（上）

吴恩达盛赞的Deep Voice详解教程教你快速理解百度的语音合成原理（上）

吴恩达盛赞的Deep Voice详解教程教你快速理解百度的语音合成原理（上）

马东团队推出“教人说话”的付费语音课程销售额首日破500万