Empirical Evaluation of Speaker Adaptation on DNN based Acoustic Model

DNN声学模型说话人自适应的经验性评估

2018年3月27日

发表于：Sound (cs.SD); Computation and Language (cs.CL); Audio and Speech Processing (eess.AS)

说话人自适应时从说话人无关模型中估计一个说话人相关的声学模型，以减小训练集与测试集由于说话人差异导致的不匹配。

已经出现了许多DNN自适应方法，但是缺乏实验比较。

声学模型采用TDNN-LSTM声学模型。

自适应源时标准中文普通话声学模型

自适应目标是带口音的中文普通话声学模型

本文对三种典型的说话人自适应方法：

LIN
LHUC
KLD

进行经验性评估。对上述三种模型及其组合进行了性能比较。

关于说话人口音程度对说话人自适应性能的影响，本文也进行了测试。

训练-测试不匹配：训练集不能匹配新声学环境或者不能泛化至新的说话人。

为了解决未见过说话人识别问题以及声学环境不匹配问题，提出了多种声学模型补偿和自适应方法。

DNN自适应方法可以粗略地分为三类：

说话人适应层插入方法

LIN、LHN、LON是最常见的说话人适应层插入方法，其中LIN最常用。

LHUC（Learning Hidden Unit Contribution）是说话人适应层插入方法地新类型，通过插入特殊的层以控制隐层的幅值（amplitude），使得SI网络参数变得说话人相关。

LIN的训练通常使用一个较小的学习率，如0.00001。
子空间方法

目标是找到一个用于自适应的低维说话人子空间。最直觉的应用是使用基于子空间的特征，如：i-Vectors，作为神经网络声学模型训练中的增补特征，或用于说话人自适应训练（SAT）。

除子空间的特征之外的另一种子空间方法，被称为：说话人编码，也是把特征用作增补[25]。

对于每个说话人，特定神经网络单元集合被链接到原始SI网络中，并进行优化。

基于i-Vector的SAT已经称为训练DNN声学模型时的小技巧，以提供较小但稳定的性能提升。
模型直接适应方法

一种直觉的想法是使用新的说话人数据来直接调整DNN参数。使用新数据来对SI模型进行重训练/调优是最简单的方式，又被称为重训练说话人无关（Retrained Speaker Independent，RSI）自适应。为避免过拟合，通常进行保守训练（Conservative Training），如KL散度（Kullback-Leibler Divergence）正则化[26]。通过把KL散度项添加到用于更新神经网络参数的原交叉熵代价函数中，该方法试图将适应后模型的后验分布接近于用于适应的源模型。虽然该方法十分有效，但是需要为每个说话人构建一个神经网络。

KLD正则化

L2正则化项使得自适应后模型参数与SI模型参数相接近。

对于声学模型训练，需要最小化交叉熵：