导航菜单

基于CMN网络的低资源柯尔克孜语识别研究

孙杰 吾守尔·斯拉木 热依曼·吐尔逊
关键词: 语音识别; 低资源; 柯尔克孜语; 跨语种声学模型; CMN; 音素映射
中图分类号: TN711?34; TP391                 文献标识码: A                    文章编号: 1004?373X(2018)24?0132?05
Research on CMN?based recognition of Kirgiz with less resources
SUN Jie1,2, Wushour Silamu1, Reyiman Tursun1
(1. School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China;
2. Department of Physics, Changji University, Changji 831100, China)
Abstract: As there exists low recognition rate caused by sparse training data during the speech recognition of minority languages, a cross?language acoustic model based on convolutional maxout networks (CMNs) is constructed in this paper for less?resource Kirgiz recognition. In the CMN model, the local sampling and weight sharing technologies of the convolutional neural network (CNN) are used to reduce network parameters. The convolutional kernel of the CNN is replaced by the maxout neuron to improve the extraction capability of network abstract features. The cross?language CMN is pre?trained by using the Uygur language with relatively?rich resources. The Dropout regularization training method is used to prevent over?fitting. The phoneme mapping set based on forced alignment of synonyms is created according to the similarities of the two languages. The to?be recognized Kirgiz data is marked. The CMN parameters are fine?tuned by using the limited corpus of the target language. The experimental results show that the word error rate of the proposed CMN acoustic model is 8.3% lower than that of the baseline CNN acoustic model.
Keywords: speech recognition; less resource; Kirgiz; cross?language acoustic model; CMN; phoneme mapping0  引  言
“一带一路”倡仪的提出使得我国与周边国家的商贸往来和文化交流日趋频繁。多语言特别是小语种的自动语言翻译机成为地区间互联互通的迫切需求。
小语种语音识别面临的困难是标注数据匮乏难以建立鲁棒的声学模型。目前,低资源条件下构建跨语种声学模型是一个研究的热点问题。Schultz等人提出利用Bootstrap将多个单语种的声学模型集成为跨语言的通用音素集,对瑞典语识别时获得最低34.3%的音素错误率,但该方法不能将富语料语种音素的上下文关系转移到目标语声学模型[1]。为此,Imseng等人使用KL距离(Kullback?Leibler divergence) 构建了多语种三音素隐马尔可夫模型HMM(Hidden Markov Model)。该模型的主要思想是用MLP(Multi?Layer Percetron)估计音素的后验概率,用多项式分布描述HMM状态,利用相对熵作为损失函数度量两者之间的距离[2]。实验结果表明,在较小数据集情况下,KL?HMM模型比GMM?HMM[3]模型识别效果好。但该方法假定模型中每个音子的状态转移概率固定,会降低解码精度。Miao,Joy等人在SGMM(Subspace Gaussian Mixture Model)基础上提出了共享SGMM模型,分别使用多语言语料训练模型的共享参数和有限资源语料训练状态特殊的向量,较单语种SGMM在字识别准确率有5%的提升[4?5]。由于深度神经网络[6](Deep Neural Network,DNN)具有强大的抽象特征提取能力,Huang等人将经过多语种训练的深度神经网络的隐藏层用于低资源语种的识别[7],称为共享隐藏层技术(Shared Hidden Layers,SHL)。该方法取得很好的识别效果,但需要多个语种的大量数据对模型进行充分训练。
为了更好利用dropout具有的近似模型平均的功能,Goodfellow提出一种新型前馈maxout网络。基于这种思想[8],Miao提出了DMN[9](Deep Maxout Networks)、Cai引入了SPMN[10](Stochastic Pooling Maxout Networks)方法对有限数据的语言进行语音识别,在Babel数据集上的实验结果表明该方法能有效降低对数据的需求。
受此启发,本文在对语料资源匮乏的柯尔克孜语识别时,提出跨语种的CMN声学建模方法,与文献[9]和文献[10]相比本文的主要不同点是:
1) 借用同一个语系资源相对丰富的维吾尔语数据构建交叉语种的CMN网络,作为识别系统的底层特征提取器获得柯尔克孜语音素的后验概率;
2) 使用maxout激活函数替换CNN[11] (Convolutional Neural Networks)的卷积操作,增强模型的非线性表达能力;
3) 通过maxout神经元具有的仿射变换结构,在CMN训练时引入dropout方法,增加模型平均的能力。
最后,根据语言的相似性,对维语和柯语表示相同意义的词进行强制对齐,用数据驱动方法建立维语到柯语的音素映射集,并用映射结果标注柯尔克孜语,利用有限标注数据微调网络参数,进一步提高柯尔克孜语的识别精度。1  跨语种的CMN声学模型
跨语种的CMN(Convolutional Maxout Networks)模型是一种前馈型网络,结构类似于卷积神经网络CNN,不同点是将CNN的卷积层和ReLU层替换为仿射变换层和maxout激活层,并在训练时引入dropout正则化方法。CMN网络结构如图1所示。
1.1  仿射变换层和maxout激活层
CMN网络中仿射变换层采用了CNN网络局部采样技术的思想。首先通过一组大小不同的滑动窗口(Window)沿语谱图的频域维度滑动,并将窗口中的每一个神经元与仿射变换层中的[k]个神经元进行全连接;然后对局部输入特征做仿射变换。与CNN卷积层类似,为减少网络的待调节参数,在CMN中定义一个滑动窗口对应一个仿射变换矩阵[W],并通过固定[W]实现不同输入单元共享权值。第[l]层第[i]个窗口对应的仿射变换定义为:
[zli=Wlixl-1+bli]  (1)
式中:[Wli∈Rk×d]是仿射变换矩阵;[xl-1∈Rd]是[l]-1层局部输入向量,[d]代表滑动窗口的大小;[bli]为偏置量。
由式(1)可知仿射变换层中不同的滑动窗口产生不同的仿射特征图,而maxout激活层通过maxout函数对上一层仿射特征图中的[k]个节点取最大值,生成多张特征映射图。maxout激活层中特征映射图节点的激活值为:
[hli(x)=maxj∈[1,k]zl-1ij] (2)
maxout神经元具有非常强的拟合能力,可以拟合任意的凸函数。文献[8]证明当[k]足够大时,只需2个maxout神经元就可拟合任意凸函数。基本思想是任意的凸函数都可由分段线性函数以任意精度拟合,而maxout层神经元是取前一层k个节点的最大值,同时这些节点都是线性的。因此在不同的取值范围内最大值也被看作是分段线性的,分段的个数与k值相关。图2是用maxout神经元分别拟合正线性函数、绝对值函数和二次函数的情况。
1.2  跨通道聚合层
在CMN结构中,两个maxout层后通常接一个跨通道聚合层。跨通道聚合层采用池化(pooling)技术将多个特征映射层相同位置的特征点整合为新的特征,其功能主要有两个:一是压缩maxout激活层的特征维度,减少网络参数,从而减少对训练数据的需求;二是提升CMN网络声学模型的鲁棒性,即对输入特征的微小变化保持不变性(旋转、平移和伸缩等)。常用池化技术有最大池化(max?pooling)和均值池化(mean?pooling)等。本文采用均值池化,聚合后的神经元为:
[Pmi=averagej∈i?k…(i+1)?k(hmj)]  (3)
式中:[Pmi]是第m层第i个神经元;k是采样因子。
1.3  全连接层和HMM
CMN网络末端是一个全连接层和一个softmax层以及一个HMM(Hidden Markov Model)模型。最后一个softmax层输出为音素的后验概率,其概率得分可以看作是隐马尔科夫模型的发射概率,定义为:
[p(y(i)=jx(i);θ)=eθTjx(i)l=1keθTlx(i)] (4)
式中:[θ]是权重矩阵;[l=1keθTlx(i)]是归一化因子。
1.4  Dropout正则化训练
深度神经网络DNN参数通常达百万数量级,当标注数据不足时网络会过度学习到训练集上的分类权重,在测试集上泛化性能较差。在CMN网络中,除使用共享权值矩阵防止过拟合外,还可利用maxout层的仿射变换结构引入dropout正则化训练方法,在每次训练时以一定的概率对网络的神经元进行舍取,减少网络待调节参数防止过拟合。应用dropout后第[l]层上神经元的激活值为:
[hl=σ(WTlhl-1+bl)?ml]  (5)
式中:“[?]”代表向量对应元素相乘;[ml]为二进制掩码且服从[Bernoulli(1-p)]分布,[p]通常称为dropout的丢弃率。由于训练阶段神经元以[(1-p)]概率保持,测试时须还原出训练时的网络行为,需要通过比例因子[(1-p)]缩放激活函数,导致训练后模型不固定。反转dropout基本思想與dropout基本一致,只是在训练时对神经元激活值进行比例缩放,测试时保持不变,达到一次定义模型的目的。训练时反转dropout应用于第[l]层神经元的激活为:
[hl=(1-p)-1σ(WTlhl-1+bl)?ml]  (6)2  发音词典的转换
在交叉语种识别时要建立源语言到目标语发音词典的转换,实现目标语料的转写、发音词典的构建和识别结果的转换。
2.1  维语与柯语的语言学关系
维语和柯语分别是维吾尔语与柯尔克孜语的简称,其文字均以阿拉伯字母书写,同时辅以拉丁文进行补充和完善。按照谱系关系,二者被归于阿尔泰语系突厥语族,属于有亲属关系的两种语言。从语言学角度看,维语和柯语在语音、词汇和语法规则上存在一定的相似关系:
收藏此文 赞一个 ( ) 打赏本站

如果本文对你有所帮助请打赏本站

  • 打赏方法如下:
  • 支付宝打赏
    支付宝扫描打赏
    微信打赏
    微信扫描打赏
留言与评论(共有 0 条评论)
   
验证码:
二维码