您好,欢迎来到叨叨游戏网。
搜索
您的当前位置:首页低资源条件下基于I-vector特征的LSTM递归神经网络语音识别系统

低资源条件下基于I-vector特征的LSTM递归神经网络语音识别系统

来源:叨叨游戏网
20l7年2月 井仙胜用 丸 -Vo1.34 No.2 Application Research of Computem Feb.2017 低资源条件下基于i—vector特征的LSTM 递归神经网络语音识别系统冰 黄光许 ,田盎 ,康健 ,刘加 ,夏善红 (1.中国科学院大学,北京100190;2.中国科学院电子学研究所传感技术国家重点实验室,北京100190;3.清 华大学电子工程系清华信息科学与技术国家实验室,北京100084) 摘要:在低资源条件下,由于带标注训练数据较少,搭建的语音识别系统性能往往不甚理想。针对此问题,首 先在声学模型上研究了长短时记忆(LSTM)递归神经网络,通过对长序列进行建模来充分挖掘上下文信息,并且 引入线性投影层减小模型参数;然后研究了在特征空间中对说话人进行建模的技术,提取出能有效反映说话人 和信道信息的身份认证矢量(i-vector);最后将上述研究结合构建了基于i-vector特征的LSTM递归神经网络系 统。在Open KWS 2013标准数据集上进行实验,结果表明该技术相比于深度神经网络基线系统有相对10%的 字节错误率降低。 关键词:语音识别;长短时记忆神经网络;身份认证矢量 中图分类号:TP391.42 文献标志码:A 文章编号:1001—3695(2017)02.0392.05 doi:10.3969/j.issn.1001-3695.2017.02.016 Long short term memory recurrent neural network acoustic models using i-vector for low resource speech recognition Huang Guangxu ,Tian Yao。Kang Jian ,Liu Jia ,Xia Shanhong ,(1.University ofChinese Academy ofSciences,Beijing 100190,China;2.State Key Laboratory of Transducer Technology,Institute ofElectro— nics,Chinese Academy ofsc话 ∞,Beiing 100190,Chifna;3.Tsinghua National Laboratoryfor Information Science&Technology,Dept.of Electronic Engieerning,Tsinghna University,Beqing 100084,China) Abstract:Under the condition of low resource,little labeled training data is available and the performance of speech recogni- tion system is not idea1.To solve this problem.First,this paper investigated long short term memory recurrent neural network (LSTM RNN)for acoustic modeling.It was a powerful tool to model long time series and could make full use of the context in— formation.Linear projection layer reduced the number of model parameters.Then,it explored speaker modeling methods in the feature space,and extracted identity vector(i-vector)which contained the speaker and channel information simultneous—a ly.Finally,it presented a novel system,which combined the LSTM RNN model and i-vector feature.Results on the standard Open KWS 2013 data set show that this technology produces a relative improvement of about 10%in TER over the DNN base- line system. Key words:speech recognition;long short term memory(LSTM);i-vector 这种情况下其语音识别效果还远远达不到令人满意的程度。 0 引言 近年来,深度神经网络(deep neural network,DNN)的研究 根据文献可知,CD—DNN—HMM(context-dependent-deep neurla network.hidden Markov mode1)系统本身较适用于训练数 据充分的场景,在低资源条件下容易对训练集过拟合 ;采用 了固定长度的输入窗来建模语音的上下文特性 ,但是实际 情况下的语音信号具有动态特性,所以不能充分利用上下文信 和应用极大地推动了语音识别的发展,它相对于使用高斯混合 模型(Gaussian mixture model,GMM)搭建的语音识别系统取得 了巨大的进步…,也使得各种语音应用如春笋般涌现。在无 息;没有充分利用说话人和电话信道等信息架进行建模 』。 综上,这些都是导致识别结果较差的原因。 为了克服CD—DNN—HMM建模的缺点,专家们不断探索新 的建模方法,出现的子空间高斯混合模型 J、卷积神经网络模 型 、LSTM递归神经网络模型(1ong short term memory recur— 噪声环境下大数据集的语音识别技术已经非常成熟,但是面对 各种各样的应用场景和噪声环境,特别是在低数据资源条件下 (语音语料等训练数据资源匮乏)说话人无关的语音识别效果 还不甚理想。可以看到,针对一些特定任务,如国家信息安全、 小语种的识别 等,其数据量通常只有几十小时甚至几小时, 收稿日期:2016一O1—04;修回Et期:2016-02-29 rent neural network,I_STM RNN) 以及端到端声学建模 方法 基金项目:国家自然科学基金资助项目(61273268,61370034,61403224) 作者简介:黄光许(1990一),男,四川资中人,硕士研究生,主要研究方向为语音识别技术(huangguangxul3@mails.ucas.ac.en);田矗(1989一), 男,湖南湘西人,博士研究生,主要研究方向为说话人识别技术;康健(1990一),男,北京人,博士研究生,主要研究方向为语音识 ;刘加(1954一), 男,福建福州人,教授,博导,主要研究方向为语音i ̄Jl,l、语音编码及合成;夏善红(1958,),女,北京人,研究员,博导,主要研究方向为电场传感器、 MEMS技术、无限网络传感器. 第2期 黄光许,等:低资源条件下基于i-vector特征的LSTM递归神经网络语音识别系统 ・393・ 等是目前最前沿的研究方向。 本文针对上述问题和低资源的特定场景,展开了对声学模 型和声学特征的研究。在声学模型层面上,本文在实验中对 划的一部分¨ 。具体的语料库信息如下:实验语言为越南语, 采样率为8 kHz的电话对话语音;训练集为87.1 h全集(full language pack,FullLP)有标注语音数据;开发集为10。0 h语音 数据。 本文实验环境的搭建基于KALDI工具包 。实验中采 用的评价指标为国际通用的字节错误率(token elror rate)。具 LSTM递归神经网络模型进行了研究,它能够对长序列建模, 能有效挖掘语音信号的帧间先验信息 ,它引入的线性连接 递归结构克服了普通RNN难以优化和难以对长序列建模的缺 点。在特征层面上,引入了i-vector特征,它能够有效表征说话 人和信道信息 1. j。从本质上说该方法属于子空间方法,具 体计算公式如下: ub+# 1+#TER:—#sdeins——_ ̄——一有清晰的物理意义,并且很容易集成到LSTM递归神经网络系 统中。实验表明,本文提出的基于i-vector特征的LSTM递归 :toks ×100% (7) 其中:#sub、#del和#ins分别代表识别结果中的替换、删除和插 入错误。完全正确为O%,考虑到插入错误,最差可以超过 神经网络表现出了良好的性能,该方法在OPEN KWS 2013标 准数据集上字节错误率获得了显著的下降。 1 GMM.HMM和CD.DNN.HMM语音识别基线系统 1.1 GMM—HMM声学模型 隐马尔可夫模型(hidden markov model,HMM)是一种语音 信号的统计模型,它包括可观测的单状态输出和隐含状态。作 为一个双重随机过程,其中之一是马尔可夫链,它用来描述音 素状态的转移,另一个随机过程用来描述音素状态和信号短时 频谱特征之间的统计对应关系¨ 。GMM—HMM的建模就是将 HMM的状态表示为的多高斯混合模型。数学公式可以表 示为 p( fx) 善∞j1f  × 丽 x expl 一÷(丁  -/*i) 五 -/zi)}j (1) 其中:式(1)是状态A对语音的观测序列 的输出概率, 、乏、 分别表示第i个高斯分量的均值、方差和权重。 1.2 CD.DNN.HMM声学模型 深度神经网络是一种含有多个隐含层的前馈神经网 络¨ 。它包含了输入层、隐含层和输出层。输入特征 由前 后10帧左右的声学特征组成。隐含层是多层的非线性变换。 hf_ (( ) +a ) (2) =h 一 1>0 (3) 其中:hl为i层神经元的输出, 和o:为权重矩阵和偏置。初始 状态 。= 。隐含层的非线性变换使用sigmoid激活函数: ( ) (4) 在输出层£使用softmax函数: p(y=slvL = 劳 ㈣ 这里使用交叉熵作为损失函数来调整参数,定义如下: D 1 D(Xt) l6(y s )logp(ylXt) (6) 其中: 是第t帧的标签;6(),= )表示其为训练数据类别时为 1,其余情况为0;p(yl )表示DNN输出概率。 CD.DNN.HMM就是用DNN的输出层代替GMM来对 HMM的状态概率进行建模。在参数训练过程中,首先使用受 限玻尔兹曼机(restricted Bohzmann machines,RBM)对神经网 络预训练 ,然后再使用标注数据进行有监督训练。 1.3实验配置 本文在实验中使用的数据集来自美国国家标准与技术研 究所(NIST)2013年举办的国际关键词(OPEN KWS 2013)评 测。该评测为美国情报高等计划署IARPA组织的BABEL计 100%。 1.4语音识别基线系统 1)声学特征实验使用的基本声学特征为13维的感知线 性预测(perception linear prediction,PLP)特征,其帧长为25 ms,帧移为10 ms。由于越南语为带调的语言,所以本文还提 取了3维的pitch特征_l ,共得到16维的原始声学特征。然 后对该特征作均值归一化处理和一阶、二阶差分,随后对该特 征作前后各三帧的拼接,对拼接后的特征作LDA(1inear dis- criminant analysis)降至40维,对特征作MLLT(maximum likeli- h0od linear transformation),再使用基于fMLLR(feature space maximum likelihood linear regression)说话人变换” 的说话人自 适应训练方法训练GMM—HMM模型。对于CD-DNN—HMM的 声学特征,本文使用fMLLR特征,并作前后各5帧的拼接(5帧 的上文和5帧的下文),得到440维的输入特征。 2)声学模型 GMM—HMM声学模型的物理状态数为 4 621,高斯混合数目为75 090。CD—DNN—HMM模型使用前馈 全连接的DNN网络结构,网络的输入节点数为440,输出节点 为4 621。DNN共有6层隐含层,每层节点数为2 048。该模型 的参数数量为30.4 million。 3)语言模型实验使用trirgam语言模型,并且使用MKN 算法进行语言模型概率平滑 。发音词典由NIST发布的发 音词典整理而来,本文使用了有调的音素集和发音词典。词汇 量为6 961,音素个数为238。 调整模型参数以获得最优的语音识别基线系统,简称为 GMM-HMM和CD-DNN—HMM,结果如表1所示。 表1 GMM—HMM和CD-DNN—HMM越南语语音识别基线系统 系统描述TER/% GMM HMM 61.0 CD.DNN.HMM 52.9 表1中实验结果与世界上其他重要研究单位在该数据库 上最新报道的实验结果处于同一水平 。在这里也可以看 到CD-DNN・HMM相对于GMM—HMM带来了很大的性能提升, 但与此同时也可以了解到在低资源条件下其语音识别系统性 能较差,这也是开展本文研究工作的意义所在。后续实验中, 笔者将基于CD-DNN—HMM的基线结果进行研究比较,并保持 语言模型、发音词典以及音节等集合均不变。 2基于长短时记忆(LSTM)递归神经网络的声学建 模研究 2.1 LS'I'M递归神经网络声学模型 近两年来,长短时记忆递归神经网络系统在语音识别领域 取得了巨大的成功,将语音识别的错误率显著降低。LSTM递 ・394・ 计算机应用研究 第34卷 归神经网络属于本质上是递归神经网络 圳,但是它解决了 在BP1-r(back propagation through time)训练过程中时间域上的 为1 024,每层对应的递归投影数目为512。该LSTMP递归神 经网络模型参数数量为16.0 million,输入为13维PLP和3维 pitch原始声学特征,输出状态数目为4 621。时延第一层设置为 一梯度消失问题,使模型能够建模信号的长时依赖关系。它刚好 解决了CD—DNN—HMM因为采用固定窗长而不能充分利用上 下文信息的问题。LSTM递归神经网络将隐含层作了改进,其 记忆单元结构如图1所示。 1,第二层为一2,batch数设置为100,学习率设置为0.000 3~ 0.000 03,动量更新设置为0.5,迭代次数为lO次。在实验过 程中为了加速训练过程,使用了NVIDIA K20显卡和CUDA语 言进行声学模型训练。该系统简称为LSTMP RNN。实验结果 如表2所示。 图1 LSTM RNN记忆单元结构 LSTM递归神经网络中递归连接为线性连接,该连接依靠 信号 来控制,该门被称为遗忘门(forget gate)。因为它不需 要经过类似sigmoid函数的非线性变换,所以在Btrl3'训练中, LSTM的梯度信号在不同时刻的传递过程中不会衰减。除了 (a)LSTM Co)LSTMP (C)DLSTMP 图2 LSTMP RNN层间结构 表2基于LSTMP递归神经网络 越南语语音识别系统 系统描述GMM.HMM CD.DNN.HMM 遗忘门之外,还有输入门(input gate)和输出门(output gate), 对应信号i 和O 。在LSTM递归神经网络模型中, 和Y 分别 为t时刻网络的输入和输出。按照文献[8,24]所示,令Ct和 m 分别为t时刻的神经元激活函数输出和隐含层输出,则从 到Y 的计算公式为 i =or(¨ + = TER/% 61.O 52.9 48.8 LsTMPRNN 从表2中可以看到,LSTMP递归神经网络系统的性能明 m 一1+ c 一t+bi) m 一1+ f+ 一l+ ) :(Wi.x + ct= 0Ct—l+i Og( ml一1+bc)  O = (Ⅵ, t+Womm —l+ m =O oh( ) Y : ( Ct+bo) 善(8) (9) 显优于GMM以及DNN的识别结果,该方法能够有效地改善 低资源情况下越南语的语音识别性能。相比于CD.DNN. (10) HMM,模型的层数和参数数目大幅减小,并且该模型还有两个 优点:a)LSTMP递归神经网络由于具有对长时间序列进行建 模的能力,所以它能挖掘更多的上下文信息,在实际建模过程 中它可以直接利用白化后的l6维声学特征进行训练,而不需 要像GMM、DNN系统一样对特征作差分、拼接、LDA以及 (11) (12) (13)  + ) 其中: 、 、 、 是连接输入信号 的权重矩阵;wc 、 、 是连接神经元隐含层输出信号m 的权重矩阵; 是连接神经元激活函数输出矢量 和门函数的 MLLT等.b)该系统也不需要像普通DNN神经网络一样通过 RBM预训练来提供神经网络的初值和权重。 、 、 对角矩阵;bi、bc、b,、bo是偏置向量; 和 是LSTM输出的 权重矩阵和偏置矢量;Ct为胞元的激活函数输出矢量;g和h 是胞元输入到输出的激活函数;g和h通常为tanh函数;or为 3 基于i- ̄ector特征的LS.『M神经网络语音识别系统 3.1 基于GMM—UBM的i- ̄ector声学特征 sigmoid函数; 为输出层的softmax函数;代价函数这里使用交 叉熵,灰色线代表有权重的网络连接关系,灰色虚线代表递归 连接关系。 在实际的建模过程中使用两层的LSTM递归神经网络,对 i-vector因子分析技术由联合因子分析(JFA)演变而来,并 且被成功应用于说话人识别领域 。它假设说话人和信道的 信息处于高斯混合模型各均值构成的高维均值超矢量空间的 一于深层的LSTM递归神经网络,它在时间域和空间域上都具有 深层结构。本文还在递归层引入线性投影 J,使模型参数减 小,并且使得声学模型更具鲁棒性。带线性投影的递归结构被 称为长短时记忆投影(1ong short term memory projected,LST- 个子空间中。i-vector将一段语音信号的声学特征转换成一 个低维的固定长度的特征矢量,保留了关于说话人和信道的信 息 。根据文献[27]所示,选择13维的MFCC作为前端语 通过GMM—UBM(Gaussian mixture model—universal back- 音特征,提取该矢量的流程如图3所示。 ground mode1)方式来提取i-vector矢量 。提取该矢量可以 由式(14)来表示。 M=m+Tw (14) MP)递归神经网络,层间连接如图2(e)所示。在实验中将投 影层数目设置为记忆单元数目的一半,LSTMP递归神经网络 参数数目减小到LSTM递归神经网络的1/4。 2.2基于kS'IMP递归神经网络的语音识别系统 在实验中使用两层的LSTMP递归神经网络,每层节点数 其中:M表示高斯混合模型均值超矢量;m为与说话人和信道 都无关的超矢量;总体变化子空间矩阵7-是从高维空间到低 第2期 黄光许,等:低资源条件下基于i-vector特征的LSTM递归神经网络语音识别系统 ・395・ 维空间的映射;W即为提取后的i-vector矢量。对第i段语音 信号的第t帧表示为 ,假设它服从下面这个分布: “), ) (15) f“~ y N( + 同样的i-vector特征。由于lO帧占用的时长为0.1 s,其对在线 语音识别几乎没有影响。该模型的识别结果如表3所示。 表3基于i-vector特征的LSTMP递归 神经网络越南语语音识别系统 系统描述GMM.HMM 其中: 是总体变量子空间矩阵; 和 是第k个高斯的均 值和方差;oJ“’即为第i段语音的i-vector矢量。通过后验概 TER/% 61.0 系统描述LSTMP RNN TER/% 48.8 率计算 在第 个状态上的概率为 .y p(kI 输入特征 CD.DNN.HMM 52.9 L盯MP RNN+i vector 47.7 ) (16) 可以看到,本文使用的算法明显降低了字节错误率。该系 统通过对长时间的语音序列建模,充分挖掘了上下文信息,通 过拼接i-vector特征在模型中利用了说话人和信道信息。实验 结果表明,在拼接了100维i-vector特征的LSTMP递归神经网 络系统中取得了最小的字节错误率,相对于CN.DNN.HMM基 线系统取得了10%的提升。可见基于i-vector特征的LSTM递 图3基于GMM—UBM:方式提取i—vector' ̄征 归神经神经网络建模技术能有效地提升语音识别的性能。另 外本文使用的方法能很好地支持搭建在线语音识别系统。在 识别系统中,可以一边用训练好的7-矩阵提取i-vector特征,一 通过最大后验概率和最大期望EM算法更新语音信号相 对于通用背景模型UBM的k个高斯分量上的零阶、一阶和二 阶统计量,如式(17)~(19)所示。 ”=∑.y: t 边将该特征与原有声学特征拼接后送入训练好的声学模型进 行在线解码。 (17) ):∑’,{ £ (18) 4结束语 LSTM递归神经网络结构和性能优异,值得人们继续研究 和改进。本文提出的基于i-vector特征的LSTM递归神经网络 sl )=∑yg ) ‘ (19) 这些统计量将用来训练7-矩阵,在子空间训练过程中用 以上统计量反复更新 的先验分布。在得到7-矩阵后可以 系统有效地提升了识别率,既体现了LSTM递归神经网络的优 越性,又克服了用说话人无关的语音特征进行声学模型训练的 不足。本文基于LSTM递归神经网络系统的优化只是一次尝 试,对于如何更有效地提取与说话人和信道相关的特征以及如 何更好地针对不同情况下的LSTM递归神经网络作优化都需 要继续深入研究和探讨。另外,本文的任务是低资源下的语音 识别技术,所以多语言、跨语言的建模等都是下一步需要研究 的方向。 参考文献: [1]Mohamed A,Dahl G,Hinton G.Deep belief networks for phone recog— niiton[C]//Proc of NIPS Workshop on Deep Learning for Speech Recognition and Related Applications.2009. 根据式(14)得到i-vector矢量,并作归一化操作。 可以看到在式(15)中,在之前的提取方式中使用的GMM- UBM是通过特征进行无监督学习的模型,这也是说话人识别 中采用的方式。从上文中可以看到,只要有k个类就可以通过 上述方式提取出i-vector特征 J。在连续语音识别中,通过 GMM训练出来的三音子聚类状态便满足该条件,并且训练出 来的聚类状态具有鉴别区分性。所以在实验中用三音子聚类 状态替换无监督的GMM状态。其余步骤均按标准的GMM— UBM流程计算.r矩阵和提取i-vector矢量。 3.2 基于i-vector的LSTMP递归神经网络语音识别系统 LSTMP递归神经网络使用的是短时声学特征,并没有利 用到说话人和信道等其他相关信息。而i-vector作为一种长时 特征,它表征了说话人和信道的信息,将它引入LSTMP递归神 经网络。本文将提取好的i-vector特征和已有的16维声学特 [2]Besacier L,Barnard E,Karpov A,et a1.Automatic speech recognition orf under—resourced languages:a survey[J].Speech Communica- tion,2014,56(8):85-100. [3]Bishop C M.Pattern recognition and machine learning(information science and statistics)[M].New York:Springer-Verlag,2006:236- 237. 征进行拼接,拼接方式如图4所示。即针对每一帧声学特征 均拼接一个i-vector特征,然后送入LSTMP递归神经网络进行 训练。该方式只需要增加输入层神经元的个数,而不需要改动 原有的算法程序。 [4]Luke A,Cooke J,Luke C.Investigation of deep neural networks (DNN)for large vocabulary continuous speech recogniiton:why DNN surpasses GMMS in acoustic modeling[J].Intemational Symposium on Chinese Spoken Language Processing,2012,71 96(8):301— 305. [5]Miao Yajie,Jiang Lu,Zhang Hao,et a1.Improvements to speaker adaptive training of deep neural networks[C]//Prc oof Spoken Lan— uage Technolgogy Workshop.[S.1.]:IEEE Press,2014:165—170. [6]Povey D,Burget L,Agarwal M,et a1.The subspace Gaussin miaxture model:a structured model for speech reconigtion[J].Computer Speech&Language,2011,25(2):4o4—439. [7]Abdel-Hamid0,MohamodA,JingHuai,eta1.Applying convolutional neural networks concepts to hybrid NN—HMM model or fspeech recog- nition[C]//Proc of IEEE International Conference on Acoustics, Speech and Sinalg Processing.2012:4277—4280. ・396・ 计算机应用研究 第34卷 [8]Sak H,Senior A,Beaufays F.Long short.term memory recurrent neu. based speech reeo ition[J].Computer Speech&Language, 1998,12(12):75—98. ral network architectures for large scale acoustic modeling[C]//Pree of Annual Conference of International Speech Communication Associa— tion.2014:338-342. [20]Chen S F,Goodman J.An empiircal study of smoothing techniques for language modeling【J].Computer Speech&Language,1996,1 3 (4):359—393. [9]Graves A,Fern6ndez S,Gomez F,et a1.Connectionist temporal classi— icatfion:labelling unsegmented sequence data with recurrent neural [21]Tsakalidis S,HsiaoRC。KarakosD,et a1.,nle2013 BBNVietnamese telephone speech keyword spotting system[C]//Proc of IEEE Inter- national Conference on Acoustics,Speech and Signal Processing. 2014:7829—7833. networks『C]//Proc of International Conference on Machine Lear ning.2006:369—376. [10]Graves A,Jailfy N,Mohamed A.Hybrid speech recognition with deep bidirectionla LSTM[C]//Pree of IEEE Workshop on Automatic Speech Recognition and Understanding.2013:273・278. [22]Chen N F,Sivadas S,Lim B P,et a1.Strategies for Vietnamese key— word search[C]//Proc of IEEE Intemationat Conference on Aeous— tics,Speech and Signal Processing.2014:4121・4125. [11]Dehak N,Kenny P,Dehak R,et a1.Front—end factor analysis for speaker veriifcation[J].IEEE Trans 0n Audio Speech&Lan- guage Processing,2011,19(4):788-798. [23]蔡猛.低资源条件下基于深度神经网络的语音识别声学建模研究 [D].北京:清华大学,2015. [24]Graves A,Mohamed A。Hinton G.Speech recognition with deep re- [12]Saon G,Sohau H,Nahamoo D,et a1.Speaker adaptation of neurla net- work acoustic models using i-vectors[C]//Pme of IEEE Workshop on Automatic Speech Recognition and Understanding.2013:55-59. current neurla networks[C]//Pree of IEEE International Cofnerence on Acoustics,Speech and Signal Processing.2013:6645—6649. [13]Ieee L R R F.A tutoiral on hidden Markov models and selected appli— cations in speech recognition[J].Proceedings of the IEEE,1989, 77(2):257—286. [25]Senior A,Lopez-Moreno I.Improving DNN speaker independence with i-vector inputs[C]//Proe of IEEE International Conference on Acoustics,Speech and Sinalg Processing.2014:225—229. [14]Hinton G,Deng Li,Yu Dong,et a1.Deep neural networks for acoustic modeling in speech recognition[J].IEEE Signal Processing Maga- zine,2012,29(6):82-97. [26]栗志意,张卫强,何亮,等.基于总体变化子空间自适应的i-vector 说话人识剐系统研究[J].自动化学报,2014,40(8):1836-1840. [27]Gupta V,Kenny P,Ouellet P,et a1.i-vector-based speaker adaptation of deep neural networks for fench broadcastr audio transcription[c] //Proc of IEEE International Conference on Acousics,Speetch and Signal Processing.2014:6334-6338. [15]Hinton G,Osindero S,Teh Y.A fast learning algorithm orf deep belief nets[J].Neural Computation,2006,18(7):1527—54. [16]National Institute ofSiandards and Technology.Open KWS13 keyword search evaluation、plan【EB/OL].(2013).[2016—01—04].http:// www.nist.gov/itl/iad/mig/upload/KWS13一evalplan—v4.pdf. ・ [28]Snyder D,Garcia-Romem D,P0vey D.Time delay deep neural net— work—based universal background models for speaker recognition[c] //Proc of IEEE Workshop on Automatic Speech Recognition and Un— derstanding.2015:92—97. [17]Povey D,Ghoshal A,B0ulianne G,et a1.The Kaldi speech recognition toolkit[C]//Proe of ASRU.20]1:1.4. [18]Ghabremani P,BabaAli B,Povey D,et a1.A pitch extraction algo- rithm tuned ofr automatic Speech recognition[C]//Proe of IEEE In— ternational Conference on Acoustics,Speech and Signal Processing. 2014:2494-2498. [29]Lei Yun,Seheffer N,Fetter L,et a1.A novel scheme for speaker re. cognition using a phonetically—aware deep neural network[C]//Proe of IEEE International Conference on Acoustics,Speech and Sinal gProcessing.2014:1695.1699. 『19]Gales M J F.Maximum likelihood linear transformations for HMM— (上接第350页) ces on Web Intelligence and InteUigent Agent Technologies.Washing- ton DC:IEEE Computer Society,2013:159—162. [4]Han Hui,Giles C L,Zha Hongyuan,et a1.Two supervised learning approaches for name disambinatigon in author citations[C]//Proc of the 4th ACM/IEEE—CS Joint Conference on Diigtal Libraries.New York:ACM Press,2004:296—305. [10]Kang I S,Na S H,Lee S,et a1.On co—authorship for author disam— binatgion[j].Information Processing&Management,2009,45 (1):84—97. [5]Han Hui,Zha Hongyun:a,Giles C L,et a1.Name disambiguation in author citations using a k-way spectrl aclustering method[C]//Proc of the 5th ACM/IEEE-CS Joint Conference on Digital Libraries.New York:ACM Press,2005:334—343. [1 1]Song Yang,Huang Jian,Councill I G,et a1.Eficifent topic—based unsupervised nanle disambiguation[C]//Proe of the 7th ACM/IEEE— CS Joint Conference on Digital Libraries.New York:ACM Press, 2007:342—351. [6]Levin M,Krawczyk S,Bethard S,et a1.Citation—based bootstrapping orf lrge-scale autahor disambinatgion[J].Joumal of the American Society for Information Science&Technology,2012,63(5): 1030.1O47. [12]宁博,张菲菲.基于异构知识库的命名实体消歧[J].西安邮电大 学学报,2014,19(4):70-76. [13]http://nlp.stafnord.edu/soifware/segmenter.shtml[EB/OL]. [14]孙昌年.基于主题模型的文本相似度计算研究与实现[D].合肥: 安徽大学,2012. [7]Chin Weisheng,Juan Yuchin,Zhuang Yong,et a1.Effective stirng processing nda matching for author disambiguation[J].Journal of Machine Learning Research,2014,15:3037—3064. [15]Ono S,Sato I,Y0shjda M,et a1.Person nalne disambiguation in Web pages using socil netawork.compound words and latent topics [8]Klosik D F,Stefan B,Marc.rI'}lorsten H.Motif-based success scores in coauthorship networks ale hishly sensitive to author name disambi— [C]//Prec of the 12th Paciifc—Asia Conference on Advances in Knowledge Discovery and Data Mining.Berlin:Springer—Verlag,2008: 260.271. natigon[J].Physical Review E Statistical Nonlinear&Soft Mat- ter Physics,2014,90(3):109—127. [16]Poibean T,Saggion H,Piskorski J,et a1.Muhi-source,muhilingual information extraction and summarization[M].Berlin:Springer-Ver- lag。2011. [9]Alhelbawy A,Gaizanskas R.Named entity disambiguation using HMMs[C]//Proc of IEEE/WIC/ACM International Joint Conferen. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- gamedaodao.net 版权所有 湘ICP备2024080961号-6

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务