语音识别系统结构——鸟瞰

语音识别概述

语音识别是指将语音射击替换为刻的颠换。现时上将的语音识别系统使适合如图:语音识别基本使适合
争辩人类特点的射击处置模块,表达能力最重要的特点绘画,将语音射击替换为特点矢量序列。现行语音识别系统中经用的看字读音教学法特点有直线性预测编码(Linear Predictive Coding,LPC),Mel频率倒血统表数(Mel频率 Cepstrum Coefficients,MFCC),Mel规格滤光器组(Mel级别 Filter Bank,FBank)等。
解码器(Decoder)争辩看字读音教学法先前的和表达能力先前的,将出口的语音特点航向序列转变为字母序列。
看字读音教学法先前的是看字读音教学法、语音、境况的变量,发言人和两性之一、知表现的口音多样性。表达能力先前的则是对一组字序列身材的知表现。

先前的的锻炼

同代人的语音识别系统中看字读音教学法先前的和表达能力先前的次要家用电器浓厚的资料停止总数分析,与建模。

看字读音教学法先前的

语音识别的看字读音教学法先前的,充分家用电器看字读音教学法、语音、境况特点发言人和两性之一口音等新闻,建模表达能力。眼前的语音识别系统常常采取隐含约翰·马可夫先前的(Hidden Markov Model,HMM)建模,表现这样的的事物语音特点航向序列对这样的的事物使适应序列的后验概率。Hidden Markov先前的是任一概率的图形先前的,可以用来表达序列暗正中鹄的相干,通经用于时间信息建模。
Hidden Markov先前的是任一额外的有向图,对每个杂交样式的生物体的有代理人称为使适应。每一固定时间,Hidden Markov先前的先前从一种使适应到另任一特定的的概率突跳,And there is a certain probability to launch an observation symbol,经过对边的使负重表现的转变概率,如图所示, S0 和 S1 表现使适应, a 和 b 这是任一当观察员性的成绩可能性卖得。
Hidden Markov model assumes that,每个使适应的转变,最适当的在先前的使适应,无论静止正式的在前和以前,马尔可夫推测;在每任一正式的的纹章,开枪,眼前正式的相关性,在静止术语和静止成绩琐细的,这是孤独的出口假说。
Hidden Markov先前的三个一组组流通 λ=(A,B,π) 表现,带着 A 作为使适应替换概率矩阵,转变到另任一使适应的概率在任一正式的说;B 成绩概率矩阵,任一成绩的概率在启动术语说;π 初始使适应概率矢量,在任一随机的初始使适应表现。
隐含约翰·马可夫先前的示意图
隐含的马尔可夫先前的可以发作两个随机序列,任一是使适应序列,一是当观察员成绩序列,这是任一双重随机颠换,但外界不料当观察员当观察员序列的成绩,无法当观察员使适应序列。你可以家用电器Vitby算法(Viterbi 算法)在思索到的当观察员成绩序列术语下找到,概率最大的使适应序列。某当观察员成绩序列的概率,前进向后地算法(前进向后地 算法)有法律效力地买到。每任一使适应的转变概率和检视成绩开枪概率可以经过鲍姆—逃避债务算法(Baum-Welch 算法)计算。
语音识别中普通家用电器隐含约翰·马可夫先前的对看字读音教学法单元和语音特点序列暗正中鹄的相干建模。普通来说,看字读音教学法单元级小,大批少,虽然对环境的敏感度很大。。大词汇延续语音识别系统中普通采取子词(Sub-word)作为看字读音教学法单元,如在英语中采取听筒,华语中采取声韵母等。
在指示的马尔可夫先前的的看字读音教学法先前的的拓扑排列,每个州都有任一弧形点它本身。,如图所示,家用电器听筒的三态先前的 / t / 的建模 。
对听筒 / t /的建模
延续语音正中鹄的与协作被翻译气象,因而人们打电话给前后三个听筒思索轧,高程度三音(音)先前的。在三音的引见,会安置在马尔可夫先前的大批急剧补充,通经用于通过经历或体验获得的教育使适应,聚类后的使适应称为 形态素。
语音识别的看字读音教学法特点矢量值是延续的。,为了驱散误审的量子化颠换模型的,因而思索家用电器延续概率密度功能先前的的特点。混合高斯先前的(高斯 Mixture Models,GMM)概率密度功能的任性着手处理,因而适宜首选的造型。。
邓力等将在看字读音教学法建模中引入深刻努力。,正式的对V的看字读音教学法特点建模的相干 ,非常增长语音识别的精确,在看字读音教学法先前的语音识别正中鹄的家用电器吃水努力后,如看字读音教学法特点矢量环境的家用电器(递推神经网) Neural Networks,和回忆建立工作关系胶料的特别形势(长) Short-term Memory,LSTM)等。。

表达能力先前的

表达能力先前的可以表现这样的的事物字序列发作的概率。语音识别是一种通俗的的表达能力先前的 N 元文法(N-Gram),在前和以前的总数 N 任一词呈现的概率。N 元文法推测这样的的事物任一词呈现的概率仅与后面 N-1 任一词呈现的概率有相干。
现时有任一词序列。W=(w1,w2,w3,,wU),发作的概率可以腐烂为以下身材:

P(W)=P(w1,w2,w3,,wn)=P(w1)P(w2|w1)P(w3|w1,w2)P(wn|w1,w2,w3,,wn1)

虽然,这概率是无法总数。争辩Markoff假说,你只打电话给思索前 N 任一字母可以是概率的术语下。推测 N=2 则有

P(W)=P(w1)P(w2|w1)P(w3|w2)P(wn|wn1)

再争辩贝斯取自父名措辞,可以引出这样的的事物个字在另任一字的术语下发作的概率

P(wn|wn1)=P(wn,wn1)P(wn1)

像这样的,近乎词在大概率发作概率的总数,再总数出单任一词呈现的概率,那就够了。

因必然的非常含糊的成语呈现时资料库,但有发作的可能性性。,人们打电话给概率算法来样式这些少见的成语,即变缓和。通常的变缓和方法是GAD图灵(好图灵变缓和 1911年生(1911年生从容的)和润滑 Smoothing)等。

鉴于解码额外的限制使适应的偶然认识的

在语音识别解码成绩可以表现为以下的亲:思索到任一胶料为T的看字读音教学法检视
(声 当观察员凝结)X=(x1,x2,x3,,xT),找到应和的字胶料的U word )序列W=(w1,w2,w3,,wU),使得后验概率P(W|X)极大值化,这是词的序列W,有

W^=argmaxP(W|X)

后验概率

P(WX)

不容易买到。争辩贝斯取自父名措辞:

W^=argmaxP(W|X)=argmaxP(X|W)P(W)P(X)

Because of the acoustic observation sequence has been given,因而看字读音教学法检视的概率是永恒的,它可以归结为以下身材:

W^=argmaxP(W|X)=argmaxP(X|W)P(W)

眼前遍及家用电器的大词汇语音识别技术,看字读音教学法、对语音和表达能力学的系统知引见。用 H 安置的马尔可夫先前的的使适应序列表现,C 这样的的环境相关性的听筒序列,L 说的听筒序列,推测声波特点序列、马尔可夫先前的的安置使适应序列、听筒序列、词序列是孤独的。,可以卖得。,得:

W=argmaxHCLP(X|H)P(H|C)P(C|L)P(L|W)P(W)

式 子中,

P(X|H)

高程度看字读音教学法先前的,任一安置的马尔可夫看字读音教学法特点序列的后验概率;

P(HC)

P(CL)

P(LW)

表现听筒序列的使适应序列、听筒序列的环境相关性的听筒序列,单词序列和听筒序列的后验概率;

P(W)

表现任一句子的发作概率,高程度表达能力先前的。这些概率都是由后面的“锻炼”颠换受理的。

眼前,语音识别解码普通是鉴于额外的限制使适应 Finite State 偶然认识的)。

额外的限制使适应的偶然认识的是任一额外的有向图,每个杂交样式的生物体代表任一正式的,当接纳到任一出口成绩,它将从应和的弧跳到另任一正式的,和任一出口成绩的火,弧形也可以给分量。其身材化作为示范列举如下:

额外的限制使适应的偶然认识的T环K是一组八

T=(Σ,Δ,Q,I,F,E,λ,ρ)

,带着

Σ

作为任一出口成绩集中,

Δ

是任一集出口成绩,

Q

作为使适应集,

I

,

Q

设置初始使适应,

F

,

Q

为正式的结局集,五元暗正中鹄的相干

EQ×(Σϵ)×(Δϵ)×K×Q

传递功能表现,有代理人

λIK

使负重的初始使适应,有代理人

ρFK

本端使适应的使负重 。

为了增强额外的限制替换器的家用电器视野,使一般化分量的意思是更为普通的代数排列。思索到一组K和两种运转

,免得

K,,0¯

如有单多少

0¯

可交换带有中性元的半群,

K,,1¯

如有单多少

1¯

带有中性元的半群,且

运转

运转已分派的家眷,

0¯

在流行中的

运转器,这是无论什么

aK

a0¯=0¯a=0¯

。然后,总分量从初始使适应到终极使适应的小路对EA,可以由

在流行中的产量运转,多条小路的总分量,它可以表现为

要点受理。下图显示了任一简略的额外的限制使适应偶然认识的。。出口成绩集

{a,b,c}

,图正中鹄的成绩,在结肠的弧,出口成绩集为

{x,y,z}

,在图中,弧后结肠的纹章,半环实域,图正中鹄的斜的后数,双圆代表结局使适应。

这里写图片作为示范

在语音识别,小路的总分量可以查看出口序列的术语下,,出口序列的轧概率,鉴于没马尔柯夫链的事后影响推测,因而总分量是分量的产量的路途上。鉴于电脑运转,打电话给警戒浮点小数点下溢,这些常常对数概率,即表 日记正中鹄的半环,带着

log

运转构成释义为

xlogy=log(ex+ey)

;另外,额外的限制使适应替换的小路是常常打电话给,的寒带半环的构成释义。

半环 集中 0¯ 1¯
半环的日记(日记) R{,+} log + + 0
寒带半环(寒带) R{,+} Min + + 0

结成可以家用电器额外的限制使适应的偶然认识的(结合)O,清楚的程度的额外的限制使适应的偶然认识的结成。譬如,在现实的语音识别系统中,普通将构想四额外的限制使适应的偶然认识的:HMM的使适应序列的环境相关性的听筒序列有代理人H说,C代表任一环境相关性的听筒序列的有代理人,说的听筒序列到字序列的L,而表达能力先前的G,四额外的限制使适应的偶然认识的结成,hclg的模型,语音和表达能力学知,弧上的权值,可论点出口使适应隐马尔可夫模型先前的,应和的词的呈现概率出口。
P的看字读音教学法先前的(x | H) 争辩一系列相关的事情。锻炼好的建立工作关系语音出口前馈后,受理任一矩阵,柱架,说这架上的概率散布使适应安置马尔可夫先前的,这是任一安置的马尔可夫使适应查询表框的概率。
然后,语音识别的解码成绩可以归结为额外的。 HCLG 最优小路搜索成绩,最适当的小路的总分量是要思索的 HCLG 外弧的权值,思索看字读音教学法先前的的使负重,最大总分量。
争辩带权有向无圈图单源的最短小路算法 ,思索到任一杂交样式的生物体的最短小路上M U,免得末日危途的前任是西格玛,它在最短的小路是打电话给的。美国源点(一),可以经过家用电器源点,经过最短小路树层破土层的方法。在现实的系统,鉴于宏大的搜索详细规划,为了缩减电脑的内存消费,梁是经用的探试法搜索(梁 搜索)技术,这是设置任一门槛,扣留小路在门槛视野内搜索树,关闭门槛视野在户外的小路。额外的限制使适应偶然认识的的解码颠换可以用在

foreach frame:
foreach token:
    iftoken->cost > cut_off:
        foreach arc:
            if arc.weight > cut_off:
                add arc totokenelse:
        deletetoken

带着,代币表现的信息排列来扣留小路,每个杂交样式的生物体都可以扣留弧。,而末日危途途的总成本。
在现实的语音识别系统中,最优小路未必是现实的单词序列婚配,人们祝愿受理最高分经过候选小路的数量在前,即N-best。在任一紧凑的方法扣留候选小路,转移消费这样的存储空间,人们通常家用电器的词格(格)扣留候选序列识别。有没普通构成释义的词格,经用的方法是家用电器信息STR认可单词格。。

补充说明:这是我在努力语音识别概述,一章是我的总集。。把它拿出狱给你看一眼。,有背面的的座位祝愿每件东西不吝赐教。

参考文献

  1. Huang X, Acero A, Hon H, et al. Spoken Language 处置[J]., 2000.
  2. Rabiner L R. A tutorial on hidden Markov models and selected applications in speech 识别[J]. Proceedings of the IEEE, 1989, 77(2): 257-286.
  3. 厚利 M, Pereira F C, Riley M, et al. Weighted Finite-state Transducers in Speech 识别[J]. Computer Speech & Language, 2002, 16(1): 69-88.

发表评论

电子邮件地址不会被公开。 必填项已用*标注