语音识别概念的简单理解

xitonga

浏览: 588162 次

最近访客更多访客>>

morelily

jccz_zys

haining128

u012363178

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1278)

社区版块

存档分类

1，语音识别单元

识别单元的大小对语音训练数据量大小、语音识别率，以及灵活性有较大的影响，系统所需的训练数据大小与模型复杂度有关。其实就是语音识别的粒度，越小的时候，识别率越高，当然运算时间也越长。

2，语言模型

语言模型可以提供字或词之间的上下文信息和语义信息，通过语言模型可以提高声学模型的区分度，语言模型主要分为规则模型和统计模型两种，当前，统计语言模型在实际应用中处于主流地位。

统计模型是用概率统计的方法来描述语言单位内在的统计规律，它通过对大量实际语料的统计分析来获得词与词之间的连接信息，从而评价一个词序列是否为语言中合理的语句，其中N-gram被广泛使用，常用的二元和三元。

3，声学模型

根据模型之间的相关性，声学模型可以分为上下文无关模型和上下文相关模型。其实就是词之中有没有关联，如我们对机器说：向左，此时上下文关联的话，应该是向之后只能是左右上下，而如果不关联，就可能出现“向昨”这样的结果。

4，HMM

HMM分为离散、连续和半连续HMM。一般在语音识别时都是用的连续HMM，由两个相互关联的过程相互作用而成：一个是状态空间有限的markov链，一个是随机函数集。其实对应的就是两个随机过程，其中一个是隐蔽的（不可观测的）具有有限状态的markov链。另一个是与markov链的每一状态相关联的观察矢量的随机过程（可观测的）。

为什么是两个随机过程呢，这是因为人的言语过程也是这样一个双重随机过程，因为语音信号本身是一个可观察的序列，而它又是由大脑里的（不可观察的）、根据言语需要和语法知识（状态选择）所发出的音素（词、句）的参数流。

5，识别过程

语音识别中的解码就是将声音信号转成文本或类同控制信号，归根是为了找到匹配输入语音信号的最可能的词序列问题，这是一个搜索过程，如果系统是基于HMM的语音识别系统，那这是一个在一张巨大的图中搜索，而搜索所依据的是语音信号在声学模型的打分和语言模型概率。就是前面的所说的声学和语言学模型。

分享到：

poj 1222 （高斯消元） | srilm安装及ngram-count简单使用

2013-02-05 18:28
浏览 360
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论