本文假设所处理的语音输入格式是WAVEFORM(SOURCEKIND的值设置),由HTK库中HWave库提供处理支持,对于其它的格式,基本也是相通的。从原始语音到最后的特征向量(如MFCC)文件需要经过
原始语音->预加重->分帧->加窗处理->快速傅里叶转换->滤波组处理->离散余弦转换(计算倒谱参数)->对数能量->差量倒谱参数(向量的形式了)->MFCC特征
本文只完成对预加重、分帧及加窗处理的简单说明 。
一,语音处理的目的
将语音数据转换成标准向量特征,所谓标准,是指特定软件可以支持识别和训练的意思,这里是HTK所支持的。
二,本文过程概览
上面的目的说明最后的输出应该是一个特征向量文件,在本文先讨论从原始语音到帧向量的形式,下面的图,可以表达这个过程的
从上面的图可以看到,从语音输入到最后的每帧向量的形式,这就基本完成了语音到帧向量序列的处理过程了。原始信号就是上图中的波形图,特征参数向量序列就是最下面的每帧的语音向量。下面我从处理过程中用到的配置参数的角度来了解这个过程。
一,SOURCERATE
这个值是配置文件中设置原始信号的采样率的名值,表示原始语音信号的采样率,这个可以从原始文件中读取,也可以在配置文件中设置。
二,TARGETRATE
输出的采样率由每个参数向量之间的周期来决定,可以使用TARGETRATE在配置文件中设置。
三,WINDOWSIZE
窗口大小,由语音的采样文件到参数向量的转换过程中需要用到窗口大小。这个值和TARGETRATE是独立的,一般情况下,都会比TARGETRATE大,因为需要窗口有一定的重叠。
举个例子:假设语音文件采样率是16kHz,将其转换成每秒100个参数向量,就是10ms一个帧的分割,使用25ms的窗口大小,可以这样设置(下面都是100ns为单位)
SOURCERATE = 625 //表示 62500ns,0.0625ms,0.0000625s 。 f= 1/T = 1/0.0000625 = 16000 = 16kHz
TARGETRATE = 100000 // 表示 10 ms
WINDOWSIZE = 25 0000 // 表示 25ms
四,ZEANSOURCE
这是个布尔类型,如果设置为true时,就会从原始信号中移除DC均值。
五,PREEMCOEF
这是预加重的过程,这个参数表示加重系数,就像这样的公式S'(n) = S(n) - k S(n-1),这个参数表示k的值,一般都在0.9以上。关于预加重见:语音处理预加重
六,USEHAMMING
这个表示加窗过程,如果这个值设置为T 时,表示加汉明窗,具体见语音信息加窗处理。
分享到:
相关推荐
语音处理工具,HTK 的中文版,方便大家了解和认识HTK 更容易入门
英国剑桥大学开发的新版本语音识别工具开发包HTK。
隐马项目\HTK-samples-3.4.zip 这是一个以HMM为基础的语音训练模形源码从中可以了解HMM如何做参数撷取及如何辨识
强制对齐HTK工具-3.4.1-windows,包括HTK-3.4.1.zip;HTK-samples-3.4.1.zip。
非常有用,功能强大的基于隐马尔科夫模型的语音识别工具箱,可在此基础上进行再开发,对于从事语音信号处理的工作人员有很好的参考价值。
HTK语音开发,包含八个文件,分别是Windows版的HTK-3.4.1.zip,HTK-samples-3.4.1.zip,htkbook.pdf.zip,htkbook.ps.zip和linux版的HTK-3.4.1.tar.gz,HTK-samples-3.4.1.tar.gz,htkbook.pdf.gz,htkbook.ps.gz
本文介绍了如何在WIN7下安装HTK及利用HTK进行YES/NO识别的过程,及HTK 3.4安装包。
基于htk的语音信号处理
是语音识别开发工具包HTK的详细阐述,里面有文档和例子程序。覆盖面很广。
应用HTK建立的语音识别系统,PPT文档-Application of HTK speech recognition system established, PPT document
HTK 3.4.1 windows下可执行文件
HTK3.4语音识别的实用例子
这个是关于HTK的资料,HTK是语音识别的一个重要途径和方法,对做语音识别的朋友很有用!
教程深入简出,开宗明义,以不长的篇幅把语音庞大的知识体系讲解清楚,是不可多得的案头资料。
HTK 3.4.1 源代码,及在64位windows上编译出的可执行文件,已用官方samples测试过,samples的源代码也放在压缩包里了
内含HTK语音识别工具包的详细使用方法,并有完整的实例,对于刚刚接触的HTK的初学者很有价值。
windows下安装编译HTK语音识别工具包
语音识别工具HTK最新版,由英国剑桥大学开发
由英国剑桥大学语音视觉和机器人小组开发的语音识别工具包
隐马尔科夫模型工具箱最新版本,可以广泛应用于识别等领域