语音识别技术学习系列(1)——入门
从这一篇开始,陆续学习语音识别技术,由浅入深。
这一篇是入门,主要学习的是语音识别技术的大致步骤,以及现在的几种主流方法。
下图是语音识别技术的系统框图:
主要包括这样几个步骤:
1)预处理。对输入语音信号进行预加重和分帧加窗等处理,过滤其中不重要信息及背景噪声,进行端点检测,以确定有效的语音段;
2)特征提取。常见的特征参数有基于时域的幅度、过零率、能量,以及基于频域的线性预测倒谱系数(LPCC)、Mel倒谱系数(MFCC)等;
3)模式匹配。
目前已有几种主流的语音识别技术:
1)动态时间规整(DTW)技术。采用动态规整法,并结合时间变换关系,得到特征矢量之间的距离,是语音识别中的一种经典算法。DTW技术比较容易实现,但是不能充分利用语音信号的时序特性和动态特征,因此适合用于孤立词、小词汇等相对简单的汉语语音识别系统。
2)隐马尔可夫模型(HMM)技术。HMM用马尔科夫链中的状态表示语音的发音过程,在单字生成过程中,系统由一个状态转移到另一个状态,在每个状态下产生一个输出,直至该单字输出完毕。HMM用马尔科夫链来模拟信号的变化过程,在通过序列间接地描述这种变化,因此它是一个双重随机过程,因而能很好地描述语音信号的总体非平稳性和短时平稳性。
HMM需要对当前的状态序列分布作先验假设;对高层次声学音素建模能力弱,使声学上相似词容易混淆;HMM语音识别系统用硬件实现起来比较困难。
3)人工神经网络(ANN)技术。训练时间长。
现有语音识别的难点:
1)识别性能依赖周围环境。当训练环境和测试环境不一样时,效果变差;
2)噪声问题。如何去噪;
3)语音信息的模糊性。读音相似的词语,同音不同意思的词语,如何识别。
参考:
《基于隐马尔可夫模型的额语音识别技术研究》