当前位置: 首页 > 范文大全 > 公文范文 >

基于隐马尔可夫模型的连续语音同步识别系统

时间:2022-04-12 08:12:09  浏览次数:

摘  要: 语音同步识别系统的发展方向是连续性的人机交互,采用传统系统易受到突发性噪声影响,致使识别效果较差,提出基于隐马尔可夫模型的连续语音同步识别系统。结合语音识别原理,设计系统硬件总体结构。利用JFET输入高保真运放的OPA604低通滤波器,保证信号处理结果的有效性。通过OMAP5912ZZG型号芯片对处理后的信号进行存储,使用矢量图缓冲音频,经由以太网接口移植相关语音识别序列,由此实现连续语音同步识别。由实验对比结果可知,该系统比传统系统识别效果最高值高出48%,推进了语音识别技术研究的快速发展。

关键词: 隐马尔可夫模型; 连续语音识别; 同步识别; 信号处理; 人机交互; 系统结构设计

中图分类号: TN912.34⁃34; TP391.42               文献标识码: A                  文章编号: 1004⁃373X(2019)11⁃0064⁃04

Abstract: The current development direction of the speech synchronization recognition system is successive human⁃computer interaction. The traditional system is easily affected by the sudden noise, which may cause the poor recognition effect. Therefore, a continuous speech recognition system based on hidden Markov model is proposed. In combination with the principle of speech recognition, the overall hardware structure of the system is designed. The low⁃pass filter of JFET⁃input high⁃fidelity operational amplifier OPA604 is utilized to ensure the validity of signal processing results. The chip OMAP5912ZZG is used to store the processed signals after acquisition. The vector map is used to buffer the audio frequency signal, and transplant the related speech recognition sequence via the Ethernet interface, thus the continuous speech synchronization recognition is realized. The experimental results show that the recognition effect of the proposed system is 48% higher than that of the traditional system, and the system can promote the rapid development of speech recognition technology research.

Keywords: hidden Markov model; continuous speech recognition; synchronous recognition; signal processing; human?computer interaction; system structure design

0  引  言

语音是人们用于信息交换和连通的快捷方式,也是人类特有功能,更是人类经常使用的交流工具。随着现代信息化时代来临,使用智能技术对语音进行存储、识别与合成,可使语音信息被有效利用。语音的重要性大大推动了语音信号的处理发展。而语音识别作为信号处理研究的重要领域,其作用是将语音转换为控制命令,使计算机与人类语音相融合,将语音识别应用到多个技术领域之中,甚至还可扩展到人体学[1]。

随着计算机技术的快速发展,语音识别已经成为科学技术应用领域研究的热点问题,并逐渐进入人们的日常生活,语音识别已成功应用到手机和电视等智能设备,给人类未来生活方式带来深远影响[2]。语音同步识别是将语音数据全部转换为文本形式,突破语种和腔调不同造成机器与人之间沟通的障碍,使语音交互系统成为人机对话的重要工具[3]。

由于语音特性与人类语音之间差异性较大,采用传统系统不能对连续语音进行识别,因此,在该条件下对连续语音识别进行研究是一个紧迫任务。基于此,本文提出基于隐马尔可夫模型的连续语音同步识别系统,不断改进与完善语音识别能力,使其被广泛应用于语音识别的各个领域。

1  连续语音同步识别系统构建

连续语音识别系统构建是在一定硬件条件和实验平台上完成的,语音同步识别本质上是一种模式识别过程,主要包括语音信号预处理,其基本原理如图1所示。

图1  连续语音识别基本原理

由图1可知,连续语音同步识别系统除了包括核心识别程序之外,还包括语音输入、参数分析和文法语言模型构建等。其中语音识别系统主要由语音信号预处理、核心计算和识别基本数据三部分组成[4]。

1.1  系统硬件结构设计

基于隐马尔可夫模型的连续语音同步识别将接收到的语音信号正确转换成文本形式,该系统硬件结构设计如图2所示。

图2  系统硬件结构设计

由图2可知,语音信号是时变信号,具有平稳性,因此对语音信号进行处理时,需使用函数对连续语音信号进行分段处理,每一段称之为一帧,相邻帧之间具有一定的重叠性,可减小跳变[5]。从每一帧中提取语音信号的鲁棒性特征,可完成噪声消除和特征提取[6]。

1.1.1  语音信号处理模块

语音信号会随着时间变化而发生改变,一旦出现混叠失真的噪声干扰,就会使语音信号处理失效,因此在同步识别之前,必须使用低通滤波器对其进行防混叠失真处理[7]。语音信号处理模块的低通滤波器设计如图3所示。

图3  低通滤波器

由图3可知,利用JFET输入高保真运放的OPA604低通滤波器,具有运放高阻抗、低失真特性,可保证语音信号处理过程不会受到混叠失真噪声的干扰影响,获取准确、有效的信号处理结果,为连续语音同步识别提供精准数据[8]。

1.1.2  语音同步识别模块

将上述获取的信号处理结果利用连续语音同步识别模块进行大量运算,采用DSP芯片可处理数字信号,具有体积小,适合安装的功能。DSP芯片具有强大的在线交互能力,选择OMAP5912ZZG型号DSP芯片配置了多种开发工具和多媒体数据库,使系统能够免费使用。语音同步识别模块设计如图4所示。

图4  语音同步识别模块

由图4可知,选择OMAP5912ZZG型号的芯片存储处理器规格是300 KB的随机存储器,通过液晶显示屏对连续语音数据进行缓冲。利用内存卡扩展系统内存,使用矢量图缓冲音频,经由以太网接口移植相关语音识别序列[9]。

结合语音识别原理,设计系统硬件结构。通过函数对连续语音信号进行分段处理,可减小跳变。由于语音信号处理过程会受到混叠失真噪声干扰影响,因此,设计防混叠失真的低通滤波器,保证信号处理结果的准确性和有效性。根据获取信号处理结果,利用连续语音同步识别模块进行大量运算,选择OMAP5912ZZG型号DSP芯片可大大降低系统设计成本,经由以太网接口移植相关语音识别序列,由此完成系统硬件结构设计[10]。

1.2  系统软件功能设计

根据上述设计的语音同步识别模块对其软件功能进行设计[11]。具体设计流程如图5所示。

圖5  软件功能设计流程

语音识别在音频方面具有非线性特征,符合人类听觉神经信号的收发,识别效率较高,语音特征处理可分为滤波、样本采集和语音分帧。采用隐马尔可夫模型对单元匹配进行加窗操作处理,可使语音相邻帧之间的信号传输更加平滑[12]。

基于隐马尔可夫模型连续语音同步识别系统是按照用户语音特征进行自动选择窗函数形态,词性解码与语法解析都是在隐马尔可夫模型下进行的,由此可获取语音信号频率,并利用隐马尔可夫模型对帧序列进行变换,解析帧序列中存在的部分失效数据,对其进行删减。

根据上述步骤可获取语音帧处理结果,但经过处理后的结果受到突发性噪音影响,部分语音帧短时平均能量突然提高,使得获取的识别结果不准确,为此设计如图6所示的处理阶段流程。

图6  处理阶段流程

具体实施步骤如下:

1) 当语音信号处于静音阶段时,令status=0,增加语音信号帧,如果某一帧短时能量出现过高问题,那么该帧为语音信号起始点,此时令status=1,说明语音信号进入了过渡期,无法确定该部分为语音段。

2) 继续增加语音信号帧,如果某一帧短时能量出现过低问题,那么该帧表明过渡段恢复到静音阶段,此时status=0。

3) 如果该帧短时能量高于amp1,并且继续增加帧号,则可确定信号进入语音阶段,此时status=2,当前语音帧帧号为语音初始点。

4) 如果当前帧为语音段,则status=2,语音帧短时能量低于amp2,那么该段为噪声。

5) 继续增加帧号,当持续时间大于静音阶段时,则说明语音信号端点正常,可输出有效语音。

根据系统软件设计流程,采用隐马尔可夫模型对单元匹配进行加窗操作处理,可使语音相邻帧之间信号传输更加平滑。自动选择窗函数形态,获取经过隐马尔可夫模型变换后的帧序列。由于获取的结果中存在部分失效数据,为此,需删减一部分数据,并设计处理阶段流程,由此完成系统软件部分的设计。

2  实  验

为了对基于隐马尔可夫模型的连续语音同步识别系统的有效性进行实验分析,需从标准模式识别数据库中提取部分语音训练集。

2.1  实验参数设置

实验参数设置情况如表1所示。

表1  实验参数设置

2.2  实验环境设置

为了防止安装在电脑上的语音同步识别系统受到硬件性能影响而无法将全部性能发挥出来,需统一利用计算机上的高端系统性能进行实验验证分析。实验环境设置如图7所示。

2.3  实验结果与分析

根据上述实验参数和实验环境,分别将传统系统与基于隐马尔可夫模型系统在突发性噪声影响下,对其识别效果进行对比分析。

将这两种系统的语音信号和短时能量进行验证,结果如图8所示。

图7  实验环境

图8  两种系统端点检测

由图8可知:传统系统在信号为1 000~2 000 Hz,6 300~6 900 Hz,8 900~9 200 Hz时出现中断现象,导致短时能量失效;而基于隐马尔可夫模型系统没有出现中断现象,可准确获取短时能量。

根据上述对比内容,将这两种系统识别效果在突发性噪声影响下进行对比,结果如表2所示。

表2  两种系统识别效果对比

由表2对比结果可知,基于隐马尔可夫模型系统比传统系统识别效果要好。

2.4  实验结论

根据上述内容,可得出如下实验结论:当噪声分别为20 dB,40 dB,60 dB,80 dB,100 dB时,基于隐马尔可夫模型系统比传统系统识别效果高15%,20%,26%,22%,48%。由此可知,基于隐马尔可夫模型连续语音同步识别系统设计是有效的。

3  结  语

由于语音识别系统设计过程较为复杂,加上时间条件限制,采用传统方法容易受到突发性噪声影响,识别效果较差,为此,本文设计基于隐马尔可夫模型连续语音同步识别系统。该系统虽然在防御突发性噪声影响上设计了低通滤波器,但系统对于环境的适应能力还有待加强,因此可充分考虑语音识别系统语音加强方法,增加信噪比,提高系统性能。

参考文献

[1] 郭雷勇,李宇,林胜义,等.用于隐马尔可夫模型语音带宽扩展的激励分段扩展方法[J].计算机应用,2017,37(8):2416⁃2420.

GUO Leiyong, LI Yu, LIN Shengyi, et al. Excitation piecewise expansion method for speech bandwidth expansion based on hidden Markov model [J]. Journal of computer applications, 2017, 37(8): 2416⁃2420.

[2] 王蕊,李彦骁,孙辉,等.基于隱马尔可夫模型的切换飞行控制系统性能分析[J].电子与信息学报,2017,39(4):989⁃996.

WANG Rui, LI Yanxiao, SUN Hui, et al. Performance analysis of switched flight control systems based on hidden Markov model [J]. Journal of electronics & information technology, 2017, 39(4): 989⁃996.

[3] 李方伟,李骐,朱江.改进的基于隐马尔可夫模型的态势评估方法[J].计算机应用,2017,37(5):1331⁃1334.

LI Fangwei, LI Qi, ZHU Jiang. Improved method of situation assessment method based on hidden Markov model [J]. Journal of computer applications, 2017, 37(5): 1331⁃1334.

[4] 曹荟强,林仲志,吴水才.基于隐马尔可夫模型的老年人跌倒行为检测方法研究[J].中国生物医学工程学报,2017,36(2):165⁃171.

CAO Huiqiang, LIN Zhongzhi, WU Shuicai. A detection method for the fall behavior of elders based on hidden Markov model [J]. Chinese journal of biomedical engineering, 2017, 36(2): 165⁃171.

[5] 李娟,张冰怡,冯志勇,等.基于隐马尔可夫模型的视频异常场景检测[J].计算机工程与科学,2017,39(7):1300⁃1308.

LI Juan, ZHANG Bingyi, FENG Zhiyong, et al. Anomaly detection based on hidden Markov model in videos [J]. Computer engineering and science, 2017, 39(7): 1300⁃1308.

[6] 林勇,刘湘琼.基于隐马尔可夫模型的拷贝数变异检测算法研究[J].计算机应用研究,2017,34(2):436⁃439.

LIN Yong, LIU Xiangqiong. Study of copy number variant detection algorithm based on hidden Markov model [J]. Application research of computers, 2017, 34(2): 436⁃439.

[7] 冯超,景小宁,李秋妮,等.基于隐马尔可夫模型的空战决策点理论研究[J].北京航空航天大学学报,2017,43(3):615⁃626.

FENG Chao, JING Xiaoning, LI Qiuni, et al. Theoretical research of decision⁃making point in air combat based on hidden Markov model [J]. Journal of Beijing University of Aeronautics and Astronautics, 2017, 43(3): 615⁃626.

[8] 肖晓红,张懿,刘冬生,等.基于隐马尔可夫模型的音乐分类[J].计算机工程与应用,2017,53(16):138⁃143.

XIAO Xiaohong, ZHANG Yi, LIU Dongsheng, et al. Music classification based on hidden Markov models [J]. Computer engineering and applications, 2017, 53(16): 138⁃143.

[9] 王俊力,冯锡炜,孟菲.石油石化设备巡检小车语音识别与控制系统设计与实现[J].电子设计工程,2017,25(22):74⁃77.

WANG Junli, FENG Xiwei, MENG Fei. Petroleum and petrochemical equipment inspection car voice recognition and control system [J]. Electronic design engineering, 2017, 25(22): 74⁃77.

[10] 吴震东,潘树诚,章坚武.基于CNN的连续语音说话人声纹识别[J].电信科学,2017,33(3):59⁃66.

WU Zhendong, PAN Shucheng, ZHANG Jianwu. Continuous speech speaker recognition based on CNN [J]. Telecommunications science, 2017, 33(3): 59?66.

[11] LI Changjiang, HU Yan. Research of phoneme recognition based on recurrent neural network [J]. Microelectronics & computer, 2017, 34(8): 47⁃51.

[12] GE Yongkan, YU Fengqin. Improved speech synthesis with adaptive postfilter parameters [J]. Computer engineering and applications, 2017, 53(1): 168⁃171.

推荐访问: 马尔 识别系统 语音 模型 同步