当前位置: 首页 > 范文大全 > 公文范文 >

语音转换特征参数的研究

时间:2022-03-23 09:18:40  浏览次数:

摘 要:语音转换是一项非常复杂的技术,语音特征参数的选取是语音转换能否成功的关键。本文基于语音信号个性特征,主要针对超音段特征和音段特征的特征参数基频、Mel倒谱系数和共振峰通过理论和实验对它们各自的性能进行分析研究。

关键词:语音转换;基频;Mel倒谱系数;共振峰

1 引言

语音转换技术作为语音信号处理的一个分支,指的是通过研究人的发音机理以及语音特征参数特性,保留说话内容不变,通过改变源说话人的个性特征使之具备目标说话人的个性特征的一种技术,它的研究具有很重要的应用价值和理论价值。

说话人特征一般分为以下几种:

⑴音段特征。音段特征主要描述的是语音的音色特征,每个人由于性别、年龄、喉部和声道构造的不同,因而具有各自不相同的音色。语音的音色与声带的振动频率、发音器官的送气方式和声道的形状、尺寸密切相关,表征音色特征的特征参数主要包括共振峰的位置、共振峰的带宽、频谱倾斜、基音频率、能量等;

⑵超音段特征。超音段特征描述的是语音的韵律特征,语音的韵律特征指的是语音所显示出来的抑扬顿挫的特性,表征语音韵律特征的特征参数主要包括音素的时长、基音频率的变化等,对于说话人来说,超音段特征主要受社会和心理状况的影响,容易随意的改变;

⑶语言学特征。语言学特征与人的生活环境、成长过程和个人习惯有很大关系,其主要包括习惯用语、方言、口音等,随意性很大,不易对其建模,所以该特征不在本文的研究范围之内。

不同的语音工作者对影响语音个性特征的声学参数对语音个性特征的贡献大小进行研究。有的人认为基频贡献最大,共振峰次之;有的人则认为频谱包络的贡献最大;有的人认为共振峰频率贡献最大,基频次之。从上边的研究结论我们可以看出每个研究者的研究结论都不同,但有一点是可以肯定,即每一个声学特征参数都无法代表人的全部的个性特征信息。

本文基于语音信号个性特征,主要针对超音段特征和音段特征的特征参数基频、Mel倒谱系数和共振峰进行研究,通过理论和实验分析它们各自的性能。

本文研究语音转换参数的思路:

参数不仅能正确表达人的语义信息,还要能充分体现个体之间较大的差异;

2 实验方案制定思路

本文制定的实验方案主要是从两个方面进行考虑制定:

⑴语音特征参数能充分体现异性之间个性特征的差异;

⑵从目前存在的语音转换结果我们得知异性之间的转换成功率略高于同性之间的转换,所以本文制定实验方案来研究基频、Mel倒谱系数和共振峰哪一个参数能更好的体现同性之间的个性特征差异。

3 实验方案的制定

方案一:一男一女说同样一句话。

方案二:三名女性说相同的一句话。

注:由于录音人员并非专业的录制人员,录音难免存在些许误差。

录音环境:实验室,噪声大约30分贝。

录音设备:笔记本电脑,Windows7系统,酷睿i5处理器。

4 实验结果分析

4.1 基频实验结果分析

人在发音时根据声带是否振动将声音分为浊音和清音,浊音携带者语音的大部分的能量,具有明显的周期性,而清音类似与白噪声,没有明显的周期性。发浊音时声带振动每开启和闭合一次的时间就是基音周期(pitch period),它的倒数称为基音频率(pitch frequency)。

本文运用软件分析基频的步骤为:首先按照实验方案录制语音,将得到的语音分别进行基频分析,得到基频初步取值;由于基频取值容易出现很多奇异值,所以需要对基频结果进行分析校准,从而得到准确的基频变化曲线。

本文对基频结果进行校准的原则:声带运动速度的变化是近似平滑的,突然大幅度的起落、跳跃变化都可能是错误的基频值;语音的清浊交替不可能在短时间内完成即短暂的清音段和浊音段都可能是错误的。

本文对基频结果进行校准的方法:通过观察初步得到的基频曲线,对于一些基频取值可能是错误的点所对应的的时间做窄带语谱图,通过计算该时间窄带语谱图的基频值来对原来的基频曲线进行校准。

图4-1是由方案一得到的基频变化曲线,其中横坐标表示时间(s),纵坐标表示基频取值的变化范围(HZ)。从图a)、b )我们看到基频变化曲线开始都存在一定距离的直线,那是由于录制语音的环境存在一定的噪声造成的,众所周知,噪声是没有基音周期的,所以其基频的变化为一条直线。通过对图4-1中a)、b)两个分图进行分析可以看出:一男一女不同的两个人,用相同的一句话进行实验时,基频变化曲线的变化轨迹以及变化范围均不相同,其中男声基频变化范围主要在100HZ~200HZ之间,女声基频变化范围主要在100HZ~300HZ之间。这说明,在相同的实验条件下说同一句话,异性之间的基频的变化不同。

图4-2是由方案二得到的基频变化曲线,横纵坐标的表示与实验一相同。通过对图4-2中a)、b)、c)三个分图的分析对比得出:三个女生用近乎相同的语速说相同的一句话进行实验时,女一、女二、女三基频变化范围均在100HZ~300HZ之间,其中女一基频变化范围整体偏高,女三基频变化范围整体偏低,且三个女声的基频变化曲线的变化轨迹均不相同。

通过对图4-1、4-2分析得出在相同的实验环境下基频是区分不管是同性还是异性之间个性特征的重要特征参数,它随着时间的变化模式也反映了语音中的声调和语调的变化,而声调携带着对辨识语意非常重要的信息。所以基频可作为语音超音段特征即语音韵律特征转换的特征参数。

4.2 MFCC实验结果分析

Mel倒谱系数(Mel frequency cepsrum coefficient,MFCC)是在Mel标度频率域提取出来的倒谱系数。它将人耳的听觉感知特性和语音的产生机制相结合 从而从人的声音提取出的能量分布谱。

在实际应用中MFCC倒谱系数计算过程如下:

⑴将信号进行分帧、预加重、加窗等预处理;

⑵进行短时傅里叶变换得到其频谱;

⑶求出频谱平方,并用M个Mel带通滤波器进行滤波,并将每个滤波器频带内的能量进行叠加,第k个滤波器输出地功率谱记为x"(k);

⑷将每个滤波器的输出取对数,得到相应频带的对数功率谱,并进行反离散余弦变换,从而得到L个MFCC系数,一般L取12~16个左右。MFCC系数如式4-1所示:

本文通过计算12个MFCC系数对语音特征参数MFCC进行分析。

图4-3是由方案一得到的MFCC变化曲线,其中横轴表示时间(s),纵轴表示MFCC频率(HZ)。通过对图4-3中a)、b)两个分图的分析对比得出:一男一女在相同的实验环境下,以近乎相同的语速说相同的一句话进行实验时得到的MFCC特性变化曲线不同,这说明当异性之间说相同的话时MFCC可以对他们进行有效地区分。

图4-4是由方案二得到的MFCC变化曲线,其中横轴表示时间(s),纵轴表示MFCC频率(HZ)。通过对图4-4中a)、b)、c)三个分图的分析对比得出:三个女生在相同的实验环境下,以相同的语速说相同的一句话进行实验时得到的MFCC特性变化曲线不同,这说明MFCC当同性之间说相同的一句话得到的MFCC变化轨迹虽然不相同但是变化规律却出现了类似。

通过对图4-3分析得出MFCC可以很好的区分异性之间的个性特征,但是在对图4-4进行分析研究的时候发现三个女声的MFCC变化曲线变化规律相似而且MFCC不利于后期语音的合成。

4.3 共振峰实验结果分析

声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减,得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。

在语音声学中,共振峰决定着元音的音质,反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,且人在语音感知中也利用了共振峰信息。

图4-5是根据方案一得到的共振峰曲线,横轴代表的是时间(s),纵轴代表的是共振峰频率(HZ)。通过对图4-5 a)、b)进行分析对比得出:一男一女用近乎相同的语速说相同的一句话进行实验时,产生的共振峰的个数是相同的,均为四个,但每一个共振峰的变化轨迹是不相同的。

图4-6是由方案二得到的共振峰变化曲线,横纵坐标的表示与实验一相同。通过对图4-6中a)、b)、c)三个分图的分析对比得出:三个女生用近乎相同的语速说相同的一句话进行实验时,共振峰变化曲线的变化轨迹均不相同。而且我们可以从图中看女一、女三的共振峰为四个、女二的共振峰则有三个,这是因为每个人受自身生理如鼻孔、咽腔、口腔大小的影响都有自身的共振区,从而造成共振峰分布的位置和个数不同。

通过对图4-5、4-6分析得出,在相同的实验环境下同性和异性之间共振峰的变化轨迹均不相同,从而我们可以得出依靠共振峰分布的位置可以有效地区分不同的人的,所以共振峰可作为语音转换中音段特征转换的特征参数。

5 小结

本文通过理论和实验分析基频、MFCC、共振峰对于区分不同人之间个性特征的作用,为语音转换特征参数的选取提供一个参考。

[参考文献]

[1]韩纪庆,张磊,郑铁然.语音信号处理.清华大学出版社,2008.

[2]李波.语音转换的关键技术研究[D].长沙:国防科学技术大学,2005.

[3]孙卓,岳振军,宋巍.基于LPC及其残差激励模型的汉语语音转换技术.军事通信技术第28卷第2期.2007.6.

[4]简志华,杨震.语声转换技术发展及展望.南京邮电大学学报(自然科学版)第27卷第6期.2007.12.

[5]王聪修.语音转换及其相关问题的研究[D].北京:中国科学院声学研究所,2001.

推荐访问: 语音 特征 转换 参数 研究