快捷搜索:

科学知识

当前位置:betway必威官网手机版 > 科学知识 > betway必威官网手机版:语音信号中的特征提取,

betway必威官网手机版:语音信号中的特征提取,

来源:http://www.abirdfarm.com 作者:betway必威官网手机版 时间:2019-10-11 05:23

与人类同属灵长目的猿与猴可以算是地球上除了人类以外大脑最发达、智商最高的生物之一了。那些在动物园中落寞独坐,或者在温泉里悠然自乐,又或者,在山林间剪径夺包还对着一脸悲愤的人类露出“你们都是渣渣”般嘲笑的猿猴,似乎距离人类就只有开口说一句话的距离。在科幻电影《猩球崛起》系列中,一只名叫凯撒,从母亲身上遗传了药物作用的黑猩猩,就神智全开,用一口六级水平的英语震慑了人类。然而现实之中,真的有猿猴能够学会说话吗?

狒狒产生与元音相当的发声。这就是已经通过在蒙彼利埃大学从解剖学GIPSA-实验室(CNRS /格勒诺布尔INP /格勒诺布尔阿尔卑斯大学),认知心理学实验室,以及实验室的研究人员负责协调的一个国际研究小组证实,使用发声的声学分析,结合舌肌的解剖学研究和猴子声带声学模型的建模。发表于PLOS ONE2017年1月11日,数据证实狒狒能够产生至少五次具有元音属性的发声,尽管喉咙高,并且当他们与伴侣交流时能够将它们结合起来。因此,狒狒的发声指向非人类灵长类动物的言语系统。

betway必威官网手机版 1

原文链接地址:

科学家搞清猴子为何不会说话 原因可能在于它们的大脑而非声带

出于各种各样的原因,让猿猴学习与人类交流­的尝试与试验并不罕见。然而至今为止, 最成功的结果,也只是手语交流。比如美国加州一只名为Koko的大猩猩,她掌握了一千多个单词,能够表达抽象感情,甚至有两只属于自己的宠物猫。然而,她从来没有开口说过一句话,似乎较之人与猿猴之间思维上的差距,“说话”才是一道难以跨越的壁垒。

betway必威官网手机版 2

上图示大象鼻腔在通过颅腔处的开口。大象可在吸水时关闭此开口,将水保存在外鼻腔内,然后利用肺气向身上喷洒。或是将由肺部而来的气体强压于颅内鼻腔的开口前,随着鼻颅口的突然打开,发出爆发式的鼻声trunk calls。

 

betway必威官网手机版 3

betway必威官网手机版 4尼姆•齐姆斯基(Nim Chimpsky)也是著名的“会说话”的猩猩。但研究人员仍然无法教会它发出人类的声音语言,只能让它跟着学习肢体语言。图片来源:DailyMail

语言是人类物种的一个独特特征。它的起源及其演变的问题是所有科学中最棘手的问题之一。该领域的主要理论之一将产生差异化声音的可能性与在智人进化过程中观察到的“喉下降”联系起来。该理论认为,人类言语需要低喉,并且狒狒中发现的高喉可防止产生类似于所有存在的元音系统的发声系统。语言。

通常而言,哺乳动物发声的相关器官包括肺、气管、喉larynx(包括声襞vocal folds)、咽pharynx以及鼻腔和口腔等(喉咽口鼻腔也被称为声腔vocal tract,为声音的共振系统)。来自肺部的气流是发声的能量源,声襞在稳定气流的带动下开合给气流加以快速的振动(以普遍的MEAD模式理解,声襞为被动运动,详细见下一段),产生声音(气流通过声襞打开类似门的形态,称为声门)。声襞振动加以气流振动的频率以赫兹Hz衡量,产生为基频fundamental frequency以及频率是基频整数倍的谐波harmonic。声腔因其形态等的变化而拥有不同的固有或共振频率resonant frequencies,在声源信号通通过声腔时,与声源信号发生共振。声信号中只有与共振一致的频率被增强,其余减弱,形成一系列共振峰,此过程也被称为滤波filter。而整个发生模式被称为源source(声襞)滤filter(声腔)模式。

一.语音的产生简介

科学家解释为什么猕猴不能像人类一样说话。

猿与猴不会说话的原因是什么呢?科学界对此的解释一直分为两个流派,从达尔文时代争论至今,谁也没能说服谁。

根据这一理论,只有一岁以上的人才能产生分化的声音,而婴儿,尼安德特人和所有猴子都无法这样做,因为他们的喉部位置太高。来自Gipsa-Lab(CNRS /格勒诺布尔INP /格勒诺布尔阿尔卑斯大学)的研究人员已经证明,在生产不同元音方面,婴儿和尼安德特人的喉部高位并不是一个障碍。然而,仍有待证明猴子,特别是狒狒,确实能够产生这些类型的发声。

betway必威官网手机版 5

1.1   发音器官

图片来源:archives/iStockphoto

早期的学者,包括达尔文,倾向于认为大脑的限制决定了猿猴不可能学会像人一样说话,它们并不能够自主控制声道肌肉的收缩,因而不能像人类一样灵活地发出各种声音。而1969年起,Lieberman等人的实验则逆转了舆论,提出声带的解剖学构造才是导致了猿猴不会说话的关键因素[1]

研究人员在声学上分析了狒狒的发声,对他们的舌头肌肉进行了解剖学研究,并模拟了他们的声道的声学潜力。他们因此发现这些狒狒产生的声音可与五个人类元音相媲美[ɨæɑou]。研究人员将这些声音描述为“类似元音”,因为它们具有元音的一些声学特性,而不具备所有属性。

简示象喉结构

    人体的语音是由人体的发音器官在大脑的控制下做生理运动产生的。人体发音器官由三部分组成:肺和气管、喉、声道。 肺是语音产生的能源所在。气管连接着肺和喉,是肺与声道的联系通道。喉是由一个软骨和肌肉组成的复杂系统,其中包含着重要的发音器官——声带。声带为产生语音提供主要的激励源。声道是指声门(喉)至嘴唇的所有发音器官,包括咽喉、口腔和鼻腔。

本报讯 一只名叫亚力克斯的鹦鹉能够说100多个词汇。而一头名叫柯希克的大象能够像人们用手指吹口哨那样用鼻尖“说”一些韩语。可是与人类关系最近的灵长类表亲却只能够呜啊、呜啊地咕哝,这真的很让人感到费解。几十年来,猴子和类人猿的声带解剖学特征被认为是它们无法重现人类语音的原因,然而一项新的研究表明,猕猴——乃至其他灵长类动物——不能说话的原因可能在于它们的大脑,而不是声带。这项发现可能为人类学家和语言学家提供新的线索,从而有助于确定人类何时学会了说话。

管风琴奏出的音符高低是由音管的形状与长度所决定,生物声道的发声原理也与此类似。因此,Lieberman 等人对一只刚刚死亡的普通猕猴(就是恍恍惚惚恒河猴里的恒河猴)进行了口腔石膏灌注,获取了猕猴声门至嘴唇的距离,然后将石膏模型切成薄片,通过薄片的重量估算了猕猴口腔内不同截面的面积。基于对猕猴口腔形状的计算,Lieberman等人认为猕猴的声道并不足以让它们发出某些元音,例如/a/, /i/与/u/——这些元音也恰巧是大部分人类语言所共有的元音[1]。稍后,Lieberman等人利用相同的方法在大猩猩身上重复这个实验[2],得到了与猕猴实验一致的结果。

betway必威官网手机版,此外,他们表明类似元音的声音[ɑ]和[u]各自用于两个不同的发声,根据情况产生,并且狒狒也可以产生这两个类似元音的声音序列与发声“嗬。”该原始系统与声带的振动频率相结合,其频率范围明显宽于语音的频率范围。

betway必威官网手机版 6

1.2   语音的产生

并未参与该项研究的加拿大维多利亚大学语言学家与语音专家John Esling表示:“这无疑说明猕猴的声带能够比之前所想的干更多的事情。”

然而,依然有学者认为,将猴子的“失语”归结为声道构造过于武断。就像达尔文指出的——自然使用越多,发声器官就会越发强大与完善。但是显然,大脑的进化对于语言的使用更加重要[3]。2016年,Ghazanfar实验室发表在Science Advances上的研究公然与Lieberman一派叫上了板[4]。Ghazanfar实验室指出,Lieberman等人用一只不知道怎么被摆弄了的死猴子就得出了结论,实在是误猴子弟啊[5]!Ghazanfar实验室的研究则采取了一种与Lieberman类似,却更为“全面”的方法——X光活体成像。在这个研究中,实验人员捕捉了活体猕猴发声、进食、吞咽以及做出咂嘴、呲牙等动作时的声道X光影像,手动提取了99组声道轮廓构象。利用与Lieberman实验相似的算法,通过计算机程序,研究人员就预测出了这99组声道构象所能实现的发音空间(phonetic space) 。

在非人类的灵长类动物元音protosystem的这次演示证实,它们可以产生不同的发声,尽管他们的高喉1。虽然猴子不产生语音,但数据表明狒狒的发声与人类语音系统之间存在着进化联系。更一般地说,口语可能是从我们上一代共同祖先Cercopithecoidae已经拥有的古老的发音技术演变而来的,大约在2500万年前。

上面的gif形象地展示了声襞的运动。©Wiki Commons

    语音是声音的一种,是由人的发声器官发出,具有一定语法和意义的声音。大脑对发音器官发出运动神经指令,控制发音器官各种肌肉运动从而振动空气从而形成。

betway必威官网手机版:语音信号中的特征提取,狒狒产生与元音相当的发声。这项研究的首席作者、奥地利维也纳大学进化生物学家与认知科学家William Tecumseh Sherman Fitch III表示,为什么猴子和类人猿不能说话的问题可以追溯至达尔文时代。他说,达尔文认为非人灵长类动物之所以不能说话是因为它们没有足够的智力。

betway必威官网手机版 7Ghazanfar实验室提取出的声道构象。A: 一只正在发出威胁性吼叫的猕猴的X光图。B: 轮廓提取。红线为声道轮廓。 图片来源: 参考文献[4]

这项研究得益于Gipsa-Lab(CNRS /格勒诺布尔INP /格勒诺布尔阿尔卑斯大学),认知心理学实验室,蒙彼利埃大学解剖学实验室的许多专家的密切合作,演讲和语言实验室,以及阿拉巴马大学新学院。它得到了Labex脑与语言研究所的支持。

betway必威官网手机版 8

betway必威官网手机版 9

然而随着时间的推移,人类学家转而接受了这样一种观点,即灵长类动物的声带阻碍了它们说话的能力——它们只是缺乏灵活性,从而无法产生广泛存在于人类讲话中的大量元音。Fitch,这依然是今天“教科书中的答案。”

人类说话或唱歌产生的声音包含许多不同的频率,共振峰(即发出声音时可以被作为特征识别的关键频率)是使听者能够区分元音的关键泛音[8]。Ghazanfar实验室的研究结果显示,猕猴的发音空间并不像Lieberman 五十年前用石膏模型预测出的结果那么悲观,猕猴的元音共振峰空间图谱倒是与人类女性有很大一部分重叠。

1由美国团队于2016年12月在Science Advances上发表的其他研究证实了这些结果,这要归功于猴子声带的发音测量。

betway必威官网手机版 10

    空气由肺进入喉部,经过声带激励,进入声道,最后通过嘴唇辐射形成语音。

Fitch与这项研究的共同作者、美国普林斯顿大学神经科学家Asif Ghazanfar怀疑达尔文的观点才是正确的。此前灵长类动物的发声研究大多基于石膏模型,但在这项研究中,科学家利用X光成像,建立了猕猴的声带电脑模型。

betway必威官网手机版 11共振峰比对图谱。其中,红线轮廓为人类女性元音共振峰空间,灰线轮廓为Ghazanfar组实验得到的猕猴元音共振峰空间,蓝线为Lieberman文章中提出的猕猴元音共振峰空间。两组图谱中,横轴均为频率最低的共振峰频率,左图纵轴为频率第二低的共振峰频率,右图纵轴为频率第三低的共振峰频率。猕猴的元音共振峰图谱倒是与人类女性有很大一部分重叠。图片来源:参考文献[4]

声襞振动理论最直观的有两类,肌弹性空气动力学myoelastic-aerodynamic (MEAD)理论,或称为气流驱动flow-driven,以及肌主动active muscular contraction(AMC)发声理论或称为咕噜模式purring。通常,MEAD是能效更高的发声方式,由气流带动、无需消耗能量振动肌肉。在目前看来,MEAD并没有一个频率上限,超过110,000hz的蝙蝠也采用此发声方式。而在低频段,人类演讲、唱歌以及老虎吼叫都属于此类(通常在40-100Hz)。AMC为肌肉收缩带动的,这种模式受限于肌肉收缩的速度,通常较难超过200Hz。AMC闻名于猫的咕噜叫,一般在30Hz左右,而蟾鱼toadfish的AMC发声频率在20-280Hz。在人身上还未发现AMC模式[1]。

1.3   语音信号的数字模型

研究人员训练埃米利亚诺——普林斯顿灵长类动物实验室的一只长尾猕猴——坐在一把椅子上,同时用X射线拍摄它进食、打哈欠,以及发出各种各样声音和口头攻击时的影像。

为了进一步验证这一研究结果,Ghazanfar 实验室从电脑计算得出的猕猴发音空间中提取出了五个元音音素,并邀请了40位人类来测试他们能否分辨出这些电脑模拟出的“猕猴”所发出的元音。测试结果达到了90-98%的正确率,证明了“猕猴”的声道可以清晰地表达出英语中的不同元音。

betway必威官网手机版 12

 betway必威官网手机版 13

研究人员的分析结果显示,猕猴很容易就能发出许多不同的声音,包括英语字母中最基本的5个元音(A、E、I、O和U)。

同时,实验室的研究人员还利用猕猴的发音空间生成了“Will you marry me?”的句子,与人类的声音相比较,二者的频率图像倒也有几分相似。寂寞的小伙伴们也可以去听一听二者的音频版对比,看看到底是猕猴的声音还是人类的声音让你情不自禁地回答了 Yes.

betway必威官网手机版 14

 betway必威官网手机版 15

研究人员据此推测,如果猕猴能像人类那样思考,那么它们将能说出数千个单词,甚至完整的句子。他们利用电脑模拟出了猕猴讲英文版“您愿意嫁给我吗?”的声音。听上去,猕猴的声音与人的声音还是有一定区别,但每个词都比较清晰,听懂并不难。

betway必威官网手机版 16     betway必威官网手机版 17

下面介绍Herbst和Stoeger等人(2012)的一个工作,他们DIY了一套装置用以引发雌性非洲象离体喉的振动,该雌象25岁,2500kg,喉的声襞宽10.4cm,喉下端保留10cm器官(气管至环状软骨处)用以套封住进气管。实验结果如下:声襞振动阈值压力在17毫巴mbar(1mbar=0.1kPa,人发声阈值为3-4毫巴;基频F0在5-60Hz,平均16.38Hz,与通过声襞长预测的基频18.43Hz相近,也符合大象较长的声襞与次生发声存在密切关系的假说。该实验过程中还发现了不同模式的声门振动以及不稳定的发声,这可能与接近声压阈值时声襞的不稳定状态以及声腔的缺失有关[1]。

 

研究人员认为,灵长类动物的发声能力之前被人们低估了,人类语言能力的进化需要的是大脑而非声带上的变化。

Ghazanfar实验室进行比对实验时用的“Will you marry me?”音频。左图链接的是人类女性的声音,右图链接的是电脑模拟猕猴发出的声音。两段音频用相同的噪音源进行了技术处理 。音频来源:参考文献[4]

betway必威官网手机版:语音信号中的特征提取,狒狒产生与元音相当的发声。v.qq.com/x/page/t0515dfmg5r.html

                                                             语音信号产生的时域模型

Fitch指出,大约在距今800万年前的某一个时间点上,人类与黑猩猩(我们在进化上最近的亲戚)分道扬镳,最终人类的大脑获得了对于声带的实质性控制。他说,那些在化石记录中寻找我们的人类祖先何时学会说话证据的人类学家是在“浪费时间”,这是因为所有的人类祖先都具有能够说话的声带解剖学特征。事实上,这一研究领域应该把目光聚焦在遗传因素上,例如FOXP2基因(已知对于正确的语音和语言的发展均至关重要的基因),从而搞清人类何时获得了“口才”。

betway必威官网手机版 18人类与“猕猴”表达“will you marry me?”时的声波频谱对比。上图为人类版本,下图为“猕猴”版本,横轴为时间,纵轴为声波频率。图片来源: 参考文献[4]

上面为高速录像的视频,录像长度为1.667s,每秒600帧,视频地址:

                     如图:语音信号的数字模型由三个部分组成,激励模型、声道模型、辐射模型。

荷兰奈梅亨市马普学会语言心理学研究所语言心理学家Dan Dediu表示,这项成果同时为研究现代语言打开了新的大门。他认为,在声带解剖学上轻微的种群水平差异可以解释为什么不同的语言有不同的语音和语音属性。

然而,这一系列实验并没有说服Lieberman。在2017年的Science Advances上,Lieberman 公开提出了几点质疑[6]。例如共振峰图谱恰巧说明了猕猴并不能很好地发出/a/, /i/ 及/u/三个元音;人与猕猴的“Will you marry me?”也只是轮廓相似——所以Ghazanfar的研究只不过是重复了他五十年前的结果而已。至于40个被试者参与的元音识别实验,看似统计正确,却只能唬住外行——二十世纪五十年代贝尔实验室就做过70位被试参与的、上万次元音识别测试。在那次测试中,一些元音的识别正确率可以达到99.98%[7],完胜“猕猴”们的数据。这恰恰说明猕猴并不能很好地表达人类语言。

下图分别为离体喉结构(下一)、装置图(下二)、实验录像截图、声谱图、信号图(下三)、气流速率与基频关系(下四)

 

Dediu表示:“即便猴子的声带可以支持口语,但它的精细解剖特征可能会决定口语以什么样的形式出现。”他说:“我甚至可能会考虑在我的模拟中添加一个猴子声带,看看会有什么样的结果。”

看似客观中立的数据,从不同的角度阐释,也能得出相反的结论。两方你来我往,各执立场,终究也没能争出一个所以然来。猿和猴子也至今没有说过一句话。这到底是由于大脑不够发达,还是由于声道条件有限……如同生物学领域的很多问题一样,依然是一个需要争论很久的话题。也许终有一天,随着技术的发展和思路的拓宽,我们会得到一个确切的答案——只是希望,那时候的我们并不是站在破败的加利福利亚街,“猴子们”的长矛与枪口之下。(编辑:明天)

betway必威官网手机版 19

                                语音信号S(z)=U(z)·G(z)·R(z)。

《中国科学报》 (2016-12-12 第2版 国际)

参考文献

  1. Lieberman, Philip, Dennis H. Klatt, and William H. Wilson. "Vocal tract limitations on the vowel repertoires of rhesus monkey and other nonhuman primates." Science 164.3884 (1969): 1185-1187.
  2. Lieberman, Philip, Edmund S. Crelin, and Dennis H. Klatt. "Phonetic ability and related anatomy of the newborn and adult human, Neanderthal man, and the chimpanzee." American Anthropologist 74.3 (1972): 287-307.
  3. Darwin, Charles. The descent of man and selection in relation to sex. Vol. 1. Murray, 1888.
  4. Fitch, W. Tecumseh, et al. "Monkey vocal tracts are speech-ready." Science advances 2.12 (2016): e1600723.
  5. Fitch, W. Tecumseh, et al. "Response to Lieberman on “Monkey vocal tracts are speech-ready”." Science Advances 3.7 (2017): e1701859.
  6. Lieberman, Philip. "Comment on “Monkey vocal tracts are speech-ready”." Science Advances 3.7 (2017): e1700442.
  7. Peterson, Gordon E., and Harold L. Barney. "Control methods used in a study of the vowels." The Journal of the acoustical society of America 24.2 (1952): 175-184.
  8. Wikipedia, 共振峰, (2017), available at zh.wikipedia.org/wiki/共振峰

betway必威官网手机版 20

               激励模型:发浊音时声带的不断开启和关闭将产生间歇的脉冲波。这个脉冲波类似于斜三角形脉冲串。如下图所示:

betway必威官网手机版 21

betway必威官网手机版 22

betway必威官网手机版 23

                                                        单个斜三角形波及其频谱

betway必威官网手机版 24

          发清音时,可等效成随机白噪声。

上图展示声襞的不稳定振动(虚线处)

         声道模型:声道部分的数学模型目前有两种观点,一种是将声道视为多个不同截面积的管子串联而形成的系统,即“声管模型”,另一种是将声道视为一个谐振腔,即“共振峰模型”。

尽管大象拥有着一套基本源滤发声模式的解剖结构,但由于大象巨大的体型和鼻声的掺杂等原因使得它们的发声与众不同。大象巨大的体型以及相对巨大的发声器官是它们能发出强大、低频声音的重要原因。大部分象声的产生被认为是以喉声为主的,由巨大的肺部鼓气、在通过喉时产生振动,在声腔的共振下形成共振峰。大象的声腔包括鼻的延伸、头骨部鼻腔蜂巢状的结构,以及喉到唇的距离等。象鼻形成延长的共鸣体在长度、形态上均有着极大的灵活性,可以对声音进行复杂地加工。大象也可以通过将气体鼓进鼻腔发声,可发出不同的高频声音[3]。后文将具体展开:

        辐射模型:辐射模型表征口和唇的辐射效应和圆形头部的绕射效应。

betway必威官网手机版 25

二:一些基本名词简介

上图示印度象的听力图,该工作完成于1980年,得到结论:大象可听到16Hz(65dB),无法听到14kHz(90dB),最灵敏区域在1000Hz段。

  音素:语音中最小的基本单位是音素,音素是人类能区别一个单词和另一个单词的基础。音素构成音节,音节又构成不同的词和短语。音素又分为元音和辅音。

这面插入一个侧面反映体尺与声频关系的证据:

  元音:元音,又称母音,是音素的一种,与辅音相对。元音是在发音过程中由气流通过口腔而不受阻碍发出的音。不同的元音是由口腔不同的形状造成的。(元音和共振峰关系密切)

betway必威官网手机版 26

  辅音:气流在口腔或咽头受到阻碍而形成的音叫做辅音,又叫子音。不同的辅音是由发音部位和发音方法的不同造成的。

嘴里有重炮的考拉。雄性考拉在吸气时能发出一种极低频(9.8-61.5Hz,平均27.1)的振动,远低于该体型动物正常发声的频率,却与大象处在同一低频水平。后来科学家们发现该低频的发生与雄考拉某个结构有关,起名为软腭声襞或软声襞velar vocal folds。该结构是考拉正常声襞长度的3倍多、重量的683倍。软声襞的尺寸和重量满足低频振动假说对应的理论频率,这一点侧面证明了振动结构尺寸越大能产生的频率越低。(考拉两结构的体尺指标对比:声襞,长约9.8 ± 0.9 mm,宽约1.0 ±0.1 mm,厚约0.8±0.2 mm,重约0.008g;软声襞,长约32.8±2.6 mm,宽约15.1±1.9 mm,厚约10.8±1.4 mm,重约5.46g;软声襞完全展开约51.1mm,理论产生频率低达9.8Hz)[10]

  清音:清音和浊音的概念在文献中涉及较多。严格来讲,很多特征的提取都需要区分清音和浊音。当气流通过声门时,如果声道中某处面积很小,气流高速冲过此处时产生湍流,当气流速度与横截面积之比大于某个临界速度便产生摩擦音,即清音。简单来说,发清音时声带不振动,因此清音没有周期性。清音由空气摩擦产生,在分析研究时等效为噪声。

说回上文的大象独特之处:

  浊音:语音学中,将发音时声带振动的产生音称为浊音。辅音有清有浊,而多数语言中的元音均为浊音。浊音具有周期性。

(1)大象巨大的器官尺寸和象鼻的存在使得声腔的形态变得复杂。列几个指标,成雌亚非洲象的肺重分别为21kg和22kg,而青壮年成人的肺通常不足1kg;一头5岁雌性非洲象的声襞长7cm,一头25岁的雌非洲象为10.4cm,而人类女性只有约1cm[2]。

发清音时声带完全舒展,发浊音时声带紧绷在气流作用下作周期性动作

(2)象鼻鼻腔的大部分位于颅腔外侧,形态和长度均拥有高度的灵活性。声腔长度是共振频率最主要的决定因素,对于大象来说,声腔距离可以近似地认为是喉到口腔或是喉到鼻腔开口的距离,此长度的变化范围时较大的。以成年非洲象为例,此长度可能是0.75m(喉到口)到2.5m(喉到鼻)。通过调整象鼻的形态、鼓气速度和间隔等,大象能发出变幻莫测的声音,甚至模仿人类、车辆等发声,这被Soltis称为第二类象语[2]。

三:语音特征

(3)另外两个解剖结构也可能通过影响共鸣腔的形态和尺寸影响发声的效果,舌骨器hyoid apparatus和咽囊pharyngeal pouch[2]。大象的舌骨器是由舌跟的一系列骨头组成,以一种松散的连接方式支撑着舌和喉。与大多数哺乳动物的骨连接和9根骨不同,象舌骨器由5根组成,与头骨的连接由肌、腱和韧带支撑。这种较松散的连接方式加强了运动性和喉的灵活性[4]。人类舌骨器与喉、头骨的连接方式也是这种肌腱韧带式的松散结构。其次,这种松弛的组合在舌根后形成了一个咽囊,是一个起储水作用的袋囊状结构。该结构形成的共鸣腔,也可能与低频发声有关[3]。

   3.1.声强和声强级

下图示舌骨器和咽袋。

   在物理学中,把单位时间内通过垂直于声波传播方向的单位面积的平均声能,称为声强。声强用I表示,单位为瓦/平米。实验的研究表明,人对声音强弱的感觉并不是与声强成正比,而是与其对数成正比的。所以一般声强用声强级来表示。

betway必威官网手机版 27

                                                      SIL=10lg[I/I’]=10lg(I/I’)

betway必威官网手机版 28

  式中I为声强,I’=10e-12瓦/平米称为基准声强,声强级的常用单位是分贝(dB)。

根据大象发声的部位,象声主要被分为喉声Laryngeal calls和鼻声trunk calls,下文分别以隆叫和号声作为声型介绍。

3.2.响度

下表示Joyce Poole对象声的分类,粗体由上到下为喉声、鼻声和习得声

   响度时一种主观心理量,是人类主观感觉到的声音强弱程度。一般来说,声音频率一定时,声强越强,响度也越大。但是响度与频率有关,相同的声强,频率不同时,响度也可能不同。响度若用对数值表示,即为响度级,响度级的单位定义为方,符号为phon。根据国际协议规定,0dB声级的1000Hz纯音的响度级定义为0 phon,n dB声级的1000Hz纯音的响度级就是n phon。其它频率的声级与响度级的对应关系要从等响度曲线查出。

betway必威官网手机版 29

betway必威官网手机版 30
betway必威官网手机版 31

隆叫rumble

                                            等响度曲线与声强级的关系

隆声通常是包含丰富谐波、且基频落在20hz附近或以下的。5m处估计的声压级在77-103dB,1m处最多达到117dB。鉴于肺压与肺容量、基频与声襞重量和长度有关,大象能发出如此高声压(振幅)、低频的振动主要与器官和结构的巨大尺寸有关[2]。

3.3.音高

betway必威官网手机版 32

  音高也是一种主观心理量,是人类听觉系统对于声音频率高低的感觉。音高的单位是美尔(Mel)。响度级为40 phon,频率为1000Hz的声音的音高定义为1000Mel。

上图示共振峰的形成,下图展示的是语图与振幅图中共振峰的位置

 

betway必威官网手机版 33

     betway必威官网手机版 34      betway必威官网手机版 35

根据共振峰的分布情况,人们依照Fitch(1997)的模型简略估计发声时共振声道的长度,进而推测该大象是否使用鼻腔发声[5]。如上图根据估计的声腔距离(到口0.75m,到鼻2.5m)估算共振峰的频率,并与六头成雌实际隆叫(样本数112)的共振峰比较,结果暗示大象在隆叫过程中鼻腔都参与了共振,也侧面证实了KPayne在1986年的发现,即可通过鼻腔在颅骨处的振动判断大象在发出不可闻的声波。Soltis根据0-3岁乳象的120个隆叫计算声腔长度,得到77cm,落在估计的声腔长度30cm(到口)-90cm(到鼻)之间[2]。

                                                     主观音高与实际频率的关系

下图为声腔长度计算公式

3.4基音周期和基音频率

betway必威官网手机版 36

3.4.1 基音周期的概念

下图为公式估计共振峰的频率(右三和右二)与实测隆叫共振峰频率(右一)的比较

      人在发音时,声带振动产生浊音(清音由空气摩擦产生)。浊音的发音过程是:来自肺部的气流冲击声门,造成声门的一张一合,形成一系列准周期的气流脉冲,经过声道(含口腔、鼻腔)的谐振及唇齿辐射最终形成语音信号。故浊音波形呈现一定的准周期性。所谓基音周期,就是对这种准周期而言的。它反映了声门相邻两次开闭之间的时间间隔或开闭的频率。

betway必威官网手机版 37

     基音周期是语音信号最重要的参数之一,它描述了语音激励源的一个重要特征。基音周期信息在语音识别、说话人识别、语音分析与语音合成,以及低码率语音编码、发音系统疾病诊断、听觉残障者的语言指导等多个领域有着广泛的应用。(因为女性基频比男性高,所以有些算法中使用基频来区分性别,还挺准的)

虽然上述隆叫发声都暗示了鼻腔的参与,但口腔和鼻腔的角色分配还尚不清楚,同时咽囊、可活动的喉结构的参与也不清晰,需要更加复杂的模型。

3.4.2基音周期的估算方法

鼻号trumpet

    基音周期的估算方法很多,比较常用的有自相关法,倒谱法(我们提基频用的倒谱法),平均幅度差函数法,线性预测法,小波—自相关函数法,谱减—自相关函数法等。下面简单介绍用自相关法提取基频。

Joyce Poole等人将大象的隆叫等声音归为喉声,因为这类发声涉及到了基本的声襞振动和声腔共振。号声通常认为是大象向鼻子中快速鼓气发出的声音,Soltis称之为第二类象声或象语[2],无需喉部的振动。JPoole称此类象声为鼻声。虽然鼻声的发生不涉及声源振动的参与,也可以通过Titze(1994)提出的管长与共振频率关系的模型理解[6],将鼻道理解为管子。根据公式得到的共振峰1约为100Hz,与实验测得300Hz有些差距,说明需要更复杂的模型来理解象鼻的发声。

预处理:

管腔模型公式

      为了提高基音检测的可靠性,有人提出了端点检测和带通数字滤波器两种预处理方法对原始信号进行预处理。在提取基频时端点检测比一般端点检测更为严格(一般端点检测会保留语音有话段的头和尾,以避免把有用信息当作噪声滤除,但头和尾不包括基频信息,所以在进行提取基音的端点检测时阈值设定更为严格,滤去头部和尾部)。用带通滤波器预处理的目的是为了防止共振峰第一峰值的干扰,一般带通滤波器的频率范围选为60~500Hz。

betway必威官网手机版 38

                                                                            下图给出青年男女的基频范围图:

模仿或习得声vocal imitation or learning

betway必威官网手机版 39

模仿和习得声是大象学习能力和发声潜力的一个体现,对于此类发声的记录并不在少数。早在1980年前,就有关于大象模仿人类语调的记述,该轶闻描述了在哈萨克斯坦一家动物园的以俄罗斯语和哈萨克语演讲式语调发声的亚洲象[11]。然而正如故事性记录的特点,进一步的描述和证据缺失了。JPoole等人也记录过几种模仿声,如卡车声等,还有类似哨声、呱声等记录[3]。

 

betway必威官网手机版 40

自相关法:

2012年,有一篇文章系统地分析了一头雄性亚洲象Koshik的模仿声。Koshik来自韩国的动物园,它的语库包括六个韩语词汇,其中最被接受的一词为annyong你好(16人中有9人根据象声录音拼写正确)。研究者将Koshik的模仿声与自然象声和人声进行了对比,从发声行为、语句结构等角度分析,基本可以认定Koshik是在模仿发出人类的一些语言[12]。

        短时自相关函数的定义为 其中k是时间的延迟量,N为帧长,短时自相关函数具有以下重要性质。若当原信号具有周期性,那么它的自相关函数也具有周期性,并且周期性与原信号的周期相同。且在K等于周期整数倍时会出现峰值。清音信号无周期性,它的自相关函数会随着K的增大呈衰减趋势,浊音具有周期性,它的R(k)在基因周期整数倍上具有峰值,通常取第一最大峰值点作为基因周期点。自相关函数法基音检测正是利用这一性质来进行基因周期检查的。

betway必威官网手机版 41

3.5信噪比

betway必威官网手机版 42

定义:

betway必威官网手机版 43

   信噪比的计量单位是dB,其计算方法是10lg(PS/PN),其中PS和PN分别代表信号和噪声的功率(用能量也是一样的)。

系列1:“听”见大象1——一些重要的研究

计算方法:

http://www.jianshu.com/p/b8152978a3b5

betway必威官网手机版 44

参考:

    在噪声和语音完全混杂的情况下信噪比很难计算,在预知噪声的情况下,可以用实际信号(纯语音 噪声)减去噪声,得到近似的纯语音信号。从而通过进一步计算求得信噪比。

[1]Herbst C T, Stoeger A S, Frey R, et al. How low can yougo? Physical production mechanism of elephant infrasonic vocalizations[J].Science, 2012, 337(6094): 595-599.

 

[2]Soltis J. Vocal communication in African elephants(Loxodonta africana)[J]. Zoo biology, 2010, 29(2): 192-209.

    我们在实验中所采集的信号信噪比低时在10几dB,信噪比高时在30dB以上。

[3]Poole J H. Behavioral contexts of elephant acousticcommunication[J]. The Amboseli elephants: a long-term perspective on along-lived mammal. Chicago: The University of Chicago, 2011: 125-161.

 

[4]Shoshani J. Understanding proboscidean evolution: aformidable task[J]. Trends in Ecology & Evolution, 1998, 13(12): 480-487.

以下4个特征为医学中常用的检查嗓部病变的特征。

[5]Fitch WT. 1997. Vocal tract length and formant frequencydispersion correlate with body size in rhesus macaques. J Acoust Soc Am 102: 1222–2113.

3.6谐噪比:

[6]Titze IR. 1994. Principles of voice production.

    HNR(Harmonics-to-Noise ratio)是语音中谐波成分和噪声成分的比率。是检测病态嗓音和评价嗓音素质的一个客观指标,能有效地反应声门闭合情况。需要注意的是这里的噪声不是环境噪声,而是发声时由于声门非完全关闭引起的声门噪声。

[7]Aomatsu T. A numerical analysis of phonation using atwo-dimensional flexible channel model of the vocal folds[J]. 2001.

3.7频率微扰(jitter)

[8]vocal cord:

   频率微扰是描述相邻周期之间声波基本频率变化的物理量。主要反映粗糙声程度,其次反映嘶哑声程度。

[9] Isaza R. 2006. Respiratory System. In: Fowler ME, MikotaSK, editors. Biology, medicine, and surgery of elephants. Ames, IA: Blackwell Publishing;p 291–298.

语音信号中的频率微扰与声门区的功能状态是一致的。正常嗓音周期间的频率相同者较多,不同者甚少,因此频率微扰值很小。当发生声带病变时,微扰值增大,使声音粗糙。

[10]Charlton B D, Frey R, McKinnon A J, et al. Koalas use anovel vocal organ to produce unusually low-pitched mating calls[J]. CurrentBiology, 2013, 23(23): R1035-R1036.

3.8振幅微扰(shimmer)

[11]Stoeger A S, Mietchen D, Oh S, etal. An Asian elephant imitates human speech[J]. Current Biology, 2012, 22(22):2144-2148.

   振幅微扰描述相邻周期之间声波幅度的变化,主要反映嘶哑声程度。Jitter和shimmer共同反映声带振动的稳定性,其值越小说明在发声过程中声学信号出现的微小变化越少。

[12] Stoeger A S,Mietchen D, Oh S, et al. An Asian elephant imitates human speech[J]. CurrentBiology, 2012, 22(22): 2144-2148.

3.9规范化噪声能量(NNE)

   主要计算发声时由于声门非完全关闭引起的声门噪声的能量。主要反映气息声程度,其次是嘶哑声程度,一定程度上反映声门的关闭程度,对由于声带器质性或功能性病变而产生的病理嗓音的分析很有价值。

 

3.10梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients, MFCC)

3.10.1基本概念:

   在语音识别(Speech Recognition)和话者识别(Speaker Recognition)方面,最常用到的语音特征就是梅尔倒谱系数。梅尔倒谱系数是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:

betway必威官网手机版 45

式中f为频率,单位为Hz。

                                                         下图给出Mel频率与线性频率的关系。

                 betway必威官网手机版 46

                                                       Mel频率和线性频率的关系

3.10.2计算方法:

基本步骤:

                          betway必威官网手机版 47

 

                                                                  计算倒谱的流程图

1.预加重

   预加重处理其实是将语音信号通过一个高通滤波器:betway必威官网手机版 48

betway必威官网手机版 49

   式中μ的值介于0.9-1.0之间,我们通常取0.96。预加重的目的是提升高频部分,使信号的频谱变得平坦,移除频谱倾斜,来补偿语音信号受到发音系统所抑制的高频部分。同时,也是为了消除发生过程中声带和嘴唇的效应。(因为口唇辐射可以等效为一个一阶零点模型)

 2.分帧、加窗,快速傅里叶变换

    因为语音信号为短时平稳信号,所以需要进行分帧处理,以便把每一帧当成平稳信号处理。同时为了减少帧与帧之间的变化,相邻帧之间取重叠。一般帧长取25ms,帧移取帧长的一半。

3.Mel滤波器组

在语音的频谱范围内设置若干带通滤波器 ,M为滤波器的个数。每个滤波器具有三角形滤波器的特性,其中心频率为 ,在Mel频谱范围内,这些滤波器是等带宽的。每个带通滤波器的传递函数为:

betway必威官网手机版 50

其中: 
betway必威官网手机版 51

 

三角带通滤波器有两个主要目的:

    对频谱进行平滑化,并消除谐波的作用。此外还可以减少运算量。

   在MATLAB的voicebox工具箱中有melbankm函数可用于计算Mel滤波器组。

betway必威官网手机版 52

                                                             三角形滤波器的示意图

4.计算每个滤波器组输出的对数能量为:

betway必威官网手机版 53

 

5.经离散余弦变换(DCT)得到MFCC系数:

betway必威官网手机版 54

将上述的对数能量带入离散余弦变换,求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数,通常取12-16。这里M是三角滤波器个数。

以下两个特征为能量特征:

3.11短时能量

       计算第i帧语音信号 的短时能量的公式为

                                                              betway必威官网手机版 55       

 

 

                                                                  betway必威官网手机版 56

                                                                                                              计算一帧语音信号的短时能量

      短时能量的计算方法比较简单,即取一帧信号,通过短时能量计算公式计算即可。

3.1.2短时平均幅度

     语音信号的短时平均幅度定义为:

betway必威官网手机版 57

 

      短时平均幅度也是一帧语音信号能量大小的表征,它与短时能量的区别在于计算时不论采样值的大小,不会因为取二次方而造成较大的差异,在某些应用领域中会带来一些好处。

      短时能量和短时平均幅度的有作用主要是:作为区分清浊音,区分声母韵母,区分有话段和无话段的指标。

3.13短时平均过零率

      短时平均过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。

其计算公式为:

betway必威官网手机版 58

 

由于浊音具有较低的过零率而清音具有较高的过零率,过零率可以用来区分清音和浊音,在端点检查中有一定的运用。

3.14共振峰

基本概念:

        共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。在语音声学中,共振峰决定着元音的音质

        共振峰是表征语音信号特征的基本参数之一。它在语音信号合成、语音识别和语音编码等方面起着重要作用。共振峰可以等效为声道系统函数的复极点对,由于人的声道平均长度为17cm,而语音信号的能量主要集中在0-5kHz。因此语音通常包含4到5个稳定的共振峰,一般只需要研究前三个共振峰。

betway必威官网手机版 59

betway必威官网手机版 60

                                                                                        共振峰的一个示意图

      从图中可以看到:1语音信号的能量在频率上存在频谱倾斜;2共振峰位置与谱包络位置很一致(这也是谱包络法提取共振峰的原理)

                      betway必威官网手机版 61

 

                                                      普通话10个元音共振峰均值数据表(Hz)

提取方法:

   共振峰的提取方法较多,比较常见的有谱包络法、倒谱法、LPC内插法、LPC求根法、希尔伯特变换法等,但以上方法都或多或少受,虚假峰值,共振峰合并,高音调语音(尤其是女性)的影响,针对单个元音以上方法可以较好的找到共振峰,但对于连续语音准确度较差。在噪声背景下不具有很好的鲁棒性。下面简单介绍一种针对连续变化语音的鲁棒性较好的共振峰追踪算法。

 

          betway必威官网手机版 62       betway必威官网手机版 63

                                                                                                      算法示意图

      传统的共振峰提取方法都是基于谱分析和峰值检测技术。这些方法对于噪声背景下共振峰的检测,既不准确又不鲁棒。图示这种基于预滤波的方法,在进行谱峰检测之前对每一个共振峰使用一个时变的自适应滤波器进行预滤波。预滤波限制了每个共振峰的频谱范围,因此减小了相邻峰值之间的干扰和背景噪声的干扰。

    首先进行预加重,原因和MFCC中提到的相同,都是为了移除频谱倾斜。

    第二步是进行希尔伯特变换,得到原实值信号的解析信号,便于分析计算。

   第三部分是四个自适应共振峰滤波器。每个滤波器由一个全零点滤波器和一个单极点的动态追踪滤波器组成。这个滤波器的作用是在对每一个共振峰值进行估算之前,对其进行动态滤波,抑制相邻共振峰的干扰和基频干扰。

    第四部分包括清浊音检测,性别检测(根据基频),能量检测。性别检测的目的是针对男女共振峰的差异性给定不同的滤波初值。能量检测是为了滤除无话段,类似于端点检查,清浊音检测是为了滤除清音,因为清音不含共振峰。

   最后通过移动平均值作决策,符合条件的值作为共振峰估计值保留,不符合条件的值用其移动平均值代替。

betway必威官网手机版 64  betway必威官网手机版 65

 

      上图是文章给出的共振峰估计和实际共振峰的图形。该方法比之前我们采用的倒谱法和LPC法的准确度都要高,但其计算复杂度较高,算起来太慢了。

    共振峰参考文献:Robust Formant Tracking for Continuous

SpeechWith Speaker Variability

3.15 声门波

按语言产生的线性模型, 语言信号的频谱为:

  betway必威官网手机版 66(式一)

其中 是声门波的频谱, 是声道脉冲响应的频谱, 是口唇辐射效应的频谱。在语音信号的分析工作中,语音分析的一个主要任务是从信号中获得声道响应的频谱。口唇辐射的影响比较小, 容易作理论估计, 而声门波的频谱的关系比较复杂, 影响也较大。(以上是说为了得到准确的声道响应需要估计声门响应,这也是一些文献研究声门波的目的)。文献指出,声门波蕴含一定情感信息,对压力分类有一定作用。

下图给出一个声门波的模型:

betway必威官网手机版 67

                                            (可以看到这个和我之前给出的激励模型相似)

声门波的计算方法:

由式一可知,声门  betway必威官网手机版 68  betway必威官网手机版 69(式二)

      由于口唇辐射容易估计,所以计算声门波的难点在于把声门响应和声道响应区分开。在closed phase,即图中C区时,声门和声道之间的影响是最小的。这时候分析声道参数时最合适的。这就需要从动态的声信号中找到声门闭合的瞬间(也就是closed phase),很多研究者通过动态算法,声门输入能量,共振峰稳定性,残余能量来寻找声门的闭合瞬间。然而受到讲话方式(比如压力状况下声门闭合时间会变短等)和性别的影响(女性讲话基频比男性更高,声门动作更快,声门并不总是完成闭合),上述方法都很难准确找到声门的闭合相。实际医学中一般用EGG(舌动电流描记器)等其它外部传感器来观察close phase,从而得到准确的声门估计。

     下面给出moore提出的一种声门波算法。

     该算法中把口唇辐射可以等效为一个一阶零点模型。声道响应用全极点模型来等效。根据式二,声门的估计可以又声门反滤波得到。

                            betway必威官网手机版 70

 

                                                                              Moore提出的算法图示

1: 为输入,表示一帧信号,其长度为4-5个基音周期。

2:对原始信号进行P阶基音同步的线性预测分析,得到一组c初始的LPC参数(ap),用来产生残差信号,A(z)

3:找到残差信号的负峰值。它的负峰值的位置对应这声门波出现最大负斜率的位置。closed phase一般在这个位置附近。峰值位置被作为迭代的中点,而迭代的起点用峰值位置减去LPC阶数P得到。从c起取2P长度,做基于协方差的LPC,得到A(z)

 

betway必威官网手机版 71

                                                  步骤3的一个示意图

   4: 将glottal derivative(gldv)和线性预测分析的参数存储在矩阵中。进行迭代,迭代次数为2P。

  5:后处理过程。

声门参考文献:ALGORITHM FOR AUTOMATIC GLOTTALWAVEFORM ESTIMATIONWITHOUT THE RELIANCE ON PRECISE GLOTTAL CLOSURE INFORMATION

3.16 其它特征:

   像语速,停顿等可以顾名思义,但我尚不了解计算方法的特征文中没有写出。

 

本文由betway必威官网手机版发布于科学知识,转载请注明出处:betway必威官网手机版:语音信号中的特征提取,

关键词: