普通话语音合成中有关自然度的韵律变量问题
[摘 要]:普通话语句中音节间和短语间的韵律特征变化,与合成语音的自然度关系密切,其中尤以声调的变化最为重要。文中叙述普通话韵律在口语中的必然变量和自由变量、普通话的轻声和轻读,字调和语调等在合成中的处理问题。文
[英文摘要]:
[关 键 字]:
[论文正文]:普通话语句中音节间和短语间的韵律特征变化,与合成语音的自然度关系密切,其中尤以声调的变化最为重要。文中叙述普通话韵律在口语中的必然变量和自由变量、普通话的轻声和轻读,字调和语调等在合成中的处理问题。文中并讨论如何用移调方法在合成中将普通话的平叙句的语调修改成逻辑重音或感情重音的语调。一.普通话语句中的语音变量普通话的语句在口语中自然地说出,其中各音节的读音在连读中起了变化。这种变化在传统语音学中称为“同化作用”。语句中各音节之间的同化现象可分为三类;前音节尾被后音节首所影响而起的变化,称为“逆同化”:反之、后音节首被前音节尾影响而起的变化称为“顺同化”;再有、前音节尾与后音节首相互影响而都起变化的称为“双向同化”。连读变化在音段的音色上:有元音和辅音的变化,语音学称为“协同发音”。在超音段的韵律上:有声调、重音和长度的变化。声调的变化通称为“连读变调”,重音的变化、有“逻辑重音”和“感情重音”,其中又可分为若干等级长度的变化、有“音节的长、短”和“节奏”的“停、延”。普通话的连读变化多数是逆同化、少数是双向同化,极少是顺同化。在合成语音中,音色的变化跟自然度关系较少,韵律的变化则跟自然度有密切关系,其中尤以声调的变化关系最大。本文主要将对声调的变化多所叙述。因本文并非这方面的综述,故所取资料仅限于个人的研究范围。二.普通话的韵律变量与合成自然度的关系语音自然度的范围和规格,属于主观评价性质,其发音质量和听音标准都是因人而异、因境而异的。目前国内对普通话合成质量的考核、一般都是在听感上和人的话音比较,来评价其自然度;而合成的语句也大都限于平叙的语音。近些年来,普通话的合成一般都已采用拼接合成系统。这个系统对每个音节中参量程序的编制可以省去,而对各音节间的协同发音和韵律变量的处理,却是关系到自然度的关键。目前通行的合成语音中,对词或短语变调的处理,大都已有相当满意的结果;但成句的语调方面、如各种语气的韵律变量和处理规则,还没有满意的成果。三.普通话短语中音节间韵律的必然变量普通话语句中前后音节之间音色的变量、主要由两音节的唇位或舌位相继的动势和动程
292 所造成;韵律变量的发音方法就比较复杂。其中声调的变化是声带颤动频率的变化。它是由前音节韵尾的声带颤动的频率、向后音节的清声母的强频集中区、或浊声母的起始频率靠拢所造成。长度的变化也不单纯。单音节的长度变化是声母与韵母的长度变化,短语或句子的长度变化、除音节的长度外,还要加上音节之间的停顿或拖长的时间。重音的变化有两种不同的属性:一是发音器官所用动力的变化(音强);另一是听音器官所受刺激(音量)的变化。前者可用声学幅度来计量,后者则要用幅度和时长的积分来计量。单音节和短语的韵律变量都是由言者发音和听音生理上必然的运动过程所形成的。都有其一定的、相对关系的模式。普通话双音节的连读变调模式(除轻声或轻读)、一般不受语法结构的影响。也就是说、两音节的语法类型无论是一个词或字组,其语法结构无论是名动、动宾、偏正或并列,他们的变调模式都是相同的。但是、普通话的多音节、从三音节开始到五音节的连读变调,就须要服从语法结构的规则、而产生不同的模式。它们既有语音的规律,又有语法的规律,各有其基本调型。这都属于表义的、必然的变调。在合成中比较易于处理。四.普通话语句中短语间韵律的自由变量普通话语句中由于言者为了表达情感或着重的意图,而增加了韵律的更多的变化。语句韵律的变化不但表义,而且表情,成为高层次的合成模式。这种韵律的变化是随言者的自由意图所决定,而不是由发音生理的必然规律所决定的,他的意图在对话中可能随说随改,同样的短语、在句子中由于逻辑的性质或情感的程度不同,而有不同的韵律变化。它可称为“自由的变量”,一般常用的“语调”的名称,在狭义上专指语句的声调,在广义上就泛指语句的韵律。这是语音合成中的最高层次,也是最难处理的对象。五.普通话语句中的轻声与轻读口语的自然度的关系以韵律中的声调变化为主,已如上述。但是韵律的其它两特征:长短和轻重的关系也不能忽视,其中尤以长短的节奏跟声调有密切关系。传统的说法所谓“抑扬顿挫”可以概括这种现象。它既指声调的高低、声音的强弱,也可指音长的延续和停顿。普通话中的“轻声”就承担了这项任务。过去的语音学中常把轻声定为音位或调位(把它作为四声之外的第五声调),这是值得商榷的。因为轻声一定是处于一个常规音节之后、并且随前字的不同调类而决定自己的轻声调型的。因此它应该属于变调的范畴。语言学大师赵元任把北京话的轻声分为两大类:“轻声”和“可轻声”。前者在语法结构上是辨别词义的,在两个字眼(两个读音)都相同的两字词中,次字的读音一长一短,词义就不同。这个读得短的字叫做“轻声”,在词典中是单列词条的。例如:“老子”和“老?子”,两词完全相同。但前者两字同长,为春秋时代的人名或书名,后着前长后短,例如:“他的老?子”即“他的父亲”;又为傲慢的自称,如“老?子天下第一”。又例如:“莲子”和“帘?子”,二词中每字单读的音相同,而连读时后者的“子”为轻声,光听音不看字就能分辨意义。“可轻声”的字也读得和“轻声”相同,但不是辨义的,是属于韵律特征性质的。我们现在定名为“轻读”。“轻声”一定位于二字组的次字,而“轻读”则可位于多字组的前面或后面。例如:“我来啦”,“他去啦”,在自然口语中,“我”和“他”常读成半拍;“啦”都读得短些。又如,“没有钱”,“吃不饱”,“有”和“不”都读得短,都是“轻读”。“轻声”和“轻读”、两者在语法上有“必轻”与“可轻”之别,但在读音的长短上没有什么不同。以前的语音学者多认为轻声是读得较“轻”(或“弱”),是“重”音的对立面,所以叫做轻声。现在实验证明,它主要是比常规的单字音读得较短,而不一定是读得轻了,由
--------------------------------------------------------------------------------
Page 3
293于音长相对地短了,听感上积累的音量少了,就觉得轻了。在语音合成系统中,“轻声”往往按词典中的轻声词条存入语料库,但对语句中很多出现的“轻读”,常因难于处理而暂不予考虑。因此目前合成语音多半由于句子的轻读未能处理,而提高不了自然度的质量。六.普通话的字调与语调在传统语音学中,字调与语调的描述是比较模糊的,一般通称为“声调”。人们交流语言,可以不假思索、就会把单字的声调和短语的变调说得相当准确;再加上各种意图或情感,就能说出种种语调。人们由孩提到成人、不用费多少气力就能逐渐把语调运用自如。人-机对话则不然。合成语音如果是拼接合成系统,语料库中不可能把所有语调的材料都备全了。怎样把合成的平叙句变成不同语气的句子,就成为一个攻关的重要课题。我们的实验说明,普通话的字调和短语连读变调、既然都是辨义的,那么它们在不同语气的句子中说出时,会有一些变动,但还得保持其基本调型。正如赵元任先生在早年指出过的,字调在语调中无论怎样变化。但姓“陆”(降调)不能说成姓“卢”(升调);姓“何”(升调)不能说成姓“贺”(降调)。那么,我们怎么分析这个多变的“语调”呢?句调分析的实验证明,一组一组的字调和短语连调、在句子中由于受到逻辑重音或/和表情重音的调节、而不得不有所变化时,它们的“拱度”(调型)○注、基本上是很少变形的,而“基调”(调阶)却有了抬高或压低若干程度的变化。回顾赵先生在六十年代、就对此问题有非常扼要的论点:“(汉语)语调的差别不同于英语……,汉语只是基调的差别,而不是像英语那样上升或下降的曲线。”他当年并没有理想的仪器来做调型实验,可是其结论跟今日用现代仪器作出的结果完全符合。因此,语调的变化可以用音乐旋律的变化来解释。一句歌词可以用几种调门儿(基调)来唱出,基调变高或变低,而曲调(旋律)不变。这个重要的结论给了我们今日的语调实验结果以坚实的论证,并证明语调的音乐性。更重要的是,这就可能给语调的合成规则开辟了一条康庄大道。如果我们对已经合成的平叙句子只移动其“基调”,而不改动(或基本上不做大的改动)其“拱度”,就能得到满意的、不同语气的语调了。这将会得到多大的便利!但是,事实并没有这样简单。人们说话或唱歌,在一定调域内,可以把调门改变而字音不变。因为调门改变只是“嗓音”(声带颤动)的频率变动,而声腔(口型、舌位等的共鸣腔)的共鸣系数不变。语音中每个元音和辅音各有其一定的声腔系数值(声学特性数据),嗓音的高低变了,这些数据在一定调域内是基本不变的。以元音的特性频率、第一和第二共振峰(F1/F2)为例:发一个“依”音,其特性频率约为:300/2400 Hz;发一个“啊”音,约为:800/900 Hz。这样数据的音听来才是“依”和“啊”。如今在合成中要把这两字的基调频率改动、例如增加一倍,照目前的合成办法,多半是把这个字音的复合波频率乘以 2,这样其中所有的“分音”(谐波)频率就也都加了一倍,也就是、这两个元音的特性频率都加了一倍了。于是“依”的 F1/F2 将为 600/4800 Hz, “啊”的 F1/F2 将为 1600/1800 Hz ,这就“离谱”太大了,合成出的音自然走了样。那就要另想处理办法。办法是有的,几年前国外就有人提出了。办法是、从话音的复合波中、用“倒频谱”的算法把声带的基调频率分离出来,修改其频率后,再与此波的谐波频率混合,就生成一个新的复合波。这样就只移动了基调而不改动其特性频率,结果是、这个音的调门变了而音色不走样。
[英文摘要]:
[关 键 字]:
[论文正文]:普通话语句中音节间和短语间的韵律特征变化,与合成语音的自然度关系密切,其中尤以声调的变化最为重要。文中叙述普通话韵律在口语中的必然变量和自由变量、普通话的轻声和轻读,字调和语调等在合成中的处理问题。文中并讨论如何用移调方法在合成中将普通话的平叙句的语调修改成逻辑重音或感情重音的语调。一.普通话语句中的语音变量普通话的语句在口语中自然地说出,其中各音节的读音在连读中起了变化。这种变化在传统语音学中称为“同化作用”。语句中各音节之间的同化现象可分为三类;前音节尾被后音节首所影响而起的变化,称为“逆同化”:反之、后音节首被前音节尾影响而起的变化称为“顺同化”;再有、前音节尾与后音节首相互影响而都起变化的称为“双向同化”。连读变化在音段的音色上:有元音和辅音的变化,语音学称为“协同发音”。在超音段的韵律上:有声调、重音和长度的变化。声调的变化通称为“连读变调”,重音的变化、有“逻辑重音”和“感情重音”,其中又可分为若干等级长度的变化、有“音节的长、短”和“节奏”的“停、延”。普通话的连读变化多数是逆同化、少数是双向同化,极少是顺同化。在合成语音中,音色的变化跟自然度关系较少,韵律的变化则跟自然度有密切关系,其中尤以声调的变化关系最大。本文主要将对声调的变化多所叙述。因本文并非这方面的综述,故所取资料仅限于个人的研究范围。二.普通话的韵律变量与合成自然度的关系语音自然度的范围和规格,属于主观评价性质,其发音质量和听音标准都是因人而异、因境而异的。目前国内对普通话合成质量的考核、一般都是在听感上和人的话音比较,来评价其自然度;而合成的语句也大都限于平叙的语音。近些年来,普通话的合成一般都已采用拼接合成系统。这个系统对每个音节中参量程序的编制可以省去,而对各音节间的协同发音和韵律变量的处理,却是关系到自然度的关键。目前通行的合成语音中,对词或短语变调的处理,大都已有相当满意的结果;但成句的语调方面、如各种语气的韵律变量和处理规则,还没有满意的成果。三.普通话短语中音节间韵律的必然变量普通话语句中前后音节之间音色的变量、主要由两音节的唇位或舌位相继的动势和动程
292 所造成;韵律变量的发音方法就比较复杂。其中声调的变化是声带颤动频率的变化。它是由前音节韵尾的声带颤动的频率、向后音节的清声母的强频集中区、或浊声母的起始频率靠拢所造成。长度的变化也不单纯。单音节的长度变化是声母与韵母的长度变化,短语或句子的长度变化、除音节的长度外,还要加上音节之间的停顿或拖长的时间。重音的变化有两种不同的属性:一是发音器官所用动力的变化(音强);另一是听音器官所受刺激(音量)的变化。前者可用声学幅度来计量,后者则要用幅度和时长的积分来计量。单音节和短语的韵律变量都是由言者发音和听音生理上必然的运动过程所形成的。都有其一定的、相对关系的模式。普通话双音节的连读变调模式(除轻声或轻读)、一般不受语法结构的影响。也就是说、两音节的语法类型无论是一个词或字组,其语法结构无论是名动、动宾、偏正或并列,他们的变调模式都是相同的。但是、普通话的多音节、从三音节开始到五音节的连读变调,就须要服从语法结构的规则、而产生不同的模式。它们既有语音的规律,又有语法的规律,各有其基本调型。这都属于表义的、必然的变调。在合成中比较易于处理。四.普通话语句中短语间韵律的自由变量普通话语句中由于言者为了表达情感或着重的意图,而增加了韵律的更多的变化。语句韵律的变化不但表义,而且表情,成为高层次的合成模式。这种韵律的变化是随言者的自由意图所决定,而不是由发音生理的必然规律所决定的,他的意图在对话中可能随说随改,同样的短语、在句子中由于逻辑的性质或情感的程度不同,而有不同的韵律变化。它可称为“自由的变量”,一般常用的“语调”的名称,在狭义上专指语句的声调,在广义上就泛指语句的韵律。这是语音合成中的最高层次,也是最难处理的对象。五.普通话语句中的轻声与轻读口语的自然度的关系以韵律中的声调变化为主,已如上述。但是韵律的其它两特征:长短和轻重的关系也不能忽视,其中尤以长短的节奏跟声调有密切关系。传统的说法所谓“抑扬顿挫”可以概括这种现象。它既指声调的高低、声音的强弱,也可指音长的延续和停顿。普通话中的“轻声”就承担了这项任务。过去的语音学中常把轻声定为音位或调位(把它作为四声之外的第五声调),这是值得商榷的。因为轻声一定是处于一个常规音节之后、并且随前字的不同调类而决定自己的轻声调型的。因此它应该属于变调的范畴。语言学大师赵元任把北京话的轻声分为两大类:“轻声”和“可轻声”。前者在语法结构上是辨别词义的,在两个字眼(两个读音)都相同的两字词中,次字的读音一长一短,词义就不同。这个读得短的字叫做“轻声”,在词典中是单列词条的。例如:“老子”和“老?子”,两词完全相同。但前者两字同长,为春秋时代的人名或书名,后着前长后短,例如:“他的老?子”即“他的父亲”;又为傲慢的自称,如“老?子天下第一”。又例如:“莲子”和“帘?子”,二词中每字单读的音相同,而连读时后者的“子”为轻声,光听音不看字就能分辨意义。“可轻声”的字也读得和“轻声”相同,但不是辨义的,是属于韵律特征性质的。我们现在定名为“轻读”。“轻声”一定位于二字组的次字,而“轻读”则可位于多字组的前面或后面。例如:“我来啦”,“他去啦”,在自然口语中,“我”和“他”常读成半拍;“啦”都读得短些。又如,“没有钱”,“吃不饱”,“有”和“不”都读得短,都是“轻读”。“轻声”和“轻读”、两者在语法上有“必轻”与“可轻”之别,但在读音的长短上没有什么不同。以前的语音学者多认为轻声是读得较“轻”(或“弱”),是“重”音的对立面,所以叫做轻声。现在实验证明,它主要是比常规的单字音读得较短,而不一定是读得轻了,由
--------------------------------------------------------------------------------
Page 3
293于音长相对地短了,听感上积累的音量少了,就觉得轻了。在语音合成系统中,“轻声”往往按词典中的轻声词条存入语料库,但对语句中很多出现的“轻读”,常因难于处理而暂不予考虑。因此目前合成语音多半由于句子的轻读未能处理,而提高不了自然度的质量。六.普通话的字调与语调在传统语音学中,字调与语调的描述是比较模糊的,一般通称为“声调”。人们交流语言,可以不假思索、就会把单字的声调和短语的变调说得相当准确;再加上各种意图或情感,就能说出种种语调。人们由孩提到成人、不用费多少气力就能逐渐把语调运用自如。人-机对话则不然。合成语音如果是拼接合成系统,语料库中不可能把所有语调的材料都备全了。怎样把合成的平叙句变成不同语气的句子,就成为一个攻关的重要课题。我们的实验说明,普通话的字调和短语连读变调、既然都是辨义的,那么它们在不同语气的句子中说出时,会有一些变动,但还得保持其基本调型。正如赵元任先生在早年指出过的,字调在语调中无论怎样变化。但姓“陆”(降调)不能说成姓“卢”(升调);姓“何”(升调)不能说成姓“贺”(降调)。那么,我们怎么分析这个多变的“语调”呢?句调分析的实验证明,一组一组的字调和短语连调、在句子中由于受到逻辑重音或/和表情重音的调节、而不得不有所变化时,它们的“拱度”(调型)○注、基本上是很少变形的,而“基调”(调阶)却有了抬高或压低若干程度的变化。回顾赵先生在六十年代、就对此问题有非常扼要的论点:“(汉语)语调的差别不同于英语……,汉语只是基调的差别,而不是像英语那样上升或下降的曲线。”他当年并没有理想的仪器来做调型实验,可是其结论跟今日用现代仪器作出的结果完全符合。因此,语调的变化可以用音乐旋律的变化来解释。一句歌词可以用几种调门儿(基调)来唱出,基调变高或变低,而曲调(旋律)不变。这个重要的结论给了我们今日的语调实验结果以坚实的论证,并证明语调的音乐性。更重要的是,这就可能给语调的合成规则开辟了一条康庄大道。如果我们对已经合成的平叙句子只移动其“基调”,而不改动(或基本上不做大的改动)其“拱度”,就能得到满意的、不同语气的语调了。这将会得到多大的便利!但是,事实并没有这样简单。人们说话或唱歌,在一定调域内,可以把调门改变而字音不变。因为调门改变只是“嗓音”(声带颤动)的频率变动,而声腔(口型、舌位等的共鸣腔)的共鸣系数不变。语音中每个元音和辅音各有其一定的声腔系数值(声学特性数据),嗓音的高低变了,这些数据在一定调域内是基本不变的。以元音的特性频率、第一和第二共振峰(F1/F2)为例:发一个“依”音,其特性频率约为:300/2400 Hz;发一个“啊”音,约为:800/900 Hz。这样数据的音听来才是“依”和“啊”。如今在合成中要把这两字的基调频率改动、例如增加一倍,照目前的合成办法,多半是把这个字音的复合波频率乘以 2,这样其中所有的“分音”(谐波)频率就也都加了一倍,也就是、这两个元音的特性频率都加了一倍了。于是“依”的 F1/F2 将为 600/4800 Hz, “啊”的 F1/F2 将为 1600/1800 Hz ,这就“离谱”太大了,合成出的音自然走了样。那就要另想处理办法。办法是有的,几年前国外就有人提出了。办法是、从话音的复合波中、用“倒频谱”的算法把声带的基调频率分离出来,修改其频率后,再与此波的谐波频率混合,就生成一个新的复合波。这样就只移动了基调而不改动其特性频率,结果是、这个音的调门变了而音色不走样。





