CN105632484B

CN105632484B - 语音合成数据库停顿信息自动标注方法及系统

Info

Publication number: CN105632484B
Application number: CN201610091554.6A
Authority: CN
Inventors: 刘青松; 许东星; 王鸣; 黄盼
Original assignee: Unisound Shanghai Intelligent Technology Co Ltd
Current assignee: Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2016-02-19
Filing date: 2016-02-19
Publication date: 2019-04-09
Anticipated expiration: 2036-02-19
Also published as: CN105632484A

Abstract

本发明涉及一种语音合成数据库停顿信息自动标注系统及方法，该方法包括：获取语音合成数据库中待标注的语音数据；将所述语音数据转化为语音特征帧序列并判断所述语音特征帧序列中的停顿信息，形成停顿信息的预测位置；将所述语音数据转化为文本数据；利用自动切分对齐方法计算所述语音数据和所述文本数据在时间轴上的映射关系；基于所述映射关系将所述停顿信息插入到所述文本数据中以形成标注文本信息；以及利用自动切分对齐方法计算所述语音数据和所述标注文本信息在时间轴上的映射关系。本发明实现了自动标注数据中语音数据的停顿信息，节省了靠人工听来标注停顿的成本和时间，周期短，准确率高，还具有良好的经济效益。

Description

语音合成数据库停顿信息自动标注方法及系统

技术领域

本发明涉及语音合成领域，特指一种语音合成数据库停顿信息自动标注方法及系统。

背景技术

语音合成是指将输入的文本信息转化为声音的系统，语音合成系统分为两个模块，前端处理模块和后端模块。在前端中对文本进行分析，输出带有发音以及分词、词性等和韵律停顿相关的信息。后端模块利用前端模块的的输出信息和原始语音提出的特征，分别训练倒谱参数模型，基频参数模型和时长参数模型。参数语音合成系统的优势是模型小、方便合成定制、利于离线实现的场景。

参数语音合成系统通常是基于标准语音数据库，数据库中包含语音文件和相应的标注信息文件。标注信息分为三类，发音信息，韵律信息，时长切分信息。这些信息需要专业的标注人员通过人工听语音进行判断标注，尤其是时长切分信息，时长映射信息的标注包括语音中停顿的判断和音素与语音时间的映射关系。

若数据库中的数据量庞大，这样靠人工听进行停顿的标注一方面使得数据库建立的周期长，且成本高，经济效益较差。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种语音合成数据库停顿信息自动标注方法及系统，解决现有技术中靠人工听来标注停顿的方法存在的周期长、成本高、且经济效益差的问题。

实现上述目的的技术方案是：

本发明一种语音合成数据库停顿信息自动标注方法，包括：

获取语音合成数据库中待标注的语音数据；

将所述语音数据转化为语音特征帧序列并判断所述语音特征帧序列中的停顿信息，形成停顿信息的预测位置；

从语音合成数据库中获取与所述语音数据对应的文本数据；

利用自动切分对齐方法计算所述语音数据和所述文本数据在时间轴上的映射关系；

基于所述映射关系将所述停顿信息插入到所述文本数据中以形成标注文本信息；以及

利用自动切分对齐方法计算所述语音数据和所述标注文本信息在时间轴上的映射关系。

本发明实现了自动标注数据中语音数据的停顿信息，节省了靠人工听来标注停顿的成本和时间，周期短，还具有良好的经济效益。通过自动切分对齐方法能够准确的将停顿信息加入到文本数据中，具有标注准确率高的优势。

本发明语音合成数据库停顿信息自动标注方法的进一步改进在于，将所述语音数据转化为语音特征帧序列并判断所述语音特征帧序列中的停顿信息，形成停顿信息的预测位置，包括：

以设定的帧长和帧移对所述语音数据进行分帧处理，获得对应的语音特征帧序列；

计算所述语音特征帧序列中每一语音特征帧的能量值，形成对应所述语音特征帧序列的语音特征帧能量序列；

平滑所述语音特征帧能量序列，设定能量阈值，判断得出所述语音特征帧能量序列中低于所述能量阈值的能量值的起始帧和结束帧，形成预判的停顿片段；

设定停顿时长，比较所述预判的停顿片段与所述停顿时长的大小，若所述预判的停顿片段大于所述停顿时长，则判断所述预判的停顿片段为停顿信息。

本发明语音合成数据库停顿信息自动标注方法的进一步改进在于，利用自动切分对齐方法计算所述语音数据和所述文本数据在时间轴上的映射关系，包括：

提取所述语音合成数据库中多条语音数据的频谱特征参数；

利用所提取的频谱特征参数和与多条语音数据对应的文本数据迭代训练频谱特征声学模型；

计算对应待标注的语音数据的语音频谱特征参数和所述频谱特征声学模型之间的相似度，以找到与待标注的语音数据对应的所述文本数据中的音素序列的切分路径。

本发明语音合成数据库停顿信息自动标注方法的进一步改进在于，基于所述映射关系将所述停顿信息插入到所述文本数据中以形成标注文本信息，包括：

根据所述音素序列的切分路径在时间轴上的位置信息，将所述停顿信息按照时间轴的顺序插入相应的音素间。

本发明语音合成数据库停顿信息自动标注方法的进一步改进在于，还包括：对所形成的标注文本信息进行纠错处理，所述纠错处理包括：

遍历所述标注文本信息，查找所述标注文本信息中相邻的声母音素和韵母音素间是否存有停顿信息，若存有停顿信息，则删除所述停顿信息。

本发明一种语音合成数据库停顿信息自动标注系统，包括：

语音获取单元，与语音合成数据库连接，用于从所述语音合成数据库中读取待标注的语音数据；

停顿预测单元，与所述语音获取单元连接，用于将所述语音获取单元读取的语音数据转化为语音特征帧序列并判断得出所述语音特征帧序列中的停顿信息以形成停顿信息的预测位置；

文本获取单元，与所述语音合成数据库连接，用于从所述语音合成数据库中获取与所述语音数据对应的文本数据；

自动切分单元，与所述语音获取单元和所述文本获取单元连接，利用自动切分对齐方法计算得出所述语音数据和所述文本数据在时间轴上的映射关系；

停顿标注单元，与所述停顿预测单元、所述文本获取单元、和所述自动切分单元连接，用于基于所述自动切分单元计算出的映射关系将所述停顿信息插入到所述文本数据中以形成标注文本信息；

所述自动切分单元还利用自动切分对齐方法计算所述语音数据和所述标注文本信息在时间轴上的映射关系。

本发明语音合成数据库停顿信息自动标注系统的进一步改进在于，所述停顿预测单元包括分帧模块、能量计算模块、阈值存储模块、以及比较判断模块；

所述分帧模块用于以设定的帧长和帧移对所述语音数据进行分帧处理以得到对应的语音特征帧序列；

所述能量计算模块与所述分帧模块连接，用于对所述语音特征帧序列中每一语音特征帧进行计算得出能量值以形成与所述语音特征帧序列相对应的语音特征帧能量序列；

所述阈值存储模块内存储有设定的能量阈值和停顿时长；

所述比较判断模块与所述能量计算模块和所述阈值存储模块连接，用于判断得出所述语音特征帧能量序列中低于所述能量阈值的能量值的起始帧和结束帧以形成预判的停顿片段，再比较所述预判的停顿片段与所述停顿时长的大小，若所述预判的停顿片段大于所述停顿时长，则判断所述预判的停顿片段为停顿信息。

本发明语音合成数据库停顿信息自动标注系统的进一步改进在于，所述自动切分单元包括频谱提取模块、声学模型模块、以及切分模块；

所述频谱提取模块用于从所述语音合成数据库的语音数据中提取频谱特征参数；

所述声学模型模块与所述频谱提取模块连接，利用所提取的频谱特征参数和与所述语音合成数据库的语音数据对应的文本数据迭代训练频谱特征声学模型并存储；

所述切分模块与所述频谱提取模块和所述声学模型模块连接，用于计算对应待标注的语音数据的语音频谱特征参数和所述频谱特征声学模型之间的相似度，以找到与待标注的语音数据对应的所述文本数据中的音素序列的切分路径。

本发明语音合成数据库停顿信息自动标注系统的进一步改进在于，所述停顿标注单元根据所述音素序列的切分路径在时间轴上的位置信息，将所述停顿信息按照时间轴的顺序插入相应的音素间。

本发明语音合成数据库停顿信息自动标注系统的进一步改进在于，还包括有纠错单元，所述纠错单元与所述文本获取单元、所述自动切分单元、以及所述停顿标注单元连接，用于对所述停顿标注单元所形成标注文本信息进行纠错，所述纠错单元遍历所述标注文本信息，以查找出所述标注文本信息中相邻的声母音素和韵母音素间是否存有停顿信息，若存有停顿信息，则删除所述停顿信息。

附图说明

图1为本发明语音合成数据库停顿信息自动标注系统的系统图。

图2为本发明语音合成数据库停顿信息自动标注方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本发明提供了一种语音合成数据库停顿信息自动标注系统及方法，用于解决现有的人工听语音进行判断标注停顿信息存在的标注周期长，成本高，标注的准确率低，经济效益差的问题。本发明利用基于平滑后的语音特征帧能量序列结合最小长度判断语音中的停顿信息，再基于自动切分的音素序列和停顿信息在时间轴上映射关系生成带有标注信息的音素序列，还设有标注信息的后处理，实现了停顿信息的自动标注，准确率高，标注时间短，有效缩短了数据库建立的时间，具有良好的经济效益，节省了成本，结合后处理能够进一步提高标注的准确率。下面结合附图对本发明语音合成数据库停顿信息自动标注系统及方法进行说明。

参阅图1，显示了本发明语音合成数据库停顿信息自动标注系统的系统图。下面结合图1，对本发明语音合成数据库停顿信息自动标注系统进行说明。

如图1所示，本发明语音合成数据库停顿信息自动标注系统包括语音获取单元21、停顿预测单元22、文本获取单元23、自动切分单元24、以及停顿标注单元25，该语音合成数据库停顿信息自动标注系统用于对语音合成数据库11中的语音数据进行停顿信息的标注。语音获取单元21与语音合成数据库11连接，停顿预测单元22与语音获取单元21连接，文本获取单元23与语音获取单元21连接，自动切分单元24与语音获取单元21和文本获取单元23连接，停顿标注单元25与停顿预测单元22、文本获取单元23和自动切分单元24连接。

语音获取单元21用于从语音合成数据库11中读取待标注的语音数据，为后续对该语音数据进行停顿信息的自动标注提供基础。

停顿预测单元22用于将语音获取单元21读取的语音数据转化为语音特征帧序列，并判断得出该语音特征帧序列中的停顿信息以形成停顿信息的预测位置。停顿预测单元22利用平滑后的语音特征帧能量值预测语音中停顿的位置，该停顿预测单元22包括分帧模块、能量计算模块、阈值存储模块、以及比较判断模块，分帧模块用于以设定的帧长和帧移对语音数据进行分帧处理以得到对应的语音特征帧序列，一般地帧长和帧移均为5毫秒，通过分帧模块将语音数据转化为语音特征帧序列。能量计算模块与分帧模块连接，用于对语音特征帧序列中每一语音特征帧进行计算得到能量值以形成与语音特征帧序列相对应的语音特征帧能量序列，能量计算模块计算每帧语音片段的能量值，就形成了语音特征帧能量序列。阈值存储模块内存储有设定的能量阈值和停顿时长，该停顿时长一般为30毫秒。比较判断模块与能量计算模块和阈值存储模块连接，该比较判断模块对能量计算模块形成的语音特征帧能量序列进行平滑处理，平滑语音特征帧能量序列，通过将当前能量值与左右能量值取平均值进行平滑处理。比较判断模块用于判断得出语音特征帧能量序列中低于能量阈值的能量值的起始帧和结束帧以形成预判的停顿片段，再比较预判的停顿片段与停顿时长的大小，若预判的停顿片段大于停顿时长，则判断所预判的停顿片段为停顿信息。这样就获得了语音数据中停顿信息的预测位置，由于语音特征帧能量序列中连续的能量值不能够准确的确定音素边界，所以停顿预测单元22判断得出的停顿信息的预测位置与该停顿信息的实际插入位置存在误差，不够精确。本发明通过自动切分单元能够准确的切分音素序列，找到音素间的边界点，这样就解决停顿预测单元22中停顿信息的预测位置不准确的问题，使得停顿信息的标注具有较高的准确率。

文本获取单元23用于从语音合成数据库11中获取与语音数据对应的文本数据，文本获取单元23再将获取的文本数据转化为对应的音素序列，该文本数据中缺少停顿信息。

自动切分单元24利用自动切分对齐方法计算得出语音数据和文本数据在时间轴上的映射关系，这样就能够得到时间轴上各个音素的时间点，也就知晓了音素的边界点。该自动切分单元24包括频谱提取模块、声学模型模块、以及切分模块；频谱提取模块用于从语音合成数据库11的语音数据中提取频谱特征参数，该频谱提取模块从语音合成数据库中提取所有待标注语音数据的频谱特征参数，该频谱特征参数部分用于训练声学模型，另外还用于对文本数据的音素序列进行切分；声学模型模块与频谱提取模块连接，利用频谱提取模块所提取的频谱特征参数和与语音合成数据库11的语音数据对应的文本数据迭代训练频谱特征声学模型并存储，用于训练频谱特征声学模型的语音数据的数量需要上千条，从语音合成数据库中提取一千条以上的语音数据，提取该一千条以上的语音数据的频谱特征参数来训练频谱特征声学模型。切分模块与频谱提取模块和声学模型模块连接，用于计算对应待标注的语音数据的语音频谱特征参数和频谱特征声学模型之间的相似度，以找到与待标注的语音数据对应的文本数据中的音素序列的切分路径。

停顿标注单元25，用于基于自动切分单元24计算出的映射关系将停顿信息插入到文本数据中以形成标注文本信息；自动切分单元24输出音素序列最佳的切分路径，根据音素序列的切分路径在时间轴上的位置信息，将停顿信息按照时间轴的顺序插入相应的音素间，就形成了标注文本信息，即带有停顿信息的文本数据。

本发明语音合成数据库停顿信息自动标注系统还包括有纠错单元26，纠错单元26与停顿标注单元25连接，用于对停顿标注单元25形成的标注文本信息进行纠错处理，进一步提高停顿信息标注的准确率。该纠错单元26遍历标注文本信息，以查找出该标注文本信息中相邻的声母音素和韵母音素之间是否存有停顿信息，若存有停顿信息，则删除该停顿信息，经过纠错单元26的遍历，可以滤除一些错误的停顿信息，提高停顿信息标注的准确率。

自动切分单元24还利用自动切分对齐方法计算语音数据和标注文本信息在时间轴上的映射关系，此时，标注文本信息中带有停顿信息，以找出语音数据和标注文本信息在时间轴上的对应关系，这样进一步确定停顿信息在时间轴上的具体位置。

本发明语音合成数据库停顿信息自动标注系统的有益效果为：

利用平滑后的语音特征帧能量序列找出停顿信息的预测位置，结合自动切分的音素序列，将停顿信息准确的插入到音素间，形成标注文本信息；再计算语音数据和标注文本信息的时间轴映射关系；实现了停顿信息的自动标注，标注的准确率高，节省了人工成本，加快了标注时间，缩短数据库的建立周期，具有较高的经济效益。

下面对本发明语音合成数据库停顿信息自动标注方法进行说明。

如图2所示，本发明语音合成数据库停顿信息自动标注方法，包括：

执行步骤S31，获取语音合成数据库中待标注的语音数据，进而对该语音合成数据中的未标注的语音数据进行停顿信息的标注。接着执行步骤S32。

执行步骤S32，将语音数据转化为语音特征帧序列并判断出停顿信息，根据阈值确定语音特征帧是否是候选停顿信息，并形成了停顿信息的预测位置。接着执行步骤S33。

执行步骤S33，从语音合成数据库中获取与语音数据对应的文本数据，获取文本数据后再将文本数据转化为音素序列，该文本数据中缺少停顿信息。接着执行步骤S34。

执行步骤S34，利用自动切分对齐方法计算语音数据和文本数据在时间轴上的映射关系，这样就能得到文本数据中音素序列和语音数据在时间轴上的对应关系，也就知晓了音素在时间轴上的时间点，这样就明确了音素间的分界点。接着执行步骤S35。

执行步骤S35，基于映射关系将停顿信息插入到文本数据中以形成标注文本信息，由于通过自动切分对齐方法得到了音素序列在时间轴上的对应位置，就能够准确的将步骤S32中判断处的停顿信息插入到相应的音素间，这样就形成了标注文本信息。接着执行步骤S36。

执行步骤S36，利用自动切分对齐方法计算语音数据和标注文本信息在时间轴上的映射关系，该标注文本信息中包括有停顿信息，这样就能够准确的知晓停顿信息在时间轴上的位置，也得到了语音数据与停顿信息在时间轴上的对应关系。

在将语音数据转化为语音特征帧序列并判断语音特征帧序列中的停顿信息，形成停顿信息的预测位置，包括如下步骤：以设定的帧长和帧移对语音数据进行分帧处理，获得对应的语音特征帧序列，设定的帧长和帧移为5毫秒；计算语音特征帧序列中每一语音特征帧的能量值，形成对应语音特征帧序列的语音特征帧能量序列；平滑语音特征帧能量序列，对语音特征帧能量序列中的每一能量值与其左右两个能量值取平均值，这样就得到了平滑后的语音特征帧能量序列；设定能量阈值，判断得出语音特征帧能量序列中低于能量阈值的能量值的起始帧和结束帧，形成预判的停顿片段，该预判的停顿片段为候选的停顿信息；设定停顿时长，比较预判的停顿片段与停顿时长的大小，若预判的停顿片段大于停顿时长，则判断预判的停顿片段为停顿信息。该停顿时长设定为30毫秒，大于30毫秒的停顿片段就认定为停顿信息，这样就形成了停顿信息的预测位置。因为语音特征帧能量序列中不能准确的判断处音素间的边界点，所以停顿信息的预测位置不能准确的表述停顿信息在语音数据中的位置点。

为解决上述问题，引入了自动切分对齐方法，利用自动切分对齐方法计算语音数据和文本数据在时间轴上的映射关系，具体包括如下步骤：提取语音合成数据库中多条语音数据的频谱特征参数，一般选取一千条以上的语音数据来训练模型；利用所提取的频谱特征参数和与该多条语音数据对应的文本数据迭代训练频谱特征声学模型；计算对应待标注的语音数据的语音频谱特征参数和频谱特征声学模型之间的相似度，以找到与待标注的语音数据对应的文本数据中的音素序列的切分路径。这样就获得了音素序列中各个音素在时间轴上的位置点。

接着基于映射关系将停顿信息插入到文本数据中以形成标注文本信息，根据音素序列的切分路径在时间轴上的位置信息，将停顿信息按照时间轴的顺序插入相应的音素间。标注文本信息为带有停顿信息的文本数据。

在步骤S36之前还包括：对所形成的标注文本信息进行纠错处理，所述纠错处理包括：遍历标注文本信息，查找标注文本信息中相邻的声母音素和韵母音素间是否存有停顿信息，若存有停顿信息，则删除所述停顿信息。进一步提高了停顿信息自动标注的准确率。

以上结合附图实施例对本发明进行了详细说明，本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而，实施例中的某些细节不应构成对本发明的限定，本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims

1.一种语音合成数据库停顿信息自动标注方法，其特征在于，包括：

获取语音合成数据库中待标注的语音数据；

从语音合成数据库中获取与所述语音数据对应的文本数据；

2.如权利要求1所述的语音合成数据库停顿信息自动标注方法，其特征在于，将所述语音数据转化为语音特征帧序列并判断所述语音特征帧序列中的停顿信息，形成停顿信息的预测位置，包括：

3.如权利要求1所述的语音合成数据库停顿信息自动标注方法，其特征在于，利用自动切分对齐方法计算所述语音数据和所述文本数据在时间轴上的映射关系，包括：

提取所述语音合成数据库中多条语音数据的频谱特征参数；

4.如权利要求3所述的语音合成数据库停顿信息自动标注方法，其特征在于，基于所述映射关系将所述停顿信息插入到所述文本数据中以形成标注文本信息，包括：

5.如权利要求1所述的语音合成数据库停顿信息自动标注方法，其特征在于，还包括：对所形成的标注文本信息进行纠错处理，所述纠错处理包括：

6.一种语音合成数据库停顿信息自动标注系统，其特征在于，包括：

7.如权利要求6所述的语音合成数据库停顿信息自动标注系统，其特征在于，所述停顿预测单元包括分帧模块、能量计算模块、阈值存储模块、以及比较判断模块；

所述阈值存储模块内存储有设定的能量阈值和停顿时长；

8.如权利要求6所述的语音合成数据库停顿信息自动标注系统，其特征在于，所述自动切分单元包括频谱提取模块、声学模型模块、以及切分模块；

9.如权利要求8所述的语音合成数据库停顿信息自动标注系统，其特征在于，所述停顿标注单元根据所述音素序列的切分路径在时间轴上的位置信息，将所述停顿信息按照时间轴的顺序插入相应的音素间。

10.如权利要求6所述的语音合成数据库停顿信息自动标注系统，其特征在于，还包括有纠错单元，所述纠错单元与所述停顿标注单元连接，用于对所述停顿标注单元所形成标注文本信息进行纠错，所述纠错单元遍历所述标注文本信息，以查找出所述标注文本信息中相邻的声母音素和韵母音素间是否存有停顿信息，若存有停顿信息，则删除所述停顿信息。