[go: up one dir, main page]

CN105632484B - 语音合成数据库停顿信息自动标注方法及系统 - Google Patents

语音合成数据库停顿信息自动标注方法及系统 Download PDF

Info

Publication number
CN105632484B
CN105632484B CN201610091554.6A CN201610091554A CN105632484B CN 105632484 B CN105632484 B CN 105632484B CN 201610091554 A CN201610091554 A CN 201610091554A CN 105632484 B CN105632484 B CN 105632484B
Authority
CN
China
Prior art keywords
pause
information
voice data
speech
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610091554.6A
Other languages
English (en)
Other versions
CN105632484A (zh
Inventor
刘青松
许东星
王鸣
黄盼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Shanghai Intelligent Technology Co Ltd
Original Assignee
Unisound Shanghai Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Shanghai Intelligent Technology Co Ltd filed Critical Unisound Shanghai Intelligent Technology Co Ltd
Priority to CN201610091554.6A priority Critical patent/CN105632484B/zh
Publication of CN105632484A publication Critical patent/CN105632484A/zh
Application granted granted Critical
Publication of CN105632484B publication Critical patent/CN105632484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种语音合成数据库停顿信息自动标注系统及方法,该方法包括:获取语音合成数据库中待标注的语音数据;将所述语音数据转化为语音特征帧序列并判断所述语音特征帧序列中的停顿信息,形成停顿信息的预测位置;将所述语音数据转化为文本数据;利用自动切分对齐方法计算所述语音数据和所述文本数据在时间轴上的映射关系;基于所述映射关系将所述停顿信息插入到所述文本数据中以形成标注文本信息;以及利用自动切分对齐方法计算所述语音数据和所述标注文本信息在时间轴上的映射关系。本发明实现了自动标注数据中语音数据的停顿信息,节省了靠人工听来标注停顿的成本和时间,周期短,准确率高,还具有良好的经济效益。

Description

语音合成数据库停顿信息自动标注方法及系统
技术领域
本发明涉及语音合成领域,特指一种语音合成数据库停顿信息自动标注方法及系统。
背景技术
语音合成是指将输入的文本信息转化为声音的系统,语音合成系统分为两个模块,前端处理模块和后端模块。在前端中对文本进行分析,输出带有发音以及分词、词性等和韵律停顿相关的信息。后端模块利用前端模块的的输出信息和原始语音提出的特征,分别训练倒谱参数模型,基频参数模型和时长参数模型。参数语音合成系统的优势是模型小、方便合成定制、利于离线实现的场景。
参数语音合成系统通常是基于标准语音数据库,数据库中包含语音文件和相应的标注信息文件。标注信息分为三类,发音信息,韵律信息,时长切分信息。这些信息需要专业的标注人员通过人工听语音进行判断标注,尤其是时长切分信息,时长映射信息的标注包括语音中停顿的判断和音素与语音时间的映射关系。
若数据库中的数据量庞大,这样靠人工听进行停顿的标注一方面使得数据库建立的周期长,且成本高,经济效益较差。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种语音合成数据库停顿信息自动标注方法及系统,解决现有技术中靠人工听来标注停顿的方法存在的周期长、成本高、且经济效益差的问题。
实现上述目的的技术方案是:
本发明一种语音合成数据库停顿信息自动标注方法,包括:
获取语音合成数据库中待标注的语音数据;
将所述语音数据转化为语音特征帧序列并判断所述语音特征帧序列中的停顿信息,形成停顿信息的预测位置;
从语音合成数据库中获取与所述语音数据对应的文本数据;
利用自动切分对齐方法计算所述语音数据和所述文本数据在时间轴上的映射关系;
基于所述映射关系将所述停顿信息插入到所述文本数据中以形成标注文本信息;以及
利用自动切分对齐方法计算所述语音数据和所述标注文本信息在时间轴上的映射关系。
本发明实现了自动标注数据中语音数据的停顿信息,节省了靠人工听来标注停顿的成本和时间,周期短,还具有良好的经济效益。通过自动切分对齐方法能够准确的将停顿信息加入到文本数据中,具有标注准确率高的优势。
本发明语音合成数据库停顿信息自动标注方法的进一步改进在于,将所述语音数据转化为语音特征帧序列并判断所述语音特征帧序列中的停顿信息,形成停顿信息的预测位置,包括:
以设定的帧长和帧移对所述语音数据进行分帧处理,获得对应的语音特征帧序列;
计算所述语音特征帧序列中每一语音特征帧的能量值,形成对应所述语音特征帧序列的语音特征帧能量序列;
平滑所述语音特征帧能量序列,设定能量阈值,判断得出所述语音特征帧能量序列中低于所述能量阈值的能量值的起始帧和结束帧,形成预判的停顿片段;
设定停顿时长,比较所述预判的停顿片段与所述停顿时长的大小,若所述预判的停顿片段大于所述停顿时长,则判断所述预判的停顿片段为停顿信息。
本发明语音合成数据库停顿信息自动标注方法的进一步改进在于,利用自动切分对齐方法计算所述语音数据和所述文本数据在时间轴上的映射关系,包括:
提取所述语音合成数据库中多条语音数据的频谱特征参数;
利用所提取的频谱特征参数和与多条语音数据对应的文本数据迭代训练频谱特征声学模型;
计算对应待标注的语音数据的语音频谱特征参数和所述频谱特征声学模型之间的相似度,以找到与待标注的语音数据对应的所述文本数据中的音素序列的切分路径。
本发明语音合成数据库停顿信息自动标注方法的进一步改进在于,基于所述映射关系将所述停顿信息插入到所述文本数据中以形成标注文本信息,包括:
根据所述音素序列的切分路径在时间轴上的位置信息,将所述停顿信息按照时间轴的顺序插入相应的音素间。
本发明语音合成数据库停顿信息自动标注方法的进一步改进在于,还包括:对所形成的标注文本信息进行纠错处理,所述纠错处理包括:
遍历所述标注文本信息,查找所述标注文本信息中相邻的声母音素和韵母音素间是否存有停顿信息,若存有停顿信息,则删除所述停顿信息。
本发明一种语音合成数据库停顿信息自动标注系统,包括:
语音获取单元,与语音合成数据库连接,用于从所述语音合成数据库中读取待标注的语音数据;
停顿预测单元,与所述语音获取单元连接,用于将所述语音获取单元读取的语音数据转化为语音特征帧序列并判断得出所述语音特征帧序列中的停顿信息以形成停顿信息的预测位置;
文本获取单元,与所述语音合成数据库连接,用于从所述语音合成数据库中获取与所述语音数据对应的文本数据;
自动切分单元,与所述语音获取单元和所述文本获取单元连接,利用自动切分对齐方法计算得出所述语音数据和所述文本数据在时间轴上的映射关系;
停顿标注单元,与所述停顿预测单元、所述文本获取单元、和所述自动切分单元连接,用于基于所述自动切分单元计算出的映射关系将所述停顿信息插入到所述文本数据中以形成标注文本信息;
所述自动切分单元还利用自动切分对齐方法计算所述语音数据和所述标注文本信息在时间轴上的映射关系。
本发明语音合成数据库停顿信息自动标注系统的进一步改进在于,所述停顿预测单元包括分帧模块、能量计算模块、阈值存储模块、以及比较判断模块;
所述分帧模块用于以设定的帧长和帧移对所述语音数据进行分帧处理以得到对应的语音特征帧序列;
所述能量计算模块与所述分帧模块连接,用于对所述语音特征帧序列中每一语音特征帧进行计算得出能量值以形成与所述语音特征帧序列相对应的语音特征帧能量序列;
所述阈值存储模块内存储有设定的能量阈值和停顿时长;
所述比较判断模块与所述能量计算模块和所述阈值存储模块连接,用于判断得出所述语音特征帧能量序列中低于所述能量阈值的能量值的起始帧和结束帧以形成预判的停顿片段,再比较所述预判的停顿片段与所述停顿时长的大小,若所述预判的停顿片段大于所述停顿时长,则判断所述预判的停顿片段为停顿信息。
本发明语音合成数据库停顿信息自动标注系统的进一步改进在于,所述自动切分单元包括频谱提取模块、声学模型模块、以及切分模块;
所述频谱提取模块用于从所述语音合成数据库的语音数据中提取频谱特征参数;
所述声学模型模块与所述频谱提取模块连接,利用所提取的频谱特征参数和与所述语音合成数据库的语音数据对应的文本数据迭代训练频谱特征声学模型并存储;
所述切分模块与所述频谱提取模块和所述声学模型模块连接,用于计算对应待标注的语音数据的语音频谱特征参数和所述频谱特征声学模型之间的相似度,以找到与待标注的语音数据对应的所述文本数据中的音素序列的切分路径。
本发明语音合成数据库停顿信息自动标注系统的进一步改进在于,所述停顿标注单元根据所述音素序列的切分路径在时间轴上的位置信息,将所述停顿信息按照时间轴的顺序插入相应的音素间。
本发明语音合成数据库停顿信息自动标注系统的进一步改进在于,还包括有纠错单元,所述纠错单元与所述文本获取单元、所述自动切分单元、以及所述停顿标注单元连接,用于对所述停顿标注单元所形成标注文本信息进行纠错,所述纠错单元遍历所述标注文本信息,以查找出所述标注文本信息中相邻的声母音素和韵母音素间是否存有停顿信息,若存有停顿信息,则删除所述停顿信息。
附图说明
图1为本发明语音合成数据库停顿信息自动标注系统的系统图。
图2为本发明语音合成数据库停顿信息自动标注方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明提供了一种语音合成数据库停顿信息自动标注系统及方法,用于解决现有的人工听语音进行判断标注停顿信息存在的标注周期长,成本高,标注的准确率低,经济效益差的问题。本发明利用基于平滑后的语音特征帧能量序列结合最小长度判断语音中的停顿信息,再基于自动切分的音素序列和停顿信息在时间轴上映射关系生成带有标注信息的音素序列,还设有标注信息的后处理,实现了停顿信息的自动标注,准确率高,标注时间短,有效缩短了数据库建立的时间,具有良好的经济效益,节省了成本,结合后处理能够进一步提高标注的准确率。下面结合附图对本发明语音合成数据库停顿信息自动标注系统及方法进行说明。
参阅图1,显示了本发明语音合成数据库停顿信息自动标注系统的系统图。下面结合图1,对本发明语音合成数据库停顿信息自动标注系统进行说明。
如图1所示,本发明语音合成数据库停顿信息自动标注系统包括语音获取单元21、停顿预测单元22、文本获取单元23、自动切分单元24、以及停顿标注单元25,该语音合成数据库停顿信息自动标注系统用于对语音合成数据库11中的语音数据进行停顿信息的标注。语音获取单元21与语音合成数据库11连接,停顿预测单元22与语音获取单元21连接,文本获取单元23与语音获取单元21连接,自动切分单元24与语音获取单元21和文本获取单元23连接,停顿标注单元25与停顿预测单元22、文本获取单元23和自动切分单元24连接。
语音获取单元21用于从语音合成数据库11中读取待标注的语音数据,为后续对该语音数据进行停顿信息的自动标注提供基础。
停顿预测单元22用于将语音获取单元21读取的语音数据转化为语音特征帧序列,并判断得出该语音特征帧序列中的停顿信息以形成停顿信息的预测位置。停顿预测单元22利用平滑后的语音特征帧能量值预测语音中停顿的位置,该停顿预测单元22包括分帧模块、能量计算模块、阈值存储模块、以及比较判断模块,分帧模块用于以设定的帧长和帧移对语音数据进行分帧处理以得到对应的语音特征帧序列,一般地帧长和帧移均为5毫秒,通过分帧模块将语音数据转化为语音特征帧序列。能量计算模块与分帧模块连接,用于对语音特征帧序列中每一语音特征帧进行计算得到能量值以形成与语音特征帧序列相对应的语音特征帧能量序列,能量计算模块计算每帧语音片段的能量值,就形成了语音特征帧能量序列。阈值存储模块内存储有设定的能量阈值和停顿时长,该停顿时长一般为30毫秒。比较判断模块与能量计算模块和阈值存储模块连接,该比较判断模块对能量计算模块形成的语音特征帧能量序列进行平滑处理,平滑语音特征帧能量序列,通过将当前能量值与左右能量值取平均值进行平滑处理。比较判断模块用于判断得出语音特征帧能量序列中低于能量阈值的能量值的起始帧和结束帧以形成预判的停顿片段,再比较预判的停顿片段与停顿时长的大小,若预判的停顿片段大于停顿时长,则判断所预判的停顿片段为停顿信息。这样就获得了语音数据中停顿信息的预测位置,由于语音特征帧能量序列中连续的能量值不能够准确的确定音素边界,所以停顿预测单元22判断得出的停顿信息的预测位置与该停顿信息的实际插入位置存在误差,不够精确。本发明通过自动切分单元能够准确的切分音素序列,找到音素间的边界点,这样就解决停顿预测单元22中停顿信息的预测位置不准确的问题,使得停顿信息的标注具有较高的准确率。
文本获取单元23用于从语音合成数据库11中获取与语音数据对应的文本数据,文本获取单元23再将获取的文本数据转化为对应的音素序列,该文本数据中缺少停顿信息。
自动切分单元24利用自动切分对齐方法计算得出语音数据和文本数据在时间轴上的映射关系,这样就能够得到时间轴上各个音素的时间点,也就知晓了音素的边界点。该自动切分单元24包括频谱提取模块、声学模型模块、以及切分模块;频谱提取模块用于从语音合成数据库11的语音数据中提取频谱特征参数,该频谱提取模块从语音合成数据库中提取所有待标注语音数据的频谱特征参数,该频谱特征参数部分用于训练声学模型,另外还用于对文本数据的音素序列进行切分;声学模型模块与频谱提取模块连接,利用频谱提取模块所提取的频谱特征参数和与语音合成数据库11的语音数据对应的文本数据迭代训练频谱特征声学模型并存储,用于训练频谱特征声学模型的语音数据的数量需要上千条,从语音合成数据库中提取一千条以上的语音数据,提取该一千条以上的语音数据的频谱特征参数来训练频谱特征声学模型。切分模块与频谱提取模块和声学模型模块连接,用于计算对应待标注的语音数据的语音频谱特征参数和频谱特征声学模型之间的相似度,以找到与待标注的语音数据对应的文本数据中的音素序列的切分路径。
停顿标注单元25,用于基于自动切分单元24计算出的映射关系将停顿信息插入到文本数据中以形成标注文本信息;自动切分单元24输出音素序列最佳的切分路径,根据音素序列的切分路径在时间轴上的位置信息,将停顿信息按照时间轴的顺序插入相应的音素间,就形成了标注文本信息,即带有停顿信息的文本数据。
本发明语音合成数据库停顿信息自动标注系统还包括有纠错单元26,纠错单元26与停顿标注单元25连接,用于对停顿标注单元25形成的标注文本信息进行纠错处理,进一步提高停顿信息标注的准确率。该纠错单元26遍历标注文本信息,以查找出该标注文本信息中相邻的声母音素和韵母音素之间是否存有停顿信息,若存有停顿信息,则删除该停顿信息,经过纠错单元26的遍历,可以滤除一些错误的停顿信息,提高停顿信息标注的准确率。
自动切分单元24还利用自动切分对齐方法计算语音数据和标注文本信息在时间轴上的映射关系,此时,标注文本信息中带有停顿信息,以找出语音数据和标注文本信息在时间轴上的对应关系,这样进一步确定停顿信息在时间轴上的具体位置。
本发明语音合成数据库停顿信息自动标注系统的有益效果为:
利用平滑后的语音特征帧能量序列找出停顿信息的预测位置,结合自动切分的音素序列,将停顿信息准确的插入到音素间,形成标注文本信息;再计算语音数据和标注文本信息的时间轴映射关系;实现了停顿信息的自动标注,标注的准确率高,节省了人工成本,加快了标注时间,缩短数据库的建立周期,具有较高的经济效益。
下面对本发明语音合成数据库停顿信息自动标注方法进行说明。
如图2所示,本发明语音合成数据库停顿信息自动标注方法,包括:
执行步骤S31,获取语音合成数据库中待标注的语音数据,进而对该语音合成数据中的未标注的语音数据进行停顿信息的标注。接着执行步骤S32。
执行步骤S32,将语音数据转化为语音特征帧序列并判断出停顿信息,根据阈值确定语音特征帧是否是候选停顿信息,并形成了停顿信息的预测位置。接着执行步骤S33。
执行步骤S33,从语音合成数据库中获取与语音数据对应的文本数据,获取文本数据后再将文本数据转化为音素序列,该文本数据中缺少停顿信息。接着执行步骤S34。
执行步骤S34,利用自动切分对齐方法计算语音数据和文本数据在时间轴上的映射关系,这样就能得到文本数据中音素序列和语音数据在时间轴上的对应关系,也就知晓了音素在时间轴上的时间点,这样就明确了音素间的分界点。接着执行步骤S35。
执行步骤S35,基于映射关系将停顿信息插入到文本数据中以形成标注文本信息,由于通过自动切分对齐方法得到了音素序列在时间轴上的对应位置,就能够准确的将步骤S32中判断处的停顿信息插入到相应的音素间,这样就形成了标注文本信息。接着执行步骤S36。
执行步骤S36,利用自动切分对齐方法计算语音数据和标注文本信息在时间轴上的映射关系,该标注文本信息中包括有停顿信息,这样就能够准确的知晓停顿信息在时间轴上的位置,也得到了语音数据与停顿信息在时间轴上的对应关系。
在将语音数据转化为语音特征帧序列并判断语音特征帧序列中的停顿信息,形成停顿信息的预测位置,包括如下步骤:以设定的帧长和帧移对语音数据进行分帧处理,获得对应的语音特征帧序列,设定的帧长和帧移为5毫秒;计算语音特征帧序列中每一语音特征帧的能量值,形成对应语音特征帧序列的语音特征帧能量序列;平滑语音特征帧能量序列,对语音特征帧能量序列中的每一能量值与其左右两个能量值取平均值,这样就得到了平滑后的语音特征帧能量序列;设定能量阈值,判断得出语音特征帧能量序列中低于能量阈值的能量值的起始帧和结束帧,形成预判的停顿片段,该预判的停顿片段为候选的停顿信息;设定停顿时长,比较预判的停顿片段与停顿时长的大小,若预判的停顿片段大于停顿时长,则判断预判的停顿片段为停顿信息。该停顿时长设定为30毫秒,大于30毫秒的停顿片段就认定为停顿信息,这样就形成了停顿信息的预测位置。因为语音特征帧能量序列中不能准确的判断处音素间的边界点,所以停顿信息的预测位置不能准确的表述停顿信息在语音数据中的位置点。
为解决上述问题,引入了自动切分对齐方法,利用自动切分对齐方法计算语音数据和文本数据在时间轴上的映射关系,具体包括如下步骤:提取语音合成数据库中多条语音数据的频谱特征参数,一般选取一千条以上的语音数据来训练模型;利用所提取的频谱特征参数和与该多条语音数据对应的文本数据迭代训练频谱特征声学模型;计算对应待标注的语音数据的语音频谱特征参数和频谱特征声学模型之间的相似度,以找到与待标注的语音数据对应的文本数据中的音素序列的切分路径。这样就获得了音素序列中各个音素在时间轴上的位置点。
接着基于映射关系将停顿信息插入到文本数据中以形成标注文本信息,根据音素序列的切分路径在时间轴上的位置信息,将停顿信息按照时间轴的顺序插入相应的音素间。标注文本信息为带有停顿信息的文本数据。
在步骤S36之前还包括:对所形成的标注文本信息进行纠错处理,所述纠错处理包括:遍历标注文本信息,查找标注文本信息中相邻的声母音素和韵母音素间是否存有停顿信息,若存有停顿信息,则删除所述停顿信息。进一步提高了停顿信息自动标注的准确率。
以上结合附图实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims (10)

1.一种语音合成数据库停顿信息自动标注方法,其特征在于,包括:
获取语音合成数据库中待标注的语音数据;
将所述语音数据转化为语音特征帧序列并判断所述语音特征帧序列中的停顿信息,形成停顿信息的预测位置;
从语音合成数据库中获取与所述语音数据对应的文本数据;
利用自动切分对齐方法计算所述语音数据和所述文本数据在时间轴上的映射关系;
基于所述映射关系将所述停顿信息插入到所述文本数据中以形成标注文本信息;以及
利用自动切分对齐方法计算所述语音数据和所述标注文本信息在时间轴上的映射关系。
2.如权利要求1所述的语音合成数据库停顿信息自动标注方法,其特征在于,将所述语音数据转化为语音特征帧序列并判断所述语音特征帧序列中的停顿信息,形成停顿信息的预测位置,包括:
以设定的帧长和帧移对所述语音数据进行分帧处理,获得对应的语音特征帧序列;
计算所述语音特征帧序列中每一语音特征帧的能量值,形成对应所述语音特征帧序列的语音特征帧能量序列;
平滑所述语音特征帧能量序列,设定能量阈值,判断得出所述语音特征帧能量序列中低于所述能量阈值的能量值的起始帧和结束帧,形成预判的停顿片段;
设定停顿时长,比较所述预判的停顿片段与所述停顿时长的大小,若所述预判的停顿片段大于所述停顿时长,则判断所述预判的停顿片段为停顿信息。
3.如权利要求1所述的语音合成数据库停顿信息自动标注方法,其特征在于,利用自动切分对齐方法计算所述语音数据和所述文本数据在时间轴上的映射关系,包括:
提取所述语音合成数据库中多条语音数据的频谱特征参数;
利用所提取的频谱特征参数和与多条语音数据对应的文本数据迭代训练频谱特征声学模型;
计算对应待标注的语音数据的语音频谱特征参数和所述频谱特征声学模型之间的相似度,以找到与待标注的语音数据对应的所述文本数据中的音素序列的切分路径。
4.如权利要求3所述的语音合成数据库停顿信息自动标注方法,其特征在于,基于所述映射关系将所述停顿信息插入到所述文本数据中以形成标注文本信息,包括:
根据所述音素序列的切分路径在时间轴上的位置信息,将所述停顿信息按照时间轴的顺序插入相应的音素间。
5.如权利要求1所述的语音合成数据库停顿信息自动标注方法,其特征在于,还包括:对所形成的标注文本信息进行纠错处理,所述纠错处理包括:
遍历所述标注文本信息,查找所述标注文本信息中相邻的声母音素和韵母音素间是否存有停顿信息,若存有停顿信息,则删除所述停顿信息。
6.一种语音合成数据库停顿信息自动标注系统,其特征在于,包括:
语音获取单元,与语音合成数据库连接,用于从所述语音合成数据库中读取待标注的语音数据;
停顿预测单元,与所述语音获取单元连接,用于将所述语音获取单元读取的语音数据转化为语音特征帧序列并判断得出所述语音特征帧序列中的停顿信息以形成停顿信息的预测位置;
文本获取单元,与所述语音合成数据库连接,用于从所述语音合成数据库中获取与所述语音数据对应的文本数据;
自动切分单元,与所述语音获取单元和所述文本获取单元连接,利用自动切分对齐方法计算得出所述语音数据和所述文本数据在时间轴上的映射关系;
停顿标注单元,与所述停顿预测单元、所述文本获取单元、和所述自动切分单元连接,用于基于所述自动切分单元计算出的映射关系将所述停顿信息插入到所述文本数据中以形成标注文本信息;
所述自动切分单元还利用自动切分对齐方法计算所述语音数据和所述标注文本信息在时间轴上的映射关系。
7.如权利要求6所述的语音合成数据库停顿信息自动标注系统,其特征在于,所述停顿预测单元包括分帧模块、能量计算模块、阈值存储模块、以及比较判断模块;
所述分帧模块用于以设定的帧长和帧移对所述语音数据进行分帧处理以得到对应的语音特征帧序列;
所述能量计算模块与所述分帧模块连接,用于对所述语音特征帧序列中每一语音特征帧进行计算得出能量值以形成与所述语音特征帧序列相对应的语音特征帧能量序列;
所述阈值存储模块内存储有设定的能量阈值和停顿时长;
所述比较判断模块与所述能量计算模块和所述阈值存储模块连接,用于判断得出所述语音特征帧能量序列中低于所述能量阈值的能量值的起始帧和结束帧以形成预判的停顿片段,再比较所述预判的停顿片段与所述停顿时长的大小,若所述预判的停顿片段大于所述停顿时长,则判断所述预判的停顿片段为停顿信息。
8.如权利要求6所述的语音合成数据库停顿信息自动标注系统,其特征在于,所述自动切分单元包括频谱提取模块、声学模型模块、以及切分模块;
所述频谱提取模块用于从所述语音合成数据库的语音数据中提取频谱特征参数;
所述声学模型模块与所述频谱提取模块连接,利用所提取的频谱特征参数和与所述语音合成数据库的语音数据对应的文本数据迭代训练频谱特征声学模型并存储;
所述切分模块与所述频谱提取模块和所述声学模型模块连接,用于计算对应待标注的语音数据的语音频谱特征参数和所述频谱特征声学模型之间的相似度,以找到与待标注的语音数据对应的所述文本数据中的音素序列的切分路径。
9.如权利要求8所述的语音合成数据库停顿信息自动标注系统,其特征在于,所述停顿标注单元根据所述音素序列的切分路径在时间轴上的位置信息,将所述停顿信息按照时间轴的顺序插入相应的音素间。
10.如权利要求6所述的语音合成数据库停顿信息自动标注系统,其特征在于,还包括有纠错单元,所述纠错单元与所述停顿标注单元连接,用于对所述停顿标注单元所形成标注文本信息进行纠错,所述纠错单元遍历所述标注文本信息,以查找出所述标注文本信息中相邻的声母音素和韵母音素间是否存有停顿信息,若存有停顿信息,则删除所述停顿信息。
CN201610091554.6A 2016-02-19 2016-02-19 语音合成数据库停顿信息自动标注方法及系统 Active CN105632484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610091554.6A CN105632484B (zh) 2016-02-19 2016-02-19 语音合成数据库停顿信息自动标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610091554.6A CN105632484B (zh) 2016-02-19 2016-02-19 语音合成数据库停顿信息自动标注方法及系统

Publications (2)

Publication Number Publication Date
CN105632484A CN105632484A (zh) 2016-06-01
CN105632484B true CN105632484B (zh) 2019-04-09

Family

ID=56047331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610091554.6A Active CN105632484B (zh) 2016-02-19 2016-02-19 语音合成数据库停顿信息自动标注方法及系统

Country Status (1)

Country Link
CN (1) CN105632484B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578769B (zh) * 2016-07-04 2021-03-23 科大讯飞股份有限公司 语音数据标注方法和装置
CN107871495A (zh) * 2016-09-27 2018-04-03 晨星半导体股份有限公司 文字转语音方法及系统
CN108090038B (zh) * 2016-11-11 2022-01-14 科大讯飞股份有限公司 文本断句方法及系统
CN106897379B (zh) * 2017-01-20 2019-12-03 广东小天才科技有限公司 语音文件的lrc时间轴文件自动生成方法及相关设备
CN107291676B (zh) * 2017-06-20 2021-11-19 广东小天才科技有限公司 截断语音文件的方法、终端设备及计算机存储介质
CN107657947B (zh) * 2017-09-20 2020-11-24 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及其装置
CN109065031B (zh) * 2018-08-02 2020-05-12 阿里巴巴集团控股有限公司 语音标注方法、装置及设备
CN109147796B (zh) * 2018-09-06 2024-02-09 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及计算机可读存储介质
CN109360551B (zh) * 2018-10-25 2021-02-05 珠海格力电器股份有限公司 一种语音识别方法及装置
CN110335612A (zh) * 2019-07-11 2019-10-15 招商局金融科技有限公司 基于语音识别的会议记录生成方法、装置及存储介质
CN110636369A (zh) * 2019-09-27 2019-12-31 维沃移动通信有限公司 一种多媒体文件的播放方法、移动终端
CN112069805A (zh) * 2019-12-20 2020-12-11 北京来也网络科技有限公司 结合rpa与ai的文本标注方法、装置、设备及存储介质
CN110970013A (zh) * 2019-12-23 2020-04-07 出门问问信息科技有限公司 一种语音合成方法、装置以及计算机可读存储介质
CN111768763A (zh) * 2020-06-12 2020-10-13 北京三快在线科技有限公司 声学模型训练方法、装置、电子设备及存储介质
CN112349274B (zh) * 2020-09-28 2024-06-07 北京捷通华声科技股份有限公司 一种训练韵律预测模型方法、装置、设备及存储介质
CN113611282B (zh) * 2021-08-09 2024-05-14 苏州市广播电视总台 广播节目智能播报系统及方法
CN115223536A (zh) * 2022-06-10 2022-10-21 深圳市声扬科技有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN115188365B (zh) * 2022-09-09 2022-12-27 中邮消费金融有限公司 一种停顿预测方法、装置、电子设备及存储介质
CN117727290A (zh) * 2024-02-18 2024-03-19 厦门她趣信息技术有限公司 一种语音合成方法、装置、设备及可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446040B1 (en) * 1998-06-17 2002-09-03 Yahoo! Inc. Intelligent text-to-speech synthesis
CN1471025A (zh) * 2002-07-25 2004-01-28 摩托罗拉公司 使用韵律控制的中文文本至语音拼接合成系统及方法
US7010489B1 (en) * 2000-03-09 2006-03-07 International Business Mahcines Corporation Method for guiding text-to-speech output timing using speech recognition markers
CN1870728A (zh) * 2005-05-23 2006-11-29 北京大学 自动加配字幕的方法和系统
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
CN102629936A (zh) * 2012-03-12 2012-08-08 华为终端有限公司 一种移动终端处理文本的方法、相关设备及系统
CN103680491A (zh) * 2012-09-10 2014-03-26 财团法人交大思源基金会 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块
CN103703431A (zh) * 2011-06-03 2014-04-02 苹果公司 自动创建文本数据与音频数据之间的映射
CN105225658A (zh) * 2015-10-21 2016-01-06 百度在线网络技术(北京)有限公司 韵律停顿信息的确定方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07101360B2 (ja) * 1987-09-28 1995-11-01 シャープ株式会社 音声録音再生装置
RU2460154C1 (ru) * 2011-06-15 2012-08-27 Александр Юрьевич Бредихин Способ автоматизированной обработки текста и компьютерное устройство для реализации этого способа

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446040B1 (en) * 1998-06-17 2002-09-03 Yahoo! Inc. Intelligent text-to-speech synthesis
US7010489B1 (en) * 2000-03-09 2006-03-07 International Business Mahcines Corporation Method for guiding text-to-speech output timing using speech recognition markers
CN1471025A (zh) * 2002-07-25 2004-01-28 摩托罗拉公司 使用韵律控制的中文文本至语音拼接合成系统及方法
CN1870728A (zh) * 2005-05-23 2006-11-29 北京大学 自动加配字幕的方法和系统
CN103703431A (zh) * 2011-06-03 2014-04-02 苹果公司 自动创建文本数据与音频数据之间的映射
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
CN102629936A (zh) * 2012-03-12 2012-08-08 华为终端有限公司 一种移动终端处理文本的方法、相关设备及系统
CN103680491A (zh) * 2012-09-10 2014-03-26 财团法人交大思源基金会 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块
CN105225658A (zh) * 2015-10-21 2016-01-06 百度在线网络技术(北京)有限公司 韵律停顿信息的确定方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于汉语节律特征描述的语音合成模型;吴禀雅 等;《计算机工程与科学》;20071231;第29卷(第10期);第128-131页

Also Published As

Publication number Publication date
CN105632484A (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
CN105632484B (zh) 语音合成数据库停顿信息自动标注方法及系统
CN109065031B (zh) 语音标注方法、装置及设备
CN103345922B (zh) 一种长篇幅语音全自动切分方法
CN101178896B (zh) 基于声学统计模型的单元挑选语音合成方法
KR102734943B1 (ko) 샘플 생성 방법 및 장치
CN107767881B (zh) 一种语音信息的满意度的获取方法和装置
CN113593522B (zh) 一种语音数据标注方法和装置
CN103003875A (zh) 用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统
CN104050965A (zh) 具有情感识别功能的英语语音发音质量评价系统及方法
CN101383103A (zh) 口语发音水平自动测试方法
CN112750421B (zh) 一种歌声合成方法、装置及可读存储介质
CN106782508A (zh) 语音音频的切分方法和语音音频的切分装置
CN108172211B (zh) 可调节的波形拼接系统及方法
CN111552777A (zh) 一种音频识别方法、装置、电子设备及存储介质
CN101968958B (zh) 一种音频数据的比较方法和装置
CN112349274A (zh) 一种训练韵律预测模型方法、装置、设备及存储介质
CN109727609B (zh) 口语发音评估方法及装置、计算机可读存储介质
CN119719414A (zh) 一种歌曲教唱模板生成方法及系统、设备、程序产品
CN109165836A (zh) 一种演唱评分中歌词发音的处理及测评方法及系统
CN112750422A (zh) 一种歌声合成方法、装置及设备
CN112750420B (zh) 一种歌声合成方法、装置及设备
CN116682421A (zh) 一种汉语智慧教学方法
CN108198575A (zh) 一种基于语谱切分的中国民族声乐作品演唱的评测系统
Hirschberg et al. Using machine learning to identify intonational segments
CN118969012B (zh) 和声识别及其模型训练方法、程序产品、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20171010

Address after: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Applicant after: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Address before: 200031 Shanghai Xuhui District Qinzhou North Road 1198, 82 buildings, 2 stories, 01 rooms

Applicant before: SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Automatic tagging method and system of pause information in speech synthesis database

Effective date of registration: 20201201

Granted publication date: 20190409

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY Co.,Ltd.

Registration number: Y2020310000047

PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220307

Granted publication date: 20190409

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Registration number: Y2020310000047

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and system for automatic marking of pause information in speech synthesis database

Effective date of registration: 20230210

Granted publication date: 20190409

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Registration number: Y2023310000028

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20190409

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Registration number: Y2023310000028

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Automatic annotation method and system for pause information in speech synthesis database

Granted publication date: 20190409

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Registration number: Y2024310000165

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20190409

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Registration number: Y2024310000165

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Automatic annotation method and system for pause information in speech synthesis database

Granted publication date: 20190409

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Registration number: Y2025310000205