JPH0887297A - Speech synthesis system - Google Patents
Speech synthesis systemInfo
- Publication number
- JPH0887297A JPH0887297A JP6225396A JP22539694A JPH0887297A JP H0887297 A JPH0887297 A JP H0887297A JP 6225396 A JP6225396 A JP 6225396A JP 22539694 A JP22539694 A JP 22539694A JP H0887297 A JPH0887297 A JP H0887297A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- database
- speech
- length
- information database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
       (57)【要約】
【目的】  実音声に近い明瞭度,韻律を持った自然性の
高い合成音声を得る。
【構成】  テキスト又は表音記号列が入力されると、音
声情報検索部1は実音声を分析し、抽出した音声特徴量
及びこれに対応する発声内容を格納した音声情報データ
ベース2中に、入力テキスト又は入力音声記号列に一致
する発声内容が存在するか否かを検索し、一致する発声
内容が存在する場合はこれを合成音声生成部3へ渡す。
合成音声生成部3は音声情報に応じた処理を施して合成
音声を生成し、また一致する発声内容が存在しない場合
は入力テキスト又は入力表音記号列をそのまま合成音声
生成部3へ渡し、合成音声生成部3により合成音声生成
規則4に基づき合成音声を生成する。
 (57) [Summary] [Purpose] To obtain highly natural synthesized speech with intelligibility and prosody close to real speech. [Structure] When a text or phonetic symbol string is input, the voice information retrieval unit 1 analyzes the actual voice and inputs it into a voice information database 2 that stores the extracted voice feature amount and the corresponding utterance content. Whether or not there is utterance content that matches the text or the input speech symbol string is searched, and if there is utterance content that matches, this is passed to the synthetic speech generation unit 3. 
 The synthesized voice generation unit 3 performs a process according to the voice information to generate a synthesized voice, and when there is no matching utterance content, the input text or the input phonetic symbol string is passed to the synthesized voice generation unit 3 as it is and synthesized. The voice generation unit 3 generates a synthetic voice based on the synthetic voice generation rule 4.  
    
Description
【0001】[0001]
       【産業上の利用分野】本発明は任意の入力テキスト、又
は入力表音記号列を合成音声に変換し、出力する音声合
成システムに関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice synthesizing system for converting an arbitrary input text or an input phonetic symbol string into a synthetic voice and outputting it.
    
【0002】[0002]
       【従来の技術】図10は従来の音声合成システムの主要
構成を示すブロック図であり、任意の入力テキストを合
成音声に変換し、出力する場合を示している。図中30
4は言語処理部を示しており、言語処理部304はテキ
スト入力に対し、単語辞書303を適用して入力テキス
ト中における単語の読み、アクセントの位置を決定する
と共に、文の構造を解析し、イントネーションを制御す
るための制御情報を作成し、これを音声長パターン生成
部300へ渡す。通常単語の読み、アクセント位置、イ
ントネーション制御情報はいずれも表音記号列と呼ばれ
る記号列で表現される。2. Description of the Related Art FIG. 10 is a block diagram showing a main configuration of a conventional speech synthesis system, showing a case where an arbitrary input text is converted into synthetic speech and output. 30 in the figure 
 Reference numeral 4 denotes a language processing unit. The language processing unit 304 applies a word dictionary 303 to text input to determine the reading and accent positions of words in the input text, and analyzes the sentence structure. Control information for controlling the intonation is created and passed to the voice length pattern generation unit 300. Usually, reading of a word, accent position, and intonation control information are all represented by a symbol string called a phonetic symbol string.
    
       【0003】音声長パターン生成部300は、音声長生
成規則400を適用して表音記号列を各音の長さ情報
(音声長)パターンに変換し、この音声長パターン及び
表音記号列をFOパターン生成部301へ渡す。FOパ
ターン生成部301は、FO生成規則401を適用して
表音記号列と音声長パターンとに基づきアクセント,イ
ントネーションに相当する物理量である基本周波数(F
O)の時間変化パターン、所謂FOパターンを生成し、
表音記号列,音声長パターン及びFOパターンを音声パ
ラメータパターン生成部310へ渡す。The voice length pattern generation unit 300 applies the voice length generation rule 400 to convert a phonetic symbol string into a length information (voice length) pattern of each sound, and outputs the voice length pattern and the phonetic symbol string. It is passed to the FO pattern generation unit 301. The FO pattern generation unit 301 applies the FO generation rule 401 and based on the phonetic symbol string and the voice length pattern, a fundamental frequency (F) which is a physical quantity corresponding to accent and intonation. 
 O) time change pattern, so-called FO pattern is generated, 
 The phonetic symbol string, the voice length pattern, and the FO pattern are passed to the voice parameter pattern generation unit 310.
    
       【0004】音声パラメータパターン生成部310は、
音声パラメータ生成規則410を適用して表音記号列
(特に読み情報)、音声長パターン,FOパターンに基
づき音声パラメータパターンを生成し、これを波形生成
部311へ渡す。なおここに音声パラメータパターンは
通常RARCOR係数(声道断面積に対応する係数)、
又はフォルマント(声道共振)周波数等の音声特徴量と
音源信号の時間変化パターンである。また音声波形の短
い単位を接続して合成音声を生成する、所謂波形編集方
式の場合は、音声波形の短い単位である素片波形の種
類,接続タイミング等の接続情報である。The voice parameter pattern generator 310 is 
 The voice parameter generation rule 410 is applied to generate a voice parameter pattern based on the phonetic symbol string (especially reading information), the voice length pattern, and the FO pattern, and passes this to the waveform generation unit 311. Here, the voice parameter pattern is usually the RARCOR coefficient (coefficient corresponding to the vocal tract cross-sectional area), 
 Alternatively, it is a temporal change pattern of a sound source signal such as a formant (vocal tract resonance) frequency and a sound source signal. Further, in the case of a so-called waveform editing method in which short speech waveform units are connected to generate a synthetic speech, the information is connection information such as the type of segment waveform, which is a short speech waveform unit, and connection timing.
    
       【0005】波形生成部311は、渡された音声パラメ
ータパターンに基づいて実際のディジタル音声波形を生
成し、これをDA変換部5へ渡す。例えば音声パラメー
タパターンがPARCOR係数である場合には、波形生
成部311はPARCORフィルタと音源生成部とで構
成され、フィルタを音源信号で駆動する処理を行う。ま
た、波形編集方式の場合は素片波形を適切な位置に配
し、これらを滑らかに接続する処理を行う。DA変換部
5は波形生成部311で生成されたディジタル音声波形
をアナログ音声波形に変換し、合成音声として出力す
る。The waveform generator 311 generates an actual digital voice waveform based on the passed voice parameter pattern and passes it to the DA converter 5. For example, when the voice parameter pattern is a PARCOR coefficient, the waveform generation unit 311 includes a PARCOR filter and a sound source generation unit, and performs a process of driving the filter with a sound source signal. Further, in the case of the waveform editing method, the segment waveforms are arranged at appropriate positions and a process for smoothly connecting them is performed. The DA converter 5 converts the digital voice waveform generated by the waveform generator 311 into an analog voice waveform and outputs it as a synthesized voice.
    
【0006】[0006]
       【発明が解決しようとする課題】ところでこのような従
来の音声合成システムでは、全ての音響的,韻律的処理
を予め用意してある各規則に基づいて行っているが、圧
縮された状態の音響情報に基づいて合成音声を生成する
ため、合成音声の品質の劣化を免れ得ず、また規則によ
って音声長パターン,FOパターン及び音声パラメータ
パターンを生成するため、不自然なアクセント,イント
ネーションになる等の問題があった。By the way, in such a conventional speech synthesis system, all acoustic and prosodic processing is performed based on each rule prepared in advance. Since the synthesized voice is generated based on the information, the quality of the synthesized voice is unavoidably deteriorated. Also, since the voice length pattern, the FO pattern and the voice parameter pattern are generated according to the rule, unnatural accent, intonation, etc. There was a problem.
    
       【0007】本発明の第1の目的は、音響情報データベ
ース,韻律情報データベース等、複数種類の音声情報デ
ータベースを用意して入力テキストがこれらデータベー
スに登録されているテキストである場合には、データベ
ースから引き出した情報に基づいて音声を再構築し、出
力することで再生音声の品質向上を図ることにある。A first object of the present invention is to prepare a plurality of types of voice information databases such as an acoustic information database and a prosody information database, and when the input text is a text registered in these databases, It is to improve the quality of the reproduced voice by reconstructing the voice based on the extracted information and outputting it.
    
       【0008】本発明の他の目的は、音響情報データベー
スとして音声波形データベース及び/又は音声パラメー
タデータベースを、また韻律情報データベースとして音
声長データベース及び/又は音声長・音声強度データべ
ース及び/又は音声長・FOパターンデータベースを用
いることで様々な入力テキスト、又は入力表音記号列に
対応した音声合成を可能とすることにある。Another object of the present invention is to use a voice waveform database and / or a voice parameter database as an acoustic information database and a voice length database and / or a voice length / speech intensity database and / or voice as a prosody information database. The purpose is to enable speech synthesis corresponding to various input texts or input phonetic symbol strings by using the long / FO pattern database.
    
【0009】[0009]
       【課題を解決するための手段】本発明の原理を説明す
る。図1は本発明の第1の原理を示す原理図1であり、
図中1は音声情報検索部、3は合成音声生成部を示して
いる。The principle of the present invention will be described. FIG. 1 is a principle diagram 1 showing the first principle of the present invention, 
 In the figure, reference numeral 1 indicates a voice information search unit, and 3 indicates a synthetic voice generation unit.
    
       【0010】音声情報検索部1は、テキスト又は表音記
号列の入力があると人が発した音声である実音声から抽
出した各種の音声特徴量、及びこれと対応する発声内容
(音声でどのように話されたかを示すラベル)を格納し
てある音声情報データベース2中に、これら入力テキス
ト又は入力表音記号列と一致する発声内容が存在するか
否かを検索する。The voice information retrieving unit 1 extracts various voice feature amounts from the real voice that is a voice uttered by a person when a text or a phonetic symbol string is input, and utterance contents (corresponding to which voice feature) It is searched whether or not there is utterance content that matches these input texts or input phonetic symbol strings in the voice information database 2 that stores (labels indicating whether or not they are spoken).
    
       【0011】なお、ここに音声情報とは音声波形,音声
パラメータ,FO,音声強度及び音声長等をいう。また
音声特徴量とは音声の物理的な特徴量、所謂音声パラメ
ータであり、一般的には音声周波数領域の特徴量を指
し、これにはスペクトル(周波数強度)フォルマント
(声道共振周波数),LPC(線形予測係数),PAR
COR係数(声道断面積に対応する係数)等がある。The voice information is a voice waveform, voice parameters, FO, voice strength, voice length, etc. The voice feature amount is a physical feature amount of a voice, a so-called voice parameter, and generally refers to a feature amount in the voice frequency region, which includes a spectrum (frequency intensity) formant (vocal tract resonance frequency), LPC. (Linear prediction coefficient), PAR 
 There are COR coefficients (coefficients corresponding to vocal tract cross-sectional areas) and the like.
    
       【0012】検索の結果、一致する発声内容が存在する
場合はこれを合成音声生成部3へ渡し、また一致する発
声内容が存在しない場合には、入力テキスト又は入力表
音記号列をそのまま合成音声生成部3へ渡す。合成音声
生成部3は、合成音声生成規則4に基づいて、入力テキ
スト又は入力表音記号列から合成音声を生成する。As a result of the search, if there is a matching utterance content, this is passed to the synthetic speech generation unit 3, and if there is no matching utterance content, the input text or the input phonetic symbol string is directly synthesized speech. Pass to the generation unit 3. The synthetic speech generation unit 3 generates synthetic speech from an input text or an input phonetic symbol string based on the synthetic speech generation rule 4.
    
       【0013】第1の発明は、この原理に基づく発明であ
り、入力テキスト又は入力表音記号列を合成音声に変換
して出力する音声合成システムにおいて、実音声から抽
出した音声特徴量を格納した音声情報データベースと、
入力テキスト又は入力表音記号列と対応する前記音声情
報データベースに格納されている音声特徴量を検索する
検索手段と、検索の結果、音声情報データべースに該当
する音声特徴量が存在した場合はその音声特徴量に基づ
いて音声を構成する手段と、該当する音声特徴量が存在
しなかった場合は予め定めた規則に従って合成音声を生
成する手段とを具備することを特徴とする。A first invention is an invention based on this principle. In a speech synthesis system for converting an input text or an input phonetic symbol string into synthetic speech and outputting the synthetic speech, a speech feature quantity extracted from an actual speech is stored. Voice information database, 
 Search means for searching the voice feature amount stored in the voice information database corresponding to the input text or the input phonetic symbol string, and as a result of the search, the voice feature amount corresponding to the voice information database exists. Is provided with means for forming a voice based on the voice feature amount, and means for generating a synthetic voice according to a predetermined rule when the corresponding voice feature amount does not exist.
    
       【0014】図2は本発明の第2の原理を示す原理図2
であり、図中10は音響情報検索部、30は韻律情報生
成部、31は音響情報生成部を示している。なお、音響
情報とは、音声情報のうちの音声波形の如き時間領域の
情報、スぺクトルの如き周波数領域の情報を意味し、ま
た音響的特徴量とはこれら情報のうちの音声合成上の有
意な情報を意味する。また、韻律情報とは、音声情報の
うちの韻律(イントネーション,アクセント,リズム,
強度)についての情報を意味し、また韻律的特徴量とは
イントネーション,アクセントに対応する韻律の物理的
特徴量である基本周波数(FO)、リズムに対応する音
声長,強度に対応する音声強度をいう。FIG. 2 is a principle diagram showing a second principle of the present invention. 
 In the figure, 10 is an acoustic information retrieval unit, 30 is a prosody information generation unit, and 31 is an acoustic information generation unit. Note that the acoustic information means information in the time domain such as a voice waveform of the voice information, information in the frequency domain such as a spectrum, and the acoustic feature amount is information on the speech synthesis of the information. Means significant information. The prosody information is the prosody (intonation, accent, rhythm, 
 Intensity), and the prosodic features are the fundamental frequency (FO), which is the physical feature of the prosody corresponding to the intonation and accent, the voice length corresponding to the rhythm, and the voice intensity corresponding to the intensity. Say.
    
       【0015】音響情報検索部10はテキスト又は表音記
号列が入力されると実音声から抽出した様々な音響的特
徴量及びこれと対応する発声内容が格納されている音響
情報データベース20中に入力テキスト又は入力表音記
号列と一致する発声内容が存在するか否かを検索する。
一致する発声内容が存在する場合は、これを直接音響情
報として出力し、また一致する発声内容が存在しない場
合には入力テキスト又は入力表音記号列をそのまま韻律
情報生成部30へ渡す。When a text or phonetic symbol string is input, the acoustic information retrieval unit 10 inputs it into an acoustic information database 20 in which various acoustic feature quantities extracted from actual speech and corresponding utterance contents are stored. It is searched whether or not there is utterance content that matches the text or the input phonetic symbol string. 
 If the matched utterance content exists, this is directly output as acoustic information, and if the matched utterance content does not exist, the input text or the input phonetic symbol string is directly passed to the prosody information generation unit 30.
    
       【0016】韻律情報生成部30は、韻律情報生成規則
40に基づいてテキスト又は表音記号列から韻律情報を
生成し、これを音響情報生成部31へ渡す。音響情報生
成部31は音響情報生成規則41に基づいて韻律情報か
ら音響情報を生成する。The prosody information generation unit 30 generates prosody information from a text or phonetic symbol string based on the prosody information generation rule 40, and passes this to the acoustic information generation unit 31. The acoustic information generation unit 31 generates acoustic information from the prosody information based on the acoustic information generation rule 41.
    
       【0017】第2の発明は、この原理に基づく発明であ
り、音声情報データベースとして音声特徴量中の実音声
から抽出した音響的特徴量を格納した音響情報データベ
ースを用いることを特徴とする。A second invention is based on this principle, and is characterized in that an audio information database storing acoustic feature amounts extracted from actual voices in the voice feature amounts is used as the voice information database.
    
       【0018】図3は本発明の第3の原理を示す原理図3
であり、図中11は韻律情報検索部である。韻律情報検
索部11はテキスト又は表音記号列が入力されると、実
音声から抽出した様々な韻律的特徴量及びこれと対応す
る発声内容が格納されている韻律情報データベース21
中に入力テキスト、又は入力表音記号列と一致する発声
内容が存在するか否かを検索する。一致する発声内容が
存在する場合は、得られた韻律情報を音響情報生成部3
1へ渡し、また一致する発声内容が存在しない場合は、
入力テキスト又は入力表音記号列をそのまま韻律情報生
成部30へ渡す。FIG. 3 is a principle diagram showing a third principle of the present invention. 
 11 is a prosody information search unit. When a text or phonetic symbol string is input, the prosody information search unit 11 stores a prosody information database 21 in which various prosodic feature quantities extracted from actual speech and corresponding utterance contents are stored. 
 It is searched whether or not there is utterance content that matches the input text or the input phonetic symbol string. If there is a matching utterance content, the obtained prosody information is used as the acoustic information generation unit 3 
 If there is no matching utterance content, 
 The input text or the input phonetic symbol string is directly passed to the prosody information generation unit 30.
    
       【0019】音響情報生成部30は、韻律情報生成規則
40に基づいて入力テキスト又は入力表音記号列から韻
律情報を生成し、これを音響情報生成部31へ渡す。音
響情報生成部31は、音響情報生成規則41に基づいて
韻律情報検索部11又は韻律情報生成部30から渡され
た韻律情報から音響情報を生成する。The acoustic information generation unit 30 generates prosody information from the input text or the input phonetic symbol string based on the prosody information generation rule 40, and passes this to the acoustic information generation unit 31. The acoustic information generation unit 31 generates acoustic information from the prosody information passed from the prosody information search unit 11 or the prosody information generation unit 30 based on the acoustic information generation rule 41.
    
       【0020】第3の発明は、この原理に基づく発明であ
り、音声情報データベースとして、音声特徴量中の実音
声から抽出した韻律的な特徴量を格納した韻律情報デー
タベースを用いることを特徴とする。A third invention is based on this principle, and is characterized in that a prosodic information database storing prosodic characteristic amounts extracted from real speech in the speech characteristic amounts is used as the speech information database. .
    
       【0021】図4は本発明の第4の原理を示す原理図4
であり、図中10は音響情報検索部を示している。音響
情報検索部10はテキスト又は表音記号列が入力される
と実音声から抽出した様々な音響的特徴量及びこれに対
応する発声内容を格納した音響情報データベース20中
に入力テキスト又は入力表音記号列と一致する発声内容
が存在するか否かを検索する。FIG. 4 is a principle diagram showing a fourth principle of the present invention. 
 In the figure, 10 indicates an acoustic information retrieval unit. When a text or phonetic symbol string is input, the acoustic information search unit 10 inputs an input text or an input phonetic sound into an acoustic information database 20 that stores various acoustic feature amounts extracted from actual speech and corresponding utterance contents. It is searched whether or not there is utterance content that matches the symbol string.
    
       【0022】一致する発声内容が存在する場合には直接
音響情報としてこれを出力する。また一致する音声内容
が存在しない場合は入力テキスト又は入力表音記号列を
そのまま韻律情報検索部11へ渡す。韻律情報検索部1
1は、実音声から抽出した種々の韻律的特徴量及びこれ
に対応する発声内容が格納されている韻律情報データベ
ース21中に入力テキスト又は入力表音記号列と一致す
る発声内容が存在するか否かを検索する。When the utterance contents that match each other are present, this is directly output as acoustic information. If there is no matching voice content, the input text or the input phonetic symbol string is directly passed to the prosody information searching unit 11. Prosody information search unit 1 
 1 indicates whether or not the utterance content that matches the input text or the input phonetic symbol string exists in the prosody information database 21 in which various prosodic feature quantities extracted from the actual speech and the utterance content corresponding thereto are stored. To search for
    
       【0023】一致する発声内容が存在する場合は、韻律
的特徴量を含む韻律情報を音響情報生成部31へ渡し、
また一致する発声内容が存在しない場合は入力テキスト
又は入力表音記号列をそのまま韻律情報生成部30へ渡
す。韻律情報生成部30は、韻律情報生成規則40に基
づいて、入力テキスト又は入力表音記号列から韻律情報
を生成し、これを音響情報生成部31へ渡す。音響情報
生成部31は、音響情報生成規則41に基づいて韻律情
報検索部11又は韻律情報生成部30から渡された韻律
情報から音響情報を生成する。When the utterance contents that match each other are present, the prosody information including the prosody feature amount is passed to the acoustic information generation unit 31, 
 If there is no matching utterance content, the input text or the input phonetic symbol string is passed to the prosody information generation unit 30 as it is. The prosody information generation unit 30 generates prosody information from the input text or the input phonetic symbol string based on the prosody information generation rule 40, and passes this to the acoustic information generation unit 31. The acoustic information generation unit 31 generates acoustic information from the prosody information passed from the prosody information search unit 11 or the prosody information generation unit 30 based on the acoustic information generation rule 41.
    
       【0024】第4の発明は、この原理に基づく発明であ
り、音声情報データベースとして、実音声から抽出した
音響的特徴量を格納した音響情報データベース及び実音
声から抽出した韻律的な特徴量を格納した韻律情報デー
タベースを用いることを特徴とする。A fourth invention is an invention based on this principle. As a speech information database, an acoustic information database storing acoustic characteristic amounts extracted from actual speech and a prosodic characteristic amount extracted from actual speech are stored. It is characterized by using the prosody information database.
    
       【0025】第5の発明は、前記第2,第4の原理に基
づく発明であり、音響情報データベースとして、音声波
形を格納した音声波形データベースを用いることを特徴
とする。A fifth invention is based on the above-mentioned second and fourth principles, and is characterized in that a voice waveform database storing voice waveforms is used as the acoustic information database.
    
       【0026】第6の発明は、同じく前記第2,第4の原
理に基づく発明であり、音響情報データべースとして、
スペクトル,声道断面積又はフォルマント周波数を格納
した音声パラメータデータベースを用いることを特徴と
する。A sixth invention is also an invention based on the above second and fourth principles, and as an acoustic information database, 
 It is characterized by using a voice parameter database that stores spectrum, vocal tract cross-sectional area, or formant frequency.
    
       【0027】第7の発明は、同じく前記第2,第4の原
理に基づく発明であり、音響情報データベースとして、
音声波形データベース及び音声パラメータデータベース
を用いることを特徴とする。The seventh invention is also an invention based on the above second and fourth principles, and as an acoustic information database, 
 It is characterized by using a voice waveform database and a voice parameter database.
    
       【0028】第8の発明は、前記第3,第4の原理に基
づく発明であり、韻律情報データベースとして、音声
長,音声強度,基本周波数のうちの、音声長のみ、又は
いずれか2つ以上を格納したデータベースを用いること
を特徴とする。An eighth invention is an invention based on the above-mentioned third and fourth principles. As a prosodic information database, only the voice length of voice length, voice intensity, and fundamental frequency, or any two or more of them are used. It is characterized by using a database storing.
    
       【0029】第9の発明は、同じく前記第3,第4の原
理に基づく発明であり、韻律情報データベースとして音
声長及び音声強度を格納した音声長・音声強度データベ
ースを用いることを特徴とする。A ninth aspect of the present invention is also based on the third and fourth principles, and is characterized in that a voice length / speech intensity database storing voice length and voice intensity is used as a prosody information database.
    
       【0030】第10の発明は、同じく前記第3,第4の
原理に基づく発明であり、韻律情報データベースとし
て、音声長及び基本周波数を格納した音声長・FOデー
タベースを用いることを特徴とする。A tenth aspect of the present invention is also based on the above third and fourth principles, and is characterized in that a voice length / FO database storing voice length and fundamental frequency is used as a prosody information database.
    
       【0031】第11の発明は、同じく前記第3,第4の
原理に基づく発明であり、韻律情報データベースとして
音声長のみを格納した音声長データベースを用いること
を特徴とする。An eleventh invention is also an invention based on the above third and fourth principles, and is characterized in that a voice length database storing only voice length is used as a prosody information database.
    
       【0032】第12の発明は、同じく前記第3,第4の
原理に基づく発明であり、韻律情報データベースとし
て、音声長・音声強度・FOデータベース、音声長・音
声強度データベース、音声長・FOデータベース又は音
声長データベースのいずれか2以上のデータベースを用
いることを特徴とする。The twelfth invention is also based on the above-mentioned third and fourth principles, and as a prosodic information database, a voice length / speech intensity / FO database, a voice length / speech intensity database, and a voice length / FO database. Alternatively, any two or more databases of the voice length database are used.
    
【0033】[0033]
       【作用】第1の発明にあっては、音声特徴量を格納した
データベースを用いることで高品質の合成音声の出力が
可能となる。According to the first aspect of the present invention, it is possible to output high quality synthetic speech by using the database storing the speech feature amount.
    
       【0034】第2の発明にあっては、音響的特徴量を用
いることで実音声に近い明瞭度の高い合成音声が得られ
る。According to the second aspect of the present invention, by using the acoustic feature quantity, a synthetic speech having a high degree of intelligibility close to an actual speech can be obtained.
    
       【0035】第3の発明にあっては、韻律的特徴量とを
用いるから、実音声に近い自然性の高い音声が得られ
る。According to the third aspect of the invention, since the prosodic feature quantity is used, it is possible to obtain a highly natural voice close to an actual voice.
    
       【0036】第4の発明にあっては、第2,第3の機能
を兼ね備えた機能が得られる。According to the fourth aspect of the present invention, a function having both the second and third functions can be obtained.
    
       【0037】第5の発明にあっては、音響情報データと
して音声波形を用いることで自然性,明瞭度の高い音声
が得られる。According to the fifth aspect of the invention, by using a voice waveform as the acoustic information data, a voice with a high degree of naturalness and clarity can be obtained.
    
       【0038】第6の発明にあっては、明瞭度は低いが少
ないデータ量で自然性の高い合成音声が得られる。According to the sixth aspect of the invention, synthetic speech having a low degree of intelligibility but a small amount of data and high naturalness can be obtained.
    
       【0039】第7の発明にあっては、第5,第6の発明
の両機能を兼ねた作用が得られる。According to the seventh aspect of the invention, it is possible to obtain an operation which has both functions of the fifth and sixth aspects.
    
       【0040】第8の発明にあっては、音声長,音声強
度,FOのうちの1又は複数を用いることで自然性の高
い韻律を持った合成音声が得られる。In the eighth invention, by using one or more of the voice length, the voice intensity, and the FO, a synthetic voice having a highly natural prosody can be obtained.
    
       【0041】第9の発明にあっては、自然性の高いリズ
ムを持った合成音声が得られる。According to the ninth invention, a synthetic voice having a rhythm with high naturalness can be obtained.
    
       【0042】第10の発明にあっては、自然性の高いリ
ズム,イントネーション,アクセントを持った合成音声
が得られる。According to the tenth aspect of the present invention, a synthetic voice having highly natural rhythm, intonation and accent can be obtained.
    
       【0043】第11の発明にあっては、少ないデータ量
で自然性の高いリズムを持った合成音声が得られる。According to the eleventh invention, a synthetic voice having a highly natural rhythm can be obtained with a small amount of data.
    
       【0044】第12の発明にあっては、自然な韻律を持
った合成音声が得られる。According to the twelfth invention, a synthetic speech having a natural prosody can be obtained.
    
【0045】[0045]
       【実施例】以下本発明をその実施例を示す図面に基づき
具体的に説明する。 (実施例1)実施例1は第1,第2,第3の原理を具象
化したものであり、図5は本発明の実施例1の構成を示
すブロック図である。図5中100は音声波形検索部を
示している。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be specifically described below with reference to the drawings showing the embodiments. (Embodiment 1) Embodiment 1 embodies the first, second, and third principles, and FIG. 5 is a block diagram showing the configuration of Embodiment 1 of the present invention. Reference numeral 100 in FIG. 5 denotes a voice waveform search unit.
    
       【0046】音声波形検索部100はテキスト又は表音
記号列が入力されると、音声波形データベース200を
検索する。音声波形データベース200には発声内容を
示す表音記号列と、それに対応した音声波形データ(P
CMデータ又はADPCM等の符号化技術により情報圧
縮されたデータ)の対が複数格納されて、この内に入力
テキスト又は入力表音記号列と一致する発声内容が存在
する場合には、対応する音声波形を直ちにDA変換部5
へ渡し、また一致する発声内容が存在しない場合には入
力テキスト又は入力表音記号列をそのまま音声パラメー
タ検索部101へ渡す。When the text or phonetic symbol string is input, the voice waveform search section 100 searches the voice waveform database 200. The voice waveform database 200 includes a phonetic symbol string indicating utterance content and voice waveform data (P 
 If a plurality of pairs of CM data or data that has been information-compressed by an encoding technique such as ADPCM are stored, and if there is utterance content that matches the input text or the input phonetic symbol string, the corresponding voice The waveform is immediately converted to DA converter 5 
 If there is no matching utterance content, the input text or the input phonetic symbol string is directly passed to the voice parameter searching unit 101.
    
       【0047】音声パラメータ検索部101は、実音声か
ら抽出した音声パラメータ、例えばPARCOR,LS
P,フォルマント周波数、及びこれに対応する発声内容
を格納した音声パラメータデータベース201中に入力
テキスト又は入力表音記号列と一致する発声内容が存在
するか否かを検索する。The voice parameter retrieving unit 101 extracts voice parameters from real voice, for example PARCOR and LS. 
 A search is made as to whether or not there is utterance content that matches the input text or input phonetic symbol string in the voice parameter database 201 that stores P, formant frequencies, and utterance content corresponding thereto.
    
       【0048】一致する発声内容が存在すれば、その音声
パラメータを波形生成部311へ渡し、また一致する発
声内容が存在しない場合は入力テキスト又は入力表音記
号列をそのまま韻律情報検索部11へ渡す。韻律情報検
索部11は、実音声から抽出した種々の韻律的特徴量及
びこれに対応する発声内容を格納した韻律情報データベ
ース21中に入力テキスト又は表音記号列と一致する発
声内容が存在するか否かを検索する。一致する発声内容
が存在すれば、その韻律情報を音声パラメータパターン
生成部310へ渡し、また一致する発声内容が存在しな
い場合は入力テキスト又は入力表音記号列をそのまま韻
律情報生成部30へ渡す。If there is a matching utterance content, the voice parameter is passed to the waveform generating section 311, and if there is no matching utterance content, the input text or the input phonetic symbol string is passed to the prosody information searching section 11 as it is. . The prosody information retrieval unit 11 determines whether or not the utterance content that matches the input text or the phonetic symbol string exists in the prosody information database 21 that stores various prosodic feature quantities extracted from the actual speech and the corresponding utterance content. Search whether or not. If the matched utterance content exists, the prosody information is passed to the voice parameter pattern generation unit 310, and if the matched utterance content does not exist, the input text or the input phonetic symbol string is passed to the prosody information generation unit 30 as it is.
    
       【0049】韻律情報生成部30は韻律情報生成規則4
0に基づいて、入力テキスト又は入力表音記号列から韻
律情報を生成し、これを音声パラメータパターン生成部
310へ渡す。音声パラメータパターン生成部310は
音声パラメータ生成規則410に基づいて、渡された韻
律情報、即ち表音記号列(特に読み情報)、音声長及び
音声強度パターン,FOパターンから音声パラメータパ
ターンを生成し、これを波形生成部311へ渡す。生成
される音声パラメータパターンは具体的にはRARCO
R係数、又はフォルマント周波数と音源信号との時間変
化パターンであったり、所謂波形編集方式の場合にあっ
ては、音声波形の短い単位である素片波形の種類,接続
タイミング等の接続情報である。The prosody information generation unit 30 uses the prosody information generation rule 4 
 Based on 0, prosody information is generated from the input text or the input phonetic symbol string, and this is passed to the voice parameter pattern generation unit 310. The voice parameter pattern generation unit 310 generates a voice parameter pattern from the passed prosody information, that is, a phonetic symbol string (especially reading information), a voice length and a voice intensity pattern, and an FO pattern, based on the voice parameter generation rule 410. This is passed to the waveform generation unit 311. The generated voice parameter pattern is specifically RARCO 
 It is connection information such as the R coefficient or the temporal change pattern of the formant frequency and the sound source signal, and in the case of a so-called waveform editing method, the type of a segment waveform, which is a short unit of the audio waveform, the connection timing, and the like. .
    
       【0050】波形生成部311は、音声パラメータ検索
部101又は音声パラメータ生成部310から渡された
音声パラメータパターンに基づいて実際の音声波形を生
成し、DA変換部5へ渡す。音声波形の生成処理は、音
声パラメータパターンがRARCOR係数の場合は波形
生成部311はPARCORフィルタと音源生成部とか
らなり、RARCORフィルタを音源信号で駆動処理
し、また波形編集方式の場合は素片波形を適切な位置に
配し、これらを滑らかに接続する処理を行う。DA変換
部5は波形生成部311で生成され、又は音声波形検索
部100によって音声波形データベース200から引き
出されたディジタル音声波形をアナログ音声波形に変換
して合成音声として出力する。The waveform generation unit 311 generates an actual voice waveform based on the voice parameter pattern passed from the voice parameter search unit 101 or the voice parameter generation unit 310, and passes it to the DA conversion unit 5. In the voice waveform generation process, when the voice parameter pattern is the RARCOR coefficient, the waveform generation unit 311 includes a PARCOR filter and a sound source generation unit. The RARCOR filter is driven by the sound source signal. The waveform is placed at an appropriate position, and the process of connecting them smoothly is performed. The DA conversion unit 5 converts the digital voice waveform generated by the waveform generation unit 311 or extracted from the voice waveform database 200 by the voice waveform search unit 100 into an analog voice waveform, and outputs the analog voice waveform.
    
       【0051】このような実施例1にあっては、音声波形
データベース200及び音声パラメータデータベース2
01を用いるこによって高品質な合成音声の生成が、ま
た韻律情報データベース21を用いることで自然な合成
音声の生成が可能となる。In the first embodiment, the voice waveform database 200 and the voice parameter database 2 are used. 
 By using 01, high quality synthetic speech can be generated, and by using the prosody information database 21, natural synthetic speech can be generated.
    
       【0052】(実施例2)実施例2は第3の原理を具象
化したものであり、図6は、本発明の実施例2の構成を
示すブロック図である。図6中110は音声長・音声強
度・FOパターン検索部を示している。音声長・音声強
度・FOパターン検索部61はテキスト又は表音記号列
が入力されると、実音声から抽出した音声長・音声強度
・FOパターン及びこれに対応する発声内容を格納した
音声長・音声強度・FOデータベース210中に、入力
テキスト又は入力表音記号列と一致する発声内容が存在
するか否かを検索する。(Embodiment 2) Embodiment 2 embodies the third principle, and FIG. 6 is a block diagram showing the configuration of Embodiment 2 of the present invention. Reference numeral 110 in FIG. 6 denotes a voice length / voice strength / FO pattern search unit. When a text or phonetic symbol string is input, the voice length / voice strength / FO pattern search unit 61 stores the voice length / voice strength / FO pattern extracted from the actual voice and the voice length / storing content corresponding to this. The voice strength / FO database 210 is searched for whether or not there is utterance content that matches the input text or the input phonetic symbol string.
    
       【0053】一致する発声内容が存在すれば、その音声
長・音声強度・FOパターンを音響情報生成部31へ渡
し、また一致する発声内容が存在しない場合には入力テ
キスト又は入力表音記号列をそのまま音声長・FOパタ
ーン検索部111へ渡す。音声長・音声強度・FOデー
タベースには、発声内容を示す情報とそれに対応した音
素及び音節等の合成単位毎の時間長である音声長パター
ンと、音声強度の時間変化パターンである音声強度パタ
ーンと、基準周波数の時間変化パターンであるFOパタ
ーンとの組が複数格納されている。If there is a matching utterance content, the voice length / sound intensity / FO pattern is passed to the acoustic information generating section 31, and if there is no matching utterance content, the input text or the input phonetic symbol string is input. It is passed to the voice length / FO pattern search unit 111 as it is. The speech length / speech strength / FO database contains information indicating utterance content, a speech length pattern corresponding to the synthesis unit such as a phoneme and a syllable, and a speech strength pattern which is a temporal variation pattern of the speech strength. , A plurality of sets of FO patterns, which are temporal change patterns of reference frequencies, are stored.
    
       【0054】音声長・FOパターン検索部111は音声
長・FOデータベース211中に入力テキスト又は入力
表音記号列と一致する発声内容が存在するか否かを検索
する。一致する発声内容が存在する場合は、その音声長
・FOパターンデータを音声強度パターン生成部302
に渡し、また一致する発声内容が存在しない場合は、入
力テキスト又は入力表音記号列をそのまま音声長・音声
強度パターン検索部112へ渡す。音声長・音声強度パ
ターン検索部112は音声長・音声強度データベース2
12中に入力テキスト又は入力表音記号列と一致する発
声内容が存在するか否かを検索し、一致する発声内容が
存在する場合はその音声長・音声強度パターンをFOパ
ターン生成部301へ渡し、また存在しない場合は入力
テキスト又は入力表音記号列をそのまま音声長パターン
検索部113へ渡す。The voice length / FO pattern search unit 111 searches the voice length / FO database 211 for utterance contents matching the input text or the input phonetic symbol string. When the utterance contents that match each other are present, the voice length / FO pattern data is used as the voice intensity pattern generation unit 302. 
 If there is no matching utterance content, the input text or the input phonetic symbol string is passed as it is to the voice length / speech intensity pattern search unit 112. The voice length / speech intensity pattern search unit 112 uses the voice length / speech intensity database 2 
 It searches whether or not there is utterance content that matches the input text or the input phonetic symbol string in 12, and if there is utterance content that matches, the voice length / speech intensity pattern is passed to the FO pattern generation unit 301. If it does not exist, the input text or the input phonetic symbol string is directly passed to the voice length pattern search unit 113.
    
       【0055】音声長パターン検索部113は、音素,音
節等の合成単位毎の時間長である音声長パターンとこれ
に対応する発声内容が格納された音声長データベース2
13中に、入力テキスト又は入力表音記号列が存在する
か否かを検索し、存在する場合はこれをFOパターン生
成部301へ渡し、また存在しない場合は入力テキスト
又は入力表音記号列をそのまま音声長パターン生成部3
00へ渡す。音声長パターン生成部300は音声長生成
規則400に基づいて入力テキスト又は入力表音記号列
を音声長パターンに変換し、これをFOパターン生成部
301へ渡す。The voice length pattern search unit 113 stores a voice length pattern, which is a time length for each synthesis unit of phonemes, syllables, and the like, and a voice length database 2 in which utterance contents corresponding thereto are stored. 
 13 is searched for whether or not the input text or the input phonetic symbol string exists, and if it exists, it is passed to the FO pattern generation unit 301, and if it does not exist, the input text or the input phonetic symbol string is input. As it is, the voice length pattern generation unit 3 
 Pass to 00. The voice length pattern generation unit 300 converts the input text or the input phonetic symbol string into a voice length pattern based on the voice length generation rule 400, and passes this to the FO pattern generation unit 301.
    
       【0056】FOパターン生成部301はFO生成規則
401に基づいて、音声長・音声強度パターン、又は音
声長パターンと表音記号列とからアクセント,イントネ
ーションに相当する物理量であるFOパターンを生成
し、表音記号列と共にこれを音声強度パターン生成部3
02へ渡す。音声強度パターン生成部302は音声強度
生成規則402に基づいて、表音記号列、音声長・FO
パターン又はFOパターンから音声強度の時間変化パタ
ーンである音声強度パターンを生成し、これを音響情報
生成部31へ渡す。音響情報生成部31は音響情報生成
規則41に基づいて実際の音響情報を生成する。Based on the FO generation rule 401, the FO pattern generation unit 301 generates a FO pattern, which is a physical quantity corresponding to an accent or intonation, from a voice length / voice intensity pattern or a voice length pattern and a phonetic symbol string. This is used together with the phonetic symbol string to generate the voice intensity pattern generation unit 3 
 Pass to 02. The voice strength pattern generation unit 302, based on the voice strength generation rule 402, a phonetic symbol string, a voice length / FO. 
 A voice intensity pattern, which is a temporal change pattern of voice intensity, is generated from the pattern or the FO pattern and is passed to the acoustic information generation unit 31. The acoustic information generation unit 31 generates actual acoustic information based on the acoustic information generation rule 41.
    
       【0057】このような実施例2にあっては、音声長・
音声強度・FOデータベース210、音声長・FOデー
タベース211、音声長・音声強度データベース212
及び音声長データベース213等を用いることで、自然
なイントネーション,アクセント及びリズムを持った合
成音声の生成が可能となる。In the second embodiment, the voice length 
 Voice strength / FO database 210, voice length / FO database 211, voice length / voice strength database 212 
 By using the voice length database 213 and the like, it is possible to generate synthetic voice having natural intonation, accent and rhythm.
    
       【0058】(実施例3)実施例3は第1,第2,第
3,第4の原理を具象化したものであり、図7は実施例
3の構成を示すブロック図である。図7中304は言語
処理部を示している。言語処理部304はテキスト入力
があると単語辞書303を参照して入力テキスト中の単
語の読み、アクセント情報及び文の構成を解析し、イン
トネーションを制御するための制御情報からなる表音記
号列を作成し、これを音声波形検索部100へ渡す。(Embodiment 3) Embodiment 3 embodies the first, second, third, and fourth principles, and FIG. 7 is a block diagram showing the configuration of Embodiment 3. Reference numeral 304 in FIG. 7 denotes a language processing unit. When a text input is made, the language processing unit 304 refers to the word dictionary 303 to analyze the reading of the words in the input text, the accent information and the structure of the sentence, and outputs a phonetic symbol string consisting of control information for controlling the intonation. It is created and passed to the voice waveform search unit 100.
    
       【0059】音声波形検索部100は言語処理部で作成
された表音記号列をキーとして音声波形データベース2
00からキーと一致する発声内容に対応する音声波形デ
ータを検索し、一致する発声内容が存在する場合はその
音声波形データをDA変換部5に渡し、また存在しない
場合には入力表音記号列をそのまま音声パラメータ検索
部101へ渡す。音声パラメータ検索部101は入力表
音記号列をキーとして、音声パラメータデータベース2
01からキーと一致する発声内容に対応する音声パラメ
ータデータを検索し、一致する発声内容が存在する場合
はその音声パラメータデータを波形生成部311へ渡
し、また一致しない場合は入力表音記号列をそのまま音
声長・FOパターン検索部110へ渡す。The voice waveform search unit 100 uses the phonetic symbol string created by the language processing unit as a key, and the voice waveform database 2 
 00 to search the voice waveform data corresponding to the utterance content that matches the key, pass the voice waveform data to the DA conversion unit 5 when the utterance content that matches the key exists, and the input phonetic symbol string when it does not exist. Is directly passed to the voice parameter search unit 101. The voice parameter search unit 101 uses the input phonetic symbol string as a key to store the voice parameter database 2 
 The voice parameter data corresponding to the utterance content that matches the key is searched from 01, and if the utterance content that matches the key exists, the voice parameter data is passed to the waveform generation unit 311, and if they do not match, the input phonetic symbol string is output. It is passed to the voice length / FO pattern search unit 110 as it is.
    
       【0060】音声長・FOパターン検索部110は入力
表音記号列をキーとして、音声長,FOデータベース2
10からこれと一致する発声内容に対応する音声長,F
Oデータを検索し、一致する発声内容が存在すれば、そ
の音声長・FOデータを音声パラメータパターン生成部
310へ渡し、また存在しない場合には入力された表音
記号列をそのまま音声長パターン検索部111へ渡す。The voice length / FO pattern search unit 110 uses the input phonetic symbol string as a key to set the voice length / FO database 2 
 The voice length corresponding to the utterance content from 10 to F, F 
 The O data is searched, and if there is a matching utterance content, the voice length / FO data is passed to the voice parameter pattern generation unit 310, and if it does not exist, the input phonetic symbol string is directly searched for the voice length pattern. Hand it over to section 111.
    
       【0061】音声長・音声強度・FOデータベース21
0には、音声内容を示す表音記号列とそれに対応した音
素,音節等の合成単位毎の時間長である音声長パターン
と、基本周波数の時間変化パターンであるFOパターン
との対が複数格納されている。音声長パターン検索部1
11は入力表音文字列をキーとして、音声長データベー
ス211からキーと一致する発声内容に対応する音声長
データを検索し、一致する発声内容が存在する場合は、
それをFOパターン生成部301へ渡し、また存在しな
い場合には入力表音記号列をそのまま音声長パターン生
成部300へ渡す。音声長パターン生成部300は音声
長生成規則400に基づいて入力表音記号列を音声長パ
ターンに変換し、これを入力表音記号列と共にFOパタ
ーン生成部301へ渡す。Voice length / voice intensity / FO database 21 
 In 0, a plurality of pairs of a phonetic symbol string indicating a voice content, a corresponding voice length pattern which is a time length for each synthesis unit such as a phoneme and a syllable, and a FO pattern which is a time change pattern of a fundamental frequency are stored. Has been done. Voice length pattern search unit 1 
 Reference numeral 11 is an input phonetic character string used as a key to search the voice length database 211 for voice length data corresponding to the utterance content that matches the key. 
 It is passed to the FO pattern generation unit 301, and if it does not exist, the input phonetic symbol string is passed as it is to the voice length pattern generation unit 300. The voice length pattern generation unit 300 converts the input phonetic symbol string into a voice length pattern based on the voice length generation rule 400, and passes this to the FO pattern generation unit 301 together with the input phonetic symbol string.
    
       【0062】FOパターン生成部301はFO生成規則
401に基づいて入力表音記号列と音声長パターンとか
ら、アクセント,イントネーションに相当する物理量で
あるFOパターンを生成し、これを入力表音記号列と共
に音声パラメータパターン生成部310へ渡す。音声パ
ラメータパターン生成部310は音声パラメータ生成規
則410に基づいて入力表音記号列と音声長・FOパタ
ーン又はFOパターンから音声パラメータパターンを生
成し、これを波形生成部311へ渡す。Based on the FO generation rule 401, the FO pattern generation unit 301 generates an FO pattern, which is a physical quantity corresponding to an accent or intonation, from an input phonetic symbol string and a voice length pattern, and this is generated as an input phonetic symbol string. Along with it, it is passed to the voice parameter pattern generation unit 310. The voice parameter pattern generation unit 310 generates a voice parameter pattern from the input phonetic symbol string and the voice length / FO pattern or the FO pattern based on the voice parameter generation rule 410, and passes this to the waveform generation unit 311.
    
       【0063】波形生成部311は、音声パラメータ検索
部101又は音声パラメータパターン生成部310から
 された音声パラメータパターンからディジタルに音声
波形を生成し、DA変換部5へ渡す。DA変換部5は波
形生成部311で生成され、又は音声波形検索部100
にて検索されたディジタル音声波形をアナログ音声波形
に変換し、合成音声として出力する。The waveform generation unit 311 digitally generates a voice waveform from the voice parameter pattern obtained from the voice parameter search unit 101 or the voice parameter pattern generation unit 310, and passes it to the DA conversion unit 5. The DA conversion unit 5 is generated by the waveform generation unit 311 or the voice waveform search unit 100. 
 The digital voice waveform searched in is converted into an analog voice waveform and output as a synthetic voice.
    
       【0064】このような実施例3にあっては、最初に言
語処理部304による言語処理を行い、入力テキストを
読み、アクセントを示す表音記号列に変換した後、音声
波形データベースの検索を行うから同じ単語が漢字,平
仮名,片仮名,異なる送りがな等種々の表記で書かれて
いてもデータベースの容量削減が出来る効果がある。In the third embodiment, the language processing unit 304 first performs language processing to read the input text and convert it into a phonetic symbol string indicating an accent, and then searches the voice waveform database. Even if the same word is written in various notations such as kanji, hiragana, katakana, and different syllabary, there is an effect that the capacity of the database can be reduced.
    
       【0065】(実施例4)実施例4は第1,第2,第
3,第4の原理を具象化したものであり、図8は実施例
4の構成を示すブロック図である。この実施例4にあっ
ては、図7に示す実施例3において、言語処理部304
を音声長パターン検索部111と音声長パターン生成部
300との中間に位置させたのと実質的に同じ構成とな
っている。このような実施例4については、いま「こん
にちは。」,「今日は3月3日です。」,「ありがとう
ございました。」の3文が入力された場合について具体
的にその処理過程を説明する。(Embodiment 4) Embodiment 4 embodies the first, second, third, and fourth principles, and FIG. 8 is a block diagram showing the configuration of Embodiment 4. In the fourth embodiment, the language processing unit 304 in the third embodiment shown in FIG. 7 is used. 
 Is substantially the same as that of the voice length pattern search unit 111 and the voice length pattern generation unit 300. For such an embodiment 4 is now "Hello.", "Today is March 3 days.", Specifically to the process described for the case where 3 statement of "Thank you." Has been input .
    
       【0066】なお「こんにちは」の音声波形データは音
声波形データベース200に格納され、「ありがとうご
ざいました」の音声長・FOパターンは音声長.FOデ
ータベース210に格納されているものとし、また「今
日は3月3日です。」はいずれのデータベースにも格納
されていないものとする。いま上述した3文が入力され
た場合、「こんにちは」の文が入力されると音声波形検
索部100が音声波形データベース200を検索し、こ
こに格納されている音声波形データを検索し、この音声
波形データを直接DA変換部5へ送り、合成音声が「コ
ンニチハ」として出力される。[0066] It should be noted that the speech waveform data of "Hello" is stored in the speech waveform database 200, voice length · FO pattern voice length of "Thank you". It is assumed that it is stored in the FO database 210, and "Today is March 3rd." Is not stored in any database. If 3 statement now above is input, the speech waveform retrieval unit 100 when the statement is entered in "Hello" searches the speech waveform database 200, searches the speech waveform data that is stored here, the audio The waveform data is sent directly to the DA converter 5, and the synthesized voice is output as "Konichiwa".
    
       【0067】また「ありがとうございました」の場合
は、音声波形検索部100,音声パラメータ検索部10
1では検索されないが、音声長・FOパターン検索部1
10が音声長・FOデータベース210を検索すること
でこれを検出し、これを音声パラメータパターン生成部
310へ渡し、波形生成部311を経て合成音声として
「アリガトウゴザイマシタ」が出力される。一方「今日
は3月3日です」の場合はいずれのデータベースにも格
納されていないから言語処理部304に達し、ここで単
語の読み,アクセント位置を決定しその文の構造を解析
し、イントネーションを制御する制御情報を音声パター
ン生成部300へ渡す。音声情報パターン生成部300
は音声長生成規則400に基づき音声長パターンを生成
し、これをFOパターン生成部301へ渡す。In the case of "Thank you", the voice waveform search unit 100 and the voice parameter search unit 10 
 1 is not searched, but voice length / FO pattern search unit 1 
 10 detects this by searching the voice length / FO database 210, passes it to the voice parameter pattern generation unit 310, and outputs “Arigatogogo zaimashita” as a synthesized voice via the waveform generation unit 311. On the other hand, in the case of "Today is March 3," it is not stored in any database and reaches the language processing unit 304, where the reading and accent position of the word is determined, the structure of the sentence is analyzed, and the intonation is determined. The control information for controlling is passed to the voice pattern generation unit 300. Voice information pattern generation unit 300 
 Generates a voice length pattern based on the voice length generation rule 400, and passes this to the FO pattern generation unit 301.
    
       【0068】以下実施例3と同様にして、FOパラメー
タパターン生成部301,音声パラメータパターン生成
部310,波形生成部311を経てDA変換部5へ渡さ
れ、「キョウハサンガツミッカデス」の合成音声が出力
される。Thereafter, in the same manner as in the third embodiment, the FO parameter pattern generating section 301, the voice parameter pattern generating section 310, and the waveform generating section 311 are passed to the DA converting section 5, and the synthesized voice of "Kyoha Sangatsu Mikades" is synthesized. Is output.
    
       【0069】このような実施例4にあっては、最初に音
声波形データベース200,音声パラメータデータベー
ス201,音声長・FOデータベース210,音声長デ
ータベース211の検索を行うことで、入力テキストが
データベース内に存在する場合、それ以降の検索処理を
行う必要がなく、高速に合成音声の生成が可能となる。In the fourth embodiment, the input text is stored in the database by first searching the voice waveform database 200, the voice parameter database 201, the voice length / FO database 210, and the voice length database 211. When it exists, it is not necessary to perform the subsequent search processing, and the synthesized speech can be generated at high speed.
    
       【0070】(実施例5)実施例5は第1,第2,第
3,第4の原理を具象化したものであり、図9は、実施
例5の構成を示すブロック図である。図9中10a,1
0bは音響情報検索部を、11a,11bは韻律情報検
索部を夫々示している。音響情報検索部10aは、テキ
スト入力されると入力テキストをキーにして音響情報デ
ータベース20を検索し、入力テキストと一致する発声
内容が存在する場合は、これを音響情報として直接出力
する。また、一致する発声内容が存在しない場合は、そ
のまま入力テキストを韻律情報検索部11aへ渡す。(Embodiment 5) Embodiment 5 embodies the first, second, third, and fourth principles, and FIG. 9 is a block diagram showing the configuration of Embodiment 5. 10a, 1 in FIG. 
 Reference numeral 0b indicates an acoustic information search unit, and reference numerals 11a and 11b indicate prosody information search units. When the text information is input, the acoustic information search unit 10a searches the acoustic information database 20 using the input text as a key, and if there is utterance content that matches the input text, directly outputs it as acoustic information. If there is no matching utterance content, the input text is directly passed to the prosody information search unit 11a.
    
       【0071】韻律情報処理11aは入力テキストをキー
にして韻律情報データベース21を検索し、入力テキス
トと一致する発声内容が存在する場合はそれを音響情報
生成部31へ渡し、また一致する発声内容が存在しない
場合はそのまま言語処理部304へ渡す。言語処理部3
04は単語辞書303を参照しつつ、入力テキストを解
析し、表音記号列に変換し、これを音響情報検索部10
bへ渡す。The prosody information processing 11a searches the prosody information database 21 using the input text as a key, and if there is utterance content that matches the input text, passes it to the acoustic information generation unit 31 and the matching utterance content If it does not exist, it is passed to the language processing unit 304 as it is. Language processing unit 3 
 Reference numeral 04 refers to the word dictionary 303, analyzes the input text, converts it into a phonetic symbol string, and converts this into a phonetic information retrieval unit 10 
 pass to b.
    
       【0072】音響情報検索部10bは表音記号列をキー
にして音響情報データベース20を検索し、表音記号列
と一致する発声内容が存在する場合は、韻律情報データ
ベースを検索の生成,韻律情報の生成は行うことなく、
音響情報データベース20から取り出した音響情報を直
接出力する。また、一致する発声内容が存在しない場合
は、そのまま音響情報を韻律情報検索部11bへ渡す。The acoustic information retrieving unit 10b searches the acoustic information database 20 using the phonetic symbol string as a key. If there is utterance content that matches the phonetic symbol string, the prosody information database is used to generate a search, prosody information. Without generating 
 The acoustic information extracted from the acoustic information database 20 is directly output. If there is no matching utterance content, the acoustic information is directly passed to the prosody information searching unit 11b.
    
       【0073】韻律情報検索部11bは表音記号列をキー
にして韻律情報データベース21を検索し、表音記号列
と一致する発声内容が存在する場合はこれを直に音響情
報として音響情報生成部30へ渡し、また存在しない場
合はそのまま韻律情報生成部30へ渡す。韻律情報生成
部30は、韻律情報生成規則40に基づいて入力表音記
号列から韻律情報を生成し、これを音響情報生成部31
へ渡す。韻律情報生成部31は音響情報生成規則41を
用いて韻律情報から音響情報を生成し、これを出力す
る。The prosody information searching unit 11b searches the prosody information database 21 using the phonetic symbol string as a key, and if there is utterance content that matches the phonetic symbol string, this is directly used as acoustic information in the acoustic information generating unit. 30 to the prosody information generation unit 30 if it does not exist. The prosody information generation unit 30 generates prosody information from the input phonetic symbol sequence based on the prosody information generation rule 40, and the prosody information generation unit 31 generates the prosody information. 
 Hand over to. The prosody information generation unit 31 generates acoustic information from the prosody information using the acoustic information generation rule 41, and outputs this.
    
       【0074】このような実施例5にあっては、最初に音
響情報データベース20,韻律情報データベース21の
検索を行うから、入力テキストが音響情報データベース
20、又は韻律情報データベース21内に存在する場
合、それ以降の処理を省略出来ると共に、データベース
の検索後に言語処理を行い、入力テキストを表音記号列
に変換した後、音響情報データベース,韻律情報データ
ベースの検索を行うから、同じ単語が種々異なる表記で
書かれていてもデータベースに格納された発声内容との
マッチングが可能となる。In the fifth embodiment, since the acoustic information database 20 and the prosody information database 21 are searched first, if the input text exists in the acoustic information database 20 or the prosody information database 21, The subsequent processing can be omitted, and after the database is searched, linguistic processing is performed, the input text is converted into a phonetic symbol string, and then the acoustic information database and the prosody information database are searched. Even if it is written, matching with the utterance content stored in the database is possible.
    
【0075】[0075]
       【発明の効果】第1の発明にあっては、実音声を分析し
て抽出した音声特徴量を格納した音声情報データベース
を用いることで、高品質な合成音声の出力が可能となる
ことは勿論、データベースに存在しない場合には規則に
よる音声合成を行うことで広範囲の入力テキスト,入力
表音記号列からの合成音声の生成が可能となる。According to the first aspect of the present invention, it is of course possible to output a high-quality synthesized voice by using a voice information database that stores voice feature amounts obtained by analyzing and extracting real voice. If it does not exist in the database, it is possible to generate synthetic speech from a wide range of input texts and input phonetic symbol strings by performing speech synthesis according to rules.
    
       【0076】第2の発明にあっては、実音声を分析し、
抽出した音響的特徴量を用いることで、実音声に近い明
瞭度の高い合成音声が得られる。In the second invention, the actual voice is analyzed, 
 By using the extracted acoustic feature amount, a synthesized voice with high intelligibility close to real voice can be obtained.
    
       【0077】第3の発明にあっては、実音声を分析して
抽出した韻律的特徴量を用いることで、実音声に近い自
然性の高い合成音声が得られる。According to the third aspect of the invention, by using the prosodic feature quantity obtained by analyzing the real voice, a synthetic voice with high naturalness close to the real voice can be obtained.
    
       【0078】第4の発明にあっては、第2,第3の発明
の両効果を備える。The fourth invention has both effects of the second and third inventions.
    
       【0079】第5の発明にあっては、音響データベース
として音声波形を用いることで、自然性と明瞭性の高い
合成音声が得られる。According to the fifth aspect of the invention, by using a voice waveform as the acoustic database, a synthetic voice with high naturalness and clarity can be obtained.
    
       【0080】第6の発明にあっては、第5の発明よりも
明瞭度は低いが、少ないデータ量で明瞭度の高い合成音
声が得られる。According to the sixth aspect of the invention, although the clarity is lower than that of the fifth aspect, a synthetic voice having a high degree of clarity can be obtained with a small amount of data.
    
       【0081】第7の発明にあっては、第5,第6の発明
の効果を兼ね備え得る。In the seventh invention, the effects of the fifth and sixth inventions can be combined.
    
       【0082】第8の発明にあっては、韻律情報として音
声長・音声強度・FOを用いることで、自然性の高い韻
律情報を持った合成音声が得られる。According to the eighth aspect of the present invention, by using the voice length, voice intensity, and FO as the prosody information, it is possible to obtain a synthetic voice having prosody information with high naturalness.
    
       【0083】第9の発明にあっては、韻律情報として音
声長・音声強度を用いることで、自然性の高いリズムを
持った合成音声が得られる。According to the ninth aspect of the invention, by using the voice length and voice intensity as the prosody information, a synthetic voice having a highly natural rhythm can be obtained.
    
       【0084】第10の発明にあっては、韻律情報データ
として音声長・FOパターンを用いることで、自然性の
高いリズム,イントネーション,アクセントを合成音声
が得られる。According to the tenth aspect of the invention, by using the voice length / FO pattern as the prosody information data, a synthesized voice with highly natural rhythm, intonation and accent can be obtained.
    
       【0085】第11の発明にあっては、韻律情報データ
として音声長を用いることで、少ないデータ量で自然性
の高いリズムを持った合成音声が得られる。In the eleventh aspect of the invention, by using the voice length as the prosody information data, a synthetic voice having a highly natural rhythm can be obtained with a small amount of data.
    
       【0086】第12の発明にあっては、より自然な韻律
を持った合成音声が得られる。According to the twelfth invention, a synthetic speech having a more natural prosody can be obtained.
    
【図1】本発明の原理を示す原理図である。FIG. 1 is a principle diagram showing the principle of the present invention.
【図2】本発明の他の原理を示す原理図である。FIG. 2 is a principle diagram showing another principle of the present invention.
【図3】本発明の更に他の原理を示す原理図である。FIG. 3 is a principle diagram showing still another principle of the present invention.
【図4】本発明の更に他の原理を示す原理図である。FIG. 4 is a principle diagram showing still another principle of the present invention.
       【図5】本発明の実施例1の構成を示すブロック図であ
る。FIG. 5 is a block diagram showing the configuration of the first embodiment of the present invention.
    
       【図6】本発明の実施例2の構成を示すブロック図であ
る。FIG. 6 is a block diagram showing a configuration of a second exemplary embodiment of the present invention.
    
       【図7】本発明の実施例3の構成を示すブロック図であ
る。FIG. 7 is a block diagram showing a configuration of a third exemplary embodiment of the present invention.
    
       【図8】本発明の実施例4の構成を示すブロック図であ
る。FIG. 8 is a block diagram showing a configuration of a fourth embodiment of the present invention.
    
       【図9】本発明の実施例5の構成を示すブロック図であ
る。FIG. 9 is a block diagram showing a configuration of a fifth embodiment of the present invention.
    
       【図10】従来の音声合成システムの構成を示すブロッ
ク図である。FIG. 10 is a block diagram showing a configuration of a conventional speech synthesis system.
    
1 音声情報検索部 2 音声情報データベース 3 合成音声生成部 4 合成音声生成規則 5 DA変換部 10 音声情報検索部 11 韻律情報検索部 20 音声情報データベース 21 韻律情報データベース 30 韻律情報生成部 31 音響情報生成部 40 韻律情報生成規則 41 音響情報生成規則 100 音声波形検索部 101 音声パラメータ検索部 110 音声長・音声強度・FOパターン検索部 111 音声長・FOパターン検索部 112 音声長・音声強度パターン検索部 113 音声長パターン検索部 200 音声波形データベース 201 音声パラメータデータベース 210 音声長・音声強度・FOデータベース 301 FOパターン生成部 302 音声強度パターン生成部 310 音声パラメータパターン生成部 311 波形生成部 1 Speech Information Retrieval Section 2 Speech Information Database 3 Synthetic Speech Generation Section 4 Synthetic Speech Generation Rule 5 DA Conversion Section 10 Speech Information Retrieval Section 11 Prosody Information Retrieval Section 20 Speech Information Database 21 Prosody Information Database 30 Prosody Information Generation Section 31 Acoustic Information Generation Part 40 Prosody Information Generation Rule 41 Acoustic Information Generation Rule 100 Speech Waveform Search Unit 101 Speech Parameter Search Unit 110 Speech Length / Voice Strength / FO Pattern Search Unit 111 Speech Length / FO Pattern Search Unit 112 Speech Length / Speech Strength Pattern Search Unit 113 Voice length pattern search unit 200 Voice waveform database 201 Voice parameter database 210 Voice length / voice intensity / FO database 301 FO pattern generation unit 302 Voice intensity pattern generation unit 310 Voice parameter pattern generation unit 311 Waveform generation unit
Claims (12)
音声に変換して出力する音声合成システムにおいて、実
音声から抽出した音声特徴量を格納した音声情報データ
ベースと、入力テキスト又は入力表音記号列と対応する
前記音声情報データベースに格納されている音声特徴量
を検索する検索手段と、検索の結果、音声情報データべ
ースに該当する音声特徴量が存在した場合はその音声特
徴量に基づいて音声を構成する手段と、該当する音声特
徴量が存在しなかった場合は予め定めた規則に従って合
成音声を生成する手段とを具備することを特徴とする音
声合成システム。1. A speech synthesis system for converting an input text or an input phonetic symbol string into synthetic speech and outputting the synthesized speech, a speech information database storing speech features extracted from actual speech, and an input text or an input phonetic symbol. Search means for searching a voice feature amount stored in the voice information database corresponding to a column, and based on the voice feature amount if a voice feature amount corresponding to the voice information database exists as a result of the search. A voice synthesizing system comprising: a means for forming a voice and a means for generating a synthesized voice according to a predetermined rule when a corresponding voice feature amount does not exist.
中の実音声から抽出した音響的特徴量を格納した音響情
報データベースを用いることを特徴とする請求項1記載
の音声合成システム。2. The voice synthesis system according to claim 1, wherein an acoustic information database storing acoustic feature amounts extracted from actual voices in the voice feature amounts is used as the voice information database.
量中の実音声から抽出した韻律的な特徴量を格納した韻
律情報データベースを用いることを特徴とする請求項1
記載の音声合成システム。3. The prosody information database that stores prosody features extracted from real voices in the voice features is used as the voice information database.
The voice synthesis system described.
ら抽出した音響的特徴量を格納した音響情報データベー
ス及び実音声から抽出した韻律的な特徴量を格納した韻
律情報データベースを用いることを特徴とする請求項1
記載の音声合成システム。4. The voice information database is characterized by using an acoustic information database storing acoustic feature amounts extracted from real voice and a prosody information database storing prosodic feature amounts extracted from real voice. Item 1
The voice synthesis system described.
を格納した音声波形データベースを用いることを特徴と
する請求項2又は4記載の音声合成システム。5. The voice synthesis system according to claim 2, wherein a voice waveform database storing voice waveforms is used as the acoustic information database.
ル,声道断面積又はフォルマント周波数を格納した音声
パラメータデータベースを用いることを特徴とする請求
項2又は4記載の音声合成システム。6. The voice synthesis system according to claim 2, wherein a voice parameter database that stores a spectrum, vocal tract cross-sectional area, or formant frequency is used as the acoustic information database.
データベース及び音声パラメータデータベースを用いる
ことを特徴とする請求項2又は4記載の音声合成システ
ム。7. The voice synthesis system according to claim 2, wherein a voice waveform database and a voice parameter database are used as the acoustic information database.
音声強度,基本周波数のうちの、音声長のみ、又はいず
れか2つ以上を格納したデータベースを用いることを特
徴とする請求項3又は4記載の音声合成システム。8. The prosodic information database is a voice length,
5. The voice synthesis system according to claim 3, wherein only a voice length of the voice intensity and the fundamental frequency, or a database storing any two or more is used.
音声強度を格納した音声長・音声強度データベースを用
いることを特徴とする請求項3又は4記載の音声合成シ
ステム。9. The speech synthesis system according to claim 3, wherein a speech length / speech intensity database storing speech length and speech intensity is used as the prosody information database.
及び基本周波数を格納した音声長・FOデータベースを
用いることを特徴とする請求項3又は4記載の音声合成
システム。10. The voice synthesis system according to claim 3, wherein a voice length / FO database storing a voice length and a fundamental frequency is used as the prosody information database.
みを格納した音声長データベースを用いることを特徴と
する請求項3又は4記載の音声合成システム。11. The voice synthesis system according to claim 3, wherein a voice length database storing only voice length is used as the prosody information database.
・音声強度・FOデータベース、音声長・音声強度デー
タベース、音声長・FOデータベース又は音声長データ
ベースのいずれか2以上のデータベースを用いることを
特徴とする請求項3又は4記載の音声合成システム。12. The prosodic information database includes at least two databases of a voice length / voice strength / FO database, a voice length / voice strength database, a voice length / FO database, and a voice length database. The speech synthesis system according to Item 3 or 4.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP6225396A JPH0887297A (en) | 1994-09-20 | 1994-09-20 | Speech synthesis system | 
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP6225396A JPH0887297A (en) | 1994-09-20 | 1994-09-20 | Speech synthesis system | 
Publications (1)
| Publication Number | Publication Date | 
|---|---|
| JPH0887297A true JPH0887297A (en) | 1996-04-02 | 
Family
ID=16828709
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP6225396A Pending JPH0887297A (en) | 1994-09-20 | 1994-09-20 | Speech synthesis system | 
Country Status (1)
| Country | Link | 
|---|---|
| JP (1) | JPH0887297A (en) | 
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| KR100382827B1 (en) * | 2000-12-28 | 2003-05-09 | 엘지전자 주식회사 | System and Method of Creating Automatic Voice Using Text to Speech | 
| WO2004072952A1 (en) * | 2003-02-17 | 2004-08-26 | Kabushiki Kaisha Kenwood | Speech synthesis processing system | 
| US6823309B1 (en) | 1999-03-25 | 2004-11-23 | Matsushita Electric Industrial Co., Ltd. | Speech synthesizing system and method for modifying prosody based on match to database | 
| WO2004109659A1 (en) * | 2003-06-05 | 2004-12-16 | Kabushiki Kaisha Kenwood | Speech synthesis device, speech synthesis method, and program | 
| KR100474282B1 (en) * | 2000-08-25 | 2005-03-08 | 엘지전자 주식회사 | The method and apparatus for generating a guide voice of automatic voice guide system | 
| JP2006145691A (en) * | 2004-11-17 | 2006-06-08 | Kenwood Corp | Speech synthesizer, speech segment storage device, apparatus for manufacturing speech segment storage device, method for speech synthesis, method for manufacturing speech segment storage device, and program | 
| WO2009044596A1 (en) * | 2007-10-05 | 2009-04-09 | Nec Corporation | Speech synthesis device, speech synthesis method, and speech synthesis program | 
| KR100927943B1 (en) * | 2001-06-30 | 2009-11-19 | 주식회사 케이티 | Guide service scenario generation system and method | 
| WO2012074070A1 (en) * | 2010-12-01 | 2012-06-07 | ヤマハ株式会社 | Musical data retrieval on the basis of rhythm pattern similarity | 
- 
        1994
        - 1994-09-20 JP JP6225396A patent/JPH0887297A/en active Pending
 
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| US6823309B1 (en) | 1999-03-25 | 2004-11-23 | Matsushita Electric Industrial Co., Ltd. | Speech synthesizing system and method for modifying prosody based on match to database | 
| KR100474282B1 (en) * | 2000-08-25 | 2005-03-08 | 엘지전자 주식회사 | The method and apparatus for generating a guide voice of automatic voice guide system | 
| KR100382827B1 (en) * | 2000-12-28 | 2003-05-09 | 엘지전자 주식회사 | System and Method of Creating Automatic Voice Using Text to Speech | 
| KR100927943B1 (en) * | 2001-06-30 | 2009-11-19 | 주식회사 케이티 | Guide service scenario generation system and method | 
| WO2004072952A1 (en) * | 2003-02-17 | 2004-08-26 | Kabushiki Kaisha Kenwood | Speech synthesis processing system | 
| US8214216B2 (en) | 2003-06-05 | 2012-07-03 | Kabushiki Kaisha Kenwood | Speech synthesis for synthesizing missing parts | 
| WO2004109659A1 (en) * | 2003-06-05 | 2004-12-16 | Kabushiki Kaisha Kenwood | Speech synthesis device, speech synthesis method, and program | 
| JP2006145691A (en) * | 2004-11-17 | 2006-06-08 | Kenwood Corp | Speech synthesizer, speech segment storage device, apparatus for manufacturing speech segment storage device, method for speech synthesis, method for manufacturing speech segment storage device, and program | 
| WO2009044596A1 (en) * | 2007-10-05 | 2009-04-09 | Nec Corporation | Speech synthesis device, speech synthesis method, and speech synthesis program | 
| JP5387410B2 (en) * | 2007-10-05 | 2014-01-15 | 日本電気株式会社 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | 
| WO2012074070A1 (en) * | 2010-12-01 | 2012-06-07 | ヤマハ株式会社 | Musical data retrieval on the basis of rhythm pattern similarity | 
| CN102640211A (en) * | 2010-12-01 | 2012-08-15 | 雅马哈株式会社 | Searching for a tone data set based on a degree of similarity to a rhythm pattern | 
| US9053696B2 (en) | 2010-12-01 | 2015-06-09 | Yamaha Corporation | Searching for a tone data set based on a degree of similarity to a rhythm pattern | 
Similar Documents
| Publication | Publication Date | Title | 
|---|---|---|
| JP4302788B2 (en) | Prosodic database containing fundamental frequency templates for speech synthesis | |
| Isewon et al. | Design and implementation of text to speech conversion for visually impaired people | |
| US8224645B2 (en) | Method and system for preselection of suitable units for concatenative speech | |
| US7565291B2 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
| JP3587048B2 (en) | Prosody control method and speech synthesizer | |
| US20200365137A1 (en) | Text-to-speech (tts) processing | |
| US6212501B1 (en) | Speech synthesis apparatus and method | |
| JPH0887297A (en) | Speech synthesis system | |
| JP3576848B2 (en) | Speech synthesis method, apparatus, and recording medium recording speech synthesis program | |
| US6829577B1 (en) | Generating non-stationary additive noise for addition to synthesized speech | |
| JPH08335096A (en) | Text voice synthesizer | |
| KR0146549B1 (en) | Korean language text acoustic translation method | |
| JPH037995A (en) | Generating device for singing voice synthetic data | |
| JP3522005B2 (en) | Speech synthesizer | |
| JP3397406B2 (en) | Voice synthesis device and voice synthesis method | |
| Niimi et al. | Synthesis of emotional speech using prosodically balanced VCV segments. | |
| Narupiyakul et al. | A stochastic knowledge-based Thai text-to-speech system | |
| JP2907828B2 (en) | Voice interactive document creation device | |
| JPH0358100A (en) | Rule type voice synthesizer | |
| JP2002049386A (en) | Text-to-speech synthesis apparatus, text-to-speech synthesis method, and recording medium recording the method | |
| JPH06214585A (en) | Speech synthesizer | |
| JP2024111781A (en) | Speech synthesis system and speech synthesis method | |
| JPH08160990A (en) | Speech synthesizing device | |
| Gupta et al. | INTERNATIONAL JOURNAL OF ADVANCES IN COMPUTING AND INFORMATION TECHNOLOGY | |
| JPH06138894A (en) | Device and method for voice synthesis | 
Legal Events
| Date | Code | Title | Description | 
|---|---|---|---|
| A02 | Decision of refusal | Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20030603 |