JP2000047680A - Voice information processing device - Google Patents
Voice information processing deviceInfo
- Publication number
- JP2000047680A JP2000047680A JP10211360A JP21136098A JP2000047680A JP 2000047680 A JP2000047680 A JP 2000047680A JP 10211360 A JP10211360 A JP 10211360A JP 21136098 A JP21136098 A JP 21136098A JP 2000047680 A JP2000047680 A JP 2000047680A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- pitch
- information
- accent
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、テキストから所望
の音声を合成するためのピッチパタンを生成する音声情
報処理装置に係り、特に合成音のアクセントが不自然に
なりにくいピッチパタンを生成することが可能な音声情
報処理装置および方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech information processing apparatus for generating a pitch pattern for synthesizing a desired speech from a text, and more particularly to a pitch pattern in which a synthesized sound accent is less likely to be unnatural. The present invention relates to a voice information processing apparatus and method capable of performing voice processing.
【0002】[0002]
【従来の技術】任意のテキストから自然でかつ正しく理
解される合成音声を生成するためには、生成しようとす
る音声に正しいアクセントを付与してやる必要がある。
しかし、現状の技術では、このアクセントの付与に誤り
が残存している上、この誤りが、生成される合成音声に
大きく影響するために、不自然で正しく理解されない合
成音声を生成することがある。2. Description of the Related Art In order to generate a synthesized speech that is naturally and correctly understood from an arbitrary text, it is necessary to add a correct accent to the speech to be generated.
However, in the current technology, there is an error in the addition of the accent, and the error has a large effect on a synthesized speech to be generated, so that an unnatural and incomprehensible synthesized speech may be generated. .
【0003】また、音声合成の品質の向上に伴い、方言
別や世代別などの読み上げも求められるようになってく
ると考えられるが、基準としている共通語アクセントと
アクセントの付与の仕方が異なるこのような読み上げを
実現するためには、アクセントを付与するための規則を
容易に再構築できる技術が必要になってくる。[0003] In addition, with the improvement in the quality of speech synthesis, it is thought that reading out by dialect or generation will be required, but the common word accent which is the reference and the way of giving the accent are different. In order to realize such reading, a technique that can easily reconstruct rules for adding accents is required.
【0004】一般に、合成音声へのアクセントの付与は
次のような手順で行われる。まず入力されたテキストに
対して形態素解析を施すことによって、テキストを形態
素の単位に分割し、それぞれの形態素に読み、品詞、ア
クセント型などの情報を付与する。ここで、アクセント
型とは、語の読みのどこにアクセントがあるかを示す情
報で、語頭からアクセント核( 基本周波数が急激に下が
り始める位置) までのモーラ(拍) の個数と定義されて
いる。In general, accents are given to synthesized speech in the following procedure. First, the input text is subjected to morphological analysis to divide the text into morpheme units, read each morpheme, and add information such as part of speech and accent type. Here, the accent type is information indicating where in the reading of the word there is an accent, and is defined as the number of mora (beats) from the beginning of the word to the accent nucleus (the position where the fundamental frequency starts to drop sharply).
【0005】実際に読み上げにおいては、形態素のアク
セント型が決まっても自然なアクセントが付与できるわ
けではない。連接する形態素の組み合わせによって、形
態素固有のアクセント型が変形したり、消失し、新たな
アクセント型が生起するからである。よって、次に、い
くつかの形態素をまとめてアクセント核を最大一つ持つ
ようなアクセント句を作り、それぞれのアクセント句に
対してアクセント型が付与される。In actual reading, even if the accent type of a morpheme is determined, a natural accent cannot be given. This is because the combination of connected morphemes deforms or disappears the morpheme-specific accent type, and a new accent type is generated. Therefore, next, several morphemes are put together to create an accent phrase having at most one accent nucleus, and an accent type is given to each accent phrase.
【0006】こうして付与されたアクセント型に対応す
るようなピッチパタンを生成し、このピッチパタンに従
って音声波形を生成することによって、合成音声にアク
セントが付与される。[0006] By generating a pitch pattern corresponding to the accent type thus given and generating a speech waveform according to the pitch pattern, an accent is given to the synthesized speech.
【0007】以上のような手順でアクセントの付与を行
う場合、アクセント句に対するアクセント型を付与する
部分での性能がとりわけ重要である。一般的に、アクセ
ント句に対するアクセント型の付与は、アクセント句を
構成する形態素の性質に基づいてアクセント型を決定す
る規則を言語解析の熟練者が作成し、この作成された規
則を用いて行われる(匂坂、佐藤:「日本語単語連鎖の
アクセント規則」電気情報学会論文誌Vol.J66−
D、No7、pp.849−856参照)[0007] In the case of giving an accent in the above-described procedure, performance in a part for giving an accent type to an accent phrase is particularly important. In general, an accent type is assigned to an accent phrase by an expert in linguistic analysis by creating a rule for determining the accent type based on the properties of the morphemes constituting the accent phrase, and using the created rule. (Sakazaka and Sato: "Accent Rules for Japanese Word Chain" Transactions of the Institute of Electrical Information Engineers, Vol. J66-
D, No7, pp. 849-856)
【0008】[0008]
【発明が解決しようとする課題】上述のような、熟練者
によって作成された規則を用いてアクセント型を設定す
る方法の場合、規則で考慮しきれていない語が出現した
場合、全く有り得ないアクセント型を設定する場合があ
る。また、規則の構築に非常な労力を要するため、方言
別・世代別の読み上げを実現するのが容易でないという
問題点がある。In the above-described method of setting an accent type using a rule created by a skilled person, if a word that is not taken into consideration by the rule appears, it is impossible to set an accent. The type may be set. In addition, there is a problem in that it is not easy to realize reading aloud by dialect / generation because a great deal of labor is required to construct rules.
【0009】また、アクセント句のアクセント型を決め
る際には、アクセント句を構成するの形態素の性質だけ
ではなく、音韻的な性質によるアクセント核の移動も考
慮する必要がある。例えば、「仙台市(せんだいし)」
は形態素の「仙台」と「市」から構成され、それらの形
態素の性質から考えて最も起こりやすいアクセント核位
置は「い」であるが、実際には一つ前のモーラの「だ」
にアクセント核を置いて発声される。これは、二重母音
の「い」にはアクセント核が来にくく、前のモーラにア
クセント核が移るためと考えられている。Further, when determining the accent type of the accent phrase, it is necessary to consider not only the morphological properties of the accent phrase but also the movement of the accent nucleus due to the phonological properties. For example, "Sendai City"
Is composed of the morphemes "Sendai" and "City", and the most likely accent core position is "i", considering the nature of those morphemes, but in fact, the previous mora "da"
Is uttered with an accent nucleus. This is thought to be due to the fact that the accent nucleus hardly comes to the double vowel "i" and the accent nucleus moves to the previous mora.
【0010】アクセント辞典などに記載されている一般
的なアクセント規則では、アクセント句を構成する単語
の性質からアクセント核の位置を決める規則と、アクセ
ント核位置の音韻の種類によってアクセント核を移動す
る規則が別々に記述されており、従来法などにおいて
も、アクセント句を構成する形態素の性質からアクセン
ト核の位置を決めた後、音韻的な性質によるアクセント
核の移動を行っている。しかしこの方法では、形態素の
性質からアクセント核の位置を決める規則を作るために
は、音韻の種類によるアクセント核の移動の影響を取り
除いたアクセント型が抽出されたデータを用意する必要
がある( 「仙台市」の場合、「い」にアクセント核が来
るというデータ) が、実際の発声でのアクセント型が、
音韻の種類によってアクセント核の移動があった結果な
のか否かを区別するのが容易ではない。In general accent rules described in an accent dictionary or the like, a rule for determining the position of an accent nucleus based on the properties of words constituting an accent phrase and a rule for moving an accent nucleus according to the type of phoneme at the position of an accent nucleus Are separately described. Even in the conventional method, the position of the accent nucleus is determined based on the morpheme property of the accent phrase, and then the accent nucleus is moved based on the phonological property. However, in this method, in order to create a rule that determines the position of the accent nucleus from the morphological properties, it is necessary to prepare data from which the accent type has been extracted without the effect of the movement of the accent nucleus by the type of phoneme ( In the case of "Sendai City", the data that the accent nucleus comes to "i"), but the accent type in the actual utterance is
It is not easy to distinguish whether or not the result is a movement of the accent nucleus depending on the type of phoneme.
【0011】また、従来の方法では、一つのアクセント
句に対してアクセント型を一つ与え、それに従ってピッ
チパタンを生成するので、与えられたアクセント型の確
からしさが低くても、確からしさが高い場合と同様の音
声を合成する。よって、与えられたアクセント型が誤っ
ていれば、合成された音声は大変不自然なものになる。In the conventional method, one accent type is given to one accent phrase, and a pitch pattern is generated in accordance with the accent type. Therefore, even if the accuracy of the given accent type is low, the accuracy is high. The same speech as in the case is synthesized. Thus, if the given accent type is wrong, the synthesized speech will be very unnatural.
【0012】本発明は、上記事情を考慮してなされたも
のでその目的は、合成される音声に有り得ないアクセン
トを付与することが少ない音声情報処理装置を提供する
ことにある。SUMMARY OF THE INVENTION The present invention has been made in consideration of the above circumstances, and has as its object to provide a speech information processing apparatus which rarely gives an impossible accent to synthesized speech.
【0013】本発明の他の目的は、アクセントの付与の
ために必要な規則を、データベースから自動的に構築で
きる音声情報処理装置を提供することにある。Another object of the present invention is to provide a speech information processing apparatus capable of automatically constructing rules necessary for giving accents from a database.
【0014】本発明の更に他の目的は、テキストを構成
する語の諸性質と同時に、音韻の種類も同時に考慮し
て、アクセント付与のために必要な情報を生成できる、
音声情報処理装置を提供することにある。Still another object of the present invention is to generate information necessary for giving an accent by simultaneously considering various types of phonemes and the properties of words constituting a text.
It is to provide a voice information processing device.
【0015】[0015]
【課題を解決するための手段】本発明の第一の観点に係
る音声情報処理装置は、テキストを入力するテキスト入
力手段と、前記テキスト入力手段に入力されたテキスト
を解析するテキスト解析手段と、前記テキスト解析手段
で得られたテキスト解析結果に従って、モーラあるいは
音節を単位とした場合の、前記単位のピッチの高低に関
する情報を前記単位ごとに生成する単位ピッチ情報生成
手段と、前記単位ピッチ情報生成手段で得られた単位の
ピッチの高低に関する情報を用いて前記ピッチパタンを
生成するピッチパタン生成手段を有することを特徴とす
る。According to a first aspect of the present invention, there is provided a speech information processing apparatus comprising: a text input unit for inputting a text; a text analysis unit for analyzing the text input to the text input unit; A unit pitch information generating unit configured to generate information on a pitch of the unit in units of mora or syllables according to the text analysis result obtained by the text analyzing unit for each unit; And a pitch pattern generation unit for generating the pitch pattern using information on a unit pitch obtained by the unit.
【0016】本発明の第二の観点に係る音声情報処理装
置は、前記単位のピッチの主観的な高低を単位主観ピッ
チ高低とよび、前記単位主観ピッチ高低が複数のカテゴ
リを持つとき、前記単位のピッチの高低に関する情報
は、前記単位が前記単位主観ピッチ高低のカテゴリのど
れに該当するかであることを特徴とする本発明の第三の
観点に係る音声情報処理装置は、前記単位のピッチの高
低に関する情報は、前記単位が前記単位主観ピッチ高低
の各カテゴリに該当する確率であることを特徴とする。In the audio information processing apparatus according to a second aspect of the present invention, the subjective height of the unit pitch is called a unit subjective pitch height, and when the unit subjective pitch height has a plurality of categories, The information about the pitch of the pitch, the voice information processing apparatus according to a third aspect of the present invention, characterized in that the unit corresponds to any of the categories of the unit subjective pitch height, the pitch of the unit Is characterized by being the probability that the unit corresponds to each category of the unit subjective pitch height.
【0017】本発明の第四の観点に係る音声情報処理装
置は、前記単位のピッチの主観的な高低の変化を単位主
観ピッチ変化とよび、前記単位主観ピッチ変化が複数の
カテゴリを持つとき、前記単位のピッチの高低に関する
情報は、前記単位が前記単位主観ピッチ変化のカテゴリ
のどれに該当するかであることを特徴とする。In the voice information processing apparatus according to a fourth aspect of the present invention, the subjective change in pitch of the unit pitch is called a unit subjective pitch change, and when the unit subjective pitch change has a plurality of categories, The information on the pitch of the unit is characterized by which of the categories of the unit subjective pitch change the unit belongs to.
【0018】本発明の第五の観点に係る音声情報処理装
置は、前記単位のピッチの高低に関する情報は、前記単
位が前記単位主観ピッチ変化の各カテゴリに該当する確
率であることを特徴とする。In the voice information processing apparatus according to a fifth aspect of the present invention, the information on the pitch of the unit is a probability that the unit falls into each category of the unit subjective pitch change. .
【0019】本発明の第六の観点に係る音声情報処理装
置は、前記単位のピッチの高低に関する情報は、当該単
位の主観的なピッチが高から低に転じる確度であること
を特徴とする。[0019] In a speech information processing apparatus according to a sixth aspect of the present invention, the information on the pitch of the unit is the accuracy with which the subjective pitch of the unit changes from high to low.
【0020】本発明の第七の観点に係る音声情報処理装
置は、前記単位ピッチ情報生成手段において、前記単位
のピッチの高低に関する情報は前記単位がテキスト中に
現れる順番で順次生成され、前記単位のピッチの高低に
関する情報を生成する際には、前記単位以前の単位に対
して生成された単位のピッチの高低に関する情報を用い
ることを特徴とする。In the voice information processing apparatus according to a seventh aspect of the present invention, in the unit pitch information generating means, information relating to the pitch of the unit is sequentially generated in the order in which the unit appears in the text. When generating the information on the pitch of the unit, the information on the pitch of the unit generated for the unit before the unit is used.
【0021】本発明の第八の観点に係る音声情報処理方
法は、前記ピッチパタン生成手段において、前記単位ピ
ッチ情報生成手段で生成された単位のピッチの高低に関
する情報を用いて、前記入力されたテキストをアクセン
ト句に分割するとともにこのアクセント句に対してアク
セント型を設定することを特徴とする。[0021] In the voice information processing method according to an eighth aspect of the present invention, the pitch pattern generating means uses the information on the pitch of the unit generated by the unit pitch information generating means, using the input information. The text is divided into accent phrases and an accent type is set for the accent phrases.
【0022】本発明の第九の観点に係る音声情報処理方
法は、前記テキスト解析手段で得られたテキスト解析結
果に従って、前記入力されたテキストをアクセント句に
分割するとともに前記アクセント句に関する情報を生成
するアクセント句分割手段を具備し、前記単位ピッチ情
報生成手段においては、前記アクセント句分割手段で生
成されたアクセント句に関する情報を用いて前記単位の
ピッチの高低に関する情報を生成し、前記ピッチパタン
生成手段においては、前記単位ピッチ情報生成手段で生
成された単位のピッチの高低に関する情報を用いて、前
記アクセント句分割手段で分割されたアクセント句に対
するアクセント型を設定する、ことを特徴とする。A speech information processing method according to a ninth aspect of the present invention divides the input text into accent phrases and generates information on the accent phrases in accordance with a text analysis result obtained by the text analysis means. The unit pitch information generating unit generates information on the pitch of the unit using information on the accent phrase generated by the accent phrase dividing unit, and generates the pitch pattern. In the means, an accent type for the accent phrase divided by the accent phrase dividing means is set by using information on the pitch of the unit generated by the unit pitch information generating means.
【0023】本発明の第十の観点に係る音声情報処理方
法は、前記単位のピッチの高低に関する情報は、当該単
位が前記単位主観ピッチ高低の各カテゴリに該当する確
率であり、前記ピッチパタン生成手段においては、前記
確度に応じたピッチパタンを生成することを特徴とす
る。In the audio information processing method according to a tenth aspect of the present invention, the information on the pitch of the unit is a probability that the unit falls into each of the categories of the unit subjective pitch, and the pitch pattern generation In the means, a pitch pattern corresponding to the accuracy is generated.
【0024】本発明の第十一の観点に係る音声情報処理
方法は、前記単位のピッチの高低に関する情報は、当該
単位が前記単位主観ピッチ変化の各カテゴリに該当する
確率であり、前記ピッチパタン生成手段においては、前
記確度に応じたピッチパタンを生成することを特徴とす
る。In the audio information processing method according to an eleventh aspect of the present invention, the information on the pitch of the unit is a probability that the unit falls into each category of the unit subjective pitch change, and the pitch pattern The generating means generates a pitch pattern according to the accuracy.
【0025】本発明の第十二の観点に係る音声情報処理
方法は、前記単位のピッチの高低に関する情報は、当該
単位が、主観的なピッチの高低を表す複数種類の値のそ
れぞれをとる確度であり、前記ピッチパタン生成手段に
おいては、前記確度を用いてアクセント句に対して設定
されるアクセント型の確度を算出し、前記アクセント型
の確度に応じたピッチパタンを生成すること、を特徴と
する。In the voice information processing method according to a twelfth aspect of the present invention, the information on the pitch of the unit is a probability that the unit takes each of a plurality of types of values representing subjective pitch. In the pitch pattern generating means, the accuracy of the accent type set for the accent phrase is calculated using the accuracy, and a pitch pattern corresponding to the accuracy of the accent type is generated. I do.
【0026】本発明の第十三の観点に係る音声情報処理
方法は、前記単位のピッチの高低に関する情報は、当該
単位が、主観的なピッチの高低の変化を表す複数種類の
値のそれぞれをとる確度であり、前記ピッチパタン生成
手段においては、前記確度を用いてアクセント句に対し
て設定されるアクセント型の確度を算出し、前記アクセ
ント型の確度に応じたピッチパタンを生成すること、を
特徴とする。In the audio information processing method according to a thirteenth aspect of the present invention, in the information on the pitch of the unit, each of the plurality of types of values representing a subjective change in the pitch of the unit is used. Calculating the accuracy of an accent type set for an accent phrase using the accuracy, and generating a pitch pattern according to the accuracy of the accent type. Features.
【0027】[0027]
【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。Embodiments of the present invention will be described below with reference to the drawings.
【0028】図1は本発明の1形態を実施するために必
要な構成を示すブロック図である。1はテキスト入力
部、2はテキスト解析部、3は単位ピッチ情報生成部、
4はピッチパタン生成部である。以下、テキストが入力
されてからピッチパタンが生成されるまでの処理につい
て説明する。FIG. 1 is a block diagram showing a configuration necessary for implementing one embodiment of the present invention. 1 is a text input unit, 2 is a text analysis unit, 3 is a unit pitch information generation unit,
Reference numeral 4 denotes a pitch pattern generation unit. Hereinafter, a process from input of a text to generation of a pitch pattern will be described.
【0029】まず、テキスト入力部1に音声合成の対象
となるテキスト( 例えば、漢字カナ混じり文) が入力さ
れる。このテキスト入力部1では音声合成の可能な任意
のテキストを受け付けることができる。テキスト入力部
1に入力されたテキストはテキスト解析部2に送られ
る。First, a text to be subjected to speech synthesis (for example, a sentence mixed with Kanji and Kana) is input to the text input unit 1. The text input unit 1 can receive any text capable of speech synthesis. The text input to the text input unit 1 is sent to the text analysis unit 2.
【0030】テキスト解析部2では、入力されたテキス
トに対して、形態素解析などのテキスト解析を行うこと
によって、テキストを形態素などの解析単位に分割する
とともに、それぞれの解析単位に対して、読み、その解
析単位に固有のアクセント型、品詞などの各種情報を付
与する。これらの各種情報は、単位ピッチ情報生成部3
に送られる。The text analysis unit 2 performs text analysis such as morphological analysis on the input text to divide the text into analysis units such as morphemes, and reads and analyzes each analysis unit. Various information such as an accent type and a part of speech specific to the analysis unit is added. These various types of information are stored in the unit pitch information generation unit 3.
Sent to
【0031】単位ピッチ情報生成部3では、テキスト解
析部2から送られた解析単位に関する各種の情報から、
合成させる音声のモーラ( あるいは音節) を単位とした
ときの、前記単位に関する単位テキスト情報を生成し、
この単位テキスト情報から前記単位のピッチの主観的な
高低に関する情報を、各単位ごとに生成する。ここで、
ピッチの主観的な高低とは、語を発声する際の音の高さ
の相対的な高低のことで、例えば、共通語アクセントに
おいてアクセント型が1型の語である「音声(おんせい)
」では、第一モーラが「高」で、第二モーラ以降が
「低」である。なお、ピッチの高低に関する情報を生成
する単位は、ここでは1モーラ( あるいは音節) とする
が、隣り合った2モーラなどの複数モーラ( あるいは音
節) でもよく、複数モーラの例については後述する。単
位のピッチの主観的な高低に関する情報の生成には、上
記の「単位テキスト情報」から、「ピッチの主観的な高
低」への対応関係を記述した変形規則が用いられる。単
位ごとに生成するピッチの高低に関する情報は、単位の
ピッチが「高」か「低」かを表す2種類のカテゴリのい
ずれか、あるいはその単位がそれぞれのカテゴリに該当
する確率とする。なお、上記の単位テキスト情報には、
単位の所属する解析単位およびその前後の解析単位のテ
キスト属性( 品詞、活用、アクセント型など) や、解析
単位のアクセント核に対する当該単位の相対的な位置、
当該およびその前後の単位の音韻種別(撥音、促音など
の特殊な音韻か、否かなど) などが含まれる。単位ピッ
チ情報生成部3で生成された、各単位のピッチの高低に
関する情報は、テキスト解析部2から送られた解析単位
の各種情報と共に、ピッチパタン生成部4に送られる。The unit pitch information generation unit 3 derives from various kinds of information on the analysis unit sent from the text analysis unit 2,
When the mora (or syllable) of the voice to be synthesized is defined as a unit, unit text information is generated for the unit,
From the unit text information, information on the subjective height of the pitch of the unit is generated for each unit. here,
The subjective pitch of the pitch refers to the relative pitch of the sound at the time of uttering the word. For example, in a linguistic accent, the accent type is a type-1 word, "voice (onsei)
, The first mora is “high” and the second and subsequent mora are “low”. The unit for generating the information on the pitch level is one mora (or syllable) here, but may be a plurality of mora (or syllables) such as two adjacent mora, and an example of the plurality of mora will be described later. To generate information relating to the subjective height of the pitch of the unit, a deformation rule describing the correspondence relationship from the above-mentioned "unit text information" to "the subjective height of the pitch" is used. The information on the pitch level generated for each unit is one of two categories indicating whether the pitch of the unit is “high” or “low”, or the probability that the unit corresponds to each category. The above unit text information includes
The text attribute (part of speech, inflection, accent type, etc.) of the analysis unit to which the unit belongs and the analysis units before and after it, the relative position of the unit with respect to the accent kernel of the analysis unit,
The phoneme type of the unit and the unit before and after the same (such as whether or not the phoneme is a special phoneme such as a sound-repelling sound or a prompting sound) is included. The information on the pitch of each unit generated by the unit pitch information generation unit 3 is sent to the pitch pattern generation unit 4 together with various information of the analysis unit sent from the text analysis unit 2.
【0032】前記の単位のピッチの高低に関する情報と
しては、一般に副次アクセントと呼ばれるような弱いア
クセントのつく単位については「高」「低」以外のカテ
ゴリを設けるなど、2種類以上のカテゴリあるいは前記
単位がそれぞれのカテゴリに該当する確率としてもよ
い。As information on the pitch of the unit, two or more categories or the above-mentioned units such as a category other than "high" and "low" are provided for a unit having a weak accent generally called a secondary accent. The unit may be the probability that each category falls.
【0033】また、前記の単位のピッチの主観的な高低
に関する情報は、当該単位内で主観的なピッチが「高」
から「低」に転じる確度、すなわち当該単位がアクセン
ト核になる確度でも良い。Further, the information on the subjective height of the pitch of the unit may be such that the subjective pitch in the unit is “high”.
The accuracy may change from “to” to “low”, that is, the accuracy in which the unit becomes an accent nucleus.
【0034】前記の単位テキスト情報として、前の単位
に対して生成された単位のピッチ高低に関する情報を用
いることも可能である。図2には、単位のピッチ高低に
関する情報が、「高」「低」のそれぞれのカテゴリに前
記単位が該当する確率である場合での1例を示してい
る。まず、「高」「低」それぞれのカテゴリに該当する
確率の初期値P(A0=H) 、P(A0=L) を0.5 と設定し、単位
番号i を初期化する( S1 ,S2)。次にi 番目の単位に
関する単位テキスト情報を生成する( S3)。S3で生成
された単位テキスト情報に、前の単位のピッチが「高」
(Ai-1=H)という情報を追加し、この単位テキスト情報
を、(「単位テキスト情報」から、「ピッチの主観的な
高低」への対応関係を記述した)変形規則に入力するこ
とによって、Ai-1=Hの場合の単位ピッチ情報P(Ai-1=H*A
i=H)、P(Ai-1=H*Ai=L)を生成する(S4)。同様に、前の単
位のピッチが「低」という情報を追加した単位テキスト
情報を用いることにより、Ai-1=Lの場合の単位ピッチ情
報を生成する(S5)。次に以下の式に従って、i 番目の単
位に対する単位ピッチ情報を生成する(S6)。As the unit text information, it is also possible to use information relating to the pitch height of the unit generated with respect to the previous unit. FIG. 2 shows an example in which the information on the pitch of the unit is the probability that the unit falls into each of the categories of “high” and “low”. First, the initial values P (A0 = H) and P (A0 = L) of the probabilities corresponding to the “high” and “low” categories are set to 0.5, and the unit number i is initialized (S1, S2). Next, unit text information on the i-th unit is generated (S3). In the unit text information generated in S3, the pitch of the previous unit is "high"
By adding the information (Ai-1 = H) and inputting this unit text information to the transformation rule (which describes the correspondence from "unit text information" to "subjective pitch height") , Ai-1 = H, unit pitch information P (Ai-1 = H * A
i = H) and P (Ai-1 = H * Ai = L) are generated (S4). Similarly, unit pitch information in the case of Ai-1 = L is generated by using unit text information to which information that the pitch of the previous unit is “low” is added (S5). Next, unit pitch information for the i-th unit is generated according to the following equation (S6).
【0035】P(Ai=H) = P(Ai-1=H*Ai=H) * A(Ai-1=H) +
P(Ai-1=L*Ai=H) * A(Ai-1=L) P(Ai=L) = P(Ai-1=H*Ai=L) * A(Ai-1=H) + P(Ai-1=L*Ai
=L) * A(Ai-1=L) i が最終単位の番号( N) であれば終了し、そうでなけ
ればi をi+1 に更新してS3 からステップを繰り返す。
このように前の単位に対して生成された単位ピッチ情報
を用いることによって、前の単位のピッチ高低が重要な
単位に対する単位ピッチ情報の生成の精度が向上でき
る。P (Ai = H) = P (Ai-1 = H * Ai = H) * A (Ai-1 = H) +
P (Ai-1 = L * Ai = H) * A (Ai-1 = L) P (Ai = L) = P (Ai-1 = H * Ai = L) * A (Ai-1 = H) + P (Ai-1 = L * Ai
= L) * A (Ai-1 = L) If i is the last unit number (N), the process is terminated. Otherwise, i is updated to i + 1 and the steps are repeated from S3.
By using the unit pitch information generated for the previous unit in this way, the accuracy of generating unit pitch information for a unit where the pitch of the previous unit is important can be improved.
【0036】上記の各単位のピッチの高低に関する情報
の生成に用いる変形規則は、さまざまなテキストに対す
る各単位のテキスト情報を記述した「単位テキスト情報
リスト」( 図3) 、それらの単位の主観的なピッチの高
低を記述した「単位ピッチリスト」( 図4) から、決定
木などの手法を用いることによって、「単位テキスト情
報」から「単位のピッチの高低」へ対応付ける規則を自
動的に構築することが可能である( 図5) 。決定木の手
法を用いる場合、ピッチ高低を表す各カテゴリに単位が
該当する確率などの情報は、決定木の末端( 葉) の条件
に当てはまるデータ数のうち正しく値を設定された割合
などから得ることができる。ただし、上記のものに限ら
ず、データから得られる統計量であれば何でも用いて、
前記の確率などの情報を得ることができる。また、上記
の2つのリストを統計処理することによって、「単位テ
キスト情報」からピッチ高低を表す複数( ここでは2
つ)の値のそれぞれをとる確率を推定する統計モデルを
構築して、これを変形規則として用いてもよい。The above-described transformation rule used to generate the information on the pitch level of each unit includes a “unit text information list” (FIG. 3) describing the text information of each unit for various texts, and a subjective description of those units. From the "unit pitch list" (Fig. 4), which describes the pitches of various pitches, by using a method such as a decision tree, a rule for automatically mapping "unit text information" to "unit pitch height" is automatically constructed. It is possible (Figure 5). When the decision tree method is used, information such as the probability that the unit corresponds to each category representing pitch height is obtained from the ratio of correctly set values among the number of data that meet the conditions at the end (leaf) of the decision tree be able to. However, not limited to the above, using any statistics obtained from the data,
Information such as the probability can be obtained. Further, by performing statistical processing on the above two lists, a plurality of units (here, 2
May be constructed as a deformation rule by constructing a statistical model for estimating the probability of taking each of the two values.
【0037】ピッチパタン生成部4では、単位ピッチ情
報生成部3から送られた単位のピッチの高低に関する情
報と解析単位の各種情報に従って、ピッチパタンを生成
する。単位ピッチ情報生成部3から送られた情報からピ
ッチパタンを生成するための、ピッチパタン生成部4の
具体的な構成の1例を図6を用いて説明する。The pitch pattern generation unit 4 generates a pitch pattern according to the information on the pitch of the unit and the various information of the analysis unit sent from the unit pitch information generation unit 3. An example of a specific configuration of the pitch pattern generation unit 4 for generating a pitch pattern from information transmitted from the unit pitch information generation unit 3 will be described with reference to FIG.
【0038】図2はピッチパタン生成部の1形態を示す
ブロック図で、アクセント句分割部41、最適アクセン
ト型設定部42、ピッチパタン生成処理部43から構成
されている。アクセント句分割部41では、単位ピッチ
情報生成部3から送られた各単位のピッチの高低に関す
る情報と解析単位の各種情報を元に、テキスト中の各解
析単位の境界がアクセント句の境界であるか否かを順次
決定した後、こうして決定されたアクセント句境界にし
たがってテキストを分割する。この際、各解析単位の境
界がアクセント句の境界であるか否かの決定は、隣接し
た解析単位の品詞と、解析単位の境界の直前、直後のモ
ーラのピッチの高低からその形態素境界がアクセント句
境界であるか否かを決定するような規則を作成すること
によって容易に実現できる。また、アクセント句分割部
41では、アクセント句を構成する形態素の情報に従っ
て、それぞれのアクセント句に対する品詞、モーラ数な
どの付与も行う。次に、最適アクセント型設定部42で
は、アクセント句中の各単位に対するピッチの高低に関
する情報を用いて、図7に示すように可能なすべてのア
クセント型の実現する確度を計算し、その中で最大の確
度となったアクセント型を選択することによって、アク
セント句に対して最適なアクセント型を設定する。ここ
では、各単位のピッチが「高」「低」のそれぞれのカテ
ゴリに該当する確率をもとにそれぞれのアクセント型の
実現する確度を計算しているが、単位ピッチ情報生成部
3から送られた各単位のピッチの高低に関する情報が
「高」か「低」のいずれかのカテゴリである場合には、
そのカテゴリが「高」の場合、ピッチが「高」「低」の
カテゴリに該当する確率をそれぞれ0.8 、0.2 などと
し、カテゴリが「低」である場合にはそれぞれ0.2 、0.
8 などとすればよい。このように、各モーラでのピッチ
が「高」「低」のそれぞれのカテゴリに該当する確率に
基づいて設定されたアクセント型では、低いピッチにな
り得ないモーラで低いピッチになったり、高いピッチに
なり得ないモーラで高いピッチになるようなことは起こ
りにくい。ピッチパタン生成処理部43では最適アクセ
ント型設定部42で設定されたアクセント型および品
詞、モーラ数などの情報から適切なピッチパタンを生成
する。ここでのピッチパタン生成は、従来からよく知ら
れている、点ピッチモデルや藤崎モデルを用いた方法、
HMMを用いた方法( 宮崎etc. 「多空間上の確率分布
に基づいたHMMによるピッチパタン生成」、日本音響
学会講演論文集、1−7−18、Mar 、1998) などのい
ずれの方法を用いても実現できる。FIG. 2 is a block diagram showing one form of the pitch pattern generation unit, which comprises an accent phrase division unit 41, an optimal accent type setting unit 42, and a pitch pattern generation processing unit 43. In the accent phrase division unit 41, the boundary between the analysis units in the text is the accent phrase boundary based on the information on the pitch level of each unit and the various information on the analysis unit sent from the unit pitch information generation unit 3. Then, the text is divided according to the thus determined accent phrase boundaries. At this time, whether or not the boundary of each analysis unit is a boundary of an accent phrase is determined based on the part of speech of the adjacent analysis unit and the height of the mora pitch immediately before and immediately after the boundary of the analysis unit. This can be easily realized by creating a rule that determines whether or not a phrase is a boundary. In addition, the accent phrase division unit 41 also gives the part of speech, the number of mora, and the like to each accent phrase according to the information on the morphemes constituting the accent phrase. Next, the optimal accent type setting unit 42 calculates the accuracy of realizing all possible accent types as shown in FIG. 7 by using information on the pitch level for each unit in the accent phrase, and among them, By selecting the accent type that has the highest accuracy, an optimal accent type is set for the accent phrase. Here, although the accuracy of realizing each accent type is calculated based on the probability that the pitch of each unit falls into each of the categories of “high” and “low”, it is sent from the unit pitch information generating unit 3. If the information about the pitch of each unit is in either the “high” or “low” category,
If the category is `` High '', the probability of the pitch being `` High '' or `` Low '' is 0.8, 0.2, etc. respectively, and if the category is `` Low '', 0.2, 0, respectively.
8 and so on. As described above, in the accent type in which the pitch in each mora is set based on the probability corresponding to each category of “high” and “low”, a mora that cannot be a low pitch has a low pitch or a high pitch has It is unlikely that a high pitch will be caused by a mora that cannot be sparse. The pitch pattern generation processing unit 43 generates an appropriate pitch pattern from information such as the accent type, part of speech, and the number of mora set by the optimal accent type setting unit 42. The pitch pattern generation here uses a well-known method using a point pitch model or a Fujisaki model,
Any method such as a method using HMM (Miyazaki etc. "Pitch pattern generation by HMM based on probability distribution in multiple spaces", Proceedings of the Acoustical Society of Japan, 1-7-18, Mar, 1998) Can also be achieved.
【0039】図8は請求項8に記載の別の実施例を説明
するブロック図である。図1との違いを中心に説明をす
る。図8では、単位ピッチ情報生成部3の前にアクセン
ト句分割部5が挿入されているのが特徴である。この場
合、アクセント句分割部5では、解析単位の各種情報の
みを用いてアクセント句への分割を行う。一方、単位ピ
ッチ情報生成部3では、単位ピッチ情報の決定要因とし
て、アクセント句分割部5で得られたアクセント句の情
報( 例えば該当モーラのアクセント句中での位置) も用
いることができる。この構成においては、アクセント句
分割の性能は上述の方法に劣る可能性があるが、一方で
単位ピッチの情報の生成に関しては性能の向上が期待で
きる。ピッチパタン生成部4では、最適アクセント型選
択部42において、上述した第一の実施例の場合と同様
の方法で、アクセント句分割部5で決められたアクセン
ト句に対する最適なアクセント型を設定した後、ピッチ
パタン生成処理部43においてアクセント型や形態素の
情報を用いてピッチパタンを生成する。アクセント句分
割部5において、複数の分割候補が出力できる場合は、
図9のように各分割候補の中からもっとも妥当な分割候
補を選択することもできる。FIG. 8 is a block diagram for explaining another embodiment of the present invention. The description will focus on the differences from FIG. FIG. 8 is characterized in that an accent phrase division unit 5 is inserted before the unit pitch information generation unit 3. In this case, the accent phrase division unit 5 performs division into accent phrases using only various types of information of the analysis unit. On the other hand, the unit pitch information generation unit 3 can also use the information of the accent phrase obtained by the accent phrase division unit 5 (for example, the position of the mora in the accent phrase) as a determinant of the unit pitch information. In this configuration, the performance of accent phrase division may be inferior to the above method, but on the other hand, an improvement in the performance of generating information of unit pitch can be expected. In the pitch pattern generation unit 4, the optimal accent type selection unit 42 sets the optimal accent type for the accent phrase determined by the accent phrase division unit 5 in the same manner as in the first embodiment described above. In the pitch pattern generation processing unit 43, a pitch pattern is generated using information on accent type and morpheme. If the accent phrase division unit 5 can output a plurality of division candidates,
As shown in FIG. 9, the most appropriate division candidate can be selected from the division candidates.
【0040】具体的には、まず最適分割候補のスコア(S
core) と分割候補番号( j) および最適候補番号( jbe
st) に初期値を設定する(S1,S2) 。次に分割候補jを選
択し(S3)、j 番目の分割候補のアクセント句に関する情
報を用いて各モーラのピッチ高低とその確度を推定する
(S4) 。次にS4で推定された各モーラのピッチ高低と確
度を用いて、各アクセント句に対して最適なアクセント
型を設定し、設定されたそれぞれのアクセント型の確度
を算出する(S5)。次に設定された各最適アクセント型の
確度を積算することによって、j番目の分割候補での各
アクセント句にそれぞれ最適アクセント型が設定される
確度(Pj)を計算する(S6)。PjとScore を比較し(S7)、Pj
の方が大きければScore をPjに、jbestをjに更新する
(S8)。jが分割候補の総数(N) と一致していたら終了
し、そうでなければ、jをj+1に更新してS3からステ
ップを繰り返す。ステップが終了したら、jbest番目の
分割候補を最適な分割候補として選択し、jbest番目の
分割候補での各アクセント句に設定された最適アクセン
ト型をピッチパタンの生成に用いる。Specifically, first, the score (S
core), the division candidate number (j) and the optimal candidate number (jbe
Set the initial value to (st) (S1, S2). Next, a division candidate j is selected (S3), and the pitch height of each mora and its accuracy are estimated using information on the accent phrase of the j-th division candidate.
(S4). Next, using the pitch height and accuracy of each mora estimated in S4, an optimal accent type is set for each accent phrase, and the accuracy of each set accent type is calculated (S5). Next, the accuracy (Pj) at which the optimal accent type is set for each accent phrase in the j-th division candidate is calculated by multiplying the accuracy of each set optimal accent type (S6). Pj and Score are compared (S7), and Pj
If Score is larger, update Score to Pj and jbest to j
(S8). If j is equal to the total number of division candidates (N), the process ends. Otherwise, j is updated to j + 1 and the steps are repeated from S3. When the step is completed, the jbest-th division candidate is selected as an optimal division candidate, and the optimal accent type set for each accent phrase in the jbest-th division candidate is used for generating a pitch pattern.
【0041】図10、図11は設定されたアクセント型
の確度を用いて、アクセント句に対して生成されたピッ
チパタンを変形する方法を示している。FIGS. 10 and 11 show a method of transforming a pitch pattern generated for an accent phrase using the set accuracy of the accent type.
【0042】図10は、設定されたアクセント型の確度
が小さい( 例えば、確度<0.25) 場合の変形の例であ
る。例えば、まず確度に応じて定数α(0< α<1) を決
め、ピッチパタン変形の基準となる関数f0base(t) を用
いて以下の式によって変形する。FIG. 10 shows an example of a modification when the accuracy of the set accent type is small (for example, accuracy <0.25). For example, first, a constant α (0 <α <1) is determined according to the accuracy, and the deformation is performed by the following equation using a function f0base (t) serving as a reference of the pitch pattern deformation.
【0043】f'0(t) = f0base(t) + (f0(t) - f0base
(t)) * α (f'(t) :変形後の時刻tのピッチ、f(t):
変形前の時刻t のピッチ) なお、図10では、f0base(t) は次の式で表される直線
としている。F'0 (t) = f0base (t) + (f0 (t) -f0base
(t)) * α (f '(t): pitch at time t after deformation, f (t):
(Pitch at time t before deformation) In FIG. 10, f0base (t) is a straight line represented by the following equation.
【0044】f0base(t) = f0(t0) + (t - t0) * a (t0:
基準点の時刻、a: 直線の傾き( いずれも設定されたア
クセント型によって決まる定数)) 基準点の時刻t0は、設定されたアクセント型が0のとき
は先頭モーラの中心時刻、それ以外のときは最終モーラ
の中心時刻とし、傾きa も設定されたアクセント型によ
って適当な値を設定する( 一般的には0または負の値)
。この変形によって、設定されたアクセント型が誤っ
ている可能性が高い場合は、アクセントの目立たない読
み方を行うことができる。なお、ここで用いられる、設
定されたアクセント型の確度の計算方法は、図の方法だ
けではなく、図3のように計算された確度をアクセント
句のモーラ数に応じて補正する方法など、異なった方法
を用いてもよく、ピッチパタンの変形を行う式は上記の
ものに限らず、さまざまなものを用いることができる。F0base (t) = f0 (t0) + (t-t0) * a (t0:
Reference point time, a: slope of straight line (all constants determined by set accent type)) Reference point time t0 is the center time of the first mora when the set accent type is 0, otherwise Is the center time of the last mora, and the slope a is also set to an appropriate value depending on the set accent type (generally 0 or a negative value)
. With this modification, when there is a high possibility that the set accent type is wrong, it is possible to perform an inconspicuous accent reading. Note that the method of calculating the accuracy of the set accent type used here is not limited to the method shown in the figure, but may be a method such as a method of correcting the calculated accuracy according to the number of mora of the accent phrase as shown in FIG. The formula for performing the deformation of the pitch pattern is not limited to the above formula, and various formulas can be used.
【0045】図11は、設定されたアクセント型の第一
候補と第二候補の確度が近い場合の変形の例である。第
一候補の確度がP1、第二候補の確度をP2で、例えば
P1<P2 *2である場合、第一候補に対して生成され
るピッチパタンと第二候補に対して生成されるピッチパ
タンを確度に応じて重みを付けて加算して、このピッチ
パタンを用いる。例えば以下の式によって加算する。FIG. 11 shows an example of a modification in which the accuracy of the set accent type first and second candidates is close to each other. If the accuracy of the first candidate is P1 and the accuracy of the second candidate is P2, for example, P1 <P2 * 2, the pitch pattern generated for the first candidate and the pitch pattern generated for the second candidate Are weighted according to the accuracy and added, and this pitch pattern is used. For example, the addition is performed by the following equation.
【0046】f'0(t) = f0*1(t) * P1/( P1 +P2)
+ f0*2(t) * P2/( P1+P2) (f'(t) :加算後
の時刻tのピッチ、f0*1(t) :第一候補のアクセント型
に対する時刻tのピッチ、f0* 2(t) :第二候補のアク
セント型に対する時刻tのピッチ) 複数候補のアクセント型が有り得るアクセント句を実際
に発声する際には、しばしばどちらとも取れるアクセン
トで読み上げられる。上述のような方法で加算して作ら
れたピッチパタンを用いて、第一候補、第二候補のアク
セント型のどちらとも取れるアクセント型で読み上げる
ことによって、より実際の発声に近いアクセントでの読
み上げが可能となる。ピッチパタンの加算に用いる式は
上記のものに限らず、さまざまなものを用いることがで
きる。F'0 (t) = f0 * 1 (t) * P1 / (P1 + P2)
+ F0 * 2 (t) * P2 / (P1 + P2) (f '(t): pitch at time t after addition, f0 * 1 (t): pitch at time t for the accent type of the first candidate, f0 * 2 (t): pitch at time t with respect to the accent type of the second candidate) When actually speaking an accent phrase that may have the accent type of a plurality of candidates, the phrase is often read out with an accent that can be taken from either. By using the pitch pattern created by the addition as described above, by reading out the accent type that can be taken as both the first candidate and the second candidate accent type, it is possible to read out with an accent closer to the actual utterance It becomes possible. The expression used for adding the pitch pattern is not limited to the above expression, and various expressions can be used.
【0047】以上に述べた実施例では、単位ピッチ情報
生成部3においてピッチの高低に関する情報を生成する
単位を1モーラ( あるいは1音節) として説明したが、
この単位は、隣りあった2モーラなど、複数のモーラ(
あるいは音節) でもよい。隣り合った2モーラを単位と
する場合に生成されるピッチの高低に関する情報は、
「低→高」「高→低」および「変化なし」といったピッ
チの高低の変化を表す複数の値あるいはそれぞれの値を
とる確度となる。このようにピッチの高低の変化を考慮
する方法では、「変化なし」という値を設けることによ
って、助詞の「は」や「が」など前の語のピッチ高低に
依存してピッチ高低が決まり、それ自体のピッチの高低
を求めることが重要でない単位に関する規則がシンプル
になることが期待される。また、ピッチの高低に関する
情報が、ピッチの高低の変化を表す複数の値のそれぞれ
をとる確度である場合には、その確度からピッチ高低の
変化の程度に関する手がかりを得ることができるので、
確度に応じた高低変化をするピッチパタンを生成するこ
とが可能となる。In the above-described embodiment, the unit for generating the information on the pitch in the unit pitch information generating unit 3 has been described as one mora (or one syllable).
This unit consists of multiple mora, such as two adjacent mora (
Or syllable). Information on the pitch level generated when two adjacent moras are used as a unit is as follows:
A plurality of values representing the change in pitch, such as “low → high”, “high → low”, and “no change”, or the accuracy of taking each value. In this way, in the method of considering the change in pitch, by providing a value of “no change”, the pitch is determined depending on the pitch of the previous word such as “ha” or “ga” of the particle, It is hoped that the rules for units for which it is not important to determine the pitch level itself will be simpler. In addition, when the information on the pitch level is the accuracy of taking each of a plurality of values representing the pitch level change, it is possible to obtain a clue on the degree of the pitch level change from the accuracy.
It is possible to generate a pitch pattern that changes in height according to accuracy.
【0048】また以上の実施例では、単位ピッチ情報生
成部3で得られた単位のピッチの高低に関する情報に対
して適切なアクセント型を設定し、そのアクセント型を
用いてピッチパタンを生成する方法を説明したが、ピッ
チパタン生成部4において、アクセント型を設定するこ
となく、単位のピッチ高低に関する情報と、解析単位の
各種情報から直接ピッチパタンを生成することもでき
る。例えば、2モーラを単位とする代表的なピッチパタ
ンを複数個用意し、隣りあう2モーラに関するピッチ高
低に関する情報とその2モーラの属する解析単位の各種
情報に対して適切なピッチパタンを順次選択し、それら
をつなぎあわせていくことによって、ピッチパタンを生
成することが可能である( 図12) 。単位ピッチ情報生
成部3で生成される情報が、ピッチの高低あるいはその
変化を表す複数の値のそれぞれをとる確度であれば、そ
の確度に応じてピッチの変化の程度が異なるピッチパタ
ンが選択される。なお、用意するピッチパタンの単位は
3モーラなど、単位ピッチ情報生成部3で情報を生成す
る単位より短くなければ何でもよい。また、ピッチパタ
ンを生成する方法は、上記の代表的なピッチパタンを選
択して接続していく方法に限らず、単位のピッチ高低に
関する情報と解析単位の各種情報に対して、適切なピッ
チパタンが生成できる方法であれば、どんな方法でもよ
い。In the above embodiment, an appropriate accent type is set for the information on the pitch of the unit obtained by the unit pitch information generating unit 3, and a pitch pattern is generated using the accent type. However, the pitch pattern generation unit 4 can directly generate the pitch pattern from the information on the pitch of the unit and various information of the analysis unit without setting the accent type. For example, a plurality of representative pitch patterns in units of 2 mora are prepared, and an appropriate pitch pattern is sequentially selected for information on the pitch height of two adjacent mora and various information of the analysis unit to which the two mora belong. By connecting them, a pitch pattern can be generated (FIG. 12). If the information generated by the unit pitch information generation unit 3 is an accuracy that takes each of a plurality of values representing the height of a pitch or a change thereof, a pitch pattern having a different degree of change in the pitch is selected according to the accuracy. You. Note that the unit of the prepared pitch pattern may be any unit, such as 3 moras, as long as it is not shorter than the unit for generating information in the unit pitch information generating unit 3. In addition, the method of generating the pitch pattern is not limited to the method of selecting and connecting the representative pitch patterns described above, and an appropriate pitch pattern may be used for the information on the unit pitch height and various information of the analysis unit. Any method can be used as long as the method can generate.
【0049】[0049]
【発明の効果】以上説明したように、本発明によると、
モーラあるいは音節を単位とした場合の、前記単位のピ
ッチの高低に関する情報を単位ごとに生成し、これらの
単位のピッチの高低に関する情報を用いてピッチパタン
を生成するので、前記単位に対して不自然なピッチを設
定することが少なくなり、たとえ誤ったアクセントが付
与されても、合成される音声が不自然になりにくい。As described above, according to the present invention,
In the case where mora or syllable is used as a unit, information on the pitch of the unit is generated for each unit, and a pitch pattern is generated using the information on the pitch of these units. It is less likely to set a natural pitch, and even if an incorrect accent is given, the synthesized voice is less likely to be unnatural.
【0050】また本発明によれば、前記単位のピッチの
高低に関する情報を生成する規則は、データから自動的
に生成できるので、規則の構築が容易である。Further, according to the present invention, the rule for generating information on the pitch of the unit can be automatically generated from the data, so that the rule can be easily constructed.
【0051】また本発明によれば、前記単位のピッチの
高低に関する情報を生成し、この単位の情報を用いてピ
ッチパタンを生成するので、テキストを構成する語の諸
性質に加えて音韻の種類も同時に考慮したアクセント付
与を行うことが可能である。According to the present invention, information on the pitch of the unit is generated, and a pitch pattern is generated by using the information of the unit. Can be given at the same time.
【図1】本発明の一実施形態に係る音声情報処理装置を
示すブロック図。FIG. 1 is a block diagram showing a voice information processing apparatus according to an embodiment of the present invention.
【図2】図3に示した単位ピッチ情報生成部で、前の単
位の情報を用いる場合の処理方法を説明するフローチャ
ート。FIG. 2 is a flowchart illustrating a processing method when information of a previous unit is used in a unit pitch information generation unit illustrated in FIG. 3;
【図3】単位ピッチリストを説明するための図。FIG. 3 is a diagram for explaining a unit pitch list.
【図4】単位テキスト情報リストを説明するための図。FIG. 4 is a diagram for explaining a unit text information list.
【図5】「単位テキスト情報」から「単位のピッチ高低
に関する情報」への変換規則を作成する方法を説明する
ための図。FIG. 5 is a diagram for explaining a method of creating a conversion rule from “unit text information” to “information regarding pitch height of a unit”.
【図6】図1に示したピッチパタン生成部4の構成の1
例を示すブロック図。FIG. 6 shows a configuration 1 of the pitch pattern generation unit 4 shown in FIG.
FIG. 4 is a block diagram showing an example.
【図7】図6に示した最適アクセント型選択部でのアク
セント型選択方法を説明するための図。FIG. 7 is a view for explaining an accent type selection method in the optimal accent type selection unit shown in FIG. 6;
【図8】本発明の別の一実施形態に係る音声情報処理装
置を示すブロック図。FIG. 8 is a block diagram showing a voice information processing apparatus according to another embodiment of the present invention.
【図9】図8に示したアクセント句分割部5で複数分割
候補が出力できる場合の処理方法を説明するフローチャ
ート。FIG. 9 is a flowchart illustrating a processing method in a case where a plurality of division candidates can be output by the accent phrase division unit 5 illustrated in FIG. 8;
【図10】設定されたアクセント型に応じてピッチパタ
ンを変形する方法を説明するための図。FIG. 10 is a view for explaining a method of deforming a pitch pattern according to a set accent type.
【図11】設定されたアクセント型に応じてピッチパタ
ンを変形する方法を説明するための図。FIG. 11 is a view for explaining a method of deforming a pitch pattern according to a set accent type.
【図12】単位ピッチの高低に関する情報と解析単位の
各種情報からピッチパタンを生成する方法を説明するた
めの図。FIG. 12 is a view for explaining a method of generating a pitch pattern from information on the height of a unit pitch and various information on an analysis unit.
1 テキスト入力部 2 テキスト解析部 3 単位ピッチ情報生成部 4 ピッチパタン生成部 5 アクセント句分割部 41 アクセント句分割 42 最適アクセント型設定部 43 ピッチパタン生成処理部 DESCRIPTION OF SYMBOLS 1 Text input part 2 Text analysis part 3 Unit pitch information generation part 4 Pitch pattern generation part 5 Accent phrase division part 41 Accent phrase division 42 Optimal accent type setting part 43 Pitch pattern generation processing part
───────────────────────────────────────────────────── フロントページの続き (72)発明者 籠嶋 岳彦 大阪府大阪市中央区本町4丁目2番12号 株式会社東芝関西支社内 Fターム(参考) 5D045 AA09 ──────────────────────────────────────────────────続 き Continued on the front page (72) Inventor Takehiko Kagoshima 4-2-1-12 Honcho, Chuo-ku, Osaka-shi, Osaka Toshiba Corporation Kansai Branch F-term (reference) 5D045 AA09
Claims (13)
と、前記テキスト入力手段に入力されたテキストを解析
するテキスト解析手段と、前記テキスト解析手段で得ら
れたテキスト解析結果に従って、モーラあるいは音節を
単位とした場合の、前記単位のピッチの高低に関する情
報を前記単位ごとに生成する単位ピッチ情報生成手段
と、前記単位ピッチ情報生成手段で得られた単位のピッ
チの高低に関する情報を用いてピッチパタンを生成する
ピッチパタン生成手段を有することを特徴とする音声情
報処理装置。1. Text input means for inputting text, text analysis means for analyzing text input to the text input means, and mora or syllable in units of mora or syllables according to a text analysis result obtained by the text analysis means. In this case, unit pitch information generating means for generating information on the pitch of the unit for each unit, and generating a pitch pattern using the information on the pitch of the unit obtained by the unit pitch information generating means An audio information processing apparatus, comprising:
主観ピッチ高低とよび、前記単位主観ピッチ高低が複数
のカテゴリを持つとき、前記単位のピッチの高低に関す
る情報は、前記単位が前記単位主観ピッチ高低のカテゴ
リのどれに該当するかであることを特徴とする請求項1
に記載の音声情報処理装置。2. The subjective height of the unit pitch is referred to as a unit subjective pitch height, and when the unit subjective pitch height has a plurality of categories, the information on the pitch of the unit is the unit of the unit pitch. 2. The method according to claim 1, wherein the category corresponds to a category having a high or low subjective pitch.
A speech information processing apparatus according to claim 1.
は、前記単位が前記単位主観ピッチ高低の各カテゴリに
該当する確率であることを特徴とする請求項1に記載の
音声情報処理装置。3. The audio information processing apparatus according to claim 1, wherein the information on the pitch of the unit is a probability that the unit falls into each category of the unit subjective pitch.
を単位主観ピッチ変化とよび、前記単位主観ピッチ変化
が複数のカテゴリを持つとき、前記単位のピッチの高低
に関する情報は、前記単位が前記単位主観ピッチ変化の
カテゴリのどれに該当するかであることを特徴とする請
求項1に記載の音声情報処理装置。4. The change in the subjective height of the pitch of the unit is called a unit subjective pitch change. When the unit subjective pitch change has a plurality of categories, the information on the pitch of the unit is as follows. 2. The speech information processing apparatus according to claim 1, wherein the category corresponds to one of the categories of the unit subjective pitch change.
は、前記単位が前記単位主観ピッチ変化の各カテゴリに
該当する確率であることを特徴とする請求項1に記載の
音声情報処理装置。5. The speech information processing apparatus according to claim 1, wherein the information on the pitch of the unit is a probability that the unit falls into each category of the unit subjective pitch change.
は、前記単位内で主観的なピッチが高から低に転じる確
率であることを特徴とする請求項1に記載の音声情報処
理装置。6. The speech information processing apparatus according to claim 1, wherein the information on the pitch of the unit is a probability that a subjective pitch changes from high to low in the unit.
前記単位のピッチの高低に関する情報は前記単位がテキ
スト中に現れる順番で順次生成され、前記単位のピッチ
の高低に関する情報を生成する際には、前記単位以前の
単位に対して生成された単位のピッチの高低に関する情
報を用いることを特徴とする請求項1〜6のいずれか1
項に記載の音声情報処理装置。7. The unit pitch information generating means,
The information on the pitch of the unit is sequentially generated in the order in which the unit appears in the text, and when generating the information on the pitch of the unit, the information of the unit generated with respect to the unit before the unit is generated. 7. The information according to claim 1, wherein information on a pitch is used.
An audio information processing apparatus according to the item.
前記単位ピッチ情報生成手段で生成された単位のピッチ
の高低に関する情報を用いて、前記入力されたテキスト
をアクセント句に分割するとともにこのアクセント句に
対してアクセント型を設定することを特徴とした請求項
1〜7のいずれか1項に記載の音声情報処理装置。8. In the pitch pattern generating means,
The input text is divided into accent phrases, and an accent type is set for the accent phrases, using information on the pitch of the unit generated by the unit pitch information generating means. Item 8. The audio information processing device according to any one of Items 1 to 7.
ト解析結果に従って、前記入力されたテキストをアクセ
ント句に分割するとともに前記アクセント句に関する情
報を生成するアクセント句分割手段を具備し、前記単位
ピッチ情報生成手段においては、前記アクセント句分割
手段で生成されたアクセント句に関する情報を用いて前
記単位のピッチの高低に関する情報を生成し、前記ピッ
チパタン生成手段においては、前記単位ピッチ情報生成
手段で生成された単位のピッチの高低に関する情報を用
いて、前記アクセント句分割手段で分割されたアクセン
ト句に対するアクセント型を設定することを特徴とした
請求項1〜7のいずれか1項に記載の音声処理装置。9. An accent phrase dividing unit for dividing the input text into accent phrases and generating information on the accent phrases according to a text analysis result obtained by the text analyzing unit, wherein the unit pitch information The generating means generates information on the pitch of the unit using the information on the accent phrase generated by the accent phrase dividing means, and the pitch pattern generating means generates the information on the pitch of the unit by the unit pitch information generating means. The speech processing apparatus according to claim 1, wherein an accent type for the accent phrase divided by the accent phrase dividing means is set using information on the pitch of the unit of pitch. .
は、前記単位が前記単位主観ピッチ高低の各カテゴリに
該当する確率であり、前記ピッチパタン生成手段におい
ては、前記確率に応じたピッチパタンを生成することを
特徴とした請求項1、3、5−9のいずれか1項に記載
の音声処理装置。10. The information on the pitch of the unit is the probability that the unit falls into each category of the unit subjective pitch, and the pitch pattern generation means generates a pitch pattern according to the probability. The audio processing device according to claim 1, wherein the voice processing is performed.
は、前記単位が前記単位主観ピッチ変化の各カテゴリに
該当する確率であり、前記ピッチパタン生成手段におい
ては、前記確率に応じたピッチパタンを生成することを
特徴とした請求項1、3、5−9のいずれか1項に記載
の音声処理装置。11. The information on the pitch of the unit is a probability that the unit falls into each category of the unit subjective pitch change, and the pitch pattern generation means generates a pitch pattern according to the probability. The audio processing device according to claim 1, wherein the voice processing is performed.
は、前記単位が前記単位主観ピッチ高低の各カテゴリに
該当する確率であり、前記ピッチパタン生成手段におい
ては、前記確率を用いて前記アクセント句に対して設定
されるアクセント型の確度を算出し、前記アクセント型
の確度に応じたピッチパタンを生成することを特徴とし
た請求項8あるいは9のいずれか1項に記載の音声処理
装置。12. The information on the pitch of the unit is the probability that the unit falls into each of the categories of the unit subjective pitch, and the pitch pattern generation means uses the probability to calculate the accent phrase using the probability. The speech processing device according to claim 8, wherein the accuracy of the accent type set for the accent type is calculated, and a pitch pattern corresponding to the accuracy of the accent type is generated.
は、前記単位が前記単位主観ピッチ変化の各カテゴリに
該当する確率であり、前記ピッチパタン生成手段におい
ては、前記確率を用いて前記アクセント句に対して設定
されるアクセント型の確度を算出し、前記アクセント型
の確度に応じたピッチパタンを生成することを特徴とし
た請求項8あるいは9のいずれか1項に記載の音声処理
装置。13. The information on the pitch of the unit is the probability that the unit falls into each category of the unit subjective pitch change, and the pitch pattern generation means uses the probability to add to the accent phrase. The speech processing device according to claim 8, wherein the accuracy of the accent type set for the accent type is calculated, and a pitch pattern corresponding to the accuracy of the accent type is generated.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP21136098A JP3571925B2 (en) | 1998-07-27 | 1998-07-27 | Voice information processing device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP21136098A JP3571925B2 (en) | 1998-07-27 | 1998-07-27 | Voice information processing device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2000047680A true JP2000047680A (en) | 2000-02-18 |
| JP3571925B2 JP3571925B2 (en) | 2004-09-29 |
Family
ID=16604690
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP21136098A Expired - Fee Related JP3571925B2 (en) | 1998-07-27 | 1998-07-27 | Voice information processing device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3571925B2 (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002304186A (en) * | 2001-04-05 | 2002-10-18 | Sharp Corp | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
| US7155390B2 (en) | 2000-03-31 | 2006-12-26 | Canon Kabushiki Kaisha | Speech information processing method and apparatus and storage medium using a segment pitch pattern model |
| US7200558B2 (en) | 2001-03-08 | 2007-04-03 | Matsushita Electric Industrial Co., Ltd. | Prosody generating device, prosody generating method, and program |
-
1998
- 1998-07-27 JP JP21136098A patent/JP3571925B2/en not_active Expired - Fee Related
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7155390B2 (en) | 2000-03-31 | 2006-12-26 | Canon Kabushiki Kaisha | Speech information processing method and apparatus and storage medium using a segment pitch pattern model |
| US7200558B2 (en) | 2001-03-08 | 2007-04-03 | Matsushita Electric Industrial Co., Ltd. | Prosody generating device, prosody generating method, and program |
| US8738381B2 (en) | 2001-03-08 | 2014-05-27 | Panasonic Corporation | Prosody generating devise, prosody generating method, and program |
| JP2002304186A (en) * | 2001-04-05 | 2002-10-18 | Sharp Corp | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3571925B2 (en) | 2004-09-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7124083B2 (en) | Method and system for preselection of suitable units for concatenative speech | |
| CN1312655C (en) | Speech synthesis method and speech synthesis system | |
| US6845358B2 (en) | Prosody template matching for text-to-speech systems | |
| US11763797B2 (en) | Text-to-speech (TTS) processing | |
| Watts | Unsupervised learning for text-to-speech synthesis | |
| JP3910628B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
| US8942983B2 (en) | Method of speech synthesis | |
| JP2007249212A (en) | Method, computer program and processor for text speech synthesis | |
| JP2002530703A (en) | Speech synthesis using concatenation of speech waveforms | |
| JP5198046B2 (en) | Voice processing apparatus and program thereof | |
| CN1971708A (en) | Prosodic control rule generation method and apparatus, and speech synthesis method and apparatus | |
| JP4738057B2 (en) | Pitch pattern generation method and apparatus | |
| Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
| KR20100085433A (en) | High quality voice synthesizing method using multiple target prosody | |
| KR0146549B1 (en) | Korean language text acoustic translation method | |
| JP3571925B2 (en) | Voice information processing device | |
| JP2004226505A (en) | Pitch pattern generation method, speech synthesis method, system and program | |
| Kominek | Tts from zero: Building synthetic voices for new languages | |
| Dong et al. | A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese. | |
| JP2001075585A (en) | Natural language processing method and speech synthesizer using the method | |
| IMRAN | ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE | |
| JP2002297175A (en) | Device and method for text voice synthesis, program, and computer-readable recording medium with program recorded thereon | |
| Morais et al. | Data-driven text-to-speech synthesis | |
| JP2024017194A (en) | Speech synthesis device, speech synthesis method and program | |
| JP5012444B2 (en) | Prosody generation device, prosody generation method, and prosody generation program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040622 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040625 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080702 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090702 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090702 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100702 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110702 Year of fee payment: 7 |
|
| LAPS | Cancellation because of no payment of annual fees |