JP2001056695A - Speech synthesis method and storage medium storing speech synthesis program - Google Patents
Speech synthesis method and storage medium storing speech synthesis programInfo
- Publication number
- JP2001056695A JP2001056695A JP11233223A JP23322399A JP2001056695A JP 2001056695 A JP2001056695 A JP 2001056695A JP 11233223 A JP11233223 A JP 11233223A JP 23322399 A JP23322399 A JP 23322399A JP 2001056695 A JP2001056695 A JP 2001056695A
- Authority
- JP
- Japan
- Prior art keywords
- pitch frequency
- waveform
- voice
- continuous
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
(57)【要約】
【課題】 自然な響きを伴った連続音声波形を再生する
のに好適であるとともに、ポルタメント効果を付与する
ための操作を容易に行うことができる音声合成方法を提
供する。
【解決手段】 各音声単位の音声波形を代表波形記憶装
置16に記憶しておき、楽譜情報及び歌詞情報に基づい
て音声単位系列を生成し、生成した音声単位系列の各音
声単位に対応する音声波形を代表波形記憶装置16から
読み出し、読み出した音声波形を合成して連続音声波形
を生成する。そして、連続音声波形のうちピッチ周波数
が一定である定常区間で、このピッチ周波数とは異なる
ピッチ周波数までピッチ周波数が連続的に変化し、その
後、元のピッチ周波数までピッチ周波数が連続的に変化
するように、ポルタメント効果を付与する。
(57) [Problem] To provide a speech synthesis method that is suitable for reproducing a continuous speech waveform accompanied by natural sound and that can easily perform an operation for imparting a portamento effect. SOLUTION: A voice waveform of each voice unit is stored in a representative waveform storage device 16, a voice unit sequence is generated based on musical score information and lyric information, and voice corresponding to each voice unit of the generated voice unit sequence. The waveform is read from the representative waveform storage device 16, and the read voice waveform is synthesized to generate a continuous voice waveform. Then, in the steady period in which the pitch frequency is constant in the continuous voice waveform, the pitch frequency continuously changes to a pitch frequency different from this pitch frequency, and then the pitch frequency continuously changes to the original pitch frequency. Thus, a portamento effect is provided.
Description
【0001】[0001]
【発明の属する技術分野】本発明は、楽譜情報および歌
詞情報に基づいて音声波形を合成して連続音声波形を生
成する方法および記憶媒体に係り、特に、自然な響きを
伴った連続音声波形を再生するのに好適であるととも
に、ポルタメント効果を付与するための操作を容易に行
うことができる音声合成方法および音声合成プログラム
を記憶した記憶媒体に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and a storage medium for generating a continuous voice waveform by synthesizing a voice waveform based on musical score information and lyric information, and more particularly to a method for generating a continuous voice waveform with a natural sound. The present invention relates to a speech synthesis method and a storage medium storing a speech synthesis program that are suitable for reproduction and that can easily perform an operation for providing a portamento effect.
【0002】[0002]
【従来の技術】従来、音声波形を合成して連続音声波形
を生成する方法としては、例えば、特許第2709198号公
報および特開平7-146695号公報に開示されたものがあ
る。まず、特許第2709198号公報に開示された音声合成
方法は、次のようなものである。原音韻波形列P1〜P
n+1うち、3つの強いピークを含む各波形P1,Pm,Pn
を代表波形として記憶装置に記憶し、同様に各音韻波形
について代表波形を記憶しておく。次に、入力合成テキ
ストを解析して音韻系列を求め、その音韻系列の各音韻
に対応する代表波形を記憶装置から読み出し、読み出し
た代表波形P 1,Pm,Pnについてその隣接波形P1,P
mを、与えられた合成ピッチ周期Tpと接続時間Lとに従
って補間した合成波形P1m(0)、P1m(1)、…、P
1m(k)を生成する。2. Description of the Related Art Conventionally, a continuous speech waveform is synthesized by synthesizing a speech waveform.
For example, as a method of generating
And Japanese Patent Application Laid-Open No.
You. First, the speech synthesis disclosed in Japanese Patent No. 2709198
The method is as follows. Original phoneme waveform sequence P1~ P
n + 1Each waveform P including three strong peaks1, Pm, Pn
Is stored in the storage device as a representative waveform.
The representative waveform is stored for. Next, the input synthesis text
The phoneme sequence is obtained by analyzing the strike, and each phoneme of the phoneme sequence is obtained.
Read the representative waveform corresponding to
Representative waveform P 1, Pm, PnThe adjacent waveform P1, P
mWith the given synthetic pitch period TpAnd connection time L
Waveform P interpolated by1m(0), P1m(1), ..., P
1m(k) is generated.
【0003】ここで、P1m(i)(i=1,2,…k)
は、P1×α(i)+Pm×β(i)であり、α(i)、
β(i)は、それぞれ波形P1,Pmに対する重み係数で
あって、α(i)=0.5×〔1+cos{π×(L−T
i)/L}〕,β(i)=1−α(i)である。Ti
は、P1m(0)からP1m(i)の時間間隔である。一方、特
開平7-146695号公報に開示された歌声合成装置は、次の
ようなものである。楽譜/歌詞入力手段により入力され
た楽譜/歌詞情報である音符長時間、ピッチ、音量に関
する情報、および子音や母音等の表音記号の時間情報等
がパート分割手段によりパート毎に分割される。また、
音符長時間情報変更手段、ピッチ情報変更手段、および
音量情報変更手段により変更される音符長時間情報、ピ
ッチ情報、音量情報に基づいて、パート毎に異なる音符
長時間やピッチ、および音量を有する歌声信号が、歌声
信号合成手段により、合成される。合成された各パート
の歌声信号から合唱信号生成手段により、合唱の歌声信
号が生成され、歌声出力手段から合唱の歌声が出力され
る。Here, P 1m (i) (i = 1, 2,... K)
Is P 1 × α (i) + P m × β (i), and α (i),
beta (i) is a weighting factor for the waveform P 1, P m respectively, α (i) = 0.5 × [1 + cos {π × (L -T
i) / L}], β (i) = 1−α (i). Ti
Is the time interval from P 1m (0) to P 1m (i). On the other hand, the singing voice synthesizing apparatus disclosed in Japanese Patent Application Laid-Open No. Hei 7-46695 is as follows. The musical score / lyric information inputted by the musical score / lyrics input means, information on note length, pitch and volume, and time information of phonetic symbols such as consonants and vowels are divided into parts by the part dividing means. Also,
A singing voice having a different note length, pitch, and volume for each part based on the note length information, pitch information, and volume information changed by the note length information changing means, pitch information changing means, and volume information changing means. The signals are synthesized by the singing signal synthesizing means. A chorus singing voice signal is generated from the synthesized singing voice signal of each part by the chorus signal generation means, and the chorus singing voice is output from the singing voice output means.
【0004】[0004]
【発明が解決しようとする課題】ところで、従来の音声
合成技術では、合成音声の品質、音韻の明瞭性、合成音
声の生成のもとになった音声に含まれる個人情報の再現
性などに重点がおかれることが多く、発声の様式につい
て検討されることはほとんどなかった。ここでいう発生
の様式とは、発声時にかけられるボルタメントを示す。However, in the conventional speech synthesis technology, emphasis is placed on the quality of synthesized speech, the clarity of phonemes, and the reproducibility of personal information contained in the speech from which the synthesized speech was generated. And the style of vocalization was rarely considered. Here, the mode of occurrence indicates the voltament applied at the time of vocalization.
【0005】民族音楽などの自然歌手は、ボルタメント
のかけ方を多様に変化させることによって、民族性、独
自性を表現しており、ポルタメントは、現代音楽にとっ
て欠かせない重要な要素となっている。このため、上記
従来の音声合成方法を、楽譜情報および歌詞情報に基づ
いて音声波形を合成して連続音声波形を生成するのに適
用した場合には、連続音声波形にポルタメント効果が付
与されないため、連続音声波形による歌声が不自然に聞
こえ、温かみのある本物の歌声とはかけ離れた機械的な
響きになりがちであるという問題があった。[0005] Natural singers, such as folk music, express ethnicity and originality by changing the manner of applying voltament in various ways, and portamento is an essential element for contemporary music. . For this reason, when the above-described conventional voice synthesis method is applied to synthesize a voice waveform based on musical score information and lyric information to generate a continuous voice waveform, the continuous voice waveform is not given a portamento effect. There is a problem that the singing voice due to the continuous voice waveform sounds unnatural and tends to have a mechanical sound that is far from a warm real singing voice.
【0006】また、上記従来の歌声合成方法にあって
は、連続音声波形にポルタメント効果を付与しているも
のの、連続音声波形のうちピッチ周波数が変化する区間
で、変化前のピッチ周波数から変化後のピッチ周波数ま
でピッチ周波数が連続的に変化するように、単にポルタ
メント効果を付与しているだけなので、自然な響きを伴
った連続音声波形を再生するには不十分であった。In the above-mentioned conventional singing voice synthesizing method, although the portamento effect is added to the continuous voice waveform, in the section where the pitch frequency changes in the continuous voice waveform, the pitch frequency after the change is changed from the pitch frequency before the change. Since the portamento effect is simply applied so that the pitch frequency continuously changes up to the pitch frequency of, it is insufficient to reproduce a continuous sound waveform with a natural sound.
【0007】また、音楽のジャンルによっては、ボルタ
メントのかけ方が異なる場合があるので、音楽のジャン
ルにかかわらず、連続音声波形に一様にポルタメント効
果を付与すると、音楽のジャンルによっては、連続音声
波形による歌声が不自然に聞こえてしまうことがある。
一方、連続音声波形にポルタメント効果を付与するに
は、基本周波数を制御するための知識が必要であり、利
用者に多大な負担をかけることが想定される。簡単に様
々なボルタメント効果を付与するには、基本周波数に関
する操作をできるだけ少なくし、利用者がポルタメント
効果の付与に必要な操作だけを行えるようにすることが
望ましい。Also, depending on the genre of music, the manner of applying voltament may be different. Therefore, irrespective of the genre of music, if the portamento effect is applied to the continuous voice waveform uniformly, depending on the genre of music, The singing voice due to the waveform may sound unnatural.
On the other hand, in order to apply the portamento effect to the continuous sound waveform, knowledge for controlling the fundamental frequency is required, and it is assumed that a great burden is imposed on the user. In order to easily apply various voltament effects, it is desirable to minimize the operation related to the fundamental frequency so that the user can perform only the operation necessary for providing the portamento effect.
【0008】そこで、本発明は、このような従来の技術
の有する未解決の課題に着目してなされたものであっ
て、自然な響きを伴った連続音声波形を再生するのに好
適であるとともに、ポルタメント効果を付与するための
操作を容易に行うことができる音声合成方法および音声
合成プログラムを記憶した記憶媒体を提供することを目
的としている。Therefore, the present invention has been made in view of such unresolved problems of the prior art, and is suitable for reproducing a continuous sound waveform with a natural sound. It is an object of the present invention to provide a speech synthesis method and a storage medium storing a speech synthesis program that can easily perform an operation for imparting a portamento effect.
【0009】[0009]
【課題を解決するための手段】本発明者等は、鋭意検討
を重ねた結果、民族音楽などの歌声の連続音声波形に
は、その連続音声波形のうちピッチ周波数が変化する区
間で、変化前のピッチ周波数から変化後のピッチ周波数
までピッチ周波数が連続的に変化するように、単にポル
タメント効果が付与されているだけでなく、その連続音
声波形のうちピッチ周波数が一定である定常区間でも、
ある種のポルタメント効果が付与されていることを見い
だした。また、この定常区間におけるポルタメント効果
は、音楽のジャンルによって異なることも見いだした。
そして、これらのことが動機付けとなって本発明を完成
するに至ったのである。As a result of intensive studies, the present inventors have found that a continuous voice waveform of a singing voice such as ethnic music is included in a section of the continuous voice waveform in which the pitch frequency changes, and before the change. Not only the portamento effect is added so that the pitch frequency continuously changes from the pitch frequency of the change to the pitch frequency after the change, even in a steady period where the pitch frequency is constant in the continuous sound waveform,
It has been found that it has a certain portamento effect. We have also found that the portamento effect in this steady section differs depending on the music genre.
These motivations led to the completion of the present invention.
【0010】さらに、民族音楽などの歌声の連続音声波
形からボルタメントのかかった基本周波数パターンの形
状をできるだけ少ないパラメータを用いてモデリング
し、このパラメータを利用者に提供する方法を考えた。
かかる結論から、上記目的を達成するために、本発明に
係る請求項1記載の音声合成方法は、音声波形を合成し
て連続音声波形を生成する方法であって、前記連続音声
波形のうちピッチ周波数が一定である定常区間で、当該
ピッチ周波数とは異なるピッチ周波数までピッチ周波数
が連続的に変化し、その後、元のピッチ周波数までピッ
チ周波数が連続的に変化するように、ポルタメント効果
を付与する。[0010] Furthermore, a method of modeling the shape of a fundamental frequency pattern with voltamentation from a continuous voice waveform of a singing voice such as ethnic music using as few parameters as possible and providing the parameters to the user has been considered.
From this conclusion, in order to achieve the above object, the speech synthesis method according to claim 1 of the present invention is a method for generating a continuous speech waveform by synthesizing a speech waveform, wherein In a steady period where the frequency is constant, a portamento effect is applied so that the pitch frequency continuously changes to a pitch frequency different from the pitch frequency, and then continuously changes to the original pitch frequency. .
【0011】ここで、上記ポルタメント効果を付与する
条件としては、どのようなものであってもいいが、より
自然な響きを伴った連続音声波形を再生する観点から
は、ポルタメント効果を付与する長さは、定常区間の長
さに対して半分以下となることが好ましい。例えば、8
分音符に対しては、その半分の長さの16分音符以下の
長さとなるようにポルタメント効果を付与する。以下、
請求項2記載の音声合成方法において同じである。Here, the condition for providing the portamento effect may be any condition, but from the viewpoint of reproducing a continuous sound waveform accompanied by a more natural sound, the condition for providing the portamento effect is as follows. Preferably, the length is not more than half of the length of the steady section. For example, 8
A portamento effect is applied to a half note so that the half note is shorter than a sixteenth note. Less than,
The same applies to the speech synthesis method according to the second aspect.
【0012】また、ピッチ周波数の変化量は、定常区間
におけるピッチ周波数に対して0.4倍以下となること
が好ましい。例えば、定常区間におけるピッチ周波数が
250[Hz]である場合、ピッチ周波数を増加させる
方向でポルタメント効果を付与するのであれば、最大に
変化したときのピッチ周波数(上記異なるピッチ周波
数)が350[Hz]以下となるようにポルタメント効
果を付与し、ピッチ周波数を減少させる方向でポルタメ
ント効果を付与するのであれば、最大に変化したときの
ピッチ周波数が150[Hz]以上となるようにポルタ
メント効果を付与する。以下、請求項2記載の音声合成
方法において同じである。It is preferable that the amount of change in the pitch frequency be 0.4 times or less of the pitch frequency in the stationary section. For example, if the pitch frequency in the stationary section is 250 [Hz], and if the portamento effect is applied in the direction of increasing the pitch frequency, the pitch frequency at the maximum change (the above different pitch frequency) is 350 [Hz]. If the portamento effect is applied so as to be less than or equal to and the portamento effect is applied in the direction of decreasing the pitch frequency, the portamento effect is applied so that the pitch frequency at the maximum change becomes 150 [Hz] or more. I do. Hereinafter, the same applies to the voice synthesizing method according to the second aspect.
【0013】さらに、本発明に係る請求項2記載の音声
合成方法は、各音声単位の音声波形を記憶手段に記憶し
ておき、楽譜情報および歌詞情報に基づいて音声単位系
列を生成し、生成した音声単位系列の各音声単位に対応
する音声波形を前記記憶手段から読み出し、読み出した
音声波形を合成して連続音声波形を生成する方法であっ
て、前記連続音声波形のうちピッチ周波数が一定である
定常区間で、当該ピッチ周波数とは異なるピッチ周波数
までピッチ周波数が連続的に変化し、その後、元のピッ
チ周波数までピッチ周波数が連続的に変化するように、
ポルタメント効果を付与する。Further, according to a second aspect of the present invention, in the voice synthesizing method, a voice waveform of each voice unit is stored in a storage unit, and a voice unit sequence is generated based on musical score information and lyric information. A sound waveform corresponding to each sound unit of the read sound unit sequence from the storage means, and combining the read sound waveforms to generate a continuous sound waveform, wherein a pitch frequency of the continuous sound waveform is constant. In a certain stationary section, the pitch frequency continuously changes to a pitch frequency different from the pitch frequency, and then the pitch frequency continuously changes to the original pitch frequency,
Provides portamento effect.
【0014】ここで、音声単位の音声波形とは、音声を
一単位とした音声波形をいい、これには、例えば、音韻
を一単位とした音声波形が挙げられる。また、音声単位
系列とは、音声単位の集合からなる系列をいう。さら
に、本発明に係る請求項3記載の音声合成方法は、請求
項2記載の音声合成方法において、前記楽譜情報に従っ
て演奏される音楽のジャンルに基づいて、前記異なるピ
ッチ周波数を設定する。Here, the speech waveform in units of speech refers to a speech waveform in which speech is defined as one unit, and includes, for example, a speech waveform in which phoneme is defined as one unit. The audio unit sequence refers to a sequence composed of a set of audio units. Further, in the voice synthesis method according to a third aspect of the present invention, in the voice synthesis method according to the second aspect, the different pitch frequencies are set based on a genre of music played according to the musical score information.
【0015】さらに、本発明に係る請求項4記載の音声
合成方法は、請求項3記載の音声合成方法において、前
記楽譜情報に従って演奏される音楽のジャンルに基づい
て、前記異なるピッチ周波数を、前記元のピッチ周波数
よりも高いピッチ周波数および低いピッチ周波数のいず
れかに設定する。さらに、本発明に係る請求項5記載の
音声合成方法は、請求項1ないし4のいずれかに記載の
音声合成方法において、前記元のピッチ周波数から前記
異なるピッチ周波数までの変化量を示す変化量パラメー
タおよびピッチ周波数の変化開始から変化終了までの時
間を示す時間パラメータに基づいて、前記ポルタメント
効果を付与する。Further, in the voice synthesis method according to a fourth aspect of the present invention, in the voice synthesis method according to the third aspect, the different pitch frequencies are set based on a genre of music played in accordance with the score information. The pitch frequency is set to one of a higher pitch frequency and a lower pitch frequency than the original pitch frequency. Furthermore, a voice synthesis method according to a fifth aspect of the present invention is the voice synthesis method according to any one of the first to fourth aspects, wherein the change amount indicating a change amount from the original pitch frequency to the different pitch frequency. The portamento effect is provided based on a parameter and a time parameter indicating a time from the start to the end of the change of the pitch frequency.
【0016】さらに、本発明に係る請求項6記載の音声
合成方法は、請求項1ないし5のいずれかに記載の音声
合成方法において、前記連続音声波形のうちピッチ周波
数が変化する区間で、変化前のピッチ周波数から変化後
のピッチ周波数までピッチ周波数が連続的に変化するよ
うに、ポルタメント効果を付与するにあたって、変化の
前後にわたるピッチ周波数の変化量を示す変化量パラメ
ータおよびピッチ周波数の変化開始から変化終了までの
時間を示す時間パラメータに基づいて、前記ポルタメン
ト効果を付与する。Further, according to a sixth aspect of the present invention, in the voice synthesis method according to any one of the first to fifth aspects, the voice synthesis method includes the step of changing the pitch of the continuous voice waveform in a section where the pitch frequency changes. In giving the portamento effect so that the pitch frequency continuously changes from the previous pitch frequency to the changed pitch frequency, the change amount parameter indicating the change amount of the pitch frequency before and after the change and the start of the change of the pitch frequency The portamento effect is provided based on a time parameter indicating a time until the end of the change.
【0017】一方、上記目的を達成するために、本発明
に係る請求項7記載の音声合成プログラムを記憶した記
憶媒体は、楽譜情報および歌詞情報に基づいて音声単位
系列を生成し、生成した音声単位系列の各音声単位に対
応する音声波形を記憶手段から読み出し、読み出した音
声波形を合成して連続音声波形を生成するためのプログ
ラムを記憶した記憶媒体であって、前記連続音声波形の
うちピッチ周波数が一定である定常区間で、当該ピッチ
周波数とは異なるピッチ周波数までピッチ周波数が連続
的に変化し、その後、元のピッチ周波数までピッチ周波
数が連続的に変化するように、ポルタメント効果を付与
するポルタメント効果付与ステップをコンピュータに実
行させるためのプログラムを記憶したコンピュータ読み
取り可能なものである。On the other hand, in order to achieve the above object, a storage medium storing a speech synthesis program according to claim 7 of the present invention generates a speech unit sequence based on musical score information and lyric information, and generates the generated speech. A storage medium storing a program for reading a sound waveform corresponding to each sound unit of the unit series from the storage means and synthesizing the read sound waveforms to generate a continuous sound waveform; In a steady period where the frequency is constant, a portamento effect is applied so that the pitch frequency continuously changes to a pitch frequency different from the pitch frequency, and then continuously changes to the original pitch frequency. A computer readable program storing a program for causing a computer to execute the portamento effect imparting step That.
【0018】このような構成であれば、記憶媒体に記憶
された情報がコンピュータによって読み取られ、読み取
られた情報に基づいてコンピュータが実行させられたと
きは、請求項2記載の音声合成方法と同等の作用が得ら
れる。以上では、上記目的を達成するための音声合成方
法および音声合成プログラムを記憶した記憶媒体を提案
したが、これに限らず、上記目的を達成するために、次
に掲げる第1ないし第6の音声合成装置を提案すること
もできる。With this configuration, when the information stored in the storage medium is read by the computer and the computer is executed based on the read information, the information is equivalent to the speech synthesis method according to claim 2. Is obtained. In the above, the speech synthesizing method and the storage medium storing the speech synthesizing program for achieving the above object have been proposed. However, the present invention is not limited to this. A synthesizer can also be proposed.
【0019】第1の音声合成装置は、音声波形を合成し
て連続音声波形を生成する装置であって、前記連続音声
波形のうちピッチ周波数が一定である定常区間で、当該
ピッチ周波数とは異なるピッチ周波数までピッチ周波数
が連続的に変化し、その後、元のピッチ周波数までピッ
チ周波数が連続的に変化するように、ポルタメント効果
を付与するようになっている。The first speech synthesizer is a device for synthesizing a speech waveform to generate a continuous speech waveform, and is different from the pitch frequency in a steady section of the continuous speech waveform where the pitch frequency is constant. The portamento effect is applied so that the pitch frequency continuously changes up to the pitch frequency, and then the pitch frequency continuously changes up to the original pitch frequency.
【0020】このような構成であれば、音声波形が合成
されて連続音声波形が生成され、連続音声波形のうち定
常区間で、このピッチ周波数とは異なるピッチ周波数ま
でピッチ周波数が連続的に変化し、その後、元のピッチ
周波数までピッチ周波数が連続的に変化するように、ポ
ルタメント効果が付与される。さらに、第2の音声合成
装置は、各音声単位の音声波形を記憶した記憶手段を備
え、楽譜情報および歌詞情報に基づいて音声単位系列を
生成し、生成した音声単位系列の各音声単位に対応する
音声波形を前記記憶手段から読み出し、読み出した音声
波形を合成して連続音声波形を生成する装置であって、
前記連続音声波形のうちピッチ周波数が一定である定常
区間を検出する定常区間検出手段と、前記定常区間検出
手段で検出した定常区間で、当該定常区間におけるピッ
チ周波数とは異なるピッチ周波数までピッチ周波数が連
続的に変化し、その後、元のピッチ周波数までピッチ周
波数が連続的に変化するように、ポルタメント効果を付
与するポルタメント効果付与手段と、を備えた。With such a configuration, a continuous speech waveform is generated by synthesizing the speech waveform, and the pitch frequency continuously changes to a pitch frequency different from this pitch frequency in a steady section of the continuous speech waveform. Thereafter, a portamento effect is applied so that the pitch frequency continuously changes to the original pitch frequency. Further, the second speech synthesizer includes storage means for storing a speech waveform of each speech unit, generates a speech unit sequence based on musical score information and lyrics information, and corresponds to each speech unit of the generated speech unit sequence. An audio waveform to be read from the storage means, and synthesizes the read audio waveform to generate a continuous audio waveform,
A stationary section detecting means for detecting a stationary section in which the pitch frequency is constant in the continuous sound waveform; and a steady section detected by the steady section detecting means, wherein the pitch frequency is different from the pitch frequency in the steady section. A portamento effect imparting means for imparting a portamento effect so that the pitch frequency continuously changes and thereafter the pitch frequency continuously changes to the original pitch frequency.
【0021】このような構成であれば、楽譜情報および
歌詞情報に基づいて音声単位系列が生成され、生成され
た音声単位系列の各音声単位に対応する音声波形が記憶
手段から読み出され、読み出された音声波形が合成され
て連続音声波形が生成される。そして、定常区間検出手
段により、連続音声波形のうち定常区間が検出され、ポ
ルタメント効果付与手段により、検出された定常区間
で、この定常区間におけるピッチ周波数とは異なるピッ
チ周波数までピッチ周波数が連続的に変化し、その後、
元のピッチ周波数までピッチ周波数が連続的に変化する
ように、ポルタメント効果が付与される。With such a configuration, a voice unit sequence is generated based on musical score information and lyrics information, and a voice waveform corresponding to each voice unit of the generated voice unit sequence is read from the storage means. The output speech waveforms are combined to generate a continuous speech waveform. Then, a steady section of the continuous voice waveform is detected by the steady section detecting means, and the pitch frequency is continuously changed to a pitch frequency different from the pitch frequency in the steady section in the detected steady section by the portamento effect imparting means. Change, then
A portamento effect is provided so that the pitch frequency continuously changes to the original pitch frequency.
【0022】さらに、第3の音声合成装置は、上記第2
の音声合成装置において、前記ポルタメント効果付与手
段は、前記楽譜情報に従って演奏される音楽のジャンル
に基づいて、前記異なるピッチ周波数を設定するように
なっている。このような構成であれば、ポルタメント効
果付与手段により、楽譜情報に従って演奏される音楽の
ジャンルに基づいて、異なるピッチ周波数が設定され
る。Further, the third speech synthesizing device is provided with the second speech synthesizing device.
Wherein the portamento effect imparting means sets the different pitch frequency based on a genre of music played according to the musical score information. With such a configuration, different pitch frequencies are set by the portamento effect imparting means based on the genre of the music played in accordance with the musical score information.
【0023】さらに、第4の音声合成装置は、上記第3
の音声合成装置において、前記ポルタメント効果付与手
段は、前記楽譜情報に従って演奏される音楽のジャンル
に基づいて、前記異なるピッチ周波数を、前記元のピッ
チ周波数よりも高いピッチ周波数および低いピッチ周波
数のいずれかに設定するようになっている。このような
構成であれば、ポルタメント効果付与手段により、楽譜
情報に従って演奏される音楽のジャンルに基づいて、異
なるピッチ周波数が、元のピッチ周波数よりも高いピッ
チ周波数および低いピッチ周波数のいずれかに設定され
る。Further, the fourth speech synthesizing device is provided with the third speech synthesizing device.
In the voice synthesizing apparatus, the portamento effect imparting means may change the different pitch frequency based on a genre of music played according to the score information, by using any one of a higher pitch frequency and a lower pitch frequency than the original pitch frequency. Is set to. With such a configuration, the different pitch frequency is set to one of a higher pitch frequency and a lower pitch frequency than the original pitch frequency based on the genre of the music played according to the score information by the portamento effect imparting means. Is done.
【0024】さらに、第5の音声合成装置は、上記第1
ないし第4のいずれかの音声合成装置において、前記ポ
ルタメント効果付与手段は、前記元のピッチ周波数から
前記異なるピッチ周波数までの変化量を示す変化量パラ
メータおよびピッチ周波数の変化開始から変化終了まで
の時間を示す時間パラメータに基づいて、前記ポルタメ
ント効果を付与するようになっている。Further, the fifth speech synthesizing device is provided with the first speech synthesizing device.
In the speech synthesizer according to any one of the fourth to fourth aspects, the portamento effect imparting means may include a change amount parameter indicating a change amount from the original pitch frequency to the different pitch frequency, and a time from the start to the end of the change of the pitch frequency. The portamento effect is provided based on a time parameter indicating
【0025】このような構成であれば、ポルタメント効
果付与手段により、変化量パラメータおよび時間パラメ
ータに基づいて、ポルタメント効果が付与される。さら
に、第6の音声合成装置は、上記第1ないし第5のいず
れかの音声合成装置において、前記連続音声波形のうち
ピッチ周波数が変化する区間を検出する区間検出手段
と、前記区間検出手段で検出した区間で、変化前のピッ
チ周波数から変化後のピッチ周波数までピッチ周波数が
連続的に変化するように、ポルタメント効果を付与する
第2のポルタメント効果付与手段と、を備え、前記第2
のポルタメント効果付与手段は、変化の前後にわたるピ
ッチ周波数の変化量を示す変化量パラメータおよびピッ
チ周波数の変化開始から変化終了までの時間を示す時間
パラメータに基づいて、前記ポルタメント効果を付与す
るようになっている。With such a configuration, the portamento effect is given by the portamento effect giving means based on the change amount parameter and the time parameter. Further, a sixth speech synthesizer according to any one of the first to fifth speech synthesizers, wherein the section detection means for detecting a section of the continuous speech waveform in which a pitch frequency changes, and the section detection means. A second portamento effect imparting means for imparting a portamento effect so that the pitch frequency continuously changes from the pitch frequency before the change to the pitch frequency after the change in the detected section;
The portamento effect applying means is configured to apply the portamento effect based on a change amount parameter indicating a change amount of the pitch frequency before and after the change and a time parameter indicating a time from the start to the end of the change of the pitch frequency. ing.
【0026】このような構成であれば、区間検出手段に
より、連続音声波形のうちピッチ周波数が変化する区間
が検出され、第2のポルタメント効果付与手段により、
変化量パラメータおよび時間パラメータに基づいて、検
出された区間で、変化前のピッチ周波数から変化後のピ
ッチ周波数までピッチ周波数が連続的に変化するよう
に、ポルタメント効果が付与される。With such a configuration, the section in which the pitch frequency changes in the continuous voice waveform is detected by the section detecting means, and the second portamento effect applying means detects the section in which the pitch frequency changes.
Based on the change amount parameter and the time parameter, the portamento effect is applied so that the pitch frequency continuously changes from the pitch frequency before the change to the pitch frequency after the change in the detected section.
【0027】[0027]
【発明の実施の形態】以下、本発明の第1の実施の形態
を図面を参照しながら説明する。図1ないし図3は、本
発明に係る音声合成方法の実施の形態を示す図である。
まず、本発明に係る音声合成方法を実施するためのシス
テムの構成を図1および図2を参照しながら説明する。
図1は、本発明に係る音声合成方法を実施するためのシ
ステムの構成を示す機能ブロック図であり、図2は、原
音声波形、代表波形および補間音声波形の例を示す図で
ある。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, a first embodiment of the present invention will be described with reference to the drawings. 1 to 3 are diagrams showing an embodiment of a speech synthesis method according to the present invention.
First, a configuration of a system for implementing a speech synthesis method according to the present invention will be described with reference to FIGS.
FIG. 1 is a functional block diagram showing a configuration of a system for implementing a speech synthesis method according to the present invention, and FIG. 2 is a diagram showing examples of an original speech waveform, a representative waveform, and an interpolated speech waveform.
【0028】このシステムは、音声波形の分析および蓄
積を行う分析部11と、音声波形の合成を行う合成部2
1と、で構成されている。分析部11は、最適な音声波
形のピーク位置を検出する最適波形ピーク位置検出回路
14と、波形ピーク近傍の音声波形を切り出すピーク近
傍波形切出回路15と、代表波形およびラベリング情報
を記憶する代表波形記憶装置16と、で構成されてい
る。This system comprises an analyzing section 11 for analyzing and storing an audio waveform, and a synthesizing section 2 for synthesizing an audio waveform.
And 1. The analysis unit 11 includes an optimum waveform peak position detection circuit 14 for detecting an optimum audio waveform peak position, a peak vicinity waveform extraction circuit 15 for extracting an audio waveform near a waveform peak, and a representative memory for storing a representative waveform and labeling information. And a waveform storage device 16.
【0029】最適波形ピーク位置検出回路14は、音声
入力端子12から原音声波形と、ラベリング情報入力端
子13から音韻ラベリング情報と、を入力し、入力した
原音声波形を視察によって音韻ごとに区分化し、音韻情
報と位置情報とを付加するようになっている。ピーク近
傍波形切出回路15は、最適波形ピーク位置検出回路1
4から音声波形を入力し、音声波形に付加されている音
韻情報と位置情報とに基づいて、各音韻ごとに、音声波
形のうち3個程度の代表波形に対してその近傍のピーク
位置を検出し、検出したピーク位置を中心とする波形を
切り出し、これを代表波形としてその位置情報や音韻情
報とともに代表波形記憶装置16に蓄積するようになっ
ている。例えば、図2Aに示すように、1つの音韻を構
成する原音声波形列P1、P2、P3、…、Pm、…を入力
したときに、これらから図2Bに示すように異なる時点
の3個の代表波形P1、Pm、Pnを抽出する。The optimum waveform peak position detecting circuit 14 receives the original speech waveform from the speech input terminal 12 and the phoneme labeling information from the labeling information input terminal 13 and classifies the inputted original speech waveform into phonemes by inspection. , Phoneme information and position information are added. The near-peak waveform extracting circuit 15 includes an optimum waveform peak position detecting circuit 1.
4, a speech waveform is input, and based on the phoneme information and position information added to the speech waveform, a peak position in the vicinity of about three representative waveforms of the speech waveform is detected for each phoneme. Then, a waveform centered on the detected peak position is cut out, and this is stored as a representative waveform in the representative waveform storage device 16 together with its position information and phoneme information. For example, as shown in FIG. 2A, when an original speech waveform sequence P 1 , P 2 , P 3 ,..., P m ,. Are extracted from the three representative waveforms P 1 , P m , and P n .
【0030】合成部21は、音声波形を代表波形記憶装
置16から読み出す波形読出回路24と、音声波形を補
間するピッチ同期補間回路25と、音声波形の接続およ
び合成を行って連続音声波形を生成する合成回路27
と、歌詞情報および楽譜情報を解析する解析回路23
と、楽譜情報を記憶した楽譜情報記憶装置28と、韻律
情報生成回路26と、連続音声波形にポルタメント効果
を付与するポルタメント効果付与回路29と、で構成さ
れている。The synthesizing section 21 generates a continuous audio waveform by connecting and synthesizing the audio waveform, and a waveform readout circuit 24 for reading the audio waveform from the representative waveform storage device 16, a pitch synchronous interpolation circuit 25 for interpolating the audio waveform. Synthesis circuit 27
And an analysis circuit 23 for analyzing lyrics information and score information
And a musical score information storage device 28 storing musical score information, a prosody information generating circuit 26, and a portamento effect imparting circuit 29 for imparting a portamento effect to the continuous voice waveform.
【0031】解析回路23は、歌詞情報入力端子22か
ら歌詞情報を入力するとともに、楽譜情報を楽譜情報記
憶装置28から読み出し、入力した歌詞情報および読み
出した楽譜情報を解析して音韻単位の集合からなる音韻
単位系列を生成し、生成した音韻単位系列を波形読出回
路24および韻律情報生成回路26に出力するようにな
っている。歌詞情報および楽譜情報を解析する方法は、
例えば、特開平7-146695号公報に開示された方法を用い
ることができる。The analysis circuit 23 inputs the lyrics information from the lyrics information input terminal 22, reads the music score information from the music score information storage device 28, analyzes the input lyrics information and the read music score information, and analyzes the music data from the set of phoneme units. A phoneme unit sequence is generated, and the generated phoneme unit sequence is output to the waveform readout circuit 24 and the prosody information generation circuit 26. How to analyze lyrics information and score information
For example, a method disclosed in JP-A-7-146695 can be used.
【0032】波形読出回路24は、解析回路23からの
音韻単位系列の各音韻単位に対応する代表波形を代表波
形記憶装置16から読み出し、読み出した代表波形をピ
ッチ同期補間回路25に出力するようになっている。韻
律情報生成回路26は、解析回路23からの音韻単位系
列に基づいて、音韻単位系列の各音韻単位に対応する代
表波形を合成するときの合成ピッチ周期および接続時間
を算出し、算出した合成ピッチ周期および接続時間をピ
ッチ同期補間回路25に出力するようになっている。The waveform reading circuit 24 reads a representative waveform corresponding to each phoneme unit of the phoneme unit sequence from the analysis circuit 23 from the representative waveform storage device 16 and outputs the read representative waveform to the pitch synchronous interpolation circuit 25. Has become. The prosody information generation circuit 26 calculates a synthetic pitch cycle and a connection time when synthesizing a representative waveform corresponding to each phoneme unit of the phoneme unit sequence based on the phoneme unit sequence from the analysis circuit 23, and calculates the calculated synthetic pitch. The period and the connection time are output to the pitch synchronous interpolation circuit 25.
【0033】ピッチ同期補間回路25は、韻律情報生成
回路26からの合成ピッチ周期および接続時間に基づい
て、波形読出回路24からの代表波形間の音声波形をそ
の合成ピッチ周期と同期して補間し、一ピッチごとに重
ね合わせて得る。このときのピッチごとの重ね合わせ窓
形状は、台形窓や余弦関数窓などを用いることができ
る。The pitch synchronous interpolation circuit 25 interpolates the voice waveform between the representative waveforms from the waveform readout circuit 24 in synchronization with the synthesized pitch cycle based on the synthesized pitch cycle and the connection time from the prosody information generating circuit 26. , Obtained by superposing every pitch. At this time, a trapezoidal window, a cosine function window, or the like can be used as the overlapping window shape for each pitch.
【0034】例えば、図2Bに示す代表波形P1、Pmを
入力し、合成ピッチ周期Tpおよび持続時間Lを入力し
たときに、代表波形P1とPmとの間の時間をLとし、合
成ピッチ周期Tpごとに両波形P1とPmとの間を下式
(1)により補間し、合成波形P1m(0)、P1m(1)、P
1m(2)…P1m(k)の合成波形を得る。 P1m(i)=P1×α(i)+Pm×β(i) (1 ) ここで、P1m(0)=P1,P1m(k)=Pmであり、α(i)
およびβ(i)は、代表波形P1およびPmに対する重み
係数でそれぞれ下式(2),(3)で表わされる。For example, when the representative waveforms P 1 and P m shown in FIG. 2B are input and the synthetic pitch period T p and the duration L are input, the time between the representative waveforms P 1 and P m is set to L. , Between the two waveforms P 1 and P m for each synthesized pitch period T p by the following equation (1), and the synthesized waveforms P 1m (0), P 1m (1), P
1m (2)... A composite waveform of P 1m (k) is obtained. P 1m (i) = P 1 × α (i) + P m × β (i) (1) where P 1m (0) = P 1 , P 1m (k) = P m and α (i)
And β (i) are weighting factors for the representative waveforms P 1 and P m and are represented by the following equations (2) and (3), respectively.
【0035】 α(i)=0.5×〔1+cos {π×(L−Ti)/L}〕 (2) β(i)=1−α(i) (3) ここで、iは、合成波形番号、Tiは、P1m(0)からP
1m(i)の時間間隔、Lは、合成波形P1とPmにおける時
間間隔を示す。このように、各代表波形内が補間された
補間音声波形は、合成回路27に出力される。Α (i) = 0.5 × [1 + cos {π × (L−Ti) / L}] (2) β (i) = 1−α (i) (3) where i is a composite Waveform number and Ti are calculated from P 1m (0) to P
Time interval 1 m (i), L indicates the time interval of the synthesized waveform P 1 and P m. In this way, the interpolated voice waveforms in which the representative waveforms are interpolated are output to the synthesis circuit 27.
【0036】合成回路27は、ピッチ同期補間回路25
から入力した各音韻ごとの補間音声波形を順次接続して
合成することにより、連続音声波形を生成し、生成した
連続音声波形をポルタメント効果付与回路29に出力す
るようになっている。次に、ポルタメント効果付与回路
29の構成を図3および図4を参照しながら説明する。
図3は、ポルタメント効果付与回路29で実行される処
理を示すフローチャートであり、ポルタメント効果付与
回路29で処理された連続音声波形の例を示す図であ
る。The synthesizing circuit 27 includes a pitch synchronous interpolation circuit 25
A continuous speech waveform is generated by sequentially connecting and synthesizing the interpolated speech waveforms for each phoneme input from, and the generated continuous speech waveform is output to the portamento effect imparting circuit 29. Next, the configuration of the portamento effect imparting circuit 29 will be described with reference to FIGS.
FIG. 3 is a flowchart illustrating processing executed by the portamento effect imparting circuit 29, and is a diagram illustrating an example of a continuous sound waveform processed by the portamento effect imparting circuit 29.
【0037】ポルタメント効果付与回路29は、連続音
声波形を合成回路27から入力し、入力した連続音声波
形に次の2つの方法でポルタメント効果を付与する。第
1に、連続音声波形のうちピッチ周波数が一定である定
常区間で、このピッチ周波数とは異なるピッチ周波数ま
でピッチ周波数が連続的に変化し、その後、元のピッチ
周波数までピッチ周波数が連続的に変化するように、ポ
ルタメント効果を付与する。このとき、ポルタメント効
果の付与は、変化量パラメータΔD2および時間パラメ
ータT2に基づいて行う。The portamento effect applying circuit 29 receives the continuous sound waveform from the synthesizing circuit 27 and applies the portamento effect to the input continuous sound waveform by the following two methods. First, in a continuous section of a continuous voice waveform in which the pitch frequency is constant, the pitch frequency continuously changes to a pitch frequency different from this pitch frequency, and then the pitch frequency continuously changes to the original pitch frequency. Gives a portamento effect so that it changes. At this time, the application of the portamento effect is performed based on the change amount parameter ΔD2 and the time parameter T2.
【0038】ここで、変化量パラメータΔD2は、図4
(現在の音符の部分)に示すように、連続音声波形にお
いて、元のピッチ周波数をD、異なるピッチ周波数をD
2とすると、ピッチ周波数Dからピッチ周波数D2までの
変化量で示される。また、時間パラメータT2は、ピッ
チ周波数Dからピッチ周波数D2までピッチ周波数が変
化するのに要する時間で示される。なお、ピッチ周波数
D2からピッチ周波数Dまでピッチ周波数が変化するの
に要する時間は、ピッチ周波数Dからピッチ周波数D2
までピッチ周波数が変化するのに要する時間と同一に設
定する。Here, the change amount parameter ΔD2 is calculated as shown in FIG.
As shown in (current note portion), in the continuous voice waveform, the original pitch frequency is D, and the different pitch frequency is D.
If it is 2, it is indicated by the amount of change from the pitch frequency D to the pitch frequency D2. The time parameter T2 is indicated by the time required for the pitch frequency to change from the pitch frequency D to the pitch frequency D2. The time required for the pitch frequency to change from the pitch frequency D2 to the pitch frequency D is the pitch frequency D to the pitch frequency D2.
Up to the time required for the pitch frequency to change.
【0039】第2に、連続音声波形のうちピッチ周波数
が変化する区間で、変化前のピッチ周波数から変化後の
ピッチ周波数までピッチ周波数が連続的に変化するよう
に、ポルタメント効果を付与する。このとき、ポルタメ
ント効果の付与は、変化前のピッチ周波数が変化後のピ
ッチ周波数よりも大きいときは、変化量パラメータΔD
1および時間パラメータT1に基づいて行い、変化前のピ
ッチ周波数が変化後のピッチ周波数よりも小さいとき
は、変化量パラメータΔD3および時間パラメータT3に
基づいて行う。Second, a portamento effect is provided so that the pitch frequency changes continuously from the pitch frequency before the change to the pitch frequency after the change in the section of the continuous voice waveform where the pitch frequency changes. At this time, when the pitch frequency before the change is higher than the pitch frequency after the change, the change amount parameter ΔD
1 and the time parameter T1, and when the pitch frequency before the change is smaller than the pitch frequency after the change, the process is performed based on the change amount parameter ΔD3 and the time parameter T3.
【0040】ここで、変化量パラメータΔD1は、図4
(直前の音符から現在の音符に変化する部分)に示すよう
に、連続音声波形において、変化前のピッチ周波数をD
1、変化後のピッチ周波数をDとすると、ピッチ周波数
D1からピッチ周波数Dまでの変化量で示される。ま
た、時間パラメータT1は、ピッチ周波数D1からピッチ
周波数Dまでピッチ周波数が変化するのに要する時間で
示される。Here, the change amount parameter ΔD1 is calculated as shown in FIG.
In the continuous voice waveform, the pitch frequency before the change is represented by D
1. Assuming that the pitch frequency after the change is D, the pitch frequency is represented by the amount of change from the pitch frequency D1 to the pitch frequency D. The time parameter T1 is indicated by the time required for the pitch frequency to change from the pitch frequency D1 to the pitch frequency D.
【0041】また、変化量パラメータΔD3は、図4(現
在の音符から後続の音符に変化する部分)に示すよう
に、連続音声波形において、変化前のピッチ周波数を
D、変化後のピッチ周波数をD3とすると、ピッチ周波
数Dからピッチ周波数D3までの変化量で示される。ま
た、時間パラメータT3は、ピッチ周波数Dからピッチ
周波数D3までピッチ周波数が変化するのに要する時間
で示される。Further, as shown in FIG. 4 (the portion where the current note changes to a subsequent note), the change amount parameter ΔD3 represents the pitch frequency before the change and the pitch frequency after the change in the continuous voice waveform. Assuming that D3, the change amount from the pitch frequency D to the pitch frequency D3 is indicated. Further, the time parameter T3 is indicated by a time required for the pitch frequency to change from the pitch frequency D to the pitch frequency D3.
【0042】このしたポルタメント効果を付与するた
め、ポルタメント効果付与回路29は、具体的に、図3
のフローチャートに示す処理を実行するようになってい
る。この処理を説明すると、まず、ステップS100に
移行して、連続音声波形のうちピッチ周波数が一定であ
る定常区間を検出したか否かを判定し、定常区間を検出
したと判定されたとき(Yes)は、ステップS102に移
行して、変化量パラメータΔD2および時間パラメータ
T2を入力する。ここで、変化量パラメータΔD2および
時間パラメータT2は、利用者が連続音声波形を視察し
ながら適当な値として入力してもよいし、変化量パラメ
ータΔD2および時間パラメータT2をあらかじめ登録し
たテーブル等から読み込むことにより入力してもよい。
以下、ステップS114,S120において同じであ
る。In order to provide the portamento effect described above, the portamento effect application circuit 29 is specifically shown in FIG.
The processing shown in the flowchart of FIG. The process will be described. First, the process proceeds to step S100, in which it is determined whether or not a steady section in which the pitch frequency is constant is detected in the continuous voice waveform, and when it is determined that the steady section has been detected (Yes ) Shifts to step S102 to input the change amount parameter ΔD2 and the time parameter T2. Here, the change amount parameter ΔD2 and the time parameter T2 may be input as appropriate values while the user observes the continuous sound waveform, or the change amount parameter ΔD2 and the time parameter T2 are read from a table or the like registered in advance. May be input.
Hereinafter, the same applies to steps S114 and S120.
【0043】次いで、ステップS104に移行して、楽
譜情報に従って演奏される音楽のジャンルを入力する。
ここで、音楽のジャンルは、利用者が直接入力してもよ
いし、楽譜情報記憶装置28から読み出すことにより入
力してもよい。次いで、ステップS106に移行して、
入力した音楽のジャンルに基づいて、変化量パラメータ
ΔD2を、定常区間におけるピッチ周波数よりも高いピ
ッチ周波数および低いピッチ周波数のいずれかに設定
し、ステップS108に移行して、入力した変化量パラ
メータΔD2および時間パラメータT2に基づいて、連続
音声波形のうち定常区間で上記第1のポルタメント効果
を付与し、ステップS110に移行する。Next, the flow shifts to step S104, where the genre of the music to be performed according to the musical score information is input.
Here, the music genre may be input directly by the user, or may be input by reading from the musical score information storage device 28. Next, the process proceeds to step S106,
Based on the input music genre, the change amount parameter ΔD2 is set to one of a higher pitch frequency and a lower pitch frequency than the pitch frequency in the steady section, and the process proceeds to step S108 to input the change amount parameter ΔD2 and On the basis of the time parameter T2, the first portamento effect is given in the steady section of the continuous sound waveform, and the flow shifts to step S110.
【0044】ステップS110では、連続音声波形のう
ちピッチ周波数が変化する区間を検出したか否かを判定
し、ピッチ周波数が変化する区間を検出したと判定され
たとき(Yes)は、ステップS112に移行して、変化前
のピッチ周波数が変化後のピッチ周波数よりも大きいか
否かを判定し、変化前のピッチ周波数のほうが大きいと
判定されたとき(Yes)は、ステップS114に移行す
る。In step S110, it is determined whether or not a section in which the pitch frequency changes in the continuous voice waveform is detected. If it is determined that the section in which the pitch frequency changes is detected (Yes), the process proceeds to step S112. Then, it is determined whether or not the pitch frequency before the change is higher than the pitch frequency after the change. When it is determined that the pitch frequency before the change is higher (Yes), the process proceeds to step S114.
【0045】ステップS114では、変化量パラメータ
ΔD1および時間パラメータT1を入力し、ステップS1
16に移行して、入力した変化量パラメータΔD1およ
び時間パラメータT1に基づいて、連続音声波形のうち
ピッチ周波数が変化する区間で上記第2のポルタメント
効果を付与し、ステップS118に移行する。ステップ
S118では、連続音声波形のすべての区間について処
理が終了したか否かを判定し、すべての区間について処
理が終了したと判定されたとき(Yes)は、一連の処理を
終了するが、そうでないと判定されたとき(No)は、ステ
ップS100に移行する。In step S114, a change amount parameter ΔD1 and a time parameter T1 are input, and step S1 is executed.
The process proceeds to S16, where the second portamento effect is provided in a section where the pitch frequency changes in the continuous speech waveform based on the input change amount parameter ΔD1 and time parameter T1, and the process proceeds to S118. In step S118, it is determined whether or not the processing has been completed for all the sections of the continuous sound waveform. When it is determined that the processing has been completed for all the sections (Yes), a series of processing is completed. If it is determined that it is not (No), the process proceeds to step S100.
【0046】一方、ステップS112で、変化前のピッ
チ周波数のほうが小さいと判定されたとき(No)は、ステ
ップS120に移行して、変化量パラメータΔD3およ
び時間パラメータT3を入力し、ステップS122に移
行して、入力した変化量パラメータΔD3および時間パ
ラメータT3に基づいて、連続音声波形のうちピッチ周
波数が変化する区間で上記第2のポルタメント効果を付
与し、ステップS118に移行する。On the other hand, if it is determined in step S112 that the pitch frequency before the change is smaller (No), the flow shifts to step S120 to input the change amount parameter ΔD3 and the time parameter T3, and shift to step S122. Then, based on the input change amount parameter ΔD3 and time parameter T3, the second portament effect is applied in a section where the pitch frequency changes in the continuous sound waveform, and the process proceeds to step S118.
【0047】一方、ステップS110で、ピッチ周波数
が変化する区間を検出しないと判定されたとき(No)は、
ステップS118に移行する。一方、ステップS100
で、定常区間を検出しないと判定されたとき(No)は、ス
テップS110に移行する。次に、上記実施の形態の動
作を説明する。On the other hand, when it is determined in step S110 that the section in which the pitch frequency changes is not detected (No),
The process moves to step S118. On the other hand, step S100
When it is determined that the stationary section is not detected (No), the process proceeds to step S110. Next, the operation of the above embodiment will be described.
【0048】まず、音声波形の分析および蓄積を行う場
合について説明する。音声波形の分析および蓄積を行う
場合は、利用者が、音声入力端子12から原音声波形
と、ラベリング情報入力端子13から音韻ラベリング情
報と、を最適波形ピーク位置検出回路14に入力する。
最適波形ピーク位置検出回路14では、原音声波形およ
び音韻ラベリング情報が入力されると、原音声波形が視
察によって音韻ごとに区分化され、音韻情報と位置情報
とが付加され、ピーク近傍波形切出回路15に出力され
る。ピーク近傍波形切出回路15では、音声波形に付加
されている音韻情報と位置情報とに基づいて、各音韻ご
とに、代表波形に対してその近傍のピーク位置が検出さ
れ、検出されたピーク位置を中心とする波形が切り出さ
れ、これが代表波形としてその位置情報や音韻情報とと
もに代表波形記憶装置16に蓄積される。First, the case of analyzing and storing a speech waveform will be described. When analyzing and storing the voice waveform, the user inputs the original voice waveform from the voice input terminal 12 and the phoneme labeling information from the labeling information input terminal 13 to the optimum waveform peak position detection circuit 14.
In the optimum waveform peak position detection circuit 14, when the original speech waveform and the phoneme labeling information are input, the original speech waveform is segmented for each phoneme by inspection, the phoneme information and the position information are added, and the waveform near the peak is cut out. Output to the circuit 15. The near-peak waveform extracting circuit 15 detects a peak position in the vicinity of the representative waveform for each phoneme based on the phoneme information and the position information added to the speech waveform, and detects the detected peak position. Is extracted and stored as a representative waveform in the representative waveform storage device 16 together with its position information and phoneme information.
【0049】次に、音声波形の合成を行う場合について
説明する。音声波形の分析および蓄積を行う場合は、利
用者が、歌詞情報入力端子22から歌詞情報と、楽譜情
報の読出を指示することにより楽譜情報記憶装置28か
ら楽譜情報と、を解析回路23に入力する。解析回路2
3では、歌詞情報および楽譜情報が入力されると、歌詞
情報および楽譜情報が解析されて音韻単位系列が生成さ
れ、生成された音韻単位系列が波形読出回路24および
韻律情報生成回路26に出力される。Next, the case of synthesizing a speech waveform will be described. When analyzing and storing the voice waveform, the user inputs the lyric information from the lyric information input terminal 22 and the score information from the score information storage device 28 to the analysis circuit 23 by instructing the reading of the score information. I do. Analysis circuit 2
In 3, when the lyric information and the musical score information are input, the lyric information and the musical score information are analyzed to generate a phoneme unit sequence, and the generated phoneme unit sequence is output to the waveform reading circuit 24 and the prosody information generating circuit 26. You.
【0050】波形読出回路24では、音韻単位系列が入
力されると、音韻単位系列の各音韻単位に対応する代表
波形が代表波形記憶装置16から読み出され、読み出さ
れた代表波形がピッチ同期補間回路25に出力される。
一方、韻律情報生成回路26では、音韻単位系列が入力
されると、音韻単位系列に基づいて、合成ピッチ周期お
よび接続時間が算出され、算出された合成ピッチ周期お
よび接続時間がピッチ同期補間回路25に出力される。In the waveform reading circuit 24, when a phoneme unit sequence is input, a representative waveform corresponding to each phoneme unit of the phoneme unit sequence is read from the representative waveform storage device 16, and the read representative waveform is pitch-synchronized. Output to the interpolation circuit 25.
On the other hand, in the prosody information generation circuit 26, when the phoneme unit sequence is input, the synthesized pitch period and connection time are calculated based on the phoneme unit sequence, and the calculated synthesized pitch period and connection time are calculated by the pitch synchronous interpolation circuit 25. Is output to
【0051】ピッチ同期補間回路25では、代表波形、
合成ピッチ周期および接続時間が入力されると、合成ピ
ッチ周期および接続時間に基づいて、代表波形間の音声
波形がその合成ピッチ周期と同期して補間され、一ピッ
チごとに重ね合わせられた補間音声波形が合成回路27
に出力される。合成回路27では、補間音声波形が入力
されると、補間音声波形が順次接続されて合成されるこ
とにより、連続音声波形が生成され、生成された連続音
声波形がポルタメント効果付与回路29に出力される。In the pitch synchronous interpolation circuit 25, a representative waveform,
When the synthetic pitch period and the connection time are input, the interpolated voice is interpolated in synchronism with the synthetic pitch period based on the synthetic pitch period and the connection time, based on the synthetic pitch period and the connection time, and superimposed for each pitch. Waveform is synthesized circuit 27
Is output to In the synthesis circuit 27, when the interpolated voice waveform is input, the interpolated voice waveforms are sequentially connected and synthesized to generate a continuous voice waveform, and the generated continuous voice waveform is output to the portamento effect imparting circuit 29. You.
【0052】ポルタメント効果付与回路29では、例え
ば、図4に示すような連続音声波形が入力されると、ま
ず、ステップS110〜S116を経て、ピッチ周波数
D1からピッチ周波数Dにピッチ周波数が変化する区間
が検出され、変化量パラメータΔD1および時間パラメ
ータT1に基づいて、検出された区間で上記第2のポル
タメント効果が付与される。その結果、図4右側に示す
ように、ピッチ周波数D1からピッチ周波数Dまでピッ
チ周波数が時間T1をかけて連続的に滑らかに変化す
る。この連続的な曲線は、例えば、正弦波形で近似され
る。In the portamento effect imparting circuit 29, for example, when a continuous sound waveform as shown in FIG. 4 is input, first, through steps S110 to S116, a section in which the pitch frequency changes from the pitch frequency D1 to the pitch frequency D is performed. Is detected, and the second portamento effect is applied in the detected section based on the change amount parameter ΔD1 and the time parameter T1. As a result, as shown on the right side of FIG. 4, the pitch frequency continuously and smoothly changes from the pitch frequency D1 to the pitch frequency D over time T1. This continuous curve is approximated by, for example, a sine waveform.
【0053】次いで、ステップS100〜S108を経
て、ピッチ周波数がDとなる定常区間が検出され、変化
量パラメータΔD2および時間パラメータT2に基づい
て、検出された定常区間で上記第1のポルタメント効果
が付与される。その結果、図4中央に示すように、ピッ
チ周波数Dからピッチ周波数D2までピッチ周波数が時
間T2をかけて連続的に滑らかに変化し、その後、ピッ
チ周波数D2からピッチ周波数Dまでピッチ周波数が時
間T2をかけて連続的に滑らかに変化する。この連続的
な曲線は、例えば、正弦波形で近似される。なお、図4
では、連続的な曲線が凸型となっているが、音楽のジャ
ンルによっては、これが凹型となることもある。Then, through steps S100 to S108, a stationary section in which the pitch frequency becomes D is detected, and the first portamento effect is applied in the detected stationary section based on the variation parameter ΔD2 and the time parameter T2. Is done. As a result, as shown in the center of FIG. 4, the pitch frequency continuously changes smoothly from the pitch frequency D to the pitch frequency D2 over the time T2, and thereafter, the pitch frequency changes from the pitch frequency D2 to the pitch frequency D at the time T2. And change continuously and smoothly. This continuous curve is approximated by, for example, a sine waveform. FIG.
, The continuous curve is convex, but depending on the genre of music, this may be concave.
【0054】そして最後に、ステップS110,S11
2,S120,S122を経て、ピッチ周波数Dからピ
ッチ周波数D3にピッチ周波数が変化する区間が検出さ
れ、変化量パラメータΔD3および時間パラメータT3に
基づいて、検出された区間で上記第2のポルタメント効
果が付与される。その結果、図4左側に示すように、ピ
ッチ周波数Dからピッチ周波数D3までピッチ周波数が
時間T3をかけて連続的に滑らかに変化する。この連続
的な曲線は、例えば、正弦波形で近似される。Finally, steps S110 and S11
2, S120 and S122, a section in which the pitch frequency changes from the pitch frequency D to the pitch frequency D3 is detected, and the second portamental effect is detected in the detected section based on the change amount parameter ΔD3 and the time parameter T3. Granted. As a result, as shown on the left side of FIG. 4, the pitch frequency continuously and smoothly changes from the pitch frequency D to the pitch frequency D3 over time T3. This continuous curve is approximated by, for example, a sine waveform.
【0055】このようにして、本実施の形態では、連続
音声波形のうちピッチ周波数が一定である定常区間で、
このピッチ周波数とは異なるピッチ周波数までピッチ周
波数が連続的に変化し、その後、元のピッチ周波数まで
ピッチ周波数が連続的に変化するように、ポルタメント
効果を付与するようにした。これにより、連続音声波形
による歌声が比較的自然に聞こえ、温かみのある本物の
歌声に近い響きとなる。したがって、従来に比して、自
然な響きを伴った連続音声波形を再生することができ
る。As described above, in the present embodiment, in the steady period where the pitch frequency is constant in the continuous speech waveform,
The portamento effect is applied so that the pitch frequency changes continuously to a pitch frequency different from the pitch frequency, and then changes continuously to the original pitch frequency. As a result, the singing voice of the continuous voice waveform sounds relatively natural and resembles a warm real singing voice. Therefore, a continuous sound waveform with a natural sound can be reproduced as compared with the related art.
【0056】さらに、本実施の形態では、楽譜情報に従
って演奏される音楽のジャンルに基づいて、異なるピッ
チ周波数を、元のピッチ周波数よりも高いピッチ周波数
および低いピッチ周波数のいずれかに設定するようにし
た。これにより、音楽のジャンルによっては、連続音声
波形による歌声が不自然に聞こえ、温かみのある本物の
歌声とはかけ離れた機械的な響きになるという不具合を
ある程度是正することができる。したがって、従来に比
して、音楽のジャンルによらず、自然な響きを伴った連
続音声波形を再生することができる。Further, in the present embodiment, different pitch frequencies are set to one of a higher pitch frequency and a lower pitch frequency than the original pitch frequency based on the genre of music played according to the musical score information. did. As a result, depending on the music genre, it is possible to correct to some extent the disadvantage that the singing voice due to the continuous voice waveform sounds unnatural and has a mechanical sound that is far from the warm real singing voice. Therefore, a continuous sound waveform with a natural sound can be reproduced irrespective of the music genre as compared with the related art.
【0057】さらに、本実施の形態では、変化量パラメ
ータD2および時間パラメータT2に基づいて、上記第1
のポルタメント効果を付与するようにした。これによ
り、利用者が連続音声波形にポルタメント効果を直接付
与する場合には、変化量パラメータD2および時間パラ
メータT2の2つのパラメータを入力するだけでよく、
基本周波数に関する操作を行わなくてもすむ。したがっ
て、従来に比して、ポルタメント効果を付与するための
操作を容易に行うことができる。Further, in this embodiment, the first parameter is determined based on the variation parameter D2 and the time parameter T2.
Now has a portamento effect. Accordingly, when the user directly applies the portamento effect to the continuous sound waveform, it is only necessary to input two parameters, the change amount parameter D2 and the time parameter T2.
It is not necessary to perform the operation related to the fundamental frequency. Therefore, an operation for imparting the portamento effect can be easily performed as compared with the related art.
【0058】さらに、本実施の形態では、変化量パラメ
ータD1および時間パラメータT1、または変化量パラメ
ータD3および時間パラメータT3に基づいて、上記第2
のポルタメント効果を付与するようにした。これによ
り、利用者が連続音声波形にポルタメント効果を直接付
与する場合には、変化量パラメータD1および時間パラ
メータT1、または変化量パラメータD3および時間パラ
メータT3の2つのパラメータを入力するだけでよく、
基本周波数に関する操作を行わなくてもすむ。したがっ
て、ポルタメント効果を付与するための操作をさらに容
易に行うことができる。Further, in the present embodiment, based on the change amount parameter D1 and the time parameter T1, or the change amount parameter D3 and the time parameter T3, the second
Now has a portamento effect. Thus, when the user directly applies the portamento effect to the continuous sound waveform, it is only necessary to input two parameters, the change amount parameter D1 and the time parameter T1, or the change amount parameter D3 and the time parameter T3.
It is not necessary to perform the operation related to the fundamental frequency. Therefore, the operation for providing the portamento effect can be performed more easily.
【0059】さらに、本実施の形態では、音声波形の異
なる時点から抽出した複数個の代表波形から、与えられ
たピッチ周期と持続時間とに従ってその代表波形間の音
声波形をこれら代表波形の補間をして連続音声を合成す
るようにした。これにより、代表波形を用いることによ
り音声波形情報を能率良く圧縮再生できるため、波形編
集形音声合成方式において記憶容量を大幅に削減でき、
かつ伝送/蓄積で高能率符号化することができ、しか
も、高品質の連続音声波形を得ることができる。また、
音声波形の補間処理をピッチ周期に同期して行い、かつ
接続時間を選ぶことにより原音声波形の品質を劣化させ
ることなく発声速度や音声の高低の制御が可能である。Further, in the present embodiment, from a plurality of representative waveforms extracted from different points in the audio waveform, the audio waveform between the representative waveforms is interpolated according to a given pitch period and duration. To synthesize continuous speech. As a result, since the audio waveform information can be efficiently compressed and reproduced by using the representative waveform, the storage capacity can be significantly reduced in the waveform editing type speech synthesis method.
In addition, high-efficiency encoding can be performed by transmission / storage, and a high-quality continuous speech waveform can be obtained. Also,
By performing the interpolation processing of the audio waveform in synchronization with the pitch cycle and selecting the connection time, it is possible to control the utterance speed and the level of the audio without deteriorating the quality of the original audio waveform.
【0060】なお、上記実施の形態においては、音楽の
ジャンルに基づいて、変化量パラメータΔD2を、定常
区間におけるピッチ周波数よりも高いピッチ周波数およ
び低いピッチ周波数のいずれかに設定するように構成し
たが、これに限らず、例えば、音楽のジャンルに応じて
変化量パラメータΔD2の値を設定するように構成して
もよい。In the above embodiment, the change amount parameter ΔD2 is set to one of a higher pitch frequency and a lower pitch frequency than the pitch frequency in the stationary section based on the music genre. However, the present invention is not limited to this. For example, the value of the change amount parameter ΔD2 may be set according to the genre of music.
【0061】また、上記実施の形態においては、重み係
数α(i)として上式(2)に示すものを用いて構成し
たが、これに限らず、重み係数α(i)として下式
(4)に示すものを用いて構成することもできる。 α(i)=(L−Ti)/L (4) また、上記実施の形態においては、音韻を単位とする音
声合成方式を例として説明したが、音節などその他の合
成単位に基づく音声合成でも利用可能であることは明ら
かである。さらに、この発明は、音声の高能率符号化に
おける音声合成にも適用することができる。つまり、図
2Bにおける代表波形のみを符号化して伝送、または記
憶し、伝送路または記憶装置における情報圧縮をはか
り、受信側または記憶読出側で前述したこの発明方法に
従って音声合成することで分析合成音が得られる。さら
に、波形編集音声合成の場合は、全合成単位について得
られた全体の代表波形をベクトル量子化手法などのクラ
スタリング技術を用いることで、いくつかの類似の代表
波形をさらに1つの波形で代表させ、情報圧縮率を高め
ることもできる。In the above-described embodiment, the weighting coefficient α (i) is configured using the one shown in the above equation (2). However, the weighting coefficient α (i) is not limited to this, and the weighting coefficient α (i) is used in the following equation (4) ) Can be used. α (i) = (L−Ti) / L (4) In the above embodiment, the speech synthesis method using phonemes as a unit has been described as an example, but speech synthesis based on other synthesis units such as syllables is also possible. Obviously it is available. Further, the present invention can be applied to speech synthesis in high-efficiency speech coding. In other words, only the representative waveform in FIG. 2B is encoded and transmitted or stored, the information is compressed in the transmission path or the storage device, and the synthesized voice is analyzed on the receiving side or the storage and reading side according to the above-described method of the present invention. Is obtained. Furthermore, in the case of waveform editing speech synthesis, several similar representative waveforms are further represented by one waveform by using a clustering technique such as a vector quantization method for the entire representative waveform obtained for all synthesis units. Also, the information compression ratio can be increased.
【0062】また、上記実施の形態においては、本発明
に係る音声合成方法を、分析部11および合成部21か
らなるシステムに適用した場合について説明したが、こ
れに限らず、本発明の主旨を逸脱しない範囲で他のもの
にも適用可能である。また、上記実施の形態において
は、ポルタメント効果付与回路29の構成について特に
示さなかったが、例えば、ポルタメント効果付与回路2
9を、CPU、ROM、RAM等をバス接続して構成し
てもよい。この場合、図3のフローチャートに示す処理
を実行するための制御プログラムがROMに格納されて
おり、CPUは、合成回路27から連続音声波形を入力
したときは、ROMの所定領域に格納されている制御プ
ログラムを読み出して起動させ、図3のフローチャート
に示す処理を実行するようになっている。また、これに
限らず、図3のフローチャートに示す処理を実行するに
あたっては、これらの手順を示したプログラムが記憶さ
れた記憶媒体から、そのプログラムをRAMに読み込ん
で実行するようにしてもよい。Further, in the above embodiment, the case where the speech synthesizing method according to the present invention is applied to the system including the analyzing unit 11 and the synthesizing unit 21 has been described. The present invention can be applied to other things without departing from the scope. Further, in the above embodiment, the configuration of the portamento effect imparting circuit 29 is not particularly shown.
9 may be configured by connecting a CPU, a ROM, a RAM, and the like via a bus. In this case, a control program for executing the processing shown in the flowchart of FIG. 3 is stored in the ROM, and when a continuous sound waveform is input from the synthesis circuit 27, the CPU stores the control program in a predetermined area of the ROM. The control program is read and activated, and the processing shown in the flowchart of FIG. 3 is executed. The present invention is not limited to this, and when executing the processing shown in the flowchart of FIG. 3, the program may be read into a RAM from a storage medium storing a program indicating these procedures and executed.
【0063】ここで、記憶媒体とは、RAM、ROM等
の半導体記憶媒体、FD、HD等の磁気記憶型記憶媒
体、CD、CDV、LD、DVD等の光学的読取方式記
憶媒体、MO等の磁気記憶型/光学的読取方式記憶媒体
であって、電子的、磁気的、光学的等の読み取り方法の
いかんにかかわらず、コンピュータで読み取り可能な記
憶媒体であれば、あらゆる記憶媒体を含むものである。Here, the storage medium includes a semiconductor storage medium such as a RAM and a ROM, a magnetic storage type storage medium such as an FD and an HD, an optical read type storage medium such as a CD, CDV, LD, and DVD, and an MO such as an MO. A magnetic storage type / optical readout type storage medium includes any storage medium that can be read by a computer regardless of an electronic, magnetic, optical, or other read method.
【0064】[0064]
【発明の効果】以上説明したように、本発明に係る請求
項1ないし6記載の音声合成方法によれば、連続音声波
形による歌声が比較的自然に聞こえ、温かみのある本物
の歌声に近い響きとなり、したがって、従来に比して、
自然な響きを伴った連続音声波形を再生することができ
るという効果が得られる。As described above, according to the voice synthesizing method according to the first to sixth aspects of the present invention, the singing voice by the continuous voice waveform is heard relatively naturally, and the singing voice is close to the warm real singing voice. And therefore, compared to the past,
An effect is obtained that a continuous sound waveform with a natural sound can be reproduced.
【0065】さらに、本発明に係る請求項3または4記
載の音声合成方法によれば、音楽のジャンルによって
は、連続音声波形による歌声が不自然に聞こえ、温かみ
のある本物の歌声とはかけ離れた機械的な響きになると
いう不具合をある程度是正することができ、したがっ
て、従来に比して、音楽のジャンルによらず、自然な響
きを伴った連続音声波形を再生することができるという
効果も得られる。Further, according to the voice synthesizing method according to the third or fourth aspect of the present invention, depending on the genre of music, the singing voice of the continuous voice waveform sounds unnatural, and is far from the warm real singing voice. The problem of mechanical reverberation can be corrected to some extent, and, as compared with the conventional art, an effect that a continuous sound waveform with a natural reverberation can be reproduced regardless of the genre of music. Can be
【0066】さらに、本発明に係る請求項5記載の音声
合成方法によれば、利用者が連続音声波形にポルタメン
ト効果を直接付与する場合には、変化量パラメータおよ
び時間パラメータの2つのパラメータを入力するだけで
よく、基本周波数に関する操作を行わなくてもすみ、し
たがって、従来に比して、ポルタメント効果を付与する
ための操作を容易に行うことができるという効果も得ら
れる。Further, according to the voice synthesizing method according to the fifth aspect of the present invention, when the user directly applies the portamento effect to the continuous voice waveform, the user inputs two parameters, the change amount parameter and the time parameter. It is not necessary to perform the operation related to the fundamental frequency, and therefore, an effect that the operation for imparting the portamento effect can be easily performed as compared with the related art is obtained.
【0067】さらに、本発明に係る請求項6記載の音声
合成方法によれば、ポルタメント効果を付与するための
操作をさらに容易に行うことができるという効果も得ら
れる。一方、本発明に係る請求項7記載の音声合成プロ
グラムを記憶した記憶媒体によれば、連続音声波形によ
る歌声が比較的自然に聞こえ、温かみのある本物の歌声
に近い響きとなり、したがって、従来に比して、自然な
響きを伴った連続音声波形を再生することができるとい
う効果が得られる。Further, according to the speech synthesizing method according to the sixth aspect of the present invention, there is obtained an effect that an operation for imparting a portamento effect can be performed more easily. On the other hand, according to the storage medium storing the voice synthesizing program according to claim 7 of the present invention, the singing voice of the continuous voice waveform sounds relatively naturally, and sounds like a warm real singing voice. In comparison, an effect that a continuous sound waveform with a natural sound can be reproduced can be obtained.
【図1】本発明に係る音声合成方法を実施するためのシ
ステムの構成を示す機能ブロック図である。FIG. 1 is a functional block diagram showing a configuration of a system for implementing a speech synthesis method according to the present invention.
【図2】原音声波形、代表波形および補間音声波形の例
を示す図である。FIG. 2 is a diagram showing an example of an original audio waveform, a representative waveform, and an interpolated audio waveform.
【図3】ポルタメント効果付与回路29で実行される処
理を示すフローチャートである。FIG. 3 is a flowchart illustrating a process executed by a portamento effect imparting circuit 29;
【図4】ポルタメント効果付与回路29で処理された連
続音声波形の例を示す図である。FIG. 4 is a diagram showing an example of a continuous sound waveform processed by a portamento effect imparting circuit 29;
11 分析部 14 最適波形ピーク位置検出回
路 15 ピーク近傍波形切出回路 16 代表波形記憶装置 21 合成部 23 解析回路 24 波形読出回路 25 ピッチ同期補間回路 26 韻律情報生成回路 27 合成回路 28 楽譜情報記憶装置 29 ポルタメント効果付与回路Reference Signs List 11 analysis unit 14 optimal waveform peak position detection circuit 15 peak vicinity waveform extraction circuit 16 representative waveform storage device 21 synthesis unit 23 analysis circuit 24 waveform readout circuit 25 pitch synchronous interpolation circuit 26 prosody information generation circuit 27 synthesis circuit 28 score information storage device 29 Portamento effect imparting circuit
───────────────────────────────────────────────────── フロントページの続き (72)発明者 青野 裕司 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5D045 AA09 5D378 FF12 FF22 KK02 ────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Yuji Aono 2-3-1 Otemachi, Chiyoda-ku, Tokyo Nippon Telegraph and Telephone Corporation F-term (reference) 5D045 AA09 5D378 FF12 FF22 KK02
Claims (7)
する方法であって、 前記連続音声波形のうちピッチ周波数が一定である定常
区間で、当該ピッチ周波数とは異なるピッチ周波数まで
ピッチ周波数が連続的に変化し、その後、元のピッチ周
波数までピッチ周波数が連続的に変化するように、ポル
タメント効果を付与することを特徴とする音声合成方
法。1. A method for generating a continuous sound waveform by synthesizing a sound waveform, wherein a pitch frequency of the continuous sound waveform is constant up to a pitch frequency different from the pitch frequency in a steady period in which a pitch frequency is constant. A speech synthesis method characterized by adding a portamento effect so that the pitch frequency changes continuously and thereafter to the original pitch frequency.
しておき、楽譜情報及び歌詞情報に基づいて音声単位系
列を生成し、生成した音声単位系列の各音声単位に対応
する音声波形を前記記憶手段から読み出し、読み出した
音声波形を合成して連続音声波形を生成する方法であっ
て、 前記連続音声波形のうちピッチ周波数が一定である定常
区間で、当該ピッチ周波数とは異なるピッチ周波数まで
ピッチ周波数が連続的に変化し、その後、元のピッチ周
波数までピッチ周波数が連続的に変化するように、ポル
タメント効果を付与することを特徴とする音声合成方
法。2. A voice waveform for each voice unit is stored in storage means, a voice unit sequence is generated based on musical score information and lyric information, and a voice waveform corresponding to each voice unit of the generated voice unit sequence is generated. A method of generating a continuous voice waveform by reading from the storage means and synthesizing the read voice waveform, wherein the continuous voice waveform has a constant pitch frequency in a stationary section, and up to a pitch frequency different from the pitch frequency. A speech synthesis method characterized by adding a portamento effect so that a pitch frequency changes continuously and thereafter changes continuously to an original pitch frequency.
いて、前記異なるピッチ周波数を設定することを特徴と
する音声合成方法。3. The speech synthesis method according to claim 2, wherein the different pitch frequencies are set based on a genre of music played according to the musical score information.
いて、前記異なるピッチ周波数を、前記元のピッチ周波
数よりも高いピッチ周波数及び低いピッチ周波数のいず
れかに設定することを特徴とする音声合成方法。4. The pitch frequency according to claim 3, wherein the different pitch frequency is set to one of a higher pitch frequency and a lower pitch frequency than the original pitch frequency based on a genre of music played according to the musical score information. A speech synthesis method characterized in that:
の変化量を示す変化量パラメータ及びピッチ周波数の変
化開始から変化終了までの時間を示す時間パラメータに
基づいて、前記ポルタメント効果を付与することを特徴
とする音声合成方法。5. A change parameter indicating a change amount from the original pitch frequency to the different pitch frequency, and a time parameter indicating a time from a start to a change end of the pitch frequency. A speech synthesis method, wherein the portamento effect is provided based on
で、変化前のピッチ周波数から変化後のピッチ周波数ま
でピッチ周波数が連続的に変化するように、ポルタメン
ト効果を付与するにあたって、 変化の前後にわたるピッチ周波数の変化量を示す変化量
パラメータ及びピッチ周波数の変化開始から変化終了ま
での時間を示す時間パラメータに基づいて、前記ポルタ
メント効果を付与することを特徴とする音声合成方法。6. The method according to claim 1, wherein the pitch frequency continuously changes from a pitch frequency before the change to a pitch frequency after the change in a section of the continuous voice waveform where the pitch frequency changes. In providing the portamento effect, the portamento effect is provided based on a change amount parameter indicating a change amount of the pitch frequency before and after the change and a time parameter indicating a time from the start to the end of the change of the pitch frequency. A speech synthesis method characterized by the following.
単位系列を生成し、生成した音声単位系列の各音声単位
に対応する音声波形を記憶手段から読み出し、読み出し
た音声波形を合成して連続音声波形を生成するためのプ
ログラムを記憶した記憶媒体であって、 前記連続音声波形のうちピッチ周波数が一定である定常
区間で、当該ピッチ周波数とは異なるピッチ周波数まで
ピッチ周波数が連続的に変化し、その後、元のピッチ周
波数までピッチ周波数が連続的に変化するように、ポル
タメント効果を付与するポルタメント効果付与ステップ
をコンピュータに実行させるためのプログラムを記憶し
たことを特徴とするコンピュータ読み取り可能な記憶媒
体。7. A voice unit sequence is generated based on musical score information and lyrics information, a voice waveform corresponding to each voice unit of the generated voice unit sequence is read from a storage unit, and the read voice waveform is synthesized to generate a continuous voice. A storage medium storing a program for generating a waveform, wherein in a continuous section in which the pitch frequency is constant in the continuous sound waveform, the pitch frequency continuously changes to a pitch frequency different from the pitch frequency, Thereafter, a computer-readable storage medium storing a program for causing a computer to execute a portamento effect applying step of applying a portamento effect so that the pitch frequency continuously changes to the original pitch frequency.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11233223A JP2001056695A (en) | 1999-08-19 | 1999-08-19 | Speech synthesis method and storage medium storing speech synthesis program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11233223A JP2001056695A (en) | 1999-08-19 | 1999-08-19 | Speech synthesis method and storage medium storing speech synthesis program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2001056695A true JP2001056695A (en) | 2001-02-27 |
Family
ID=16951694
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP11233223A Pending JP2001056695A (en) | 1999-08-19 | 1999-08-19 | Speech synthesis method and storage medium storing speech synthesis program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2001056695A (en) |
-
1999
- 1999-08-19 JP JP11233223A patent/JP2001056695A/en active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7016841B2 (en) | Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method | |
| EP2264696B1 (en) | Voice converter with extraction and modification of attribute data | |
| US10008193B1 (en) | Method and system for speech-to-singing voice conversion | |
| US6992245B2 (en) | Singing voice synthesizing method | |
| US5682502A (en) | Syllable-beat-point synchronized rule-based speech synthesis from coded utterance-speed-independent phoneme combination parameters | |
| US7613612B2 (en) | Voice synthesizer of multi sounds | |
| US7135636B2 (en) | Singing voice synthesizing apparatus, singing voice synthesizing method and program for singing voice synthesizing | |
| JP2001522471A (en) | Voice conversion targeting a specific voice | |
| JPWO2011004579A1 (en) | Voice quality conversion device, pitch conversion device, and voice quality conversion method | |
| US5862232A (en) | Sound pitch converting apparatus | |
| JP3576800B2 (en) | Voice analysis method and program recording medium | |
| CN100524456C (en) | Singing voice synthesizing method | |
| JPH11259066A (en) | Music sound signal separation method, device thereof and program recording medium thereof | |
| JP2001056695A (en) | Speech synthesis method and storage medium storing speech synthesis program | |
| JPH10124082A (en) | Singing voice synthesizer | |
| EP1505570B1 (en) | Singing voice synthesizing method | |
| JP2007226174A (en) | Singing synthesizer, singing synthesizing method, and program for singing synthesis | |
| JP2000010597A (en) | Speech transforming device and method therefor | |
| WO1998055991A1 (en) | Method and apparatus for reproducing a recorded voice with alternative performance attributes and temporal properties | |
| JP2987089B2 (en) | Speech unit creation method, speech synthesis method and apparatus therefor | |
| JP2000099094A (en) | Time series signal processing device | |
| JP3979213B2 (en) | Singing synthesis device, singing synthesis method and singing synthesis program | |
| Hatch | High-level audio morphing strategies | |
| JP2005204003A (en) | Continuous media data high-speed playback method, composite media data high-speed playback method, multi-channel continuous media data high-speed playback method, video data high-speed playback method, continuous media data high-speed playback device, composite media data high-speed playback device, multi-channel continuous media data high-speed playback Device, video data high-speed playback device, program, and recording medium | |
| JP2004294795A (en) | Tone synthesis control data, recording medium recording the same, data generating device, program, and tone synthesizer |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040120 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040224 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040420 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040608 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041109 |