[go: up one dir, main page]

JPS61259300A - Voice synthesization system - Google Patents

Voice synthesization system

Info

Publication number
JPS61259300A
JPS61259300A JP60102194A JP10219485A JPS61259300A JP S61259300 A JPS61259300 A JP S61259300A JP 60102194 A JP60102194 A JP 60102194A JP 10219485 A JP10219485 A JP 10219485A JP S61259300 A JPS61259300 A JP S61259300A
Authority
JP
Japan
Prior art keywords
speech
parameters
flattened
synthesis method
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60102194A
Other languages
Japanese (ja)
Inventor
博雄 北川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP60102194A priority Critical patent/JPS61259300A/en
Publication of JPS61259300A publication Critical patent/JPS61259300A/en
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Volume Flow (AREA)
  • Communication Control (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 肢血立! 本発明は、任意の文字配列から合成音声を出力する音声
合成方式に関し、より詳細には、品質の良い合成音を得
るためのスペクトルパラメータ生成方式に関する。
[Detailed Description of the Invention] Like-Station! The present invention relates to a speech synthesis method for outputting synthesized speech from an arbitrary character arrangement, and more particularly to a spectral parameter generation method for obtaining high-quality synthesized speech.

従来抜上 任意の音声を作り出す音声合成方式においては、音素、
音節、VCV (母音−子音−母音)などを合成の基本
単位とし、各素片のスペクトルパラメータと駆動音源信
号を一定の規則に基づいて結合して音声合成器に与え、
合成音を得るようにしている。スペクトルパラメータと
しては、線形予測分析に基づいたLPG (線形予測符
号化法)、PARCOR(偏自己相関法)、LSP(線
スペクトル対法)などを用い、駆動音源としては、イン
パルス列と白色雑音、あるいは合成音質向上のために残
差波形を用いる方法が主流となっている。
Conventionally, in speech synthesis methods that can create any speech, phonemes,
The basic unit of synthesis is a syllable, VCV (vowel-consonant-vowel), etc., and the spectral parameters of each element and driving sound source signal are combined based on certain rules and fed to a speech synthesizer.
I'm trying to get a synthesized sound. Spectral parameters include LPG (Linear Predictive Coding) based on linear predictive analysis, PARCOR (Partial Autocorrelation), and LSP (Line Spectrum Pair), and the driving sound sources include impulse trains, white noise, Alternatively, the mainstream method is to use residual waveforms to improve synthesized sound quality.

従来、合成単位の音声素片は、単音節、単語。Traditionally, the synthesis unit speech segment is a single syllable or word.

文章などとして発声された人間の声から必要な部分を切
り出し、線形予測分析することによってスペクトルパラ
メータ化されてきたが、線形予測分析は、音声生成過程
における音源特性、音道特性。
Spectral parameters have been created by cutting out the necessary parts of the human voice uttered as sentences and performing linear predictive analysis.Linear predictive analysis analyzes the sound source characteristics and sound path characteristics during the speech generation process.

放射特性をすべて1つにまとめて全極モデルで近(以す
るものであるから、これにより得られるパラメータには
、素片収録時の音源特性が含まれており、異なった音源
特性を持つ素片を連結して合成音を得る際に、音質が劣
下してしまうという欠点がある。
Since all radiation characteristics are combined into one all-pole model, the parameters obtained by this include the sound source characteristics at the time of recording the elemental fragments, and are The drawback is that the sound quality deteriorates when the pieces are connected to obtain a synthesized sound.

旦m 本発明は、上述のごとき実情に鑑みてなされたもので、
特に、任意の入力文字系列に対して、自然性の高い合成
音声を得ることを目的としてなされたものである。
The present invention was made in view of the above-mentioned circumstances.
In particular, this was done with the aim of obtaining highly natural synthesized speech for an arbitrary input character sequence.

1虞 本発明は、上記目的を達成するため、音声素片ファイル
に登録されたスペクトルパラメータと残差信号を合成す
べき音声の音韻系列に応じて読出し、この読出されたパ
ラメータと残差信号を一定の規則に基づいて順次結合し
て音声合成器に与えて音声を出力する音声合成方式にお
いて、前記スペクトルパラメータに平坦化処理を施し、
その平坦化されたパラメータと逆フィルタから得られる
前記残差信号を前記音声素片ファイルに登録し、合成す
ることを特徴としたものである。以下、本発明の実施例
に基づいて説明する。
1. In order to achieve the above object, the present invention reads the spectral parameters and residual signals registered in the speech segment file according to the phoneme sequence of the speech to be synthesized, and uses the read parameters and residual signals. In a speech synthesis method in which the spectral parameters are sequentially combined based on a certain rule and fed to a speech synthesizer to output speech, the spectral parameters are subjected to flattening processing,
The flattened parameters and the residual signal obtained from the inverse filter are registered in the speech segment file and synthesized. Hereinafter, the present invention will be explained based on examples.

第1図は、本発明の一実施例を説明するための電気的ブ
ロック線図で、図中、1は音声入力部。
FIG. 1 is an electrical block diagram for explaining an embodiment of the present invention, and in the figure, 1 is an audio input section.

2は適応逆フィルタ、3はスペクトル分析部、4は逆フ
ィルタ、5は音声素片のファイルで、この実施例は、音
声素片ファイルの作成時に、スペクトル包絡を平坦化す
る適応逆フィルタを通した音声波形を分析してスペクト
ルパラメータを登録するようにし、駆動音源信号生成の
ための残差波形は、合成器の逆フィルタに音声波形を通
すことによって抽出し、前記スペクトルパラメータとと
もに登録するようにしたものである。まず、音声素片フ
ァイル5に登録すべき音声を音声入力部1より入力し、
その音声波形を適応逆フィルタ2に通した後、スペクト
ル分析部3にてスペクトル分析を行う。適応逆フィルタ
2は、声帯波特性の逆特性を持つフィルタであり、これ
を通過した音声波形のスペクトル概形は、適応的に平坦
化される。
2 is an adaptive inverse filter, 3 is a spectrum analysis section, 4 is an inverse filter, and 5 is a speech segment file. In this embodiment, when creating a speech segment file, an adaptive inverse filter is passed through which the spectrum envelope is flattened. A residual waveform for generating a driving sound source signal is extracted by passing the audio waveform through an inverse filter of a synthesizer, and is registered together with the spectral parameters. This is what I did. First, the voice to be registered in the voice segment file 5 is input from the voice input unit 1,
After passing the audio waveform through an adaptive inverse filter 2, a spectrum analysis section 3 performs spectrum analysis. The adaptive inverse filter 2 is a filter having characteristics inverse to the vocal cord wave characteristics, and the spectral outline of the speech waveform that has passed through it is adaptively flattened.

このフィルタは、2次と3次の逆フィルタの組み合わせ
によって実現できることは、既に知られている。スペク
トル分析部3では、合成時に必要なパラメータ、例えば
、線形予測分析に基づ<LSP(線スペクトル対)等が
フレーム周期毎に抽出され、素片のパラメータ辞書とし
て登録される。
It is already known that this filter can be realized by a combination of second-order and third-order inverse filters. In the spectrum analysis unit 3, parameters necessary for synthesis, such as <LSP (line spectrum pair), etc., are extracted for each frame period based on linear prediction analysis, and are registered as a parameter dictionary of the elemental piece.

また、残差信号は、上記方法によって求められたパラメ
ータを合成器の逆フィルタ4に与え、このフィルタに元
の入力音声波形を通すことによって生成される。残差波
形の登録に際しては、合成時に必要な情報が容易に取り
出せるように任意の加工を施して良い。
Further, the residual signal is generated by applying the parameters determined by the above method to the inverse filter 4 of the synthesizer and passing the original input speech waveform through this filter. When registering the residual waveform, any processing may be performed so that necessary information at the time of synthesis can be easily retrieved.

第2図は、前記音声素片フ、アイルを用いた音声合成装
置の一例を示す図で、図中、11は文字配列入力部、1
2は構文解析部、13は辞書、14は音韻系列生成部、
15はパラメータ時系列生成部、16はピッチパターン
生成部、17は音韻時系列生成部、18は音声素片ファ
イル、19は合成フィルタ、20はD/A変換部、21
はスピーカで、文字列入力部11よりの入力文字系列は
、構文解析部12により、読み方9アクセント位置。
FIG. 2 is a diagram illustrating an example of a speech synthesis device using the above-mentioned speech units F and A. In the figure, 11 is a character array input section;
2 is a syntactic analysis unit, 13 is a dictionary, 14 is a phoneme sequence generation unit,
15 is a parameter time series generation unit, 16 is a pitch pattern generation unit, 17 is a phoneme time series generation unit, 18 is a speech segment file, 19 is a synthesis filter, 20 is a D/A conversion unit, 21
is a speaker, and the input character sequence from the character string input section 11 is processed by the syntax analysis section 12 into reading 9 accent positions.

イントネーション等の分析が行われ、音韻系列生成部1
4とピッチパターン生成部16に解析結果が渡される。
Analysis of intonation, etc. is performed, and the phoneme sequence generation unit 1
4 and the analysis result is passed to the pitch pattern generation section 16.

音韻系列生成部14では、合成時に必要とされる音素の
コード列を生成し、パラメータ時系列生成部15では、
音声素片ファイル18から該当する素片のパラメータを
読出し、それらをなめらかに連絡する。ピッチパターン
生成部16では、イントネーション情報などに基づき、
ピッチ周期を決定し、音源時系列生成部17では、音声
素片ファイル18から該当する素片の残差波形を読出し
、ピッチ周期等を加工して、必要とされる駆動音源信号
を生成する。パラメータと音源の時系列データは、合成
フィルタ19に入力され、D/A変換部20を通して、
合成音声としてスピーカ21より出力される。これによ
り、素片連結部のスペクトル歪みが減少するため、なめ
らかな音声出力が達成できる。
The phoneme sequence generation unit 14 generates a phoneme code sequence required for synthesis, and the parameter time sequence generation unit 15 generates
The parameters of the corresponding segment are read from the speech segment file 18 and are communicated smoothly. Based on intonation information etc., the pitch pattern generation unit 16 generates
The pitch period is determined, and the sound source time series generation unit 17 reads out the residual waveform of the corresponding segment from the speech segment file 18, processes the pitch period, etc., and generates the required driving sound source signal. The parameters and time series data of the sound source are input to the synthesis filter 19 and passed through the D/A converter 20.
The voice is output from the speaker 21 as a synthesized voice. As a result, spectral distortion at the segment connection portion is reduced, so that smooth audio output can be achieved.

第3図は、本発明の他の実施例を説明するための電気的
ブロック線図で、この実施例は、音声素片ファイルの作
成時に、音声の有声、無声を判定する音韻判定部6と、
この音韻判定部6の判定結果によって動作するスイッチ
7と、高域強調及び低域強調用の2種のフィルタ8,9
を用いるようにしたもので、以下、有声、無声によって
スイッチングされる2種のフィルタ構成の場合について
説明するが、これに限るものではない、まず、音声入力
部1で入力された音声信号は、音韻判定部6によって有
声、無声の判定が行われる。有声。
FIG. 3 is an electrical block diagram for explaining another embodiment of the present invention. This embodiment includes a phoneme determining unit 6 that determines whether speech is voiced or unvoiced when creating a speech segment file. ,
A switch 7 that operates according to the judgment result of the phoneme judgment unit 6, and two types of filters 8 and 9 for high-frequency emphasis and low-frequency emphasis.
The following describes the case of two types of filter configurations that switch between voiced and unvoiced, but is not limited to this. First, the audio signal input at the audio input section 1 is The phoneme determining unit 6 determines whether the sound is voiced or unvoiced. voiced.

無声の判定方法としては、スペクトル包絡の傾きを用い
る方法などが知られている。スイッチ7は、音韻判定部
6に連動しており、2種のフィルタ8・9の選択を行う
。有声という判定が行われた場合には、フィルタ? (
+ 6dB10ct )が選択され、音声信号は、高域
強調された後、スペクトル分析が行われる。無声という
判定が行われた場合には、フィルタ8  (6dB10
ct )が選択され、低域強調された後、スペクトル分
析される。スペクトル分析部3の動作およびそれ以降の
処理の流れは、第1図に示した実施例と同じである。
As a method for determining unvoicedness, a method using the slope of the spectrum envelope is known. The switch 7 is linked to the phoneme determining section 6 and selects between two types of filters 8 and 9. If it is determined that there is a voice, the filter? (
+6dB10ct) is selected, and the audio signal is subjected to high-frequency emphasis and then subjected to spectrum analysis. If it is determined that there is no voice, filter 8 (6dB10
ct ) is selected, bass-emphasized, and then spectrally analyzed. The operation of the spectrum analyzer 3 and the flow of subsequent processing are the same as in the embodiment shown in FIG.

第4図は、本発明の他の実施例を説明するための電気的
ブロック線図で、この実施例は、音声素片ファイルの作
成時に、パラメータ補正部10を用いるようにしたもの
で、まず、音声素片ファイル5に登録すべき音声を音声
人力部1より入力し、スペクトル分析部3でスペクトル
分析を行う。スペクトル分析部3は、線形予測係数およ
びその係数から得られるスペクトル包絡の傾き情報を出
力する。パラメータ補正部10では、スペクトル分析部
3の結果を受は取り、スペクトル包絡の傾きを除去する
ように線形予測係数の補正を行い、合成時ニ必要とされ
るパラメータに変換し7音声素片ファイル5に登録する
。ここでは、線形予測分析に基づ(スペクトル分析およ
びパラメータ補正を説明したが、これに限るものではな
く、例えばスペクトル分析部でFFT(高速フーリエ変
換)を使用することも可能である。なお、残差波形の抽
出およびそれ以降の処理は、第1図に示した実施例と同
様にして実施できる。
FIG. 4 is an electrical block diagram for explaining another embodiment of the present invention. In this embodiment, a parameter correction section 10 is used when creating a speech segment file. , the speech to be registered in the speech segment file 5 is input from the speech human input section 1, and the spectrum analysis section 3 performs spectrum analysis. The spectrum analysis unit 3 outputs linear prediction coefficients and slope information of a spectrum envelope obtained from the coefficients. The parameter correction unit 10 receives the results of the spectrum analysis unit 3, corrects the linear prediction coefficients so as to remove the slope of the spectrum envelope, converts them into parameters required at the time of synthesis, and creates 7 speech segment files. Register for 5. Here, we have explained spectral analysis and parameter correction based on linear predictive analysis, but the invention is not limited to this. For example, it is also possible to use FFT (fast Fourier transform) in the spectral analysis section. Extraction of the difference waveform and subsequent processing can be performed in the same manner as in the embodiment shown in FIG.

着果 以上の説明から明らかなように、本発明によると、登録
された音声素片のパラメータに音源特性が含まれなくな
るため、任意の文の合成に際して自然性の高い合成音が
得られる。
Results As is clear from the above description, according to the present invention, since sound source characteristics are not included in the parameters of registered speech segments, highly natural synthesized speech can be obtained when synthesizing any sentence.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は、本発明による音声合成方式の一実施例を説明
するための電気的ブロック線図、第2図は、音声合成装
置の一実施例を説明するための電気的ブロック線図、第
3図及び第4図は、それぞれ本発明の他の実施例を説明
するための電気的ブロック線図である。 1・・・音声入力部、2・・・適応逆フィルタ、3・・
・スペクトル分析部、4・・・逆フィルタ、5・・・音
声素片ファイル、6・・・音韻判定部、7・・・スイッ
チ、8,9・・・フィルタ、10・・・パラメータ補正
部、11・・・文字配列入力部、12・・・構文解析部
、13・・・辞書。 14・・・音韻系列生成部、15・・・パラメータ時系
列生成部、16・・・ピッチパターン生成部、17・・
・音韻時系列生成部、18・・・音声系列ファイル、1
9・・・合成フィルタ、20・・・D/A変換部、21
・・・スピーカ。
FIG. 1 is an electrical block diagram for explaining an embodiment of a speech synthesis method according to the present invention, and FIG. 2 is an electrical block diagram for explaining an embodiment of a speech synthesis device. 3 and 4 are electrical block diagrams for explaining other embodiments of the present invention, respectively. 1... Audio input section, 2... Adaptive inverse filter, 3...
- Spectrum analysis section, 4... Inverse filter, 5... Speech segment file, 6... Phoneme determination section, 7... Switch, 8, 9... Filter, 10... Parameter correction section , 11...Character array input section, 12...Syntax analysis section, 13...Dictionary. 14... Phoneme sequence generation unit, 15... Parameter time series generation unit, 16... Pitch pattern generation unit, 17...
・Phonological time series generation unit, 18...Speech series file, 1
9... Synthesis filter, 20... D/A converter, 21
...Speaker.

Claims (4)

【特許請求の範囲】[Claims] (1)、音声素片ファイルに登録されたスペクトルパラ
メータと残差信号を合成すべき音声の音韻系列に応じて
読出し、この読出されたパラメータと残差信号を一定の
規則に基づいて順次結合して音声合成器に与えて音声を
出力する音声合成方式において、前記スペクトルパラメ
ータに平坦化処理を施し、その平坦化されたパラメータ
と逆フィルタから得られる残差信号を前記音声素片ファ
イルに登録し、合成することを特徴とする音声合成方式
(1) The spectral parameters and residual signals registered in the speech segment file are read out according to the phoneme sequence of the speech to be synthesized, and the read parameters and residual signals are sequentially combined based on a certain rule. In the speech synthesis method, the spectrum parameters are flattened and the flattened parameters and the residual signal obtained from the inverse filter are registered in the speech segment file. , a speech synthesis method characterized by synthesis.
(2)、音声生成過程の放射、音源特性を除去するため
の適応逆フィルタを用いてスペクトルパラメータを平坦
化することを特徴とする特許請求の範囲第(1)項に記
載の音声合成方式。
(2) The speech synthesis method according to claim (1), wherein the spectral parameters are flattened using an adaptive inverse filter for removing radiation and sound source characteristics in the speech generation process.
(3)、2種以上のフィルタとそれらを選定するための
音韻判定部を用いてスペクトルパラメータを平坦化する
ことを特徴とする特許請求の範囲第(1)項に記載の音
声合成方式。
(3) The speech synthesis method according to claim (1), wherein the spectral parameters are flattened using two or more types of filters and a phoneme determining section for selecting them.
(4)、音声波形をスペクトル変換し、その傾きを除去
するパラメータ補正を行うことによってスペクトルパラ
メータを平坦化することを特徴とする特許請求の範囲第
(1)項に記載の音声合成方式。
(4) The speech synthesis method according to claim (1), characterized in that the spectral parameters are flattened by performing spectral conversion of the speech waveform and performing parameter correction to remove its slope.
JP60102194A 1985-05-14 1985-05-14 Voice synthesization system Pending JPS61259300A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60102194A JPS61259300A (en) 1985-05-14 1985-05-14 Voice synthesization system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60102194A JPS61259300A (en) 1985-05-14 1985-05-14 Voice synthesization system

Publications (1)

Publication Number Publication Date
JPS61259300A true JPS61259300A (en) 1986-11-17

Family

ID=14320853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60102194A Pending JPS61259300A (en) 1985-05-14 1985-05-14 Voice synthesization system

Country Status (1)

Country Link
JP (1) JPS61259300A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756590A (en) * 1993-08-19 1995-03-03 Sony Corp Device and method for voice synthesis and recording medium
JPH0756591A (en) * 1993-08-19 1995-03-03 Sony Corp Device and method for voice synthesis and recording medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5965895A (en) * 1982-10-07 1984-04-14 松下電器産業株式会社 Voice synthesization

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5965895A (en) * 1982-10-07 1984-04-14 松下電器産業株式会社 Voice synthesization

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756590A (en) * 1993-08-19 1995-03-03 Sony Corp Device and method for voice synthesis and recording medium
JPH0756591A (en) * 1993-08-19 1995-03-03 Sony Corp Device and method for voice synthesis and recording medium

Similar Documents

Publication Publication Date Title
US6240384B1 (en) Speech synthesis method
KR940002854B1 (en) Sound synthesizing system
JP3294604B2 (en) Processor for speech synthesis by adding and superimposing waveforms
JP3408477B2 (en) Semisyllable-coupled formant-based speech synthesizer with independent crossfading in filter parameters and source domain
JPH031200A (en) Regulation type voice synthesizing device
WO2014046789A1 (en) System and method for voice transformation, speech synthesis, and speech recognition
KR20040028932A (en) Speech bandwidth extension apparatus and speech bandwidth extension method
Violaro et al. A hybrid model for text-to-speech synthesis
JP2904279B2 (en) Voice synthesis method and apparatus
JP3281266B2 (en) Speech synthesis method and apparatus
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
Nordstrom et al. Transforming perceived vocal effort and breathiness using adaptive pre-emphasis linear prediction
JPS61259300A (en) Voice synthesization system
Gutiérrez-Arriola et al. Voice conversion based on parameter transformation.
JP3554513B2 (en) Speech synthesis apparatus and method, and recording medium storing speech synthesis program
JP3081300B2 (en) Residual driven speech synthesizer
JP3394281B2 (en) Speech synthesis method and rule synthesizer
JP2703253B2 (en) Speech synthesizer
JPH09258796A (en) Voice synthesis method
Lavner et al. Voice morphing using 3D waveform interpolation surfaces and lossless tube area functions
JPH09160595A (en) Voice synthesis method
JPH0756590A (en) Device and method for voice synthesis and recording medium
WO2023182291A1 (en) Speech synthesis device, speech synthesis method, and program
JPH0258640B2 (en)
JP2580123B2 (en) Speech synthesizer