[go: up one dir, main page]

JPH0744727A - Method and device for generating picture - Google Patents

Method and device for generating picture

Info

Publication number
JPH0744727A
JPH0744727A JP5184260A JP18426093A JPH0744727A JP H0744727 A JPH0744727 A JP H0744727A JP 5184260 A JP5184260 A JP 5184260A JP 18426093 A JP18426093 A JP 18426093A JP H0744727 A JPH0744727 A JP H0744727A
Authority
JP
Japan
Prior art keywords
mouth shape
parameter
image
voice
mouth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP5184260A
Other languages
Japanese (ja)
Inventor
Makoto Akaha
誠 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP5184260A priority Critical patent/JPH0744727A/en
Publication of JPH0744727A publication Critical patent/JPH0744727A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

PURPOSE:To easily obtain an animation in which the mouth shape changes in synchronism with an input sound. CONSTITUTION:A transformation function transforming an acoustic parameter extracted from sound into a weighting parameter for changing the mouth shape of a picture is previously obtained by multiple regression analysis. The acoustic parameter is extracted from inputted sound in an acoustic analysis part 1, and the acoustic parameter is transformed into the weighting parameter by the previously obtained transformation function. The animation in which the mouth shape changes is generated by a face picture synthesizer 3 based on the weighting parameter.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、入力された音声に同期
して、例えば口形状を変化させるアニメーションを作成
する場合などに用いて好適な画像作成方法およびその装
置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an image producing method and apparatus suitable for use in producing, for example, an animation in which a mouth shape is changed in synchronization with input voice.

【0002】[0002]

【従来の技術】従来、音声にあわせて口や顎などが動く
アニメーションは、そのように口や顎が動いているよう
に見えるように、段階的に口や顎の形が変化する複数の
セル画を用いて作成される。
2. Description of the Related Art Conventionally, an animation in which the mouth and chin move in response to a voice is composed of a plurality of cells in which the shape of the mouth and chin gradually changes so that the mouth and chin appear to move. It is created using drawings.

【0003】[0003]

【発明が解決しようとする課題】従って、音声にあわせ
て口や顎などが動くアニメーションを作成するには、多
くのセル画を描かなければならず、非常に多くの労力が
必要であった。
Therefore, in order to create an animation in which the mouth, chin, etc. move in accordance with the voice, many cel images have to be drawn, which requires a great deal of labor.

【0004】そこで、音声から、音響パラメータを抽出
し、その音響パラメータに対応して、アニメーションの
口や顎が動くように、アニメーションのパラメータを変
化させる方法が考えられる。
Therefore, a method of extracting an acoustic parameter from a voice and changing the animation parameter so that the mouth and chin of the animation move in accordance with the acoustic parameter can be considered.

【0005】しかしながら、従来においては、音響パラ
メータから、アニメーションのパラメータを算出する場
合、動きに違和感のないアニメーションを得ようとする
と、音響パラメータに対し非線形演算処理を行う必要が
あり、従ってその負荷に耐えることのできる装置を実現
しようとすると、装置が大型化、高コスト化する課題が
あった。
However, in the conventional art, when the animation parameters are calculated from the acoustic parameters, in order to obtain an animation in which the motion does not feel unnatural, it is necessary to perform a non-linear arithmetic processing on the acoustic parameters, and therefore the load on the parameters is increased. If an attempt is made to realize a device that can withstand, there is a problem that the device becomes large in size and high in cost.

【0006】本発明は、このような状況に鑑みてなされ
たものであり、音声に同期して、表情が豊かに変化する
画像を、容易に得ることができるようにするものであ
る。
The present invention has been made in view of such a situation, and makes it possible to easily obtain an image in which a facial expression changes abundantly in synchronization with a voice.

【0007】[0007]

【課題を解決するための手段】本発明の画像作成方法
は、入力された音声に同期した画像を作成する画像作成
方法において、音声から抽出した音響パラメータを、画
像の口形状を変化させるための加重パラメータに変換す
る変換関数を、重回帰分析によってあらかじめ求めてお
き、変換関数によって、音響パラメータを加重パラメー
タに変換し、加重パラメータに基づいて、あらかじめ設
定された基本口形状を変化させ、画像を作成することを
特徴とする。
The image creating method of the present invention is an image creating method for creating an image in synchronization with an input voice, in which acoustic parameters extracted from the voice are used to change the mouth shape of the image. A conversion function for converting into a weighted parameter is obtained in advance by multiple regression analysis, the acoustic parameter is converted into a weighted parameter by the conversion function, and the preset basic mouth shape is changed based on the weighted parameter to change the image. It is characterized by creating.

【0008】この画像作成方法は、基本口形状が、
「あ」、「い」、および「う」を発音する口形状、並び
に口を閉じた形の口形状でなるようにすることができ
る。
In this image forming method, the basic mouth shape is
The mouth shape can be made to sound "a", "i", and "u", and the mouth shape can be closed.

【0009】本発明の画像作成装置は、入力された音声
に同期した画像を作成する画像作成装置において、音声
を音響分析し、音響パラメータを算出する分析手段とし
ての音響分析部1と、重回帰分析によってあらかじめ求
められた、音響パラメータを、画像の口形状を変化させ
るための加重パラメータに変換する変換関数によって、
音響パラメータを加重パラメータに変換する変換手段と
しての加重パラメータ変換部2と、加重パラメータに基
づいて、あらかじめ設定された基本口形状を変化させ、
画像を作成する作成手段としての顔画像合成器3とを備
えることを特徴とする。
The image creating apparatus of the present invention is an image creating apparatus for creating an image in synchronization with an input voice, and acoustic analysis unit 1 as an analysis means for acoustically analyzing voice and calculating acoustic parameters, and multiple regression. By the conversion function that converts the acoustic parameters obtained in advance into the weighted parameters for changing the mouth shape of the image,
A weighting parameter converting unit 2 as a converting means for converting an acoustic parameter into a weighting parameter, and changing a preset basic mouth shape based on the weighting parameter,
A face image synthesizer 3 as a creating means for creating an image is provided.

【0010】この画像作成装置は、基本口形状が、
「あ」、「い」、および「う」を発音する口形状、並び
に口を閉じた形の口形状でなるようにすることができ
る。
In this image forming apparatus, the basic mouth shape is
The mouth shape can be made to sound "a", "i", and "u", and the mouth shape can be closed.

【0011】[0011]

【作用】本発明の画像作成方法および画像作成装置にお
いては、音声を音響分析し、音響パラメータを算出し
て、重回帰分析によってあらかじめ求められた、音響パ
ラメータを、画像の口形状を変化させるための加重パラ
メータに変換する変換関数によって、加重パラメータに
変換する。そして、加重パラメータに基づいて、あらか
じめ設定された基本口形状を変化させ、画像を作成す
る。従って、音声に同期して口形状の変化する画像を、
少ない演算量によって得ることができる。
In the image creating method and the image creating apparatus of the present invention, the sound is analyzed acoustically, the sound parameter is calculated, and the sound parameter previously obtained by the multiple regression analysis is changed to change the mouth shape of the image. It is converted into a weighted parameter by a conversion function for converting into a weighted parameter. Then, based on the weighting parameter, the preset basic mouth shape is changed to create an image. Therefore, an image whose mouth shape changes in synchronization with the sound,
It can be obtained with a small amount of calculation.

【0012】[0012]

【実施例】図1は、本発明を適用した音声顔画像同期装
置の一実施例の構成を示すブロック図である。発声され
た音声は、音声分析部1に入力される。音声分析部1
は、入力された音声から、音声の音響パラメータとして
の、例えばLPCケプストラム係数を抽出し、加重パラ
メータ変換部2に出力する。加重パラメータ変換部2
は、音声分析部1からのLPCケプストラムを、入力さ
れた音声に対応して、口形状の変化するアニメーション
を生成するための加重パラメータに変換し、顔画像合成
器3に出力する。顔画像合成器3は、加重パラメータ変
換部2からの加重パラメータに基づいて、口形状の変化
するアニメーションを生成し、例えば図示せぬディスプ
レイに表示する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 is a block diagram showing the configuration of an embodiment of a voice / face image synchronizing apparatus to which the present invention is applied. The uttered voice is input to the voice analysis unit 1. Speech analysis unit 1
Extracts, for example, an LPC cepstrum coefficient as an acoustic parameter of the voice from the input voice and outputs it to the weighted parameter conversion unit 2. Weighted parameter converter 2
Converts the LPC cepstrum from the voice analysis unit 1 into weighted parameters for generating an animation in which the mouth shape changes, and outputs the weighted parameter to the face image synthesizer 3. The face image synthesizer 3 generates an animation in which the mouth shape changes based on the weighted parameter from the weighted parameter conversion unit 2, and displays it on a display (not shown), for example.

【0013】なお、本明細書中において、口形状とは、
特に断らない限り、口の他、声を発するために動く、例
えば下顎などの顔の部分すべてを意味する。
In the present specification, the mouth shape means
Unless otherwise specified, it means all parts of the face, such as the lower jaw, that move to produce a voice, in addition to the mouth.

【0014】次に、その動作について説明する。音響分
析部1は、例えば図2に示すような、入力された音声を
サンプリングして、例えば線形予測分析処理などの音響
分析処理を施し、音声のスペクトル包絡特性を表す線形
予測係数を算出する。なお、本実施例においては、入力
された音声を、例えば8kHzでサンプリングし、24
0サンプル(=30ms)分の幅を有するハミング窓
を、120サンプル(=15ms)ずつシフトしながら
かけ、いわゆる自己相関法によって、10次までの線形
予測係数を算出するものとする。
Next, the operation will be described. The acoustic analysis unit 1 samples the input speech, for example, as shown in FIG. 2, performs acoustic analysis processing such as linear prediction analysis processing, and calculates a linear prediction coefficient representing the spectrum envelope characteristic of the speech. In this embodiment, the input voice is sampled at 8 kHz,
A Hamming window having a width of 0 sample (= 30 ms) is applied while shifting by 120 samples (= 15 ms), and linear prediction coefficients up to the 10th order are calculated by the so-called autocorrelation method.

【0015】そして、音響分析部1は、以上のようにし
て算出した線形予測係数から、広く知られた再帰式(例
えば、「ディジタル音声処理」、古井著、東海大学出版
会発行、47ページに記載されている再帰式)にしたが
って、線形予測係数と同次数までのLPCケプストラム
係数を算出し、加重パラメータ変換部2に出力する。従
って、本実施例では、15msごとに10次までのLP
Cケプストラム係数が、加重パラメータ変換部2に出力
されることになる。
Then, the acoustic analysis unit 1 uses the linear prediction coefficient calculated as described above, and a widely known recursive equation (for example, "Digital Speech Processing", by Furui, Tokai University Press, page 47). According to the described recursive formula), the LPC cepstrum coefficient up to the same degree as the linear prediction coefficient is calculated and output to the weight parameter conversion unit 2. Therefore, in this embodiment, LPs up to the 10th order are generated every 15 ms.
The C cepstrum coefficient will be output to the weighting parameter conversion unit 2.

【0016】ここで、LPCケプストラムは、少ない次
数で、音声のスペクトル包絡特性を、精度良く表すこと
が知られている。
Here, it is known that the LPC cepstrum accurately represents the spectral envelope characteristic of speech with a small order.

【0017】加重パラメータ変換部2は、重回帰分析に
よってあらかじめ求めた、後述する変換関数(重回帰
式)によって、音響分析部1から時系列に出力されるL
PCケプストラム係数を、例えば図3に示すような、ア
ニメーションの口形状を表現するための、例えば4つの
基本パターン(以下、口形状オブジェクトという)それ
ぞれの、いわば重みとしての加重パラメータW1乃至W4
に変換し、顔画像合成器3に順次出力する。
The weighting parameter conversion unit 2 outputs L in time series from the acoustic analysis unit 1 by a conversion function (multiple regression equation) described later, which is obtained in advance by multiple regression analysis.
The PC cepstrum coefficient is, for example, as shown in FIG. 3, for example, each of four basic patterns (hereinafter, referred to as mouth shape objects) for expressing a mouth shape of an animation is weighted parameters W 1 to W 4 as weights.
To the face image synthesizing unit 3 and sequentially output to

【0018】顔画像合成器3は、加重パラメータ変換部
2より出力される加重パラメータW1乃至W4と、あらか
じめ設定された基本口形状との間に、例えば多重内挿法
を適用することにより、音響分析部1に入力された音声
に同期して口の形状(口形状)の変化するアニメーショ
ンを生成する。
The face image synthesizer 3 applies, for example, a multiple interpolation method between the weighting parameters W 1 to W 4 output from the weighting parameter converter 2 and the preset basic mouth shape. An animation in which the shape of the mouth (mouth shape) changes is generated in synchronization with the sound input to the acoustic analysis unit 1.

【0019】即ち、顔画像合成器3には、図3に示す、
アニメーションの口形状の基本パターンとしての4つの
口形状オブジェクトが記憶されており、各口形状オブジ
ェクトを、加重パラメータ変換部2からの加重パラメー
タW1乃至W4に基づいて混合(多重内挿)し、音響分析
部1に入力された音声に対応した口形状のアニメーショ
ンを生成する。
That is, the face image synthesizer 3 has the structure shown in FIG.
Four mouth shape objects are stored as a basic pattern of the mouth shape of the animation, and each mouth shape object is mixed (multiple interpolation) based on the weighting parameters W 1 to W 4 from the weighting parameter conversion unit 2. , Generates a mouth-shaped animation corresponding to the voice input to the acoustic analysis unit 1.

【0020】ここで、図3(A)の口形状オブジェクト
は、下顎をおろして口を開いた「あ」の音声を発声する
口形状を示し、図3(B)の口形状オブジェクトは、歯
を剥いて唇を横に開いた「い」の音声を発声する口形状
を示している。また、図3(C)の口形状オブジェクト
は、唇をつぼめた「う」の音声を発声する口形状を示
し、図3(D)の口形状オブジェクトは、自然に口を閉
じたときの口形状を示している。
Here, the mouth-shaped object of FIG. 3 (A) shows a mouth shape for uttering the sound of "A" with the lower jaw lowered and the mouth opened, and the mouth-shaped object of FIG. 3 (B) is a tooth. The figure shows the mouth shape of uttering the voice of "i" with the lips opened to the side. In addition, the mouth shape object of FIG. 3C shows a mouth shape for uttering a “u” voice with closed lips, and the mouth shape object of FIG. 3D is a mouth shape when the mouth is naturally closed. The shape is shown.

【0021】例えば「え」の音声を発声する口形状は、
「あ」の音声を発声する口形状(図3(A))と、
「い」の音声を発声する口形状(図3(B))との中間
の口形状で表現することができ、また「お」の音声を発
声する口形状は、「あ」の音声を発声する口形状(図3
(A))と、「う」の音声を発声する口形状(図3
(C))との中間の口形状で表現することができる。
For example, the mouth shape for producing the voice "E" is
A mouth shape (Fig. 3 (A)) that produces the sound of "A",
It can be expressed by a mouth shape intermediate to the mouth shape (Fig. 3 (B)) for uttering the "I" voice, and the mouth shape for uttering the "O" voice utters the "A" voice. Mouth shape (Fig. 3
(A)) and a mouth shape that produces a voice of "U" (Fig. 3).
It can be expressed by a mouth shape in the middle of (C)).

【0022】さらに、子音を発声する口形状など、上述
の「あ」、「い」、「う」、「え」、および「お」の5
母音以外の口形状も、図3に示す口形状オブジェクト
を、所定の割合(重み)で混合することにより表現する
ことができる。
Furthermore, the above-mentioned "A", "I", "U", "E", and "O" such as mouth shapes for uttering consonants are used.
Mouth shapes other than vowels can also be expressed by mixing the mouth shape objects shown in FIG. 3 at a predetermined ratio (weight).

【0023】従って、顔画像合成器3においては、図5
に示すように、加重パラメータ変換部2から時系列に出
力される加重パラメータW1乃至W4それぞれに基づい
て、「あ」、「い」、「う」、口を閉じた形を表現する
口形状オブジェクトN1乃至N4を混合(多重内挿)(図
中、加算演算し(+)で示す)する割合を変えることに
より、音響分析部1に入力された音声に対応して、口形
状Aの変化するアニメーションが生成される。
Therefore, in the face image synthesizer 3, FIG.
As shown in, the weight parameter converting unit 2 outputs a mouth-shaped mouth with a closed mouth based on each of the weighted parameters W 1 to W 4 output in time series. By changing the ratio at which the shape objects N 1 to N 4 are mixed (multi-interpolation) (in the figure, addition operation is performed (indicated by (+)), the mouth shape corresponding to the voice input to the acoustic analysis unit 1 is obtained. A changing animation of A is generated.

【0024】ここで、図2に示す波形の音声に対する、
「あ」、「い」、または「う」それぞれの口形状オブジ
ェクトN1乃至N3の加重パラメータW1乃至W3の変化を
図4に示す。加重パラメータは、0乃至1の範囲の値を
とり、それが1.0の場合、その加重パラメータに対す
る口形状オブジェクトは、そのまま他の口形状オブジェ
クトと混合される。そして、加重パラメータが1.0よ
り小さい値になるにしたがって、その加重パラメータに
対する口形状オブジェクトは、元の形状をほぼ相似に小
さくした形状にされ、他の口形状オブジェクトと混合さ
れる。
Here, for the voice of the waveform shown in FIG.
FIG. 4 shows changes in the weighting parameters W 1 to W 3 of the mouth shape objects N 1 to N 3 of “A”, “I”, and “U”, respectively. The weight parameter takes a value in the range of 0 to 1, and when it is 1.0, the mouth shape object corresponding to the weight parameter is mixed with another mouth shape object as it is. Then, as the weighting parameter becomes a value smaller than 1.0, the mouth shape object for that weighting parameter is made into a shape that is substantially similar to the original shape, and is mixed with other mouth shape objects.

【0025】また、加重パラメータが0の場合、その加
重パラメータに対する口形状オブジェクトは、他の口形
状オブジェクトと混合されない。従って、この場合、加
重パラメータが0である口形状オブジェクトは用いられ
ずに、アニメーションの口形状が生成されることにな
る。
When the weight parameter is 0, the mouth shape object corresponding to the weight parameter is not mixed with other mouth shape objects. Therefore, in this case, the mouth shape object whose weighting parameter is 0 is not used, and the mouth shape of the animation is generated.

【0026】次に、音響分析部1から時系列に出力され
るLPCケプストラム係数を、加重パラメータに変換す
る変換関数(重回帰式)を、重回帰分析によって求める
方法について説明するが、その準備として重回帰分析に
ついて簡単に説明する。
Next, a method for obtaining a conversion function (multiple regression equation) for converting the LPC cepstrum coefficients output in time series from the acoustic analysis unit 1 into weighted parameters by multiple regression analysis will be described. The multiple regression analysis will be briefly described.

【0027】なお、重回帰分析の詳細については、例え
ば「多変量解析のはなし」、有馬、石村著、東京図書発
行や、「多変量解析法」、奥野 他著、日科技連発行な
どに記載されている。
The details of the multiple regression analysis are described in, for example, “A Story of Multivariate Analysis”, Arima, Ishimura, Tokyo Book Publishing, “Multivariate Analysis Method”, Okuno et al., Nikkan Giren, etc. Has been done.

【0028】重回帰分析法は、多変量解析法の1種で、
目的変量yと呼ばれる結果と、それに影響を与える、説
明変量xq(q=1,2,・・・,Q)と呼ばれる原因
を用いて、最も誤差の少ない、目的変量yの予測値Yを
与える式(重回帰式) Y=a0+a11+a22+・・・+aQQ (1) を求め、これにより目的変量yを予測する手法である。
The multiple regression analysis method is a kind of multivariate analysis method.
The predicted value Y of the target variable y with the smallest error is calculated using the result called the target variable y and the cause that influences it, called the explanatory variable x q (q = 1, 2, ..., Q). The given formula (multiple regression formula) Y = a 0 + a 1 x 1 + a 2 x 2 + ... + a Q x Q (1) is a method for predicting the target variable y.

【0029】なお、重回帰式(1)において、a0は定
数項と呼ばれ、a1乃至aQは回帰係数(偏回帰係数)と
呼ばれる。
In the multiple regression equation (1), a 0 is called a constant term, and a 1 to a Q are called regression coefficients (partial regression coefficients).

【0030】いま、次のようなI組の、説明変量として
の原因から、目的変量としての結果が得られた場合を考
える。
Now, consider a case where a result as an objective variate is obtained from the cause of the following set I as an explanatory variate.

【0031】 目的変量y1←説明変量x11,x21,・・・,xQ1 目的変量y2←説明変量x12,x22,・・・,xQ2 ・ ・ ・ 目的変量yi←説明変量x1i,x2i,・・・,xQi ・ ・ ・ 目的変量yI←説明変量x1I,x2I,・・・,xQI Objective variate y 1 ← Explanatory variables x 11 , x 21 , ..., x Q1 Objective variate y 2 ← Explanatory variables x 12 , x 22 , ..., x Q2 ··· Objective variability y i ← Explain Variables x 1i , x 2i , ..., x Qi ··· Objective variable y I ← Explanatory variables x 1I , x 2I , ..., x QI

【0032】最も誤差の少ない、目的変量yの予測値Y
を与える重回帰式(1)を求めるということは、式|y
−Y|が小さくなるように、回帰係数a1乃至aQおよび
定数項a0を求めるということになる。
The predicted value Y of the target variable y with the smallest error
To obtain the multiple regression equation (1) that gives
The regression coefficients a 1 to a Q and the constant term a 0 are calculated so that −Y | becomes small.

【0033】説明変量xqiに対する予測値Yiは、式
(1)から式 Yi=a0+a11i+a22i+・・・+aQQi によって与えられ、従ってその目的変量yiと予測値Yi
との誤差Eiは、式 Ei=|yi−(a0+a11i+a22i+・・・+aQQi)| (2) によって与えられる。
The predicted value Y i for the explanatory variable x qi is given by the formula Y i = a 0 + a 1 x 1i + a 2 x 2i + ... + a Q x Qi from the equation (1), and therefore the target variable y i and predicted value Y i
The error E i between and is given by the equation E i = | y i − (a 0 + a 1 x 1i + a 2 x 2i + ... + a Q x Qi ) | (2).

【0034】式(2)を最小にするa0乃至aQを求める
には、最小自乗法に基づき、次式で示される自乗誤差ε
を最小にするa0乃至aQを求めれば良い。 ε=ΣEi 2 但し、Σは、i(=1,2,・・・,I)に関するサメ
ーションを意味する。
In order to find a 0 to a Q that minimizes the equation (2), the square error ε shown by the following equation is used based on the least square method.
It suffices to find a 0 to a Q that minimizes. ε = ΣE i 2 However, Σ means the summation regarding i (= 1, 2, ..., I).

【0035】この場合、自乗誤差εを、a0乃至aQで偏
微分し、その結果得られるQ+1個の式をそれぞれ0と
おいて、Q+1個の連立方程式を解くことにより、自乗
誤差εを最小にするa0乃至aQを求めることができる。
これは、次のようにして得られる連立方程式を解くこと
に等しいことが知られている。
In this case, the squared error ε is partially differentiated by a 0 to a Q , and Q + 1 equations obtained as a result are set to 0, and Q + 1 simultaneous equations are solved to reduce the squared error ε to the minimum. A 0 to a Q can be obtained.
It is known that this is equivalent to solving the simultaneous equations obtained as follows.

【0036】即ち、説明変量xqiとxpiとの共分散をs
qp(但しp=1,2,・・・Q)、説明変量xqiと目的
変量yiとの共分散をsqy、説明変量xqiの平均値をx'
q、目的変量yiの平均値をy'とすると、連立方程式 s1 21+s122+・・・+s1QQ=s1y211+s2 22+・・・+s2QQ=s2y ・ ・ ・ sQ11+sQ22+・・・+sQ 2Q=sQy0=y'−(x'11+x'22+・・・+x'QQ) (3) を解くことによって、a0乃至aQを求めることができ
る。
That is, the covariance of the explanatory variables x qi and x pi is s
qp (where p = 1, 2, ... Q), the covariance of the explanatory variable x qi and the objective variable y i is s qy , and the average value of the explanatory variable x qi is x ′.
If q and the average value of the target variables y i are y ′, simultaneous equations s 1 2 a 1 + s 12 a 2 + ... + s 1Q a Q = s 1y s 21 a 1 + s 2 2 a 2 + ... + S 2Q a Q = s 2y ··· s Q1 a 1 + s Q2 a 2 + ・ ・ ・ + s Q 2 a Q = s Qy a 0 = y '-(x' 1 a 1 + x ' 2 a 2 + ... · + x 'Q a Q) by solving (3), can be obtained a 0 to a Q.

【0037】なお、sq 2は、xqiとxqiとの共分散
qq、即ちxqiの分散を表す。また、sqp=spqである
ので、連立方程式(3)を得るにあたっては、すべての
pとqについてsqpを求めるのではなく、sqpおよびs
pqのうちのいずれか一方を求めれば良い。
S q 2 represents the covariance s qq of x qi and x qi , that is, the variance of x qi . Also, since s qp = s pq , in obtaining simultaneous equations (3), s qp and s are not calculated for all p and q.
You only need to find one of pq .

【0038】加重パラメータ変換部2で用いる変換関数
としての重回帰式を求めるにあたっては、まず学習系列
としての、音韻ラベルのふられている音声信号を、音響
分析部1で、上述したようにして音響分析し、Q次まで
のLPCケプストラム係数xqを求める。
In obtaining the multiple regression equation as the conversion function used in the weighting parameter conversion section 2, first, the acoustic analysis section 1 processes a speech signal having a phonological label as a learning sequence as described above. Acoustic analysis is performed to find the LPC cepstrum coefficient x q up to the Qth order.

【0039】また、LPCケプストラム係数xqを求め
た音声信号に対応する口形状を有する顔画像を、例えば
ビデオテープなどに録画しておき、その再生顔画像の口
形状を得ることができる、図3に示す4つの口形状オブ
ジェクトそれぞれの加重パラメータw1乃至w4を求め
る。
Further, a face image having a mouth shape corresponding to the audio signal for which the LPC cepstrum coefficient x q is obtained is recorded on, for example, a video tape, and the mouth shape of the reproduced face image can be obtained. Weighting parameters w 1 to w 4 of the four mouth-shaped objects shown in 3 are obtained.

【0040】これにより、ある音韻が発声されている時
刻tにおける、LPCケプストラム係数xqと、加重パ
ラメータw1乃至w4とを対応付けることができる。
This makes it possible to associate the LPC cepstrum coefficient x q with the weighting parameters w 1 to w 4 at time t when a certain phoneme is uttered.

【0041】ここで、学習系列としての音声信号は、装
置を日本語に適用する場合、複数の話者について、日本
語の音韻の組み合わせをできるだけ多く含む単語セット
または文章セットを用いるようにする。
Here, for the voice signal as the learning sequence, when the device is applied to Japanese, a word set or a sentence set including as many combinations of Japanese phonemes as possible is used for a plurality of speakers.

【0042】以上のようにして対応付けたLPCケプス
トラム係数xqと加重パラメータw1乃至w4とを、それ
ぞれ説明変量と目的変量とし、目的変量としての加重パ
ラメータw1乃至w4それぞれに対する、式(3)に対応
する連立方程式をたてる。
The LPC cepstrum coefficient x q and the weighting parameters w 1 to w 4 which are associated as described above are used as explanatory variables and objective variables, respectively, and the equations for the weighting parameters w 1 to w 4 as the objective variables are expressed respectively. Create simultaneous equations corresponding to (3).

【0043】そして、その連立方程式を解くことによ
り、説明変量としてのLPCケプストラム係数xqを、
目的変量としての加重パラメータw1乃至w4の予測値W
1乃至W4にそれぞれ変換する重回帰式としての変換関数 W1=a0W1+a1W11+a2W12+・・・+aQW1Q2=a0W2+a1W21+a2W22+・・・+aQW2Q3=a0W3+a1W31+a2W32+・・・+aQW3Q4=a0W4+a1W41+a2W42+・・・+aQW4Q (4) を得る。
By solving the simultaneous equations, the LPC cepstrum coefficient x q as an explanatory variable is
Predicted value W of the weighted parameters w 1 to w 4 as the target variable
Conversion of the multiple regression equation for converting each of 1 to W 4 function W 1 = a 0W1 + a 1W1 x 1 + a 2W1 x 2 + ··· + a QW1 x Q W 2 = a 0W2 + a 1W2 x 1 + a 2W2 x 2 + ··· + a QW2 x Q W 3 = a 0W3 + a 1W3 x 1 + a 2W3 x 2 + ··· + a QW3 x Q W 4 = a 0W4 + a 1W4 x 1 + a 2W4 x 2 + ··· + a QW4 x Q ( 4) is obtained.

【0044】加重パラメータ変換部2では、音響分析部
1から時系列に出力されるLPCケプストラム係数xq
が、式(4)に示す変換関数によって加重パラメータW
1乃至W4にそれぞれ変換され、顔画像合成器3に順次出
力される。
In the weighted parameter conversion unit 2, the LPC cepstrum coefficient x q output from the acoustic analysis unit 1 in time series.
Is a weighting parameter W by the conversion function shown in equation (4).
It is converted into each of 1 to W 4 and sequentially output to the face image synthesizer 3.

【0045】そして、顔画像合成器3においては、上述
したように、加重パラメータ変換部2から時系列に出力
される加重パラメータW1乃至W4それぞれに基づいて、
「あ」、「い」、「う」、口を閉じた形を表現する口形
状オブジェクトN1乃至N4を混合(多重内挿)する割合
を変えることにより、音響分析部1に入力された音声に
同期して口形状の変化するアニメーションが生成され
る。
Then, in the face image synthesizer 3, as described above, based on each of the weighting parameters W 1 to W 4 output from the weighting parameter converter 2 in time series,
“A”, “I”, “U”, and mouth-shaped objects N 1 to N 4 representing closed mouth shapes are mixed (multi-interpolated) by changing the ratio, which is input to the acoustic analysis unit 1. An animation in which the mouth shape changes is generated in synchronization with the voice.

【0046】以上のように、重回帰分析によって得られ
た重回帰式としての変換関数を用いるようにしたので、
線形演算で、音声の音響パラメータとしてのLPCケプ
ストラム係数を加重パラメータに変換することができ
る。さらに、その演算量は少なくて済み、これにより、
処理の高速化、装置の小型化、低コスト化を図ることが
できる。
As described above, since the conversion function as the multiple regression equation obtained by the multiple regression analysis is used,
It is possible to convert the LPC cepstrum coefficient as a sound acoustic parameter into a weighted parameter by a linear operation. Moreover, the amount of calculation is small, which allows
The processing speed can be increased, the device can be downsized, and the cost can be reduced.

【0047】従って、本発明を、例えば音声入出力イン
ターフェイスを装備しているワークステーションなどに
適用しても、ソフトウェア処理だけで、口形状の変化す
るアニメーション生成のリアルタイム処理を行うことが
可能となる。
Therefore, even when the present invention is applied to, for example, a workstation equipped with a voice input / output interface, it is possible to perform real-time processing of animation generation with a change in mouth shape only by software processing. .

【0048】さらに、本発明を、例えばボイスメールの
読み上げ処理や、演算能力の低いコンピュータなどに適
用する場合においては、口以外の顔画像を合成するため
のパラメータをあらかじめ計算しておくようにすること
により、即ち口以外の部分の顔画像を完成しておくよう
にすることにより、入力音声に同期して口の動く顔画像
生成のリアルタイム処理を行うことが可能となる。
Furthermore, when the present invention is applied to, for example, a voice mail reading process or a computer with low computing ability, parameters for synthesizing face images other than mouth are calculated in advance. By doing so, that is, by completing the face image of the part other than the mouth, it is possible to perform the real-time processing of generating the face image in which the mouth moves in synchronization with the input voice.

【0049】また、本発明においては、自然音声(実際
に発声された音声)から得られたLPCケプストラム係
数を変換した加重パラメータを用いるようにしたので、
口形状の変化が、自然なアニメーションを得ることがで
きる。
Further, in the present invention, since the weighted parameter obtained by converting the LPC cepstrum coefficient obtained from the natural voice (the voice actually uttered) is used,
A change in mouth shape can give a natural animation.

【0050】さらに、本発明においては、口形状が段階
的に変化する複数のセル画を描くことなく、声優が発し
た声に同期して口形状の変化するアニメーションを容易
に制作することができる。
Further, in the present invention, an animation in which the mouth shape changes in synchronization with the voice uttered by the voice actor can be easily produced without drawing a plurality of cel images in which the mouth shape changes stepwise. .

【0051】なお、本実施例においては、本発明を、ア
ニメーション制作に適用した場合について説明したが、
本発明は、この他、例えばコンピュータグラフィクスな
どのアプリケーション(例えば、上述のボイスメールの
読み上げ処理など)などにも適用することができる。
In this embodiment, the case where the present invention is applied to animation production has been described.
The present invention can also be applied to other applications such as computer graphics (for example, the above-mentioned voice mail reading processing).

【0052】また、本実施例では、加重パラメータに変
換する音声の音響パラメータとして、LPCケプストラ
ム係数を用いるようにしたが、その他のあらゆる音響パ
ラメータを用いるようにすることができる。
Further, in this embodiment, the LPC cepstrum coefficient is used as the acoustic parameter of the voice converted into the weighted parameter, but any other acoustic parameter can be used.

【0053】即ち、例えば音声をFFT(高速フーリエ
変換)してスペクトル分析した分析結果や、音声をBP
F(バンドパスフィルタ)でフィルタリングし、そのフ
ィルタ出力を全波整流平滑化したものをサンプリングし
た値(バンドパスフィルタバンク分析結果)(各BPF
の通過帯域における音声のパワーの平均値)などを用い
るようにすることができる。
That is, for example, an analysis result obtained by spectrum analysis of voice by FFT (Fast Fourier Transform) and voice by BP
Filtered by F (bandpass filter), the output of the filter is full-wave rectified and smoothed, and sampled (bandpass filter bank analysis result) (each BPF
It is possible to use the average value of the power of the voice in the pass band of the above).

【0054】さらに、音響パラメータとしては、例えば
フォルマントなどを用いるようにしても良いが、上述し
たLPCケプストラム係数や、FFTによるスペクトル
分析結果、バンドパスフィルタバンク分析結果などのよ
うに、音声のスペクトル包絡特性を表す音響パラメータ
を用いる方が、その抽出精度が良く、また高速且つ安定
な音響分析を行うことができるので、より正確な口形状
のアニメーションを実現することができる。
Further, as the acoustic parameter, for example, a formant may be used, but the spectral envelope of the voice such as the above-mentioned LPC cepstrum coefficient, spectrum analysis result by FFT, bandpass filter bank analysis result, etc. By using the acoustic parameter indicating the characteristic, the extraction accuracy is higher, and high-speed and stable acoustic analysis can be performed, so that a more accurate mouth shape animation can be realized.

【0055】即ち、例えば子音の正確なフォルマントを
抽出することは困難であるが、子音から抽出したLPC
ケプストラム係数などのスペクトル包絡特性を表す音響
パラメータは、ある程度正確に、その子音の特徴を表
す。従って、音声のスペクトル包絡特性を表す音響パラ
メータを用いる方が、フォルマントなどを用いる場合に
比較して、より正確な口形状の変化が反映されることに
なる。
That is, for example, it is difficult to extract an accurate formant of a consonant, but an LPC extracted from a consonant is difficult.
Acoustic parameters that represent spectral envelope characteristics, such as cepstrum coefficients, represent the characteristics of their consonants with some accuracy. Therefore, using the acoustic parameter representing the spectral envelope characteristic of the voice reflects a more accurate change in the mouth shape, as compared with the case of using the formant or the like.

【0056】[0056]

【発明の効果】以上の如く、本発明によれば、音声を音
響分析し、音響パラメータを算出して、重回帰分析によ
ってあらかじめ求められた、音響パラメータを、画像の
口形状を変化させるための加重パラメータに変換する変
換関数によって、加重パラメータに変換する。そして、
加重パラメータに基づいて、あらかじめ設定された基本
口形状を変化させ、画像を作成する。従って、音声に同
期して口形状の変化する画像を、少ない演算量によって
得ることができる。
As described above, according to the present invention, a voice is acoustically analyzed, an acoustic parameter is calculated, and the acoustic parameter previously obtained by multiple regression analysis is used to change the mouth shape of an image. It is converted into a weighted parameter by a conversion function for converting into a weighted parameter. And
An image is created by changing a preset basic mouth shape based on the weighting parameter. Therefore, an image in which the mouth shape changes in synchronization with the voice can be obtained with a small amount of calculation.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明を適用した音声顔画像同期装置の一実施
例の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of an embodiment of a voice / face image synchronization apparatus to which the present invention is applied.

【図2】音響分析部1に入力される音声の例を示す波形
図である。
FIG. 2 is a waveform diagram showing an example of voice input to the acoustic analysis unit 1.

【図3】口形状オブジェクトを示す図である。FIG. 3 is a diagram showing a mouth shape object.

【図4】図2の音声波形に対し、加重パラメータ変換部
2から時系列に出力される加重パラメータを示す図であ
る。
FIG. 4 is a diagram showing weighting parameters output in time series from the weighting parameter conversion unit 2 with respect to the voice waveform of FIG.

【図5】顔画像合成器3の動作を説明するための図であ
る。
5 is a diagram for explaining the operation of the face image synthesizer 3. FIG.

【符号の説明】[Explanation of symbols]

1 音響分析部 2 加重パラメータ変換部 3 顔画像合成器 1 Acoustic analysis unit 2 Weighted parameter conversion unit 3 Face image synthesizer

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 入力された音声に同期した画像を作成す
る画像作成方法において、 前記音声から抽出した音響パラメータを、前記画像の口
形状を変化させるための加重パラメータに変換する変換
関数を、重回帰分析によってあらかじめ求めておき、 前記変換関数によって、前記音響パラメータを前記加重
パラメータに変換し、 前記加重パラメータに基づいて、あらかじめ設定された
基本口形状を変化させ、前記画像を作成することを特徴
とする画像作成方法。
1. An image creating method for creating an image synchronized with an input voice, wherein a conversion function for converting an acoustic parameter extracted from the voice into a weighting parameter for changing a mouth shape of the image Obtained in advance by regression analysis, by the conversion function, the acoustic parameter is converted to the weighted parameter, based on the weighted parameter, a preset basic mouth shape is changed, and the image is created. How to create an image.
【請求項2】 前記基本口形状は、「あ」、「い」、お
よび「う」を発音する口形状、並びに口を閉じた形の口
形状でなることを特徴とする請求項1に記載の画像作成
方法。
2. The basic mouth shape is a mouth shape that pronounces “a”, “i”, and “u”, and a mouth shape with a closed mouth. Image creation method.
【請求項3】 入力された音声に同期した画像を作成す
る画像作成装置において、 前記音声を音響分析し、音響パラメータを算出する分析
手段と、 重回帰分析によってあらかじめ求められた、前記音響パ
ラメータを、前記画像の口形状を変化させるための加重
パラメータに変換する変換関数によって、前記音響パラ
メータを前記加重パラメータに変換する変換手段と、 前記加重パラメータに基づいて、あらかじめ設定された
基本口形状を変化させ、前記画像を作成する作成手段と
を備えることを特徴とする画像作成装置。
3. An image creating apparatus for creating an image in synchronization with an input voice, wherein an analyzing means for acoustically analyzing the voice and calculating an acoustic parameter, and the acoustic parameter previously obtained by multiple regression analysis A conversion means for converting the acoustic parameter into the weighting parameter by a conversion function for converting into a weighting parameter for changing the mouth shape of the image; and changing a preset basic mouth shape based on the weighting parameter. And an image creating device for creating the image.
【請求項4】 前記基本口形状は、「あ」、「い」、お
よび「う」を発音する口形状、並びに口を閉じた形の口
形状でなることを特徴とする請求項3に記載の画像作成
装置。
4. The basic mouth shape is a mouth shape that pronounces “a”, “i”, and “u”, and a mouth shape with a closed mouth. Image creation device.
JP5184260A 1993-07-27 1993-07-27 Method and device for generating picture Withdrawn JPH0744727A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5184260A JPH0744727A (en) 1993-07-27 1993-07-27 Method and device for generating picture

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5184260A JPH0744727A (en) 1993-07-27 1993-07-27 Method and device for generating picture

Publications (1)

Publication Number Publication Date
JPH0744727A true JPH0744727A (en) 1995-02-14

Family

ID=16150208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5184260A Withdrawn JPH0744727A (en) 1993-07-27 1993-07-27 Method and device for generating picture

Country Status (1)

Country Link
JP (1) JPH0744727A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100343006B1 (en) * 2000-06-01 2002-07-02 김상덕 Language input type facial expression control mathod
JP2003529861A (en) * 2000-03-31 2003-10-07 テレコム・イタリア・ラブ・エツセ・ピー・アー A method for animating a synthetic model of a human face driven by acoustic signals
US6699123B2 (en) 1999-10-14 2004-03-02 Sony Computer Entertainment Inc. Entertainment system, entertainment apparatus, recording medium, and program
JP2008140364A (en) * 2006-07-24 2008-06-19 Advanced Telecommunication Research Institute International Lip sync animation creation device, computer program, and face model creation device
JP2009087328A (en) * 2007-09-10 2009-04-23 Advanced Telecommunication Research Institute International Lip sync animation creation device, computer program, and face model creation device
EP2293221A2 (en) 2009-08-31 2011-03-09 Sony Corporation Apparatus, method, and program for processing image
JP2011516954A (en) * 2008-03-31 2011-05-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ How to change the display based on user instructions
US8306824B2 (en) 2008-10-14 2012-11-06 Samsung Electronics Co., Ltd. Method and apparatus for creating face character based on voice

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6699123B2 (en) 1999-10-14 2004-03-02 Sony Computer Entertainment Inc. Entertainment system, entertainment apparatus, recording medium, and program
JP2003529861A (en) * 2000-03-31 2003-10-07 テレコム・イタリア・ラブ・エツセ・ピー・アー A method for animating a synthetic model of a human face driven by acoustic signals
JP4913973B2 (en) * 2000-03-31 2012-04-11 テレコム・イタリア・エッセ・ピー・アー Animation method of synthetic model of human face driven by acoustic signal
KR100343006B1 (en) * 2000-06-01 2002-07-02 김상덕 Language input type facial expression control mathod
JP2008140364A (en) * 2006-07-24 2008-06-19 Advanced Telecommunication Research Institute International Lip sync animation creation device, computer program, and face model creation device
JP2009087328A (en) * 2007-09-10 2009-04-23 Advanced Telecommunication Research Institute International Lip sync animation creation device, computer program, and face model creation device
JP2011516954A (en) * 2008-03-31 2011-05-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ How to change the display based on user instructions
US8306824B2 (en) 2008-10-14 2012-11-06 Samsung Electronics Co., Ltd. Method and apparatus for creating face character based on voice
EP2293221A2 (en) 2009-08-31 2011-03-09 Sony Corporation Apparatus, method, and program for processing image
US8634658B2 (en) 2009-08-31 2014-01-21 Sony Corporation Apparatus, method, and program for processing image

Similar Documents

Publication Publication Date Title
Banbrook et al. Speech characterization and synthesis by nonlinear methods
JP3266819B2 (en) Periodic signal conversion method, sound conversion method, and signal analysis method
US7184958B2 (en) Speech synthesis method
JP2763322B2 (en) Audio processing method
JP6638944B2 (en) Voice conversion model learning device, voice conversion device, method, and program
CN110648684B (en) Bone conduction voice enhancement waveform generation method based on WaveNet
JPH0677200B2 (en) Digital processor for speech synthesis of digitized text
CN108108357B (en) Accent conversion method and device and electronic equipment
JPH0632020B2 (en) Speech synthesis method and apparatus
Yadav et al. Prosodic mapping using neural networks for emotion conversion in Hindi language
JPH0744727A (en) Method and device for generating picture
Deiv et al. Automatic gender identification for hindi speech recognition
JP2023054702A (en) Acoustic model learning device, method and program, and speech synthesizer, method and program
JPH06214592A (en) Noise resisting phoneme model generating system
Singh et al. SPECTRAL FEATURE BASED EMOTION CONVERSION IN HINDI LANGUAGE
Rana et al. Advancements in Real-Time Voice Conversion Technologies: A Comprehensive Analysis of Techniques
Ademi et al. NATURAL LANGUAGE PROCESSING AND TEXT-TO-SPEECH TECHNOLOGY
JPH05281984A (en) Method and device for synthesizing speech
Singh et al. A Hybrid Deep Learning Model for Emotion Conversion in Tamil Language
Olives et al. Towards a high quality finnish talking head
Anil et al. Expressive speech synthesis using prosodic modification for Marathi language
Alcaraz Meseguer Speech analysis for automatic speech recognition
Ramli et al. An iterated two-step sinusoidal pitch contour formulation for expressive speech synthesis
JPH0756590A (en) Device and method for voice synthesis and recording medium
Karki et al. Advancing Voice Cloning for Nepali: Leveraging Transfer Learning in a Low-Resource Language

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20001003