JP2015125613A - Animation generation device, data format, animation generation method and program - Google Patents
Animation generation device, data format, animation generation method and program Download PDFInfo
- Publication number
- JP2015125613A JP2015125613A JP2013269943A JP2013269943A JP2015125613A JP 2015125613 A JP2015125613 A JP 2015125613A JP 2013269943 A JP2013269943 A JP 2013269943A JP 2013269943 A JP2013269943 A JP 2013269943A JP 2015125613 A JP2015125613 A JP 2015125613A
- Authority
- JP
- Japan
- Prior art keywords
- data
- animation
- character
- dialogue
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
Description
本発明は、台詞の開始時刻および終了時刻、長さ、内容に応じて、キャラクタのアニメーションを生成する技術に関する。 The present invention relates to a technique for generating animation of a character according to the start time and end time, length, and content of a dialogue.
従来から、予め規定されたフォーマットに従って生成された画像や音声等の電気信号を生成する技術が知られている。例えば、特許文献1に開示されている技術では、複数トラックに記録された音響信号を異なる位置関係で複数再生することで、各信号間の位相ズレを解消させた再生信号を再生成し、音響再生を良好に行うことのできるデータフォーマットを提供する。
2. Description of the Related Art Conventionally, a technique for generating an electrical signal such as an image or sound generated according to a predetermined format is known. For example, in the technique disclosed in
また、特許文献2に開示されている技術では、テレビ電話の通話で送られてくる画像信号及び音声情報に基づいて、情報端末上に生成されたキャラクタを自動的に生成することのできるデータフォーマットを提供する。
In the technology disclosed in
しかしながら、特許文献1に開示されている技術では、複数トラックに記録された音響信号間の同期のズレは解消できるが、画像信号を用いるキャラクタを生成することはできない。
However, with the technique disclosed in
また、特許文献2に開示されている技術では、入力される音声信号の音素情報応じてキャラクタの口形を変化させた画像信号を生成することができるが、全身動作や表情変化等の複雑なアニメーションにおける画像信号を音声信号に応じて生成することは困難である。
In addition, the technique disclosed in
本発明は、このような事情に鑑みてなされたものであり、キャラクタの台詞における開始時刻及び終了時刻、長さ、内容に応じて、キャラクタのアニメーションを生成することができるアニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラムを提供することを目的とする。 The present invention has been made in view of such circumstances, and an animation generation apparatus and a data format that can generate an animation of a character according to the start time and end time, length, and content of the character's dialogue Another object is to provide an animation generation method and program.
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明のアニメーション生成装置は、台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置であって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する時間長調整部を備えることを特徴とする。 (1) In order to achieve the above object, the present invention takes the following measures. That is, the animation generating apparatus of the present invention is an animation generating apparatus that generates animation of a character accompanied by speech output of speech, and includes text data indicating speech, data indicating the start time of the speech, and end time of the speech. It is provided with a time length adjustment unit that inputs dialogue data composed of the data shown, inputs animation data of the character, and adjusts the duration of the animation data of the character based on the dialogue data. .
このように、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するので、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。 In this way, the text data indicating the line, the line data composed of the data indicating the start time of the line and the data indicating the end time of the line are input, the animation data of the character is input, and the line data is input. Since the time length of the character's animation data is adjusted based on this, even if the character's dialogue is dynamically generated, the synchronization of the image signal and the audio signal is eliminated, and the character's animation is generated. can do.
(2)また、本発明のアニメーション生成装置は、前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータを、感情付きのキャラクタのアニメーションデータに変更する感情付与部を更に備えることを特徴とする。 (2) Moreover, the animation production | generation apparatus of this invention uses the emotion data which shows the emotion of the character corresponding to the said dialog, The emotion provision part which changes the animation data of the said character into the animation data of a character with an emotion It is further provided with the feature.
このように、前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータを、感情付きのキャラクタのアニメーションデータに変更するので、キャラクタのアニメーションの感情表現を豊かにすることが可能となる。 As described above, since the animation data of the character is changed to the animation data of the character with emotion using the emotion data indicating the emotion of the character corresponding to the dialogue, the emotion expression of the animation of the character is enriched. Is possible.
(3)また、本発明のアニメーション生成装置は、入力された音声データを認識して台詞を示すテキストデータを生成する台詞テキスト生成部を更に備えることを特徴とする。 (3) The animation generation apparatus of the present invention further includes a dialogue text generation unit that recognizes input voice data and generates text data indicating dialogue.
このように、入力された音声データを認識して台詞を示すテキストデータを生成するので、テキストデータの入力のみならず、直接音声を入力することも可能となる。 As described above, since the input voice data is recognized and the text data indicating the dialogue is generated, it is possible to input not only the text data but also the voice directly.
(4)また、本発明のアニメーション生成装置は、入力された音声データの有音区間を検出して台詞の開始時刻および前記台詞の終了時刻を特定する台詞時刻判定部を更に備えることを特徴とする。 (4) Further, the animation generation apparatus of the present invention further includes a dialogue time determination unit that detects a voiced section of the input voice data and identifies the start time of the dialogue and the end time of the dialogue. To do.
このように、入力された音声データの有音区間を検出して台詞の開始時刻および前記台詞の終了時刻を特定するので、音声を入力した場合であっても台詞データを生成することが可能となる。 In this way, since the voiced period of the input speech data is detected and the start time of the speech and the end time of the speech are specified, it is possible to generate speech data even when speech is input. Become.
(5)また、本発明のアニメーション生成装置は、前記台詞を示すテキストデータの意味内容を認識し、前記キャラクタのアニメーションデータを生成するアニメーション生成部を更に備えることを特徴とする。 (5) Moreover, the animation production | generation apparatus of this invention is further provided with the animation production | generation part which recognizes the meaning content of the text data which shows the said dialog, and produces | generates the animation data of the said character.
このように、前記台詞を示すテキストデータの意味内容を認識し、前記キャラクタのアニメーションデータを生成するので、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。 As described above, since the meaning content of the text data indicating the dialogue is recognized and the animation data of the character is generated, the synchronization deviation between the image signal and the audio signal can be eliminated and the animation of the character can be generated.
(6)また、本発明のアニメーション生成装置は、前記台詞を示すテキストデータの感情分類または感情強度を解析し、前記台詞に対応するキャラクタの感情を示す感情データを生成する感情生成部を更に備えることを特徴とする。 (6) The animation generation apparatus of the present invention further includes an emotion generation unit that analyzes emotion classification or emotion strength of the text data indicating the dialogue and generates emotion data indicating the emotion of the character corresponding to the dialogue. It is characterized by that.
このように、前記台詞を示すテキストデータの感情分類または感情強度を解析し、前記台詞に対応するキャラクタの感情を示す感情データを生成するので、台詞に応じた感情をキャラクタのアニメーションに付与することが可能となる。 As described above, the emotion classification or emotion strength of the text data indicating the dialogue is analyzed, and the emotion data indicating the emotion of the character corresponding to the dialogue is generated, so that the emotion corresponding to the dialogue is given to the animation of the character. Is possible.
(7)また、本発明のアニメーション生成装置において、前記キャラクタのアニメーションデータは、前記キャラクタのボーン(bone)またはポリゴン(polygon)の任意の時刻における空間座標を示すデータであることを特徴とする。 (7) In the animation generation apparatus of the present invention, the animation data of the character is data indicating spatial coordinates of the character's bone or polygon at an arbitrary time.
このように、前記キャラクタのアニメーションデータは、前記キャラクタのボーン(bone)またはポリゴン(polygon)の任意の時刻における空間座標を示すデータであるので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。 As described above, since the animation data of the character is data indicating the spatial coordinates of the character's bone or polygon at an arbitrary time, a character having a complicated animation corresponding to the dialogue is generated. be able to.
(8)また、本発明のアニメーション生成装置は、前記キャラクタのアニメーションデータを再生して、台詞の音声およびアニメーション画像を出力するキャラクタ再生部を更に備えることを特徴とする。 (8) The animation generation apparatus of the present invention further includes a character reproduction unit that reproduces the animation data of the character and outputs speech of speech and animation images.
このように、前記キャラクタのアニメーションデータを再生して、台詞の音声およびアニメーション画像を出力するので、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。 Thus, since the animation data of the character is reproduced and the speech and animation image of the dialogue are output, the synchronization deviation between the image signal and the audio signal can be eliminated, and the animation of the character can be generated.
(9)また、本発明のデータフォーマットは、台詞の音声出力を伴うキャラクタのアニメーションのデータフォーマットであって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データに適合するように、キャラクタのアニメーションデータの時間長が調整されたことを特徴とする。 (9) The data format of the present invention is a data format of animation of a character accompanied by speech output of speech, and indicates text data indicating speech, data indicating the start time of the speech, and end time of the speech. The time length of the animation data of the character is adjusted so as to match the dialogue data composed of the data.
このように、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するので、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。 In this way, the text data indicating the line, the line data composed of the data indicating the start time of the line and the data indicating the end time of the line are input, the animation data of the character is input, and the line data is input. Since the time length of the character's animation data is adjusted based on this, even if the character's dialogue is dynamically generated, the synchronization of the image signal and the audio signal is eliminated, and the character's animation is generated. can do.
(10)また、本発明のデータフォーマットは、前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータが、感情付きのキャラクタのアニメーションデータに変更されたことを特徴とする。 (10) The data format of the present invention is characterized in that the animation data of the character is changed to animation data of a character with emotion using emotion data indicating the emotion of the character corresponding to the dialogue. To do.
このように、前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータを、感情付きのキャラクタのアニメーションデータに変更するので、キャラクタのアニメーションの感情表現を豊かにすることが可能となる。 As described above, since the animation data of the character is changed to the animation data of the character with emotion using the emotion data indicating the emotion of the character corresponding to the dialogue, the emotion expression of the animation of the character is enriched. Is possible.
(11)また、本発明のアニメーション生成方法は、台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成方法であって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力するステップと、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するステップと、を少なくとも含むことを特徴とする。 (11) Further, the animation generation method of the present invention is an animation generation method for generating an animation of a character accompanied by speech output of speech, the text data indicating speech, the data indicating the start time of the speech, and the dialogue Input dialogue data composed of data indicating an end time, input animation data of the character, and adjust time length of the animation data of the character based on the dialogue data It is characterized by that.
このように、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するので、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。 In this way, the text data indicating the line, the line data composed of the data indicating the start time of the line and the data indicating the end time of the line are input, the animation data of the character is input, and the line data is input. Since the time length of the character's animation data is adjusted based on this, even if the character's dialogue is dynamically generated, the synchronization of the image signal and the audio signal is eliminated, and the character's animation is generated. can do.
(12)また、本発明のプログラムは、台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置のプログラムであって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力する処理と、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する処理と、の一連の処理をコンピュータに実行させることを特徴とする。 (12) Further, the program of the present invention is a program of an animation generating device that generates animation of a character accompanied by speech output of speech, the text data indicating speech, the data indicating the start time of the speech, and the dialogue A series of processes of inputting dialogue data composed of data indicating end time, inputting animation data of the character, and adjusting time length of the animation data of the character based on the dialogue data The processing is executed by a computer.
このように、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するので、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。 In this way, the text data indicating the line, the line data composed of the data indicating the start time of the line and the data indicating the end time of the line are input, the animation data of the character is input, and the line data is input. Since the time length of the character's animation data is adjusted based on this, even if the character's dialogue is dynamically generated, the synchronization of the image signal and the audio signal is eliminated, and the character's animation is generated. can do.
本発明によれば、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。 According to the present invention, even if the dialogue of a character is dynamically generated, the animation of the character can be generated by eliminating the synchronization deviation between the image signal and the audio signal.
本発明の実施形態に係るキャラクタアニメーション生成装置は、台詞である音声信号を入力し、入力された音声信号を時系列で記録した音声データに基づいて台詞のテキストデータおよび台詞の開始時刻及び終了時刻を時系列で生成する。この生成された台詞のテキストデータ及び台詞の開始時刻及び終了時刻に基づいてキャラクタのアニメーションデータを時系列で生成する。アニメーションデータには感情データを伴っていても良く、生成された感情データに基づいてアニメーションデータに感情を付与し、台詞の開始時刻及び終了時刻に基づいてアニメーションデータの時間長を調整する。この生成された台詞の開始時刻及び終了時刻に応じて、音声データにおける音声信号及び生成されたアニメーションデータにおける画像信号を生成する。これにより、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタを生成することができる。また、アニメーションデータとしてキャラクタの任意のボーンまたはポリゴンの空間座標を制御した画像信号を生成するので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。 The character animation generating apparatus according to the embodiment of the present invention inputs speech signals that are dialogues, and based on speech data in which the input speech signals are recorded in time series, speech text data and dialogue start and end times. Are generated in time series. Character animation data is generated in time series based on the generated line text data and the line start time and end time. The animation data may be accompanied by emotion data, and emotion is given to the animation data based on the generated emotion data, and the time length of the animation data is adjusted based on the start time and end time of the dialogue. An audio signal in the audio data and an image signal in the generated animation data are generated according to the start time and end time of the generated dialogue. Thereby, even when the dialogue of the character is dynamically generated, it is possible to eliminate the synchronization shift between the image signal and the audio signal and generate the character. In addition, since an image signal in which spatial coordinates of an arbitrary bone or polygon of the character is controlled is generated as animation data, a character having a complicated animation corresponding to the dialogue can be generated.
図1は、本実施形態に係るキャラクタアニメーション生成装置の概略構成を示す図である。キャラクタアニメーション生成装置1は、マイクロフォン10と、スピーカ20、ディスプレイ30と、PC(Personal Computer)40とから構成されている。そして、マイクロフォン10によりPC40に音声データ50が入力される。なお、図1では、マイクロフォン10が、PC40に接続されているが、本発明の技術的思想は、これに限定されるわけではなく、任意手段によりPCに対して音声データが入力されれば十分である。
FIG. 1 is a diagram illustrating a schematic configuration of a character animation generation apparatus according to the present embodiment. The character
PC40は、ケーブル40aを介してキャラクタアニメーション生成装置としてのスピーカ20及びディスプレイ30に接続されている。PC40では、台詞として入力された音声信号を時系列で記録した音声データ50に基づいて台詞のテキストデータまたは台詞の開始時刻及び終了時刻を時系列で生成する。また、生成された台詞のテキストデータ及び台詞の開始時刻及び終了時刻に基づいてキャラクタのアニメーションデータ及び感情データを時系列で生成する。さらに、生成された感情データに基づいてアニメーションデータに感情を付与すると共に生成された台詞の開始時刻及び終了時刻に基づいてアニメーションデータの時間長を調整する。
The
そして、PC40は、生成された台詞の開始時刻及び終了時刻に応じて、音声データにおける音声信号を随時スピーカ20に発信する。一方、PC40は、生成されたアニメーションデータにおける画像信号を随時ディスプレイ30に発信する。その際、PC40において生成された画像はディスプレイ30にA1として映写される。なお、本発明の実施形態に係るキャラクタアニメーション生成装置では、音声データにおける音声信号またはアニメーションデータにおける画像信号をスピーカ20またはディスプレイ30に発信しなくても構わない。
And PC40 transmits the audio | voice signal in audio | voice data to the
図2は、本実施形態に係るキャラクタアニメーション生成装置の機能を示すブロック図である。PC40の台詞テキスト生成部40−1は、マイクロフォン10により台詞として入力された音声信号を時系列で記録した音声データ50を認識して、台詞のテキストデータ60−1を時系列で生成する。また、PC40の台詞時刻判定部40−2は、音声データ50の有音区間を検出して、台詞の開始時刻及び終了時刻60−2を時系列で判定する。また、PC40のアニメーション生成部40−3は、台詞のテキストデータ60−1の内容を解析して、台詞の開始時刻及び終了時刻60−2毎に、キャラクタのアニメーションデータ70を時系列で生成する。
FIG. 2 is a block diagram illustrating functions of the character animation generation apparatus according to the present embodiment. The dialogue text generation unit 40-1 of the
また、PC40の感情生成部40−4は、台詞のテキストデータ60−1の内容を解析して、キャラクタの感情データ80を時系列で生成する。また、PC40の感情付与部40−5は、感情データ80に応じて、アニメーションデータ70を変換する。また、PC40の時間長調整部40−6は、台詞の開始時刻及び終了時刻60−2に基づいて、アニメーションデータ70を変換する。また、PC40のキャラクタ再生部40−7は、台詞の開始時刻及び終了時刻60−2に応じて、音声データ50における音声信号及び生成されたアニメーションデータ70における画像信号を再生する。
Also, the emotion generation unit 40-4 of the
図3は、本実施形態に係るキャラクタアニメーション生成装置の動作を示すフローチャートである。初めに、PC40に、マイクロフォン10により音声信号を入力し、入力された音声信号を時系列で記録して音声データ50を形成する(ステップS1)。次に、PC40において、音声データ50を認識して、台詞のテキストデータを時系列で生成する(ステップS2)。
FIG. 3 is a flowchart showing the operation of the character animation generation apparatus according to this embodiment. First, an audio signal is input to the
次に、PC40において、音声データ50の有音区間を検出して、台詞の開始時刻及び終了時刻60−2を時系列で判定する(ステップS3)。音声データ50において、音圧レベルが閾値より大きい状況が一定時間以上継続した場合、該当区間を有音区間とし、区間の先頭を台詞の開始時刻、区間の終端を台詞の終了時刻と判定する。また、ステップS2で生成された台詞のテキストデータを、判定された台詞の開始時刻から終了時刻までを1つの単位として、台詞のテキストデータ60−1に分割する。
Next, in the
次に、PC40において、ステップS3で分割された台詞のテキストデータ60−1の内容を解析して、ステップS3で判定された台詞の開始時刻及び終了時刻60−2毎に、「目を閉じる」「お辞儀する」「手を挙げる」等のキャラクタのアニメーションデータ70を時系列で生成する(ステップS4)。本実施形態では、キャラクタの全身動作または表情変化の際のアニメーションデータと、日本語辞書などの代表的な単語データベースに存在する各単語をパラメータとして算出した各アニメーションデータにおける類似度パラメータ、のペアで構成されるアニメーションデータベースを用意する。
Next, the
なお、ここで言うアニメーションデータは、キャラクタの全てのボーンまたはポリゴンが任意の時刻において何れの空間位置座標に存在するかが記述されている。台詞のテキストデータ60−1における類似度パラメータを算出し、アニメーションデータベースの中にある全てのアニメーションデータにおける類似度パラメータとのコサイン類似度を求め、最も値の大きいアニメーションデータをキャラクタのアニメーションデータ70として時系列で生成する。
Note that the animation data referred to here describes at which spatial position coordinates all the bones or polygons of the character exist at an arbitrary time. The similarity parameter in the line text data 60-1 is calculated, the cosine similarity with the similarity parameter in all animation data in the animation database is obtained, and the animation data having the largest value is used as the
次に、PC40において、ステップS3で分割された台詞のテキストデータ60−1の内容を解析して、感情分類及び強度から構成されるキャラクタの感情データ80を時系列で生成する(ステップS5)。ここでは、入力される台詞のテキストデータ60−1が単語列の場合を説明するが、本発明の技術的思想は、単語に限定されるわけではなく、句であっても文であっても良い。本実施形態では、感情分類とそれぞれの強度から構成される感情語データベースを使用する。
Next, the
なお、感情語データベースは、日本語辞書などの大量の単語データベースに存在する全ての単語に対して、人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の9つがどれくらいの割合で存在するか規定し、それぞれの感情強度を0〜1の範囲で、0.1刻みに10段階で指定して、予め形成されている。また、入力される台詞のテキストデータ60−1が句または文である場合は、単語の場合と同様に、句または文に全体における感情分類とそれぞれの強度から構成される感情句データベースまたは感情文データベースを使用すれば良い。ここで、「喜び」の強度をS1、「悲しみ」の強度をS2、「怒り」の強度をS3、「嫌悪」の強度をS4、「恐怖」の強度をS5、「罪」の強度をS6、「恥」の強度をS7、「興味」の強度をS8、「驚き」の強度をS9と表す。ただし、次式を満たすものとする。 The emotion word database is the emotion classification "joy", "sadness", "anger", "disgust", "fear" used for human expression formation for all words in a large number of word databases such as Japanese dictionary Specify the ratio of “Sin”, “Shame”, “Interest”, and “Surprise”, and specify the emotional intensity in the range of 0 to 1 in 10 steps in increments of 0.1. Is formed. If the input text data 60-1 is a phrase or sentence, as in the case of a word, the phrase phrase or sentence is an emotion phrase database or emotion sentence composed of emotion classifications and respective strengths as a whole. Use a database. Here, the intensity of “joy” is S 1 , the intensity of “sadness” is S 2 , the intensity of “anger” is S 3 , the intensity of “hate” is S 4 , the intensity of “fear” is S 5 , “sin” ”Is represented as S 6 ,“ Shame ”as S 7 ,“ Interest ”as S 8 , and“ Surprise ”as S 9 . However, the following formula shall be satisfied.
そして、入力される台詞のテキストデータ60−1と一致または類似する単語を感情語データベースの中から検索し、その単語における感情分類と強度を抽出し、感情データ80を生成する。すなわち、台詞のテキストデータ60−1における感情分類は、次式のように、9次元のベクトルで示される。
Then, a word that matches or is similar to the input dialogue text data 60-1 is searched from the emotion word database, and the emotion classification and strength in the word are extracted to generate
また、入力される台詞のテキストデータ60−1における全体強度Wは、次式で表わされる。 Further, the overall intensity W in the input text data 60-1 is expressed by the following equation.
例えば、台詞のテキストデータ60−1として、「泣き笑い」を入力すると、次式が感情データ80として生成される。
For example, when “crying and laughing” is input as the text data 60-1 for the dialogue, the following expression is generated as the
次に、PC30において、感情データ80に応じてアニメーションデータ70を変換し、キャラクタの全身動作または表情変化に感情を付与する(ステップS6)。まず、アニメーションデータ70にキャラクタにおける任意のボーンの空間座標が時系列で記録されている場合について述べる。本実施形態では、予め収録された全ての全身動作または表情変化における無感情のアニメーションデータ及び各感情分類のアニメーションデータを学習させ、無感情のアニメーションデータから各感情分類のアニメーションデータへの変換を予め定義し、ステップS4で生成されたアニメーションデータ70を、ステップS5で生成された感情データ80に応じて合成変換することで、キャラクタの全身動作または表情変化に感情を付与する。
Next, in the
本明細書では、一例として、主成分分析を用いてキャラクタの全身動作または表情変化に感情を付与するが、本発明の技術的思想は、主成分分析に限定されるわけでなく、非線形状態空間写像や機械学習等、別の方法を用いて全身動作または表情変化に感情を付与しても良い。まず、無感情及び人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の9つの感情の全身動作または表情変化におけるアニメーションデータを収録等により予め複数用意し、学習用データベースに登録しておく。登録された全ての無感情のアニメーションデータ及び各感情分類のアニメーションデータを学習し、線形回帰手法により、無感情のアニメーションデータから各感情分類のアニメーションデータに変換するためのパラメータを算出する。 In this specification, as an example, the principal component analysis is used to give emotions to the whole body motion or facial expression change of the character. However, the technical idea of the present invention is not limited to the principal component analysis, but a nonlinear state space. Other methods such as mapping and machine learning may be used to give emotions to whole body movements or facial expression changes. First, the emotional movements and expressions of the nine emotions of emotion classification "joy", "sadness", "anger", "hate", "fear", "sin", "shame", "interest" and "surprise" A plurality of animation data in the change is prepared in advance by recording or the like and registered in the learning database. All registered emotionless animation data and animation data of each emotion classification are learned, and parameters for converting the emotionless animation data into animation data of each emotion classification are calculated by a linear regression method.
すなわち、予め用意された全身動作または表情変化をm(m=1,2,…)とすると、全身動作または表情変化mにおける無感情のアニメーションデータの第j主成分座標の微分値kj(m)を用いて、次式により線形回帰演算を行って、変換パラメータaj i、bj iを算出する。 That is, if m (m = 1, 2,...) Represents a pre-prepared whole body motion or facial expression change, a differential value k j (m) of the j-th principal component coordinates of emotionless animation data in the whole body motion or facial expression change m. ), Linear transformation calculation is performed according to the following equation to calculate conversion parameters a j i and b j i .
ただし、qj i(m)は全身動作または表情変化mにおける各感情のアニメーションデータの第j主成分座標の微分値を示しており、i=1は感情分類が「喜び」の場合を、i=2は感情分類が「悲しみ」の場合を、i=3は感情分類が「怒り」の場合を、i=4は感情分類が「嫌悪」の場合を、i=5は感情分類が「恐怖」の場合を、i=6は感情分類が「罪」の場合を、i=7は感情分類が「恥」の場合を、i=8は感情分類が「興味」の場合を、i=9は感情分類が「驚き」の場合をそれぞれ表す。次に、ステップS5で生成された感情データ80に対応する変換パラメータaj i、bj iを用いて、ステップS4で生成されたアニメーションデータ70を合成変換し、キャラクタの全身動作または表情変化に感情を付与する。すなわち、感情が付与されたアニメーションデータ70の第j主成分座標の微分値pj(m)は、次式のようになる。
However, q j i (m) indicates the differential value of the j-th principal component coordinate of animation data of each emotion in whole body motion or facial expression change m, i = 1 indicates that the emotion classification is “joy”, i = 2 is when the emotion classification is “sadness”, i = 3 is when the emotion classification is “anger”, i = 4 is when the emotion classification is “disgust”, i = 5 is when the emotion classification is “fear” ”, I = 6 is the emotion classification“ sin ”, i = 7 is the emotion classification“ shame ”, i = 8 is the emotion classification“ interest ”, i = 9 Represents the case where the emotion classification is “surprise”. Next, using the conversion parameters a j i and b j i corresponding to the
時系列で記録されたアニメーションデータ70の全てに対して同様の操作を実行し、アニメーションデータ70を再生成する。
The same operation is performed on all of the
次に、アニメーションデータ70にキャラクタにおける任意のポリゴンの空間座標が時系列で記録されている場合について述べる。本実施形態では、ステップS4で生成されたアニメーションデータ70を、ステップS5で生成された感情データ80に応じて合成変換することで、キャラクタの全身動作または表情変化に感情を付与する。まず、人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の9つの感情の全身動作または表情変化におけるアニメーションデータに対して、無感情のアニメーションデータからの変化量を予め定義しておく。ここで、アニメーションデータの中のあるポリゴンPの座標に対して、「喜び」における無感情との差分を(X1,Y1,Z1)、「悲しみ」における無感情との差分を(X2,Y2,Z2)、「怒り」における無感情との差分を(X3,Y3,Z3)、「嫌悪」における無感情との差分を(X4,Y4,Z4)、「恐怖」における無感情との差分を(X5,Y5,Z5)、「罪」における無感情との差分を(X6,Y6,Z6)、「恥」における無感情との差分を(X7,Y7,Z7)、における無感情との差分を(X8,Y8,Z8)、「驚き」における無感情との差分を(X9,Y9,Z9)、と表す。
Next, a case where the spatial coordinates of an arbitrary polygon in a character are recorded in time series in the
そして、ステップS5で生成された感情データ80に応じて、ステップS4で生成されたアニメーションデータ70を合成変換し、キャラクタの全身動作または表情変化に感情を付与する。すなわち、アニメーションデータ70におけるPの座標を(X0,Y0,Z0)とすると、感情が付与されたアニメーションデータ70におけるPの座標(XE,YE,ZE)は、次式で表わされる。
Then, in accordance with the
時系列で記録されたアニメーションデータ70の全てに対して同様の操作を実行し、アニメーションデータ70を再生成する。
The same operation is performed on all of the
次に、PC40において、ステップS3で判定された台詞の開始時刻及び終了時刻60−2に基づいて、ステップS4またはステップS6で生成されたアニメーションデータ70を変換し、アニメーションデータ70の時間長を調整する(ステップS7)。本実施形態では、キャラクタの一連の全身動作または表情変化におけるアニメーションデータ内のボーンまたはポリゴンの空間座標を「開始部」「主要部」「収束部」等の動きの内容に応じて予め分割して、それらの境界となる時刻をキーフレームと指定し、キーフレーム間の遷移が規定された「アニメーショングラフ」を用いて、アニメーションデータ70を変換する。
Next, the
本明細書では、一例として、アニメーショングラフを用いてアニメーションデータ70の時間長を調整するが、本発明の技術的思想は、アニメーショングラフに限定されるわけではなく、機械学習やHidden Markov Model等の確率モデルも用いてアニメーションデータ70の時間長を調整しても良い。まず、ステップS4で用意されたアニメーションデータベースにおける全てのアニメーションデータに対して、予め「開始部」「主要部」「収束部」を定めてキーフレームを指定し、上述したアニメーショングラフを用意する。
In the present specification, as an example, the time length of the
次に、ステップS3で判定された台詞の開始時刻及び終了時刻よりステップS3で分割された台詞のテキストデータ60−1の時間長を求める。そして、ステップS4またはステップS6で生成されたアニメーションデータ70の時間長に、アニメーションデータ70における「主要部」の時間長を、台詞の時間長との差分が最も小さくなるように繰り返し加え、繰り返し回数を保持する。最後に、アニメーションデータ70の「収束部」の直前に、保持された繰り返し回数分だけ「主要部」のアニメーションデータを挿入する形で、アニメーションデータ70を再生成する。本明細書では、一例として、アニメーションデータにおける「主要部」を繰り返して時間長を調整するが、本発明の技術的思想は、「主要部」の繰り返しに限定されるわけではなく、アニメーションデータの速度制御や「開始部」「収束部」の切り捨て等でアニメーションデータ70の時間長を調整しても良い。
Next, the time length of the line text data 60-1 divided in step S3 is obtained from the line start time and end time determined in step S3. Then, the time length of the “main part” in the
次に、PC40において、ステップS3で判定された台詞の開始時刻及び終了時刻60−2に応じて、音声データ50における音声信号ステップS7で生成されたアニメーションデータ70における画像信号を生成する(ステップS8)。まず、音声データ50の再生を開始して音声信号の生成を開始すると共に、キャラクタの描画を開始して画像信号の生成を開始する。次に、音声データ50の再生時刻がステップS3で判定された台詞の開始時刻に到達すると、ステップS7で生成されたアニメーションデータ70を反映したキャラクタの描画を開始して画像信号を生成する。
Next, in the
一方、音声データ50の再生時刻がステップS3で判定された台詞の終了時刻に到達すると、アニメーションデータ70が反映されない標準のキャラクタの描画に戻り画像信号を生成する。時系列で記録された全ての台詞の開始時刻及び終了時刻60−2に対して、同様の処理を繰り返し、アニメーションデータ70における画像信号を生成する。最後の台詞の開始時刻及び終了時刻60−2に対しての処理が終了した後、マイクロフォン10により入力される音声データ50が続く場合は、ステップS1に戻り、次の音声データ50に対しての処理を開始する。
On the other hand, when the reproduction time of the audio data 50 reaches the end time of the line determined in step S3, the image signal is generated by returning to the standard character drawing in which the
最後に、音声データ50をスピーカ20から放射すると共に、生成されたキャラクタの画像信号をディスプレイ30に映写する(ステップS9)。
Finally, the audio data 50 is radiated from the
このように、本実施形態によれば、台詞として入力された音声信号を時系列で記録した音声データ50に基づいて台詞のテキストデータ及び台詞の開始時刻及び終了時刻を時系列で生成する。また、生成された台詞のテキストデータに基づいて台詞の開始時刻及び終了時刻毎にキャラクタのアニメーションデータ及び感情データを時系列で生成する。さらに、生成された感情データに基づいてアニメーションデータに感情を付与すると共に生成された台詞の開始時刻及び終了時刻に基づいてアニメーションデータの時間長を調整する。そして、PC40は、生成された台詞の開始時刻及び終了時刻に応じて、音声データにおける音声信号を随時スピーカ20に発信する。一方、PC40は、アニメーションデータにおける画像信号を随時ディスプレイ30に発信する。これにより、本実施形態では、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタを生成することができる。また、アニメーションデータとしてキャラクタの任意のボーンまたはポリゴンの空間座標を制御した画像信号を生成するので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。
As described above, according to the present embodiment, the text data of the dialogue and the start time and the end time of the dialogue are generated in time series based on the audio data 50 in which the speech signal input as dialogue is recorded in time series. Also, animation data and emotion data of the character are generated in time series for each start time and end time of the line based on the generated line text data. Further, emotion is given to the animation data based on the generated emotion data, and the time length of the animation data is adjusted based on the start time and end time of the generated dialogue. And PC40 transmits the audio | voice signal in audio | voice data to the
10 マイクロフォン
20 スピーカ
30 ディスプレイ
40−1 台詞テキスト生成部
40−2 台詞時刻判定部
40−3 アニメーション生成部
40−4 感情生成部
40−5 感情付与部
40−6 時間長調整部
40−7 キャラクタ再生部
40a ケーブル
50 音声データ
60−1 テキストデータ
60−2 開始時刻および終了時刻
70 アニメーションデータ
80 感情データ
DESCRIPTION OF SYMBOLS 10
Claims (12)
台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する時間長調整部を備えることを特徴とするアニメーション生成装置。 An animation generation device that generates animation of a character with speech output of speech,
While inputting dialogue data composed of text data indicating dialogue, data indicating the start time of the dialogue, and data indicating the end time of the dialogue, and inputting animation data of the character, based on the dialogue data, An animation generation apparatus comprising a time length adjustment unit for adjusting a time length of animation data of a character.
台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データに適合するように、キャラクタのアニメーションデータの時間長が調整されたことを特徴とするデータフォーマット。 A data format for character animation with speech output of dialogue,
The time length of the animation data of the character is adjusted so as to be matched with the text data indicating the line, the data indicating the start time of the line and the data indicating the end time of the line Data format to be used.
台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力するステップと、
前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するステップと、を少なくとも含むことを特徴とするアニメーション生成方法。 An animation generation method for generating an animation of a character with speech output of speech,
Inputting dialogue data composed of text data indicating dialogue, data indicating the start time of the dialogue, and data indicating the end time of the dialogue, and inputting animation data of the character;
Adjusting at least the time length of the animation data of the character based on the dialogue data.
台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力する処理と、
前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する処理と、の一連の処理をコンピュータに実行させることを特徴とするプログラム。
A program for an animation generation device that generates an animation of a character with speech output of speech,
A process of inputting text data indicating a line, data indicating a start time of the line, and data indicating a line end time, and inputting animation data of the character;
A program for causing a computer to execute a series of processes of adjusting a time length of animation data of the character based on the dialogue data.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013269943A JP2015125613A (en) | 2013-12-26 | 2013-12-26 | Animation generation device, data format, animation generation method and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013269943A JP2015125613A (en) | 2013-12-26 | 2013-12-26 | Animation generation device, data format, animation generation method and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2015125613A true JP2015125613A (en) | 2015-07-06 |
Family
ID=53536273
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013269943A Pending JP2015125613A (en) | 2013-12-26 | 2013-12-26 | Animation generation device, data format, animation generation method and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2015125613A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110288077A (en) * | 2018-11-14 | 2019-09-27 | 腾讯科技(深圳)有限公司 | A kind of synthesis based on artificial intelligence is spoken the method and relevant apparatus of expression |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000123191A (en) * | 1998-10-19 | 2000-04-28 | Canon Inc | Information processing apparatus and method and information transmission system |
| JP2002197488A (en) * | 2000-12-27 | 2002-07-12 | Konami Computer Entertainment Yokyo Inc | Device and method for generating lip-synchronization data, information storage medium and manufacturing method of the information storage medium |
| JP2003216173A (en) * | 2002-01-28 | 2003-07-30 | Toshiba Corp | Method, device and program of synchronous control of synthetic voice and video |
| JP3173022U (en) * | 2011-11-01 | 2012-01-19 | サイバークローン株式会社 | Moving image system with speech synthesis |
-
2013
- 2013-12-26 JP JP2013269943A patent/JP2015125613A/en active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000123191A (en) * | 1998-10-19 | 2000-04-28 | Canon Inc | Information processing apparatus and method and information transmission system |
| JP2002197488A (en) * | 2000-12-27 | 2002-07-12 | Konami Computer Entertainment Yokyo Inc | Device and method for generating lip-synchronization data, information storage medium and manufacturing method of the information storage medium |
| JP2003216173A (en) * | 2002-01-28 | 2003-07-30 | Toshiba Corp | Method, device and program of synchronous control of synthetic voice and video |
| JP3173022U (en) * | 2011-11-01 | 2012-01-19 | サイバークローン株式会社 | Moving image system with speech synthesis |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110288077A (en) * | 2018-11-14 | 2019-09-27 | 腾讯科技(深圳)有限公司 | A kind of synthesis based on artificial intelligence is spoken the method and relevant apparatus of expression |
| CN110288077B (en) * | 2018-11-14 | 2022-12-16 | 腾讯科技(深圳)有限公司 | Method and related device for synthesizing speaking expression based on artificial intelligence |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP4538935A2 (en) | Two-level speech prosody transfer | |
| US20200279553A1 (en) | Linguistic style matching agent | |
| CN106653052B (en) | Virtual human face animation generation method and device | |
| Marsella et al. | Virtual character performance from speech | |
| US10242666B2 (en) | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method | |
| KR102116309B1 (en) | Synchronization animation output system of virtual characters and text | |
| CN106486121B (en) | Voice optimization method and device applied to intelligent robot | |
| US20200193961A1 (en) | System for synchronizing speech and motion of character | |
| JP6201212B2 (en) | Character generating apparatus and program | |
| KR101089184B1 (en) | Character utterance and emotion expression system and method | |
| US20240221260A1 (en) | End-to-end virtual human speech and movement synthesization | |
| CN116597858A (en) | Voice mouth shape matching method and device, storage medium and electronic equipment | |
| Aly et al. | Multimodal adapted robot behavior synthesis within a narrative human-robot interaction | |
| JP6222465B2 (en) | Animation generating apparatus, animation generating method and program | |
| CN112907706A (en) | Multi-mode-based sound-driven animation video generation method, device and system | |
| JP2019168623A (en) | Dialogue device, robot, dialogue control method and program | |
| JP2015125613A (en) | Animation generation device, data format, animation generation method and program | |
| JP2002318590A (en) | Device and method for synthesizing voice, program and recording medium | |
| d’Alessandro et al. | Reactive statistical mapping: Towards the sketching of performative control with data | |
| KR102753703B1 (en) | Method for generating audio-based animation with controllable emotional values and electronic device for performing the same | |
| CN118366430B (en) | Personification voice synthesis method, personification voice synthesis device and readable storage medium | |
| US20240242703A1 (en) | Information processing device and information processing method for artificial speech generation | |
| US20240312094A1 (en) | Transcriptive Biomechanical System And Method | |
| CN118786479A (en) | Speech synthesizer and method for speech synthesis | |
| Yan et al. | A Dual-Mode Real-Time Lip-Sync System for a Bionic Dinosaur Robot |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160729 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170412 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170418 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170531 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170606 |