[go: up one dir, main page]

JP2015125613A - Animation generation device, data format, animation generation method and program - Google Patents

Animation generation device, data format, animation generation method and program Download PDF

Info

Publication number
JP2015125613A
JP2015125613A JP2013269943A JP2013269943A JP2015125613A JP 2015125613 A JP2015125613 A JP 2015125613A JP 2013269943 A JP2013269943 A JP 2013269943A JP 2013269943 A JP2013269943 A JP 2013269943A JP 2015125613 A JP2015125613 A JP 2015125613A
Authority
JP
Japan
Prior art keywords
data
animation
character
dialogue
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013269943A
Other languages
Japanese (ja)
Inventor
伸也 高山
Shinya Takayama
伸也 高山
有希 永井
Yuki Nagai
有希 永井
建鋒 徐
Kenho Jo
建鋒 徐
茂之 酒澤
Shigeyuki Sakasawa
茂之 酒澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2013269943A priority Critical patent/JP2015125613A/en
Publication of JP2015125613A publication Critical patent/JP2015125613A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

PROBLEM TO BE SOLVED: To generate animation of a character in accordance with a start time and end time, length, and content in dialogue sentences of the character.SOLUTION: The animation generation device generates animation of a character with a voice output for dialogue sentences. The device comprises a time length adjustment unit 40-6 for inputting dialogue sentence data configured by text data showing dialogue sentences, data showing a start time of the dialogue sentences, and data showing an end time of the dialogue sentences and also inputting animation data of the character, and adjusting a time length of the animation data of the character on the basis of the dialogue sentence data.

Description

本発明は、台詞の開始時刻および終了時刻、長さ、内容に応じて、キャラクタのアニメーションを生成する技術に関する。   The present invention relates to a technique for generating animation of a character according to the start time and end time, length, and content of a dialogue.

従来から、予め規定されたフォーマットに従って生成された画像や音声等の電気信号を生成する技術が知られている。例えば、特許文献1に開示されている技術では、複数トラックに記録された音響信号を異なる位置関係で複数再生することで、各信号間の位相ズレを解消させた再生信号を再生成し、音響再生を良好に行うことのできるデータフォーマットを提供する。   2. Description of the Related Art Conventionally, a technique for generating an electrical signal such as an image or sound generated according to a predetermined format is known. For example, in the technique disclosed in Patent Document 1, by reproducing a plurality of acoustic signals recorded on a plurality of tracks with different positional relationships, a reproduction signal in which a phase shift between the signals is eliminated is regenerated, and an acoustic signal is reproduced. Provided is a data format that can be reproduced satisfactorily.

また、特許文献2に開示されている技術では、テレビ電話の通話で送られてくる画像信号及び音声情報に基づいて、情報端末上に生成されたキャラクタを自動的に生成することのできるデータフォーマットを提供する。   In the technology disclosed in Patent Document 2, a data format that can automatically generate a character generated on an information terminal based on an image signal and audio information sent in a videophone call. I will provide a.

特許第5003327号明細書Japanese Patent No. 5003327 特開2007−279776号公報JP 2007-29776 A

しかしながら、特許文献1に開示されている技術では、複数トラックに記録された音響信号間の同期のズレは解消できるが、画像信号を用いるキャラクタを生成することはできない。   However, with the technique disclosed in Patent Document 1, the synchronization shift between the acoustic signals recorded on a plurality of tracks can be eliminated, but a character using an image signal cannot be generated.

また、特許文献2に開示されている技術では、入力される音声信号の音素情報応じてキャラクタの口形を変化させた画像信号を生成することができるが、全身動作や表情変化等の複雑なアニメーションにおける画像信号を音声信号に応じて生成することは困難である。   In addition, the technique disclosed in Patent Document 2 can generate an image signal in which the character's mouth shape is changed according to the phoneme information of the input audio signal, but it is a complicated animation such as a whole body motion or a facial expression change. It is difficult to generate an image signal in accordance with an audio signal.

本発明は、このような事情に鑑みてなされたものであり、キャラクタの台詞における開始時刻及び終了時刻、長さ、内容に応じて、キャラクタのアニメーションを生成することができるアニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラムを提供することを目的とする。   The present invention has been made in view of such circumstances, and an animation generation apparatus and a data format that can generate an animation of a character according to the start time and end time, length, and content of the character's dialogue Another object is to provide an animation generation method and program.

(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明のアニメーション生成装置は、台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置であって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する時間長調整部を備えることを特徴とする。   (1) In order to achieve the above object, the present invention takes the following measures. That is, the animation generating apparatus of the present invention is an animation generating apparatus that generates animation of a character accompanied by speech output of speech, and includes text data indicating speech, data indicating the start time of the speech, and end time of the speech. It is provided with a time length adjustment unit that inputs dialogue data composed of the data shown, inputs animation data of the character, and adjusts the duration of the animation data of the character based on the dialogue data. .

このように、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するので、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。   In this way, the text data indicating the line, the line data composed of the data indicating the start time of the line and the data indicating the end time of the line are input, the animation data of the character is input, and the line data is input. Since the time length of the character's animation data is adjusted based on this, even if the character's dialogue is dynamically generated, the synchronization of the image signal and the audio signal is eliminated, and the character's animation is generated. can do.

(2)また、本発明のアニメーション生成装置は、前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータを、感情付きのキャラクタのアニメーションデータに変更する感情付与部を更に備えることを特徴とする。   (2) Moreover, the animation production | generation apparatus of this invention uses the emotion data which shows the emotion of the character corresponding to the said dialog, The emotion provision part which changes the animation data of the said character into the animation data of a character with an emotion It is further provided with the feature.

このように、前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータを、感情付きのキャラクタのアニメーションデータに変更するので、キャラクタのアニメーションの感情表現を豊かにすることが可能となる。   As described above, since the animation data of the character is changed to the animation data of the character with emotion using the emotion data indicating the emotion of the character corresponding to the dialogue, the emotion expression of the animation of the character is enriched. Is possible.

(3)また、本発明のアニメーション生成装置は、入力された音声データを認識して台詞を示すテキストデータを生成する台詞テキスト生成部を更に備えることを特徴とする。   (3) The animation generation apparatus of the present invention further includes a dialogue text generation unit that recognizes input voice data and generates text data indicating dialogue.

このように、入力された音声データを認識して台詞を示すテキストデータを生成するので、テキストデータの入力のみならず、直接音声を入力することも可能となる。   As described above, since the input voice data is recognized and the text data indicating the dialogue is generated, it is possible to input not only the text data but also the voice directly.

(4)また、本発明のアニメーション生成装置は、入力された音声データの有音区間を検出して台詞の開始時刻および前記台詞の終了時刻を特定する台詞時刻判定部を更に備えることを特徴とする。   (4) Further, the animation generation apparatus of the present invention further includes a dialogue time determination unit that detects a voiced section of the input voice data and identifies the start time of the dialogue and the end time of the dialogue. To do.

このように、入力された音声データの有音区間を検出して台詞の開始時刻および前記台詞の終了時刻を特定するので、音声を入力した場合であっても台詞データを生成することが可能となる。   In this way, since the voiced period of the input speech data is detected and the start time of the speech and the end time of the speech are specified, it is possible to generate speech data even when speech is input. Become.

(5)また、本発明のアニメーション生成装置は、前記台詞を示すテキストデータの意味内容を認識し、前記キャラクタのアニメーションデータを生成するアニメーション生成部を更に備えることを特徴とする。   (5) Moreover, the animation production | generation apparatus of this invention is further provided with the animation production | generation part which recognizes the meaning content of the text data which shows the said dialog, and produces | generates the animation data of the said character.

このように、前記台詞を示すテキストデータの意味内容を認識し、前記キャラクタのアニメーションデータを生成するので、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。   As described above, since the meaning content of the text data indicating the dialogue is recognized and the animation data of the character is generated, the synchronization deviation between the image signal and the audio signal can be eliminated and the animation of the character can be generated.

(6)また、本発明のアニメーション生成装置は、前記台詞を示すテキストデータの感情分類または感情強度を解析し、前記台詞に対応するキャラクタの感情を示す感情データを生成する感情生成部を更に備えることを特徴とする。   (6) The animation generation apparatus of the present invention further includes an emotion generation unit that analyzes emotion classification or emotion strength of the text data indicating the dialogue and generates emotion data indicating the emotion of the character corresponding to the dialogue. It is characterized by that.

このように、前記台詞を示すテキストデータの感情分類または感情強度を解析し、前記台詞に対応するキャラクタの感情を示す感情データを生成するので、台詞に応じた感情をキャラクタのアニメーションに付与することが可能となる。   As described above, the emotion classification or emotion strength of the text data indicating the dialogue is analyzed, and the emotion data indicating the emotion of the character corresponding to the dialogue is generated, so that the emotion corresponding to the dialogue is given to the animation of the character. Is possible.

(7)また、本発明のアニメーション生成装置において、前記キャラクタのアニメーションデータは、前記キャラクタのボーン(bone)またはポリゴン(polygon)の任意の時刻における空間座標を示すデータであることを特徴とする。   (7) In the animation generation apparatus of the present invention, the animation data of the character is data indicating spatial coordinates of the character's bone or polygon at an arbitrary time.

このように、前記キャラクタのアニメーションデータは、前記キャラクタのボーン(bone)またはポリゴン(polygon)の任意の時刻における空間座標を示すデータであるので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。   As described above, since the animation data of the character is data indicating the spatial coordinates of the character's bone or polygon at an arbitrary time, a character having a complicated animation corresponding to the dialogue is generated. be able to.

(8)また、本発明のアニメーション生成装置は、前記キャラクタのアニメーションデータを再生して、台詞の音声およびアニメーション画像を出力するキャラクタ再生部を更に備えることを特徴とする。   (8) The animation generation apparatus of the present invention further includes a character reproduction unit that reproduces the animation data of the character and outputs speech of speech and animation images.

このように、前記キャラクタのアニメーションデータを再生して、台詞の音声およびアニメーション画像を出力するので、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。   Thus, since the animation data of the character is reproduced and the speech and animation image of the dialogue are output, the synchronization deviation between the image signal and the audio signal can be eliminated, and the animation of the character can be generated.

(9)また、本発明のデータフォーマットは、台詞の音声出力を伴うキャラクタのアニメーションのデータフォーマットであって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データに適合するように、キャラクタのアニメーションデータの時間長が調整されたことを特徴とする。   (9) The data format of the present invention is a data format of animation of a character accompanied by speech output of speech, and indicates text data indicating speech, data indicating the start time of the speech, and end time of the speech. The time length of the animation data of the character is adjusted so as to match the dialogue data composed of the data.

このように、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するので、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。   In this way, the text data indicating the line, the line data composed of the data indicating the start time of the line and the data indicating the end time of the line are input, the animation data of the character is input, and the line data is input. Since the time length of the character's animation data is adjusted based on this, even if the character's dialogue is dynamically generated, the synchronization of the image signal and the audio signal is eliminated, and the character's animation is generated. can do.

(10)また、本発明のデータフォーマットは、前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータが、感情付きのキャラクタのアニメーションデータに変更されたことを特徴とする。   (10) The data format of the present invention is characterized in that the animation data of the character is changed to animation data of a character with emotion using emotion data indicating the emotion of the character corresponding to the dialogue. To do.

このように、前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータを、感情付きのキャラクタのアニメーションデータに変更するので、キャラクタのアニメーションの感情表現を豊かにすることが可能となる。   As described above, since the animation data of the character is changed to the animation data of the character with emotion using the emotion data indicating the emotion of the character corresponding to the dialogue, the emotion expression of the animation of the character is enriched. Is possible.

(11)また、本発明のアニメーション生成方法は、台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成方法であって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力するステップと、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するステップと、を少なくとも含むことを特徴とする。   (11) Further, the animation generation method of the present invention is an animation generation method for generating an animation of a character accompanied by speech output of speech, the text data indicating speech, the data indicating the start time of the speech, and the dialogue Input dialogue data composed of data indicating an end time, input animation data of the character, and adjust time length of the animation data of the character based on the dialogue data It is characterized by that.

このように、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するので、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。   In this way, the text data indicating the line, the line data composed of the data indicating the start time of the line and the data indicating the end time of the line are input, the animation data of the character is input, and the line data is input. Since the time length of the character's animation data is adjusted based on this, even if the character's dialogue is dynamically generated, the synchronization of the image signal and the audio signal is eliminated, and the character's animation is generated. can do.

(12)また、本発明のプログラムは、台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置のプログラムであって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力する処理と、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する処理と、の一連の処理をコンピュータに実行させることを特徴とする。   (12) Further, the program of the present invention is a program of an animation generating device that generates animation of a character accompanied by speech output of speech, the text data indicating speech, the data indicating the start time of the speech, and the dialogue A series of processes of inputting dialogue data composed of data indicating end time, inputting animation data of the character, and adjusting time length of the animation data of the character based on the dialogue data The processing is executed by a computer.

このように、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するので、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。   In this way, the text data indicating the line, the line data composed of the data indicating the start time of the line and the data indicating the end time of the line are input, the animation data of the character is input, and the line data is input. Since the time length of the character's animation data is adjusted based on this, even if the character's dialogue is dynamically generated, the synchronization of the image signal and the audio signal is eliminated, and the character's animation is generated. can do.

本発明によれば、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。   According to the present invention, even if the dialogue of a character is dynamically generated, the animation of the character can be generated by eliminating the synchronization deviation between the image signal and the audio signal.

本実施形態に係るキャラクタアニメーション生成装置の概略構成を示す図である。It is a figure which shows schematic structure of the character animation production | generation apparatus which concerns on this embodiment. 本実施形態に係るキャラクタアニメーション生成装置1の機能を示すブロック図である。It is a block diagram which shows the function of the character animation production | generation apparatus 1 which concerns on this embodiment. 本実施形態に係るキャラクタアニメーション生成装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the character animation production | generation apparatus which concerns on this embodiment. テキストデータ、開始時刻および終了時刻から構成される台詞データを示す図である。It is a figure which shows the dialog data comprised from text data, start time, and end time. アニメーションデータを示す図である。It is a figure which shows animation data. 感情データを示す図である。It is a figure which shows emotion data. 本実施形態に係るデータフォーマットを示す図である。It is a figure which shows the data format which concerns on this embodiment.

本発明の実施形態に係るキャラクタアニメーション生成装置は、台詞である音声信号を入力し、入力された音声信号を時系列で記録した音声データに基づいて台詞のテキストデータおよび台詞の開始時刻及び終了時刻を時系列で生成する。この生成された台詞のテキストデータ及び台詞の開始時刻及び終了時刻に基づいてキャラクタのアニメーションデータを時系列で生成する。アニメーションデータには感情データを伴っていても良く、生成された感情データに基づいてアニメーションデータに感情を付与し、台詞の開始時刻及び終了時刻に基づいてアニメーションデータの時間長を調整する。この生成された台詞の開始時刻及び終了時刻に応じて、音声データにおける音声信号及び生成されたアニメーションデータにおける画像信号を生成する。これにより、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタを生成することができる。また、アニメーションデータとしてキャラクタの任意のボーンまたはポリゴンの空間座標を制御した画像信号を生成するので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。   The character animation generating apparatus according to the embodiment of the present invention inputs speech signals that are dialogues, and based on speech data in which the input speech signals are recorded in time series, speech text data and dialogue start and end times. Are generated in time series. Character animation data is generated in time series based on the generated line text data and the line start time and end time. The animation data may be accompanied by emotion data, and emotion is given to the animation data based on the generated emotion data, and the time length of the animation data is adjusted based on the start time and end time of the dialogue. An audio signal in the audio data and an image signal in the generated animation data are generated according to the start time and end time of the generated dialogue. Thereby, even when the dialogue of the character is dynamically generated, it is possible to eliminate the synchronization shift between the image signal and the audio signal and generate the character. In addition, since an image signal in which spatial coordinates of an arbitrary bone or polygon of the character is controlled is generated as animation data, a character having a complicated animation corresponding to the dialogue can be generated.

図1は、本実施形態に係るキャラクタアニメーション生成装置の概略構成を示す図である。キャラクタアニメーション生成装置1は、マイクロフォン10と、スピーカ20、ディスプレイ30と、PC(Personal Computer)40とから構成されている。そして、マイクロフォン10によりPC40に音声データ50が入力される。なお、図1では、マイクロフォン10が、PC40に接続されているが、本発明の技術的思想は、これに限定されるわけではなく、任意手段によりPCに対して音声データが入力されれば十分である。   FIG. 1 is a diagram illustrating a schematic configuration of a character animation generation apparatus according to the present embodiment. The character animation generating apparatus 1 includes a microphone 10, a speaker 20, a display 30, and a PC (Personal Computer) 40. Then, the audio data 50 is input to the PC 40 by the microphone 10. In FIG. 1, the microphone 10 is connected to the PC 40. However, the technical idea of the present invention is not limited to this, and it is sufficient if audio data is input to the PC by any means. It is.

PC40は、ケーブル40aを介してキャラクタアニメーション生成装置としてのスピーカ20及びディスプレイ30に接続されている。PC40では、台詞として入力された音声信号を時系列で記録した音声データ50に基づいて台詞のテキストデータまたは台詞の開始時刻及び終了時刻を時系列で生成する。また、生成された台詞のテキストデータ及び台詞の開始時刻及び終了時刻に基づいてキャラクタのアニメーションデータ及び感情データを時系列で生成する。さらに、生成された感情データに基づいてアニメーションデータに感情を付与すると共に生成された台詞の開始時刻及び終了時刻に基づいてアニメーションデータの時間長を調整する。   The PC 40 is connected to a speaker 20 and a display 30 as a character animation generation device via a cable 40a. In the PC 40, the text data of the dialogue or the start time and the end time of the dialogue are generated in the time series based on the audio data 50 in which the speech signal input as the dialogue is recorded in the time series. Further, animation data and emotion data of the character are generated in time series based on the generated text data of the dialog and the start time and end time of the dialog. Further, emotion is given to the animation data based on the generated emotion data, and the time length of the animation data is adjusted based on the start time and end time of the generated dialogue.

そして、PC40は、生成された台詞の開始時刻及び終了時刻に応じて、音声データにおける音声信号を随時スピーカ20に発信する。一方、PC40は、生成されたアニメーションデータにおける画像信号を随時ディスプレイ30に発信する。その際、PC40において生成された画像はディスプレイ30にA1として映写される。なお、本発明の実施形態に係るキャラクタアニメーション生成装置では、音声データにおける音声信号またはアニメーションデータにおける画像信号をスピーカ20またはディスプレイ30に発信しなくても構わない。   And PC40 transmits the audio | voice signal in audio | voice data to the speaker 20 at any time according to the start time and end time of the produced | generated dialog. On the other hand, the PC 40 transmits an image signal in the generated animation data to the display 30 as needed. At that time, the image generated in the PC 40 is projected on the display 30 as A1. In the character animation generation device according to the embodiment of the present invention, the audio signal in the audio data or the image signal in the animation data may not be transmitted to the speaker 20 or the display 30.

図2は、本実施形態に係るキャラクタアニメーション生成装置の機能を示すブロック図である。PC40の台詞テキスト生成部40−1は、マイクロフォン10により台詞として入力された音声信号を時系列で記録した音声データ50を認識して、台詞のテキストデータ60−1を時系列で生成する。また、PC40の台詞時刻判定部40−2は、音声データ50の有音区間を検出して、台詞の開始時刻及び終了時刻60−2を時系列で判定する。また、PC40のアニメーション生成部40−3は、台詞のテキストデータ60−1の内容を解析して、台詞の開始時刻及び終了時刻60−2毎に、キャラクタのアニメーションデータ70を時系列で生成する。   FIG. 2 is a block diagram illustrating functions of the character animation generation apparatus according to the present embodiment. The dialogue text generation unit 40-1 of the PC 40 recognizes speech data 50 in which speech signals input as speech by the microphone 10 are recorded in time series, and generates speech text data 60-1 in time series. In addition, the line time determination unit 40-2 of the PC 40 detects the voiced section of the audio data 50, and determines the start time and end time 60-2 of the line in time series. In addition, the animation generation unit 40-3 of the PC 40 analyzes the contents of the line text data 60-1, and generates the character animation data 70 in time series for each line start time and end time 60-2. .

また、PC40の感情生成部40−4は、台詞のテキストデータ60−1の内容を解析して、キャラクタの感情データ80を時系列で生成する。また、PC40の感情付与部40−5は、感情データ80に応じて、アニメーションデータ70を変換する。また、PC40の時間長調整部40−6は、台詞の開始時刻及び終了時刻60−2に基づいて、アニメーションデータ70を変換する。また、PC40のキャラクタ再生部40−7は、台詞の開始時刻及び終了時刻60−2に応じて、音声データ50における音声信号及び生成されたアニメーションデータ70における画像信号を再生する。   Also, the emotion generation unit 40-4 of the PC 40 analyzes the contents of the line text data 60-1 and generates character emotion data 80 in time series. In addition, the emotion imparting unit 40-5 of the PC 40 converts the animation data 70 according to the emotion data 80. The time length adjustment unit 40-6 of the PC 40 converts the animation data 70 based on the start time and end time 60-2 of the dialogue. Further, the character reproduction unit 40-7 of the PC 40 reproduces the audio signal in the audio data 50 and the image signal in the generated animation data 70 in accordance with the start time and end time 60-2 of the dialogue.

図3は、本実施形態に係るキャラクタアニメーション生成装置の動作を示すフローチャートである。初めに、PC40に、マイクロフォン10により音声信号を入力し、入力された音声信号を時系列で記録して音声データ50を形成する(ステップS1)。次に、PC40において、音声データ50を認識して、台詞のテキストデータを時系列で生成する(ステップS2)。   FIG. 3 is a flowchart showing the operation of the character animation generation apparatus according to this embodiment. First, an audio signal is input to the PC 40 by the microphone 10, and the input audio signal is recorded in time series to form audio data 50 (step S1). Next, in the PC 40, the voice data 50 is recognized, and the text data of the dialogue is generated in time series (step S2).

次に、PC40において、音声データ50の有音区間を検出して、台詞の開始時刻及び終了時刻60−2を時系列で判定する(ステップS3)。音声データ50において、音圧レベルが閾値より大きい状況が一定時間以上継続した場合、該当区間を有音区間とし、区間の先頭を台詞の開始時刻、区間の終端を台詞の終了時刻と判定する。また、ステップS2で生成された台詞のテキストデータを、判定された台詞の開始時刻から終了時刻までを1つの単位として、台詞のテキストデータ60−1に分割する。   Next, in the PC 40, a voiced section of the audio data 50 is detected, and the line start time and end time 60-2 are determined in time series (step S3). In the audio data 50, when a situation where the sound pressure level is greater than the threshold value continues for a certain time or longer, the corresponding section is determined to be a sound section, the start of the section is determined as the start time of the line, and the end of the section is determined as the end time of the line. Further, the dialogue text data generated in step S2 is divided into dialogue text data 60-1 with the determined dialogue start time to end time as one unit.

次に、PC40において、ステップS3で分割された台詞のテキストデータ60−1の内容を解析して、ステップS3で判定された台詞の開始時刻及び終了時刻60−2毎に、「目を閉じる」「お辞儀する」「手を挙げる」等のキャラクタのアニメーションデータ70を時系列で生成する(ステップS4)。本実施形態では、キャラクタの全身動作または表情変化の際のアニメーションデータと、日本語辞書などの代表的な単語データベースに存在する各単語をパラメータとして算出した各アニメーションデータにおける類似度パラメータ、のペアで構成されるアニメーションデータベースを用意する。   Next, the PC 40 analyzes the contents of the dialogue text data 60-1 divided in step S3, and “closes eyes” for each dialogue start time and end time 60-2 determined in step S3. Character animation data 70 such as “bow” and “raise hand” is generated in time series (step S4). In this embodiment, a pair of animation data when the character's whole body motion or expression changes and a similarity parameter in each animation data calculated using each word existing in a typical word database such as a Japanese dictionary as a parameter. Prepare a configured animation database.

なお、ここで言うアニメーションデータは、キャラクタの全てのボーンまたはポリゴンが任意の時刻において何れの空間位置座標に存在するかが記述されている。台詞のテキストデータ60−1における類似度パラメータを算出し、アニメーションデータベースの中にある全てのアニメーションデータにおける類似度パラメータとのコサイン類似度を求め、最も値の大きいアニメーションデータをキャラクタのアニメーションデータ70として時系列で生成する。   Note that the animation data referred to here describes at which spatial position coordinates all the bones or polygons of the character exist at an arbitrary time. The similarity parameter in the line text data 60-1 is calculated, the cosine similarity with the similarity parameter in all animation data in the animation database is obtained, and the animation data having the largest value is used as the character animation data 70. Generate in time series.

次に、PC40において、ステップS3で分割された台詞のテキストデータ60−1の内容を解析して、感情分類及び強度から構成されるキャラクタの感情データ80を時系列で生成する(ステップS5)。ここでは、入力される台詞のテキストデータ60−1が単語列の場合を説明するが、本発明の技術的思想は、単語に限定されるわけではなく、句であっても文であっても良い。本実施形態では、感情分類とそれぞれの強度から構成される感情語データベースを使用する。   Next, the PC 40 analyzes the contents of the dialogue text data 60-1 divided in step S3, and generates character emotion data 80 composed of emotion classification and intensity in time series (step S5). Here, the case where the input text data 60-1 is a word string will be described. However, the technical idea of the present invention is not limited to words, and may be a phrase or a sentence. good. In this embodiment, an emotion word database composed of emotion classifications and respective intensities is used.

なお、感情語データベースは、日本語辞書などの大量の単語データベースに存在する全ての単語に対して、人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の9つがどれくらいの割合で存在するか規定し、それぞれの感情強度を0〜1の範囲で、0.1刻みに10段階で指定して、予め形成されている。また、入力される台詞のテキストデータ60−1が句または文である場合は、単語の場合と同様に、句または文に全体における感情分類とそれぞれの強度から構成される感情句データベースまたは感情文データベースを使用すれば良い。ここで、「喜び」の強度をS、「悲しみ」の強度をS、「怒り」の強度をS、「嫌悪」の強度をS、「恐怖」の強度をS、「罪」の強度をS、「恥」の強度をS、「興味」の強度をS、「驚き」の強度をSと表す。ただし、次式を満たすものとする。 The emotion word database is the emotion classification "joy", "sadness", "anger", "disgust", "fear" used for human expression formation for all words in a large number of word databases such as Japanese dictionary Specify the ratio of “Sin”, “Shame”, “Interest”, and “Surprise”, and specify the emotional intensity in the range of 0 to 1 in 10 steps in increments of 0.1. Is formed. If the input text data 60-1 is a phrase or sentence, as in the case of a word, the phrase phrase or sentence is an emotion phrase database or emotion sentence composed of emotion classifications and respective strengths as a whole. Use a database. Here, the intensity of “joy” is S 1 , the intensity of “sadness” is S 2 , the intensity of “anger” is S 3 , the intensity of “hate” is S 4 , the intensity of “fear” is S 5 , “sin” ”Is represented as S 6 ,“ Shame ”as S 7 ,“ Interest ”as S 8 , and“ Surprise ”as S 9 . However, the following formula shall be satisfied.

Figure 2015125613
Figure 2015125613

そして、入力される台詞のテキストデータ60−1と一致または類似する単語を感情語データベースの中から検索し、その単語における感情分類と強度を抽出し、感情データ80を生成する。すなわち、台詞のテキストデータ60−1における感情分類は、次式のように、9次元のベクトルで示される。   Then, a word that matches or is similar to the input dialogue text data 60-1 is searched from the emotion word database, and the emotion classification and strength in the word are extracted to generate emotion data 80. That is, the emotion classification in the dialogue text data 60-1 is represented by a 9-dimensional vector as shown in the following equation.

Figure 2015125613
Figure 2015125613

また、入力される台詞のテキストデータ60−1における全体強度Wは、次式で表わされる。   Further, the overall intensity W in the input text data 60-1 is expressed by the following equation.

Figure 2015125613
Figure 2015125613

例えば、台詞のテキストデータ60−1として、「泣き笑い」を入力すると、次式が感情データ80として生成される。   For example, when “crying and laughing” is input as the text data 60-1 for the dialogue, the following expression is generated as the emotion data 80.

Figure 2015125613
Figure 2015125613

次に、PC30において、感情データ80に応じてアニメーションデータ70を変換し、キャラクタの全身動作または表情変化に感情を付与する(ステップS6)。まず、アニメーションデータ70にキャラクタにおける任意のボーンの空間座標が時系列で記録されている場合について述べる。本実施形態では、予め収録された全ての全身動作または表情変化における無感情のアニメーションデータ及び各感情分類のアニメーションデータを学習させ、無感情のアニメーションデータから各感情分類のアニメーションデータへの変換を予め定義し、ステップS4で生成されたアニメーションデータ70を、ステップS5で生成された感情データ80に応じて合成変換することで、キャラクタの全身動作または表情変化に感情を付与する。   Next, in the PC 30, the animation data 70 is converted according to the emotion data 80, and an emotion is imparted to the character's whole body motion or expression change (step S 6). First, a case where the spatial coordinates of an arbitrary bone in a character are recorded in the animation data 70 in time series will be described. In this embodiment, all pre-recorded emotional animation data for whole body motion or facial expression change and animation data for each emotion classification are learned, and conversion from emotionless animation data to animation data for each emotion classification is performed in advance. By defining and synthesizing the animation data 70 generated in step S4 according to the emotion data 80 generated in step S5, an emotion is imparted to the character's whole body motion or facial expression change.

本明細書では、一例として、主成分分析を用いてキャラクタの全身動作または表情変化に感情を付与するが、本発明の技術的思想は、主成分分析に限定されるわけでなく、非線形状態空間写像や機械学習等、別の方法を用いて全身動作または表情変化に感情を付与しても良い。まず、無感情及び人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の9つの感情の全身動作または表情変化におけるアニメーションデータを収録等により予め複数用意し、学習用データベースに登録しておく。登録された全ての無感情のアニメーションデータ及び各感情分類のアニメーションデータを学習し、線形回帰手法により、無感情のアニメーションデータから各感情分類のアニメーションデータに変換するためのパラメータを算出する。   In this specification, as an example, the principal component analysis is used to give emotions to the whole body motion or facial expression change of the character. However, the technical idea of the present invention is not limited to the principal component analysis, but a nonlinear state space. Other methods such as mapping and machine learning may be used to give emotions to whole body movements or facial expression changes. First, the emotional movements and expressions of the nine emotions of emotion classification "joy", "sadness", "anger", "hate", "fear", "sin", "shame", "interest" and "surprise" A plurality of animation data in the change is prepared in advance by recording or the like and registered in the learning database. All registered emotionless animation data and animation data of each emotion classification are learned, and parameters for converting the emotionless animation data into animation data of each emotion classification are calculated by a linear regression method.

すなわち、予め用意された全身動作または表情変化をm(m=1,2,…)とすると、全身動作または表情変化mにおける無感情のアニメーションデータの第j主成分座標の微分値k(m)を用いて、次式により線形回帰演算を行って、変換パラメータa 、b を算出する。 That is, if m (m = 1, 2,...) Represents a pre-prepared whole body motion or facial expression change, a differential value k j (m) of the j-th principal component coordinates of emotionless animation data in the whole body motion or facial expression change m. ), Linear transformation calculation is performed according to the following equation to calculate conversion parameters a j i and b j i .

Figure 2015125613
Figure 2015125613

ただし、q (m)は全身動作または表情変化mにおける各感情のアニメーションデータの第j主成分座標の微分値を示しており、i=1は感情分類が「喜び」の場合を、i=2は感情分類が「悲しみ」の場合を、i=3は感情分類が「怒り」の場合を、i=4は感情分類が「嫌悪」の場合を、i=5は感情分類が「恐怖」の場合を、i=6は感情分類が「罪」の場合を、i=7は感情分類が「恥」の場合を、i=8は感情分類が「興味」の場合を、i=9は感情分類が「驚き」の場合をそれぞれ表す。次に、ステップS5で生成された感情データ80に対応する変換パラメータa 、b を用いて、ステップS4で生成されたアニメーションデータ70を合成変換し、キャラクタの全身動作または表情変化に感情を付与する。すなわち、感情が付与されたアニメーションデータ70の第j主成分座標の微分値p(m)は、次式のようになる。 However, q j i (m) indicates the differential value of the j-th principal component coordinate of animation data of each emotion in whole body motion or facial expression change m, i = 1 indicates that the emotion classification is “joy”, i = 2 is when the emotion classification is “sadness”, i = 3 is when the emotion classification is “anger”, i = 4 is when the emotion classification is “disgust”, i = 5 is when the emotion classification is “fear” ”, I = 6 is the emotion classification“ sin ”, i = 7 is the emotion classification“ shame ”, i = 8 is the emotion classification“ interest ”, i = 9 Represents the case where the emotion classification is “surprise”. Next, using the conversion parameters a j i and b j i corresponding to the emotion data 80 generated in step S5, the animation data 70 generated in step S4 is synthesized and converted to change the whole body motion or facial expression of the character. Give emotions. That is, the differential value p j (m) of the j-th principal component coordinate of the animation data 70 to which the emotion is given is represented by the following equation.

Figure 2015125613
Figure 2015125613

時系列で記録されたアニメーションデータ70の全てに対して同様の操作を実行し、アニメーションデータ70を再生成する。   The same operation is performed on all of the animation data 70 recorded in time series, and the animation data 70 is regenerated.

次に、アニメーションデータ70にキャラクタにおける任意のポリゴンの空間座標が時系列で記録されている場合について述べる。本実施形態では、ステップS4で生成されたアニメーションデータ70を、ステップS5で生成された感情データ80に応じて合成変換することで、キャラクタの全身動作または表情変化に感情を付与する。まず、人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の9つの感情の全身動作または表情変化におけるアニメーションデータに対して、無感情のアニメーションデータからの変化量を予め定義しておく。ここで、アニメーションデータの中のあるポリゴンPの座標に対して、「喜び」における無感情との差分を(X,Y,Z)、「悲しみ」における無感情との差分を(X,Y,Z)、「怒り」における無感情との差分を(X,Y,Z)、「嫌悪」における無感情との差分を(X,Y,Z)、「恐怖」における無感情との差分を(X,Y,Z)、「罪」における無感情との差分を(X,Y,Z)、「恥」における無感情との差分を(X,Y,Z)、における無感情との差分を(X,Y,Z)、「驚き」における無感情との差分を(X,Y,Z)、と表す。 Next, a case where the spatial coordinates of an arbitrary polygon in a character are recorded in time series in the animation data 70 will be described. In the present embodiment, the animation data 70 generated in step S4 is synthesized and converted in accordance with the emotion data 80 generated in step S5, thereby giving an emotion to the character's whole body motion or expression change. First, the emotion classification “joy”, “sadness”, “anger”, “disgust”, “fear”, “sin”, “shame”, “interest” and “surprise” used for human expression formation are animated in whole body motion or facial expression change. The amount of change from the emotionless animation data is defined in advance for the data. Here, with respect to the coordinates of a certain polygon P in the animation data, the difference from no emotion in “joy” (X 1 , Y 1 , Z 1 ) and the difference from no emotion in “sadness” (X 2 , Y 2 , Z 2 ), (X 3 , Y 3 , Z 3 ) the difference from no emotion in “anger”, and (X 4 , Y 4 , Z 4 ) the difference from no emotion in “disgust” , The difference from feelingless in “fear” (X 5 , Y 5 , Z 5 ), the difference from feelings in “sin” (X 6 , Y 6 , Z 6 ), Difference (X 7 , Y 7 , Z 7 ), difference with no emotion in (X 8 , Y 8 , Z 8 ), difference with no emotion in “surprise” (X 9 , Y 9 , Z 9 ).

そして、ステップS5で生成された感情データ80に応じて、ステップS4で生成されたアニメーションデータ70を合成変換し、キャラクタの全身動作または表情変化に感情を付与する。すなわち、アニメーションデータ70におけるPの座標を(X,Y,Z)とすると、感情が付与されたアニメーションデータ70におけるPの座標(X,Y,Z)は、次式で表わされる。 Then, in accordance with the emotion data 80 generated in step S5, the animation data 70 generated in step S4 is synthesized and converted to give emotion to the whole body motion or expression change of the character. That is, if the coordinates of P in the animation data 70 are (X 0 , Y 0 , Z 0 ), the coordinates (X E , Y E , Z E ) of the animation data 70 to which the emotion is given are Represented.

Figure 2015125613
Figure 2015125613

時系列で記録されたアニメーションデータ70の全てに対して同様の操作を実行し、アニメーションデータ70を再生成する。   The same operation is performed on all of the animation data 70 recorded in time series, and the animation data 70 is regenerated.

次に、PC40において、ステップS3で判定された台詞の開始時刻及び終了時刻60−2に基づいて、ステップS4またはステップS6で生成されたアニメーションデータ70を変換し、アニメーションデータ70の時間長を調整する(ステップS7)。本実施形態では、キャラクタの一連の全身動作または表情変化におけるアニメーションデータ内のボーンまたはポリゴンの空間座標を「開始部」「主要部」「収束部」等の動きの内容に応じて予め分割して、それらの境界となる時刻をキーフレームと指定し、キーフレーム間の遷移が規定された「アニメーショングラフ」を用いて、アニメーションデータ70を変換する。   Next, the PC 40 converts the animation data 70 generated in step S4 or step S6 based on the dialogue start time and end time 60-2 determined in step S3, and adjusts the time length of the animation data 70. (Step S7). In this embodiment, spatial coordinates of bones or polygons in animation data in a series of whole body motions or facial expression changes of characters are divided in advance according to the contents of movement such as “start part”, “main part”, “convergence part”, etc. The animation data 70 is converted using an “animation graph” in which transitions between the key frames are specified by specifying the time as a boundary between them as key frames.

本明細書では、一例として、アニメーショングラフを用いてアニメーションデータ70の時間長を調整するが、本発明の技術的思想は、アニメーショングラフに限定されるわけではなく、機械学習やHidden Markov Model等の確率モデルも用いてアニメーションデータ70の時間長を調整しても良い。まず、ステップS4で用意されたアニメーションデータベースにおける全てのアニメーションデータに対して、予め「開始部」「主要部」「収束部」を定めてキーフレームを指定し、上述したアニメーショングラフを用意する。   In the present specification, as an example, the time length of the animation data 70 is adjusted using an animation graph. However, the technical idea of the present invention is not limited to the animation graph, and machine learning, Hidden Markov Model, etc. The time length of the animation data 70 may be adjusted using a probability model. First, with respect to all animation data in the animation database prepared in step S4, “start part”, “main part” and “convergence part” are defined in advance to designate key frames, and the animation graph described above is prepared.

次に、ステップS3で判定された台詞の開始時刻及び終了時刻よりステップS3で分割された台詞のテキストデータ60−1の時間長を求める。そして、ステップS4またはステップS6で生成されたアニメーションデータ70の時間長に、アニメーションデータ70における「主要部」の時間長を、台詞の時間長との差分が最も小さくなるように繰り返し加え、繰り返し回数を保持する。最後に、アニメーションデータ70の「収束部」の直前に、保持された繰り返し回数分だけ「主要部」のアニメーションデータを挿入する形で、アニメーションデータ70を再生成する。本明細書では、一例として、アニメーションデータにおける「主要部」を繰り返して時間長を調整するが、本発明の技術的思想は、「主要部」の繰り返しに限定されるわけではなく、アニメーションデータの速度制御や「開始部」「収束部」の切り捨て等でアニメーションデータ70の時間長を調整しても良い。   Next, the time length of the line text data 60-1 divided in step S3 is obtained from the line start time and end time determined in step S3. Then, the time length of the “main part” in the animation data 70 is repeatedly added to the time length of the animation data 70 generated in step S4 or step S6 so that the difference from the time length of the dialogue is minimized, and the number of repetitions Hold. Finally, the animation data 70 is regenerated in such a manner that the animation data of the “main part” is inserted as many times as the number of repetitions held immediately before the “convergence part” of the animation data 70. In this specification, as an example, the “main part” in the animation data is repeated to adjust the time length, but the technical idea of the present invention is not limited to the repetition of the “main part”. The time length of the animation data 70 may be adjusted by speed control or truncation of the “starting part” and “convergence part”.

次に、PC40において、ステップS3で判定された台詞の開始時刻及び終了時刻60−2に応じて、音声データ50における音声信号ステップS7で生成されたアニメーションデータ70における画像信号を生成する(ステップS8)。まず、音声データ50の再生を開始して音声信号の生成を開始すると共に、キャラクタの描画を開始して画像信号の生成を開始する。次に、音声データ50の再生時刻がステップS3で判定された台詞の開始時刻に到達すると、ステップS7で生成されたアニメーションデータ70を反映したキャラクタの描画を開始して画像信号を生成する。   Next, in the PC 40, an image signal in the animation data 70 generated in the audio signal step S7 in the audio data 50 is generated in accordance with the line start time and end time 60-2 determined in step S3 (step S8). ). First, reproduction of the audio data 50 is started and generation of an audio signal is started, and drawing of a character is started and generation of an image signal is started. Next, when the reproduction time of the audio data 50 reaches the start time of the line determined in step S3, drawing of the character reflecting the animation data 70 generated in step S7 is started and an image signal is generated.

一方、音声データ50の再生時刻がステップS3で判定された台詞の終了時刻に到達すると、アニメーションデータ70が反映されない標準のキャラクタの描画に戻り画像信号を生成する。時系列で記録された全ての台詞の開始時刻及び終了時刻60−2に対して、同様の処理を繰り返し、アニメーションデータ70における画像信号を生成する。最後の台詞の開始時刻及び終了時刻60−2に対しての処理が終了した後、マイクロフォン10により入力される音声データ50が続く場合は、ステップS1に戻り、次の音声データ50に対しての処理を開始する。   On the other hand, when the reproduction time of the audio data 50 reaches the end time of the line determined in step S3, the image signal is generated by returning to the standard character drawing in which the animation data 70 is not reflected. Similar processing is repeated for the start time and end time 60-2 of all lines recorded in time series, and an image signal in the animation data 70 is generated. When the voice data 50 input by the microphone 10 continues after the processing for the last dialogue start time and end time 60-2 is completed, the process returns to step S1 and the next voice data 50 is processed. Start processing.

最後に、音声データ50をスピーカ20から放射すると共に、生成されたキャラクタの画像信号をディスプレイ30に映写する(ステップS9)。   Finally, the audio data 50 is radiated from the speaker 20, and the generated image signal of the character is projected on the display 30 (step S9).

このように、本実施形態によれば、台詞として入力された音声信号を時系列で記録した音声データ50に基づいて台詞のテキストデータ及び台詞の開始時刻及び終了時刻を時系列で生成する。また、生成された台詞のテキストデータに基づいて台詞の開始時刻及び終了時刻毎にキャラクタのアニメーションデータ及び感情データを時系列で生成する。さらに、生成された感情データに基づいてアニメーションデータに感情を付与すると共に生成された台詞の開始時刻及び終了時刻に基づいてアニメーションデータの時間長を調整する。そして、PC40は、生成された台詞の開始時刻及び終了時刻に応じて、音声データにおける音声信号を随時スピーカ20に発信する。一方、PC40は、アニメーションデータにおける画像信号を随時ディスプレイ30に発信する。これにより、本実施形態では、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタを生成することができる。また、アニメーションデータとしてキャラクタの任意のボーンまたはポリゴンの空間座標を制御した画像信号を生成するので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。   As described above, according to the present embodiment, the text data of the dialogue and the start time and the end time of the dialogue are generated in time series based on the audio data 50 in which the speech signal input as dialogue is recorded in time series. Also, animation data and emotion data of the character are generated in time series for each start time and end time of the line based on the generated line text data. Further, emotion is given to the animation data based on the generated emotion data, and the time length of the animation data is adjusted based on the start time and end time of the generated dialogue. And PC40 transmits the audio | voice signal in audio | voice data to the speaker 20 at any time according to the start time and end time of the produced | generated dialog. On the other hand, the PC 40 transmits an image signal in the animation data to the display 30 as needed. Thereby, in this embodiment, even when the dialogue of the character is dynamically generated, the character can be generated by eliminating the synchronization shift between the image signal and the audio signal. In addition, since an image signal in which spatial coordinates of an arbitrary bone or polygon of the character is controlled is generated as animation data, a character having a complicated animation corresponding to the dialogue can be generated.

10 マイクロフォン
20 スピーカ
30 ディスプレイ
40−1 台詞テキスト生成部
40−2 台詞時刻判定部
40−3 アニメーション生成部
40−4 感情生成部
40−5 感情付与部
40−6 時間長調整部
40−7 キャラクタ再生部
40a ケーブル
50 音声データ
60−1 テキストデータ
60−2 開始時刻および終了時刻
70 アニメーションデータ
80 感情データ
DESCRIPTION OF SYMBOLS 10 Microphone 20 Speaker 30 Display 40-1 Dialogue text generation part 40-2 Dialogue time determination part 40-3 Animation generation part 40-4 Emotion generation part 40-5 Emotion provision part 40-6 Time length adjustment part 40-7 Character reproduction | regeneration Portion 40a Cable 50 Audio data 60-1 Text data 60-2 Start time and end time 70 Animation data 80 Emotion data

Claims (12)

台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置であって、
台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する時間長調整部を備えることを特徴とするアニメーション生成装置。
An animation generation device that generates animation of a character with speech output of speech,
While inputting dialogue data composed of text data indicating dialogue, data indicating the start time of the dialogue, and data indicating the end time of the dialogue, and inputting animation data of the character, based on the dialogue data, An animation generation apparatus comprising a time length adjustment unit for adjusting a time length of animation data of a character.
前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータを、感情付きのキャラクタのアニメーションデータに変更する感情付与部を更に備えることを特徴とする請求項1記載のアニメーション生成装置。   The animation according to claim 1, further comprising an emotion giving unit that changes the animation data of the character into animation data of a character with an emotion using emotion data indicating the emotion of the character corresponding to the dialogue. Generator. 入力された音声データを認識して台詞を示すテキストデータを生成する台詞テキスト生成部を更に備えることを特徴とする請求項1または請求項2記載のアニメーション生成装置。   The animation generation apparatus according to claim 1, further comprising: a dialogue text generation unit that recognizes the input voice data and generates text data indicating the dialogue. 入力された音声データの有音区間を検出して台詞の開始時刻および前記台詞の終了時刻を特定する台詞時刻判定部を更に備えることを特徴とする請求項1から請求項3のいずれかに記載のアニメーション生成装置。   4. The speech time determination unit for detecting a speech section of input speech data and identifying a speech start time and a speech end time, further comprising: a speech time determination unit. Animation generator. 前記台詞を示すテキストデータの意味内容を認識し、前記キャラクタのアニメーションデータを生成するアニメーション生成部を更に備えることを特徴とする請求項1から請求項4のいずれかに記載のアニメーション生成装置。   The animation generation apparatus according to any one of claims 1 to 4, further comprising an animation generation unit that recognizes the semantic content of the text data indicating the dialogue and generates animation data of the character. 前記台詞を示すテキストデータの感情分類または感情強度を解析し、前記台詞に対応するキャラクタの感情を示す感情データを生成する感情生成部を更に備えることを特徴とする請求項1から請求項5のいずれかに記載のアニメーション生成装置。   6. The apparatus according to claim 1, further comprising an emotion generation unit that analyzes emotion classification or emotion strength of the text data indicating the dialogue and generates emotion data indicating the emotion of the character corresponding to the dialogue. The animation production | generation apparatus in any one. 前記キャラクタのアニメーションデータは、前記キャラクタのボーン(bone)またはポリゴン(polygon)の任意の時刻における空間座標を示すデータであることを特徴とする請求項1から請求項6のいずれかに記載のアニメーション生成装置。   The animation according to any one of claims 1 to 6, wherein the animation data of the character is data indicating a spatial coordinate at an arbitrary time of the bone or polygon of the character. Generator. 前記キャラクタのアニメーションデータを再生して、台詞の音声およびアニメーション画像を出力するキャラクタ再生部を更に備えることを特徴とする請求項1から請求項7のいずれかに記載のアニメーション生成装置。   The animation generation apparatus according to claim 1, further comprising a character reproduction unit that reproduces the animation data of the character and outputs speech of speech and animation images. 台詞の音声出力を伴うキャラクタのアニメーションのデータフォーマットであって、
台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データに適合するように、キャラクタのアニメーションデータの時間長が調整されたことを特徴とするデータフォーマット。
A data format for character animation with speech output of dialogue,
The time length of the animation data of the character is adjusted so as to be matched with the text data indicating the line, the data indicating the start time of the line and the data indicating the end time of the line Data format to be used.
前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータが、感情付きのキャラクタのアニメーションデータに変更されたことを特徴とする請求項9記載のデータフォーマット。   The data format according to claim 9, wherein animation data of the character is changed to animation data of a character with emotion using emotion data indicating the emotion of the character corresponding to the dialogue. 台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成方法であって、
台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力するステップと、
前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するステップと、を少なくとも含むことを特徴とするアニメーション生成方法。
An animation generation method for generating an animation of a character with speech output of speech,
Inputting dialogue data composed of text data indicating dialogue, data indicating the start time of the dialogue, and data indicating the end time of the dialogue, and inputting animation data of the character;
Adjusting at least the time length of the animation data of the character based on the dialogue data.
台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置のプログラムであって、
台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力する処理と、
前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する処理と、の一連の処理をコンピュータに実行させることを特徴とするプログラム。

A program for an animation generation device that generates an animation of a character with speech output of speech,
A process of inputting text data indicating a line, data indicating a start time of the line, and data indicating a line end time, and inputting animation data of the character;
A program for causing a computer to execute a series of processes of adjusting a time length of animation data of the character based on the dialogue data.

JP2013269943A 2013-12-26 2013-12-26 Animation generation device, data format, animation generation method and program Pending JP2015125613A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013269943A JP2015125613A (en) 2013-12-26 2013-12-26 Animation generation device, data format, animation generation method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013269943A JP2015125613A (en) 2013-12-26 2013-12-26 Animation generation device, data format, animation generation method and program

Publications (1)

Publication Number Publication Date
JP2015125613A true JP2015125613A (en) 2015-07-06

Family

ID=53536273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013269943A Pending JP2015125613A (en) 2013-12-26 2013-12-26 Animation generation device, data format, animation generation method and program

Country Status (1)

Country Link
JP (1) JP2015125613A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288077A (en) * 2018-11-14 2019-09-27 腾讯科技(深圳)有限公司 A kind of synthesis based on artificial intelligence is spoken the method and relevant apparatus of expression

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123191A (en) * 1998-10-19 2000-04-28 Canon Inc Information processing apparatus and method and information transmission system
JP2002197488A (en) * 2000-12-27 2002-07-12 Konami Computer Entertainment Yokyo Inc Device and method for generating lip-synchronization data, information storage medium and manufacturing method of the information storage medium
JP2003216173A (en) * 2002-01-28 2003-07-30 Toshiba Corp Method, device and program of synchronous control of synthetic voice and video
JP3173022U (en) * 2011-11-01 2012-01-19 サイバークローン株式会社 Moving image system with speech synthesis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123191A (en) * 1998-10-19 2000-04-28 Canon Inc Information processing apparatus and method and information transmission system
JP2002197488A (en) * 2000-12-27 2002-07-12 Konami Computer Entertainment Yokyo Inc Device and method for generating lip-synchronization data, information storage medium and manufacturing method of the information storage medium
JP2003216173A (en) * 2002-01-28 2003-07-30 Toshiba Corp Method, device and program of synchronous control of synthetic voice and video
JP3173022U (en) * 2011-11-01 2012-01-19 サイバークローン株式会社 Moving image system with speech synthesis

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288077A (en) * 2018-11-14 2019-09-27 腾讯科技(深圳)有限公司 A kind of synthesis based on artificial intelligence is spoken the method and relevant apparatus of expression
CN110288077B (en) * 2018-11-14 2022-12-16 腾讯科技(深圳)有限公司 Method and related device for synthesizing speaking expression based on artificial intelligence

Similar Documents

Publication Publication Date Title
EP4538935A2 (en) Two-level speech prosody transfer
US20200279553A1 (en) Linguistic style matching agent
CN106653052B (en) Virtual human face animation generation method and device
Marsella et al. Virtual character performance from speech
US10242666B2 (en) Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
KR102116309B1 (en) Synchronization animation output system of virtual characters and text
CN106486121B (en) Voice optimization method and device applied to intelligent robot
US20200193961A1 (en) System for synchronizing speech and motion of character
JP6201212B2 (en) Character generating apparatus and program
KR101089184B1 (en) Character utterance and emotion expression system and method
US20240221260A1 (en) End-to-end virtual human speech and movement synthesization
CN116597858A (en) Voice mouth shape matching method and device, storage medium and electronic equipment
Aly et al. Multimodal adapted robot behavior synthesis within a narrative human-robot interaction
JP6222465B2 (en) Animation generating apparatus, animation generating method and program
CN112907706A (en) Multi-mode-based sound-driven animation video generation method, device and system
JP2019168623A (en) Dialogue device, robot, dialogue control method and program
JP2015125613A (en) Animation generation device, data format, animation generation method and program
JP2002318590A (en) Device and method for synthesizing voice, program and recording medium
d’Alessandro et al. Reactive statistical mapping: Towards the sketching of performative control with data
KR102753703B1 (en) Method for generating audio-based animation with controllable emotional values and electronic device for performing the same
CN118366430B (en) Personification voice synthesis method, personification voice synthesis device and readable storage medium
US20240242703A1 (en) Information processing device and information processing method for artificial speech generation
US20240312094A1 (en) Transcriptive Biomechanical System And Method
CN118786479A (en) Speech synthesizer and method for speech synthesis
Yan et al. A Dual-Mode Real-Time Lip-Sync System for a Bionic Dinosaur Robot

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170531

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170606