[go: up one dir, main page]

JP2023038957A - Voice synthesis system and method for synthesizing voice - Google Patents

Voice synthesis system and method for synthesizing voice Download PDF

Info

Publication number
JP2023038957A
JP2023038957A JP2021145841A JP2021145841A JP2023038957A JP 2023038957 A JP2023038957 A JP 2023038957A JP 2021145841 A JP2021145841 A JP 2021145841A JP 2021145841 A JP2021145841 A JP 2021145841A JP 2023038957 A JP2023038957 A JP 2023038957A
Authority
JP
Japan
Prior art keywords
speech
emotion
speech synthesis
parameter
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021145841A
Other languages
Japanese (ja)
Other versions
JP2023038957A5 (en
Inventor
健 本間
Takeshi Honma
慶華 孫
Keika Son
拓也 藤岡
Takuya Fujioka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2021145841A priority Critical patent/JP2023038957A/en
Publication of JP2023038957A publication Critical patent/JP2023038957A/en
Publication of JP2023038957A5 publication Critical patent/JP2023038957A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】感情音声合成において、人間の感情を模倣した音声を簡便に得る。【解決手段】システムは、感情パラメタ及びテキストの言語特徴量に基づき、テキストの音響特徴量を生成する、音声合成モデルと発話条件をターゲット音声サンプルの感情パラメタの統計量と関連付ける変換モデルと、を格納する。ターゲット音声サンプルは、感情を模倣する対象であるターゲット話者の音声サンプルである。システムは、入力された現在発話条件を取得する。システムは、現在発話条件から、変換モデルを使用して、現在感情パラメタを生成する。システムは、現在感情パラメタ及び目的発話の言語特徴量に基づき、音声合成モデルを使用して、目的発話の音響特徴量を生成する。システムは、音響特徴量に基づき合成音声を生成する。【選択図】図1A[Problem] Emotional speech synthesis allows for easily obtaining speech that mimics human emotions. [Solution] The system stores a speech synthesis model that generates acoustic features of text based on emotional parameters and linguistic features of the text, and a conversion model that associates speech conditions with statistics of emotional parameters of a target speech sample. The target speech sample is a speech sample of a target speaker whose emotion is to be mimicked. The system acquires input current speech conditions. The system generates current emotional parameters from the current speech conditions using the conversion model. The system generates acoustic features of the target utterance using a speech synthesis model based on the current emotional parameters and linguistic features of the target utterance. The system generates synthetic speech based on the acoustic features. [Selected Figure] Figure 1A

Description

本発明は、音声合成技術に関する。 The present invention relates to speech synthesis technology.

人が機械とやりとりを行うヒューマンインタフェースにおいて、ユーザが機械と音声で会話できる対話システムが存在する。対話システムの用途は、人からの話しかけを受け付けるだけでなく、対話システムから人に適切に働きかけることによる人の生活のサポートも考えられる。 Among the human interfaces in which humans interact with machines, there are dialogue systems that allow users to have voice conversations with machines. The use of the dialogue system is not limited to accepting people's talks, but it can also be considered to support people's lives by appropriately working with them from the dialogue system.

対話システムが会話により人間に適切に働きかけるためには、対話システムが何を言うかだけでなく、どういった感情を音声に込めて言うかが重要である。人が人に何かをお願いするとき、声に乗せる感情を適切に制御しながら、相手の人に話しかける。対話システムにおいても、そういった音声に感情を載せることが望ましい。 In order for the dialogue system to appropriately work on humans through conversation, it is important not only what the dialogue system says but also what kind of emotions are expressed in the voice. When a person asks someone to do something, he/she speaks to the other person while appropriately controlling the emotions put into the voice. In a dialogue system as well, it is desirable to add emotion to such speech.

これまでにも、感情を声に乗せて生成する感情音声合成技術は存在する。この技術では、指定された感情を表す多次元ベクトルにしたがって、感情を持った音声が合成される。この感情指定に使われる入力を、感情パラメタと呼ぶこととする。 Emotional speech synthesis technology has existed so far, which generates emotions by putting emotions into voice. This technology synthesizes emotional speech according to a specified multidimensional vector representing emotion. The input used for specifying the emotion is called an emotion parameter.

対話システムが音声により適切に働きかけるためには、対話システムの用途と似たタスクを行っている人間がどのように発話しているかを調べ、その発話音声の感情を真似た音声を生成する方法が有効であると考えられる。 In order for the dialogue system to work more appropriately with speech, it is necessary to investigate how people who are doing tasks similar to the use of the dialogue system speak and generate speech that imitates the emotion of the spoken speech. It is considered effective.

この方法を実現する技術として、特許文献1では、マイクからの入力音声に対して、感情を1個のカテゴリとして認識し、そのカテゴリを音声合成の出力音声の感情として指定する技術が開示されている。これにより、人間が発話した音声サンプルを用意することで、その発話音声の感情を真似た音声を生成することができる。 As a technique for realizing this method, Patent Document 1 discloses a technique for recognizing an emotion in an input voice from a microphone as one category and specifying that category as the emotion of the output voice of speech synthesis. there is As a result, by preparing a voice sample uttered by a human being, it is possible to generate a voice that imitates the emotion of the uttered voice.

特願2006-113546号公報Japanese Patent Application No. 2006-113546

従来の感情音声合成技術では、感情を決めるためには、開発者が感情音声を生成し、それを聞いて、所望する音声となるまで感情パラメタを調整する必要があった。開発者は、この調整を試行錯誤的に行うため、時間が長くかかる問題があった。 In the conventional emotion speech synthesis technology, in order to determine the emotion, the developer had to generate an emotion voice, listen to it, and adjust the emotion parameters until the desired voice was obtained. There was a problem that it took a long time for the developer to make this adjustment by trial and error.

他の方法として、人を真似た感情を持つ音声を生成したい場合、入力音声の一つの感情カテゴリを認識し、そのカテゴリを音声合成の出力音声の感情として指定することができる。しかし、人間が音声に乗せる感情は多様であり、感情の種類として少数のカテゴリから選ぶ構成では、人間の感情を十分に表現することは困難である。 Alternatively, if you want to generate speech with emotions that mimic humans, you can recognize one emotion category in the input speech and designate that category as the emotion in the output speech for speech synthesis. However, since human beings express various emotions in speech, it is difficult to adequately express human emotions with a configuration in which emotions are selected from a small number of categories.

また、同一の状況において複数の人間が発話した場合、その音声に乗る変化は多様であり、かつ感情も多様である。人間が声によって行ってきた働きかけを機械で代替することを考えた場合、こういった発話者ごとのバラつきを考慮したうえで音声を合成すべきである。しかし、1個の音声に基づいて感情を決定する方法は、この要求を満たすことができない。 In addition, when a plurality of people speak in the same situation, the changes in the speech are diverse, and the emotions are also diverse. When thinking about using a machine to replace the actions that humans have performed with their voices, it is necessary to synthesize speech while taking into account such variations for each speaker. However, methods that determine emotion based on a single voice cannot meet this need.

本発明の一態様の音声合成システムは、1以上の演算装置と、1以上の記憶装置と、を含む。前記1以上の記憶装置は、感情パラメタ及びテキストの言語特徴量に基づき、前記テキストの音響特徴量を生成する、音声合成モデルと発話条件をターゲット音声サンプルの感情パラメタの統計量と関連付ける変換モデルと、を格納する。前記ターゲット音声サンプルは、感情を模倣する対象であるターゲット話者の音声サンプルである。前記1以上の演算装置は、入力された現在発話条件を取得し、前記現在発話条件から、前記変換モデルを使用して、現在感情パラメタを生成し、前記現在感情パラメタ及び目的発話の言語特徴量に基づき、前記音声合成モデルを使用して、前記目的発話の音響特徴量を生成し、前記音響特徴量に基づき合成音声を生成する。 A speech synthesis system according to one aspect of the present invention includes one or more arithmetic devices and one or more storage devices. The one or more storage devices include: a speech synthesis model that generates acoustic features of the text based on the emotional parameters and the linguistic features of the text; , to store Said target speech sample is a speech sample of a target speaker whose emotions are to be mimicked. The one or more arithmetic devices acquire the input current utterance conditions, generate current emotion parameters from the current utterance conditions using the conversion model, and generate the current emotion parameters and linguistic feature amounts of the target utterance. The speech synthesis model is used to generate acoustic features of the target utterance, and synthetic speech is generated based on the acoustic features.

本発明の一態様を用いれば、人間が話す音声の感情をより適切に再現する音声合成を行うことができる。 By using one aspect of the present invention, it is possible to perform speech synthesis that more appropriately reproduces the emotions of speech spoken by humans.

本明細書の一実施形態に係る音声合成システムの論理構成例を示す。1 illustrates an example logical configuration of a speech synthesis system according to an embodiment of the present specification; 本明細書の一実施形態に係る音声合成システムの他の論理構成例を示す。4 shows another logical configuration example of a speech synthesis system according to an embodiment of the present specification; 音声合成コーパスの構成例を示す。An example of the configuration of a speech synthesis corpus is shown. ターゲット音声データベースの成例を示す。An example of a target speech database is shown. ターゲット音声統計量データベースの構成例を示す。4 shows a configuration example of a target speech statistic database. 条件-クラス変換モデルの構成例を示す。A configuration example of a condition-class conversion model is shown. 音声合成システムのハードウェア構成例を模式的に示したブロック図である。1 is a block diagram schematically showing a hardware configuration example of a speech synthesis system; FIG. 音声合成モデルの学習手順例のフローチャートである。4 is a flow chart of an example of a learning procedure for a speech synthesis model; ターゲット音声データベースから、条件と感情パラメタを関連付けるモデルを生成する処理例のフローチャートを示す。4 shows a flow chart of an example of processing for generating a model that associates conditions and emotional parameters from a target speech database. クラスタリングベースモデル化の例を示すフローチャートである。4 is a flow chart illustrating an example of clustering-based modeling; 平均値ベースモデル化の例を示すフローチャートである。10 is a flow chart showing an example of mean value-based modeling; 機械学習ベースモデル化の例を示すフローチャートである。4 is a flowchart illustrating an example of machine learning-based modeling; 音声合成の方法例を示すフローチャートである。10 is a flowchart illustrating an example method of speech synthesis; 第2の実施形態に係る音声合成システムの論理構成例を模式的に示す。4 schematically shows a logical configuration example of a speech synthesis system according to a second embodiment; 機械学習モデルから得られた感情パラメタから統計量を求める手順を説明する図である。FIG. 10 is a diagram illustrating a procedure for obtaining statistics from emotion parameters obtained from a machine learning model; 第3の実施形態の音声合成システムの論理構成例を示す。FIG. 11 shows a logical configuration example of a speech synthesis system according to a third embodiment; FIG. 出力音声統計量データベースの構成例を示す。。4 shows a configuration example of an output speech statistic database; . 感情パラメタの変換パラメタ更新処理例を示すフローチャートである。FIG. 11 is a flowchart showing an example of conversion parameter update processing for emotion parameters; FIG. 第4の実施形態において、音声合成用の感情パラメタに対して開発者が調整する機能を説明するための図である。FIG. 11 is a diagram for explaining a function of adjusting emotion parameters for speech synthesis by a developer in the fourth embodiment; 第4の実施形態において、音声合成用の感情パラメタに対して開発者が調整する機能を説明するための図である。FIG. 11 is a diagram for explaining a function of adjusting emotion parameters for speech synthesis by a developer in the fourth embodiment; 第4の実施形態において、音声合成用の感情パラメタに対して開発者が調整する機能を説明するための図である。FIG. 11 is a diagram for explaining a function of adjusting emotion parameters for speech synthesis by a developer in the fourth embodiment; 第5の実施形態において、感情パラメタの変換パラメタの調整方法例を示すフローチャートである。FIG. 16 is a flow chart showing an example of a method for adjusting conversion parameters of emotion parameters in the fifth embodiment; FIG.

以下、図面を用いて、本発明のいくつかの実施形態を説明する。なお、以下の実施形態においては便宜上その必要があるときは、複数のセクション又は実施形態に分割して説明するが、特に明示した場合を除き、それらはお互い無関係なものではなく、一方は他方の一部又は全部の変形例、詳細、補足説明などの関係にある。各実施形態は、個別に実施しても良いが、組合せて実施しても良い。 Several embodiments of the present invention will be described below with reference to the drawings. For convenience, the following embodiments are divided into a plurality of sections or embodiments when necessary, but unless otherwise specified, they are not unrelated to each other, and one Some or all of them are related to modifications, details, supplementary explanations, and the like. Each embodiment may be implemented individually, or may be implemented in combination.

また、以下の実施形態において、要素の数など(個数、数値、量、範囲などを含む)に言及する場合、特に明示した場合及び原理的に明らかに特定の数に限定される場合などを除き、その特定の数に限定されるものではなく、特定の数以上でも以下でも良いものとする。 In addition, in the following embodiments, when referring to the number of elements (including the number, numerical value, amount, range, etc.), unless otherwise specified or clearly limited to a specific number in principle , is not limited to the specific number, and may be greater than or less than the specific number.

さらに、以下の実施形態において、その構成要素(要素ステップなどを含む)は、特に明示した場合及び原理的に明らかに必須であると考えられる場合などを除き、必ずしも必須のものではないことは言うまでもない。 Furthermore, in the following embodiments, its constituent elements (including element steps, etc.) are, of course, not necessarily essential unless otherwise specified or clearly considered essential in principle. stomach.

同様に、以下の実施形態において、構成要素などの形状、位置関係等に言及するときは、特に明示した場合や原理的に明らかにそうでないと考えられる場合などを除き、実質的にその形状などに近似又は類似するものなどを含むものとする。このことは数値及び範囲についても同様である。 Similarly, in the following embodiments, when referring to the shape, positional relationship, etc., of components, etc., unless otherwise specified or in principle clearly considered otherwise, the shape, etc. shall include those that are similar or similar to This also applies to numerical values and ranges.

また、以下の説明では、「xxxテーブル」といった表現で説明することがあるが、当該情報は、どのような構造のデータでも良い。また、以下の説明において、各表の構成は一例であり、1つの表は、2以上の表に分割されても良いし、2以上のテーブルの全部又は一部が1つのテーブルであっても良い。また、以下の説明では、「xxx部」の表現にて機能を説明することがあるが、当該機能は、1以上の演算装置によって1以上のコンピュータプログラムが実行されることで実現されても良い。 Also, in the following description, the expression "xxx table" may be used, but the information may be data of any structure. Also, in the following description, the configuration of each table is an example, and one table may be divided into two or more tables, or all or part of two or more tables may be one table. good. Also, in the following description, the function may be described using the expression "xxx part", but the function may be realized by executing one or more computer programs by one or more arithmetic units. .

以下において説明される本明細書の一実施形態に係る音声合成システムは、感情を含む人間の声を合成し、出力する。これにより、人に対してより適切に働きかけ、人の活動をより適切にサポートすることができる。 A speech synthesis system according to an embodiment of the present specification described below synthesizes and outputs human voice including emotion. This makes it possible to work on people more appropriately and support their activities more appropriately.

人間が音声に乗せる多様な感情は、例えば、多次元ベクトルによって表現することができる。多次元ベクトルのそれぞれの要素には、たとえばArousal(活性度)、Pleasantness(感情価)、Dominance(支配度)といったものが対応する。多次元ベクトルは、多くの感情のバリエーションに対応できる。 A variety of emotions put into speech by humans can be represented, for example, by multidimensional vectors. Each element of the multidimensional vector corresponds to, for example, Arousal (activity), Pleasantness (emotional valence), and Dominance (dominance). Multi-dimensional vectors can accommodate many emotional variations.

また、同一の状況において複数の人間が発話した場合、その音声に乗る変化は多様であり、かつ感情も多様である。人間が行ってきた声による働きかけを機械で代替することを考えた場合、こういった発話者ごとのバラつきを考慮したうえで合成すべきである。 In addition, when a plurality of people speak in the same situation, the changes in the speech are diverse, and the emotions are also diverse. When thinking about using a machine to replace the vocal approach that humans have performed, synthesis should take into account such variations for each speaker.

また、感情認識器が出力した感情パラメタを、直接音声合成器に指定したとしても、生成される音声の感情が開発者の所望のものであるとは限らない。なぜならば、音声合成の音源となった話者と、感情を真似るターゲットである話者が異なる場合があるためである。この話者の異なりが、音声合成による音声を不自然にする可能性がある。 Moreover, even if the emotion parameter output by the emotion recognizer is directly specified to the speech synthesizer, the emotion of the generated speech is not always what the developer desires. This is because the speaker who is the sound source for speech synthesis and the speaker who is the target to imitate the emotion may be different. This difference in speakers may make speech by speech synthesis unnatural.

本明細書の一実施形態に係る音声合成システムは、音声合成モデル及び音声合成器を含む。音声合成モデルは、言語特徴量及び感情パラメタを入力として受け取り、音響特徴量を出力する。言語特徴量は音声の内容を示すテキストから得られる特徴量である。感情パラメタは、音声に乗せる感情を示すパラメタである。音響特徴量は音声(音)の特徴量である。音声合成器は、音声合成モデルからの音響特徴量から合成音声を生成する。 A speech synthesis system according to one embodiment herein includes a speech synthesis model and a speech synthesizer. The speech synthesis model receives linguistic features and emotion parameters as inputs and outputs acoustic features. A linguistic feature is a feature obtained from a text that indicates the content of speech. The emotion parameter is a parameter that indicates the emotion to be put on the voice. The acoustic feature quantity is the feature quantity of speech (sound). A speech synthesizer generates synthesized speech from the acoustic features from the speech synthesis model.

本明細書の一実施形態の音声合成システムは、感情認識器を使用して、音声合成モデルの学習コーパス(音声合成コーパス)における音声データから、言語特徴量及び感情パラメタを得る。上述のように、音声合成システムは、音声合成モデルの学習において、言語特徴量に加えて感情パラメタを入力として用いる。 A speech synthesis system according to an embodiment of the present specification uses an emotion recognizer to obtain language features and emotion parameters from speech data in a speech synthesis model training corpus (speech synthesis corpus). As described above, the speech synthesis system uses emotion parameters as inputs in addition to linguistic features in learning a speech synthesis model.

音声合成モデルは、入力された言語特徴量及び感情パラメタから、音響特徴量を出力する。学習コーパスにおける音声データから抽出された音響特徴量と、音声合成モデルから出力された音響特徴量の誤差に基づき、音声合成モデルのパラメタが更新される(音声合成モデルの学習又は訓練)。これにより、感情パラメタを制御できる音声合成モデルを得ることができる。 The speech synthesis model outputs acoustic features from input language features and emotion parameters. The parameters of the speech synthesis model are updated (learning or training of the speech synthesis model) based on the error between the acoustic feature quantity extracted from the speech data in the training corpus and the acoustic feature quantity output from the speech synthesis model. This makes it possible to obtain a speech synthesis model capable of controlling emotional parameters.

本明細書の一実施形態の音声合成システムは、音声合成システムが感情を真似る対象であるターゲット音声サンプルを格納するターゲット音声データベースを保持し、ターゲット音声サンプルそれぞれに対して感情認識器を使い感情パラメタを得る。音声合成システムは、感情パラメタ統計量を算出して、データベースに格納する。 The speech synthesis system of one embodiment herein maintains a target speech database that stores target speech samples for which the speech synthesis system mimics emotions, and uses an emotion recognizer for each of the target speech samples to identify emotion parameters. get The speech synthesis system calculates emotion parameter statistics and stores them in the database.

音声合成システムは、感情サンプルの統計量と、発話対象者又は対話システムが置かれているシチュエーションを示す条件(発話条件)とを関係付けるモデルを生成する。感情パラメタの統計量を使用することで、より普遍的な感情を伴う合成音声を生成できる。 The speech synthesis system generates a model that relates the statistics of the emotion samples to the conditions (utterance conditions) that indicate the situation in which the person to be spoken to or the dialogue system is placed. Synthetic speech with more universal emotions can be generated by using the statistics of emotion parameters.

音声合成システムは、発話対象者又は対話システムが置かれている現在のシチュエーションを示す条件を取得して、上記モデルにより感情パラメタを生成する。音声合成システムは、目的の発話内容の言語特徴量と生成した感情パラメタを学習済みの音声合成モデルに入力して、ターゲット音声を真似た感情を伴う音響特徴量を得る。音声合成器は、その音響特徴量から、発話される合成音声を生成する。 The speech synthesis system obtains the conditions indicating the current situation in which the speech target person or the dialogue system is placed, and generates emotion parameters using the above model. The speech synthesis system inputs the linguistic feature quantity of the target utterance content and the generated emotion parameter to the trained speech synthesis model, and obtains the acoustic feature quantity accompanied by the emotion imitating the target speech. A speech synthesizer generates synthesized speech to be uttered from the acoustic features.

本明細書の一実施形態の音声合成システムは、学習コーパスとターゲット音声データベースの感情パラメタの分布を求め、これらの差異に基づき、ターゲット音声から得られる感情パラメタの統計量を変更する。これにより、学習コーパスとターゲット音声との間の感情表現の異なりを吸収し、より自然は感情表現を伴う音声を合成できる。 A speech synthesis system according to one embodiment of the present specification obtains distributions of emotion parameters in the training corpus and the target speech database, and based on these differences, modifies the statistics of the emotion parameters obtained from the target speech. As a result, differences in emotional expressions between the training corpus and the target speech can be absorbed, and speech with more natural emotional expressions can be synthesized.

<第1の実施形態>
本実施形態では、学習コーパスである音声合成コーパスと、ターゲット音声と、に対して感情認識器を適用する。音声合成モデルの学習は、音声合成コーパスから得られた感情パラメタを、学習データとして用いる。音声合成モデルによる音声合成時には、ターゲット音声から得られた感情パラメタを、音声合成モデルに対する入力として用いる。
<First embodiment>
In this embodiment, an emotion recognizer is applied to a speech synthesis corpus, which is a training corpus, and target speech. The training of the speech synthesis model uses emotion parameters obtained from the speech synthesis corpus as training data. During speech synthesis by the speech synthesis model, emotion parameters obtained from the target speech are used as inputs to the speech synthesis model.

音声合成コーパスは、例えば、発話することを専門とする声優の発話音声データ及び発話の内容を示すテキストを格納する。ターゲット音声は、音声合成システムが模倣を目的とする人の音声である。例えば、特定職業(例えば介護や接客)についている人々による発話の音声データ及びテキストが、データベースに格納される。これにより、発話対象者又は対話システムのシチュエーションに適した感情を表す、聞き取りやすい発話が実現できる。 The speech synthesis corpus stores, for example, uttered voice data of voice actors who specialize in uttering, and texts indicating the content of utterances. The target speech is the human speech that the speech synthesis system aims to imitate. For example, voice data and text of speech by people in specific occupations (for example, nursing care and customer service) are stored in the database. As a result, it is possible to realize easy-to-hear utterances that express emotions suitable for the utterance target person or the situation of the dialogue system.

図1Aは、本明細書の一実施形態に係る音声合成システムの論理構成例を示す。音声合成システム100は、音声合成コーパス1010、音響特徴量変換部1040、言語特徴量変換部1050、感情認識器1060、音声合成モデル学習部1070、及び音声合成モデル1080を含む。 FIG. 1A illustrates an example logical configuration of a speech synthesis system according to one embodiment herein. The speech synthesis system 100 includes a speech synthesis corpus 1010 , an acoustic feature quantity converter 1040 , a language feature quantity converter 1050 , an emotion recognizer 1060 , a speech synthesis model learning unit 1070 and a speech synthesis model 1080 .

音声合成システム100は、さらに、ターゲット音声データベース(DB)1090、感情認識器1130、クラスタ生成部1140、ターゲット音声統計量計算部1150、ターゲット音声統計量データベース1160、条件-クラス変換モデル1170を含む。さらに、音声合成システム100は、感情パラメタ取得部1190、感情パラメタ変換部1200、言語特徴量変換部1220、及び音声合成器1230を含む。 The speech synthesis system 100 further includes a target speech database (DB) 1090, an emotion recognizer 1130, a cluster generator 1140, a target speech statistics calculator 1150, a target speech statistics database 1160, and a condition-to-class conversion model 1170. Furthermore, speech synthesis system 100 includes emotion parameter acquisition section 1190 , emotion parameter conversion section 1200 , language feature quantity conversion section 1220 , and speech synthesizer 1230 .

音声合成システム100は、対話システムが置かれているシチュエーションを示す条件(発話条件)1180を受け取り、その条件1180に対応する感情パラメタを算出する。算出する感情パラメタは、既存サンプルの感情パラメタの統計量に基づく値である。音声合成システム100は、生成した感情パラメタと発話内容を示すテキスト1210から合成音声1240を生成する。これにより、シチュエーションに即した感情を伴う音声を発話することができる。 The speech synthesis system 100 receives a condition (utterance condition) 1180 indicating the situation in which the dialogue system is placed, and calculates an emotion parameter corresponding to the condition 1180 . The emotion parameter to be calculated is a value based on the statistics of the emotion parameter of existing samples. The speech synthesis system 100 generates synthetic speech 1240 from text 1210 indicating the generated emotional parameters and the utterance content. As a result, it is possible to utter a voice that accompanies emotion in accordance with the situation.

図1Aに示す構成例において、感情パラメタ取得部1190は、条件-クラス変換モデル1170とターゲット音声統計量データベース1160を使用して、入力条件1180から、感情パラメタを生成する。条件-クラス変換モデル1170とターゲット音声統計量データベース1160は、入力条件とターゲット音声サンプルの感情パラメタ統計量とを関連付けるモデルである。後述するように、他の構成例において、音声合成システム100は、機械学習モデルを使用して、入力条件1180から、感情パラメタを生成する。 In the configuration example shown in FIG. 1A, the emotion parameter acquisition unit 1190 generates emotion parameters from the input condition 1180 using the condition-class conversion model 1170 and the target speech statistics database 1160 . Condition-to-class transformation model 1170 and target speech statistics database 1160 are models that associate input conditions with emotion parameter statistics of target speech samples. As described below, in another configuration, speech synthesis system 100 uses machine learning models to generate emotion parameters from input conditions 1180 .

図1Bは、本明細書の一実施形態に係る音声合成システム100の他の論理構成例を示す。図1Bに示す音声合成システム100は、図1Aに示す構成例の条件-クラス変換モデル1170とターゲット音声統計量データベース1160に代えて、条件-感情パラメタ変換モデル1165を含む。また、クラスタ生成部1140に代えて正規化部1145を含む。 FIG. 1B illustrates another logical configuration example of the speech synthesis system 100 according to one embodiment herein. The speech synthesis system 100 shown in FIG. 1B includes a condition-emotion parameter conversion model 1165 instead of the condition-class conversion model 1170 and the target speech statistics database 1160 of the configuration example shown in FIG. 1A. Also, a normalization unit 1145 is included instead of the cluster generation unit 1140 .

条件-感情パラメタ変換モデル1165は機械学習モデルであって、入力された条件1180に対して感情パラメタを出力する。条件-感情パラメタ変換モデル1165は、ターゲット音声サンプルの感情パラメタを使用して訓練される。したがって、条件-感情パラメタ変換モデル1165は、入力条件とターゲット音声サンプルの感情パラメタ統計量とを関連付けるモデルである。なお、図1A及び1Bに示す双方の構成が一つの音声合成システムに含まれ、いずれか一方のモードが選択可能であってもよい。 The condition-emotion parameter conversion model 1165 is a machine learning model that outputs emotion parameters for the input conditions 1180 . A conditional to affective parameter conversion model 1165 is trained using the affective parameters of the target speech sample. Therefore, the condition-emotional parameter conversion model 1165 is a model that associates the input condition with the emotion parameter statistics of the target speech sample. Note that both configurations shown in FIGS. 1A and 1B may be included in one speech synthesis system, and either one of the modes may be selectable.

図2は、音声合成コーパス1010の構成例を示す。音声合成コーパス1010は、音声合成モデル1080を学習するためのデータを格納する。音声合成コーパス1010は、音声サンプル欄1020及びテキスト欄1030を含む。各レコードは、特定の発話の音声データ及びその発話内容のテキストを示す。なお、音声合成コーパス1010は、音響特徴量変換部1040、言語特徴量変換部1050、感情認識器1060の少なくとも一部の変換結果を保持していてもよい。 FIG. 2 shows an example configuration of the speech synthesis corpus 1010 . The speech synthesis corpus 1010 stores data for training the speech synthesis model 1080 . Speech synthesis corpus 1010 includes speech sample column 1020 and text column 1030 . Each record shows the audio data of a particular utterance and the text of that utterance. Note that the speech synthesis corpus 1010 may hold conversion results of at least a part of the acoustic feature quantity conversion unit 1040 , the language feature quantity conversion unit 1050 , and the emotion recognizer 1060 .

図3は、ターゲット音声データベース1090の構成例を示す。ターゲット音声データベース1090は、ターゲット話者の発話の情報を格納している。具体的には、ターゲット音声データベース1090は、話者ID欄1100、音声サンプル欄1110、テキスト欄1120、及び条件欄1125を含む。各レコードは、一つの発話の情報を示す。 FIG. 3 shows a configuration example of the target speech database 1090. As shown in FIG. The target speech database 1090 stores information on utterances of target speakers. Specifically, target speech database 1090 includes speaker ID column 1100 , speech sample column 1110 , text column 1120 , and condition column 1125 . Each record indicates information of one utterance.

話者ID欄1100は、発話者のIDを示す。音声サンプル欄1110は、発話の音声データを示す。テキスト欄1120は、発話した内容のテキストを示す。条件欄1125は、音声が発話された条件を示す。 A speaker ID column 1100 indicates the ID of the speaker. The voice sample column 1110 shows the voice data of the utterance. A text field 1120 indicates the text of the uttered content. A condition column 1125 indicates the condition under which the voice was uttered.

条件欄1125には、音声合成システム100の想定される用途における、人の音声の感情を変える可能性がある、あらゆる条件を設定することができる。例えば、発話が実行された場所や時間帯が挙げられる。場所の例は、食堂、部屋、談話室等である。また、ターゲット話者が相手にどういう目的で発話したかを示す条件も入れておいてもよい。 The condition field 1125 can contain any condition that may alter the emotion of a person's speech in the intended use of the text-to-speech system 100 . For example, the location and time period in which the utterance was performed can be mentioned. Examples of locations are dining rooms, rooms, common rooms, and the like. In addition, a condition indicating for what purpose the target speaker spoke to the other party may be included.

例えば、相手を励ます目的、相手をいたわる目的、挨拶等を、異なる条件として扱うことができる。条件は、1変数で表現されてもよく、複数変数で表現されてもよい。複数変数での表現の場合、発話が行われた1つのシチュエーションは、複数の条件変数の組、すなわちタプルとして表される。シチュエーションは、発話の、場所、時間帯、発話目的等を含む。なお、ターゲット音声データベース1090は、感情認識器1060は、感情認識器1130の変換結果を格納していてもよく、テキストが省略されていてもよい。 For example, the purpose of encouraging the other party, the purpose of caring for the other party, greetings, etc. can be treated as different conditions. A condition may be expressed by one variable or may be expressed by multiple variables. In the multi-variable representation, one situation in which an utterance is made is represented as a set of multiple condition variables, ie, a tuple. The situation includes the location, time zone, purpose of the utterance, etc. of the utterance. Note that the target speech database 1090 may store the conversion result of the emotion recognizer 1130 in the emotion recognizer 1060, or the text may be omitted.

図4は、図1Aに示すターゲット音声統計量データベース1160の構成例を示す。ターゲット音声統計量データベース1160は、ターゲット音声データベース1090に格納されているターゲット音声(レコード)の統計情報を格納している。具体的には、ターゲット音声統計量データベース1160は、クラスID欄1161、及び感情パラメタ欄1162を含む。 FIG. 4 shows a configuration example of the target speech statistics database 1160 shown in FIG. 1A. The target speech statistics database 1160 stores statistical information of target speech (records) stored in the target speech database 1090 . Specifically, the target speech statistic database 1160 includes a class ID column 1161 and an emotion parameter column 1162 .

クラスID欄1161は、ターゲット音声データベース1090のターゲット音声それぞれが属するクラスのIDを示す。感情パラメタ欄1162は、各クラスにおけるターゲット音声の感情パラメタの統計量を示す。統計量は、例えば、平均値、最頻値、中央値等である。以下の説明において、感情パラメタの変数それぞれの平均値が、例として使用される。図4において、感情パラメタは多次元ベクトルで表され、変数それぞれが異なる感情を示す。感情パラメタ欄1162の感情パラメタは、対応するクラスにおける変数それぞれの平均値を示す。 A class ID column 1161 indicates the ID of the class to which each target speech in the target speech database 1090 belongs. The emotion parameter column 1162 shows statistics of the emotion parameter of the target voice in each class. A statistic is, for example, an average value, a mode value, a median value, or the like. In the following description, the mean value of each of the emotional parameter variables is used as an example. In FIG. 4, emotion parameters are represented by multidimensional vectors, and each variable indicates a different emotion. The emotion parameter in the emotion parameter column 1162 indicates the average value of each variable in the corresponding class.

図5は、図1Aに示す条件-クラス変換モデル1170の構成例を示す。条件-クラス変換モデル1170は、合成音声の生成のために指定された発話の条件からクラスIDを決定する。出力されたターゲットIDに対応する感情パラメタが、ターゲット音声統計量データベース1160から決定される。図5に示す構成例において、条件-クラス変換モデル1170は決定木である。条件-クラス変換モデルの構成は任意である。 FIG. 5 shows a configuration example of the condition-class conversion model 1170 shown in FIG. 1A. Condition-to-class conversion model 1170 determines class IDs from conditions of utterances specified for the generation of synthesized speech. Emotion parameters corresponding to the output target ID are determined from the target speech statistics database 1160 . In the configuration example shown in FIG. 5, condition-class transformation model 1170 is a decision tree. The configuration of the condition-class conversion model is arbitrary.

図6は、音声合成システム100のハードウェア構成例を模式的に示したブロック図である。音声合成システム100は、演算性能を有する演算装置101と、演算装置101が実行するプログラム及び処理対象データを格納する記憶領域を与える主記憶装置102と、を含む。演算装置101は、例えば、1又は複数のコアを含むCPUであり、主記憶装置102は、例えば、揮発性記憶領域を含むRAMである。 FIG. 6 is a block diagram schematically showing a hardware configuration example of the speech synthesis system 100. As shown in FIG. The speech synthesis system 100 includes an arithmetic device 101 having arithmetic performance, and a main storage device 102 providing a storage area for storing programs to be executed by the arithmetic device 101 and data to be processed. The arithmetic device 101 is, for example, a CPU including one or more cores, and the main storage device 102 is, for example, a RAM including a volatile storage area.

音声合成システム100は、さらに、他の計算機装置や外部記憶装置とデータ通信をおこなう通信インターフェース106と、HDD(Hard Disk Drive)やフラッシュメモリなどを利用した不揮発記憶領域を与える補助記憶装置103と、を含む。また、音声合成システム100は、ユーザからの操作を受け付ける入力装置104と、各プロセスでの出力結果をユーザに提示する出力装置105と、を含む。 The speech synthesis system 100 further includes a communication interface 106 that performs data communication with other computer devices and external storage devices, an auxiliary storage device 103 that provides a non-volatile storage area using a HDD (Hard Disk Drive), flash memory, etc. including. The speech synthesis system 100 also includes an input device 104 that receives operations from a user, and an output device 105 that presents the output results of each process to the user.

入力装置104は、例えば、キーボードやマウスを含み、出力装置105は、例えばモニタやプリンタを含む。音声合成システム100のこれら構成要素は、内部バス107を介して通信可能である。 Input device 104 includes, for example, a keyboard and mouse, and output device 105 includes, for example, monitor and printer. These components of speech synthesis system 100 can communicate via internal bus 107 .

演算装置101が実行するプログラム及び処理対象のデータは、例えば、補助記憶装置103から主記憶装置102にロードされる。図1A又は1Bに示す機能部は、演算装置101が対応するプログラムを実行することによって実装することができる。図1A又は1Bに示すコーパスやデータベース等の各種データは、例えば、補助記憶装置103に格納され得る。 Programs to be executed by the arithmetic device 101 and data to be processed are loaded from the auxiliary storage device 103 to the main storage device 102, for example. The functional units shown in FIG. 1A or 1B can be implemented by the arithmetic device 101 executing corresponding programs. Various data such as the corpus and database shown in FIG. 1A or 1B can be stored in the auxiliary storage device 103, for example.

音声合成システム100は、物理的な計算機システム(一つ以上の物理的な計算機)でもよいし、クラウド基盤のような計算リソース群(複数の計算リソース)上に構築されたシステムでもよい。音声合成システム100は、スマートフォンやタブレットなどの携帯機器でもよい。計算機システムあるいは計算リソース群は、1以上のインターフェース装置、1以上の記憶装置(例えば、主記憶装置及び補助記憶装置を含む)、及び、1以上の演算装置を含む。 The speech synthesis system 100 may be a physical computer system (one or more physical computers), or a system built on a group of computational resources (a plurality of computational resources) such as a cloud platform. The speech synthesis system 100 may be a mobile device such as a smart phone or a tablet. A computer system or group of computing resources includes one or more interface devices, one or more storage devices (including, for example, main storage devices and auxiliary storage devices), and one or more computing devices.

プログラムが演算装置によって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び/またはインターフェース装置等を用いながら行われるため、機能は演算装置の少なくとも一部とされてもよい。機能を主語として説明された処理は、演算装置あるいはそのプロセッサを有するシステムが行う処理としてもよい。 When a function is realized by executing a program by an arithmetic device, the function is at least a part of the arithmetic device because the specified processing is performed using a storage device and/or an interface device as appropriate. may The processing described with function as the subject may be processing performed by a system having an arithmetic device or its processor.

プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機または計算機が読み取り可能な記憶媒体(例えば計算機読み取り可能な非一過性記憶媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。 Programs may be installed from program sources. The program source may be, for example, a program distribution computer or a computer-readable storage medium (eg, a computer-readable non-transitory storage medium). The description of each function is an example, and multiple functions may be combined into one function, or one function may be divided into multiple functions.

図1A又は1Bに戻って、音声合成モデル学習部1070は、音声合成モデル1080を訓練する。この訓練のため、音声合成モデル学習部1070は、音声合成コーパス1010から取得したレコードのテキストを、言語特徴量変換部1050に入力して、言語特徴量を取得する。音声合成モデル学習部1070は、そのレコードの音声サンプルを音響特徴量変換部1040に入力して、音響特徴量を取得する。さらに、音声合成モデル学習部1070は、その音声サンプルを感情認識器1060に入力して、感情パラメタを取得する。 Returning to FIG. 1A or 1B, speech synthesis model training unit 1070 trains speech synthesis model 1080 . For this training, the speech synthesis model learning unit 1070 inputs the text of the record acquired from the speech synthesis corpus 1010 to the language feature amount conversion unit 1050 to acquire language feature amounts. The speech synthesis model learning unit 1070 inputs the speech sample of the record to the acoustic feature quantity conversion unit 1040 to acquire the acoustic feature quantity. Further, speech synthesis model learning section 1070 inputs the speech sample to emotion recognizer 1060 to acquire emotion parameters.

音声合成モデル学習部1070は、音声合成モデル1080に、言語特徴量及び感情パラメタを入力する。音声合成モデル1080は、入力に対応する音響特徴量を出力する。音声合成モデル1080が出力した音響特徴量と音響特徴量変換部1040からの音響特徴量の誤差に基づき、音声合成モデル1080の構成パラメタが更新される。 The speech synthesis model learning unit 1070 inputs language feature quantities and emotion parameters to the speech synthesis model 1080 . The speech synthesis model 1080 outputs acoustic features corresponding to the input. The configuration parameters of the speech synthesis model 1080 are updated based on the error between the acoustic feature quantity output by the speech synthesis model 1080 and the acoustic feature quantity from the acoustic feature quantity conversion unit 1040 .

音声合成器1230は、音声合成モデル1080から出力された音響特徴量から、合成音声1240を生成する。従って、音声合成モデル1080は、最終的に合成音声1240の音声波形が生成されるように学習をすることになる。上述のように、本実施形態では、感情パラメタの形式として、多次元ベクトルを想定する。それぞれの次元は、感情の異なる側面の強さを表す。なお、ベクトルの次元数は1以上の任意の数であり、一つの次元が複数種類の感情を示すことができる。 The speech synthesizer 1230 generates synthesized speech 1240 from the acoustic features output from the speech synthesis model 1080 . Therefore, the speech synthesis model 1080 learns so that the speech waveform of the synthesized speech 1240 is finally generated. As described above, in this embodiment, multidimensional vectors are assumed as the format of emotion parameters. Each dimension represents the intensity of a different aspect of emotion. Note that the number of dimensions of the vector is any number greater than or equal to 1, and one dimension can represent multiple types of emotions.

音声合成モデル1080の学習手順の詳細を説明する。図7は、音声合成モデル1080の学習手順例のフローチャートである。ステップS101において、音声合成モデル学習部1070は、音声合成コーパス1010内の各音声サンプルを感情認識器1060に入力し、感情パラメタを得る。 Details of the learning procedure of the speech synthesis model 1080 will be described. FIG. 7 is a flowchart of an example training procedure for the speech synthesis model 1080 . In step S101, the speech synthesis model learning unit 1070 inputs each speech sample in the speech synthesis corpus 1010 to the emotion recognizer 1060 to obtain emotion parameters.

ステップS102において、音声合成モデル学習部1070は、音声合成コーパス1010内の各音声サンプルを音響特徴量変換部1040に入力し、音響特徴量を得る。ステップS103において、音声合成モデル学習部1070は、音声合成コーパス1010内の各テキストを言語特徴量変換部1050に入力し、言語特徴量を得る。 In step S102, the speech synthesis model learning unit 1070 inputs each speech sample in the speech synthesis corpus 1010 to the acoustic feature amount conversion unit 1040 to obtain acoustic feature amounts. In step S103, the speech synthesis model learning unit 1070 inputs each text in the speech synthesis corpus 1010 to the language feature conversion unit 1050 to obtain language features.

ステップS104において、音声合成モデル学習部1070は、音声合成モデル1080の学習(訓練)を行う。具体的には、音声合成モデル学習部1070は、音声合成モデル1080に、ステップS101及びS103で取得した感情パラメタと言語特徴量を入力し、出力された音響特徴量を取得する。音声合成モデル学習部1070は、出力された音響特徴量とステップS102で取得した音響特徴量の誤差が小さくなるように、音声合成モデル1080を訓練する。つまり、音声合成モデル1080に言語特徴量と感情パラメタを入力したときに、正しい音響特徴量が生成される確率が最大化されるように学習を行う。 In step S<b>104 , the speech synthesis model learning unit 1070 learns (trains) the speech synthesis model 1080 . Specifically, the speech synthesis model learning unit 1070 inputs the emotion parameters and language feature values obtained in steps S101 and S103 to the speech synthesis model 1080, and obtains the output acoustic feature values. The speech synthesis model learning unit 1070 trains the speech synthesis model 1080 so that the error between the output acoustic feature quantity and the acoustic feature quantity acquired in step S102 is reduced. In other words, learning is performed so as to maximize the probability of generating correct acoustic features when language features and emotion parameters are input to the speech synthesis model 1080 .

図1A又は1Bに戻って、ターゲット音声データベース1090にある音声サンプルは、感情認識器1130に入力される。感情認識器1130は、音声合成コーパス1010に対して使用する感情認識器1060と異なるプログラム又は同一のプログラムで実現される。一例において、感情認識器1130及び1060は、同一である。 Returning to FIG. 1A or 1B, speech samples in target speech database 1090 are input to emotion recognizer 1130 . Emotion recognizer 1130 is implemented by a different program or the same program as emotion recognizer 1060 used for speech synthesis corpus 1010 . In one example, emotion recognizers 1130 and 1060 are identical.

図1Aに示す構成例において、感情認識器1130が出力した感情パラメタは、クラスタ生成部1140に入力される。クラスタ生成部1140は、ターゲット音声データベース1090のレコードのクラスタリングを行い、レコードそれぞれが属するクラスを生成する。クラスの生成方法の詳細は後述する。 In the configuration example shown in FIG. 1A , the emotion parameters output by the emotion recognizer 1130 are input to the cluster generator 1140 . The cluster generator 1140 clusters the records in the target speech database 1090 and generates classes to which each record belongs. The details of the class generation method will be described later.

図1Aの構成例において、クラスの生成結果は、ターゲット音声統計量計算部1150に入力される。ターゲット音声統計量計算部1150は、各クラスに属するレコードの統計量を計算して、ターゲット音声統計量データベース1160に保存する。図4を参照して説明したように、統計量は、各クラスのレコードの感情パラメタの平均値である。ターゲット音声統計量計算部1150は、さらに、条件-クラス変換モデル1170を生成する。生成された条件-クラス変換モデル1170は、補助記憶装置103に格納される。 In the configuration example of FIG. 1A, the class generation result is input to the target speech statistic calculator 1150 . The target speech statistics calculator 1150 calculates statistics of records belonging to each class and stores them in the target speech statistics database 1160 . As described with reference to FIG. 4, the statistic is the average value of emotion parameters of records in each class. Target speech statistics calculator 1150 also generates condition-class conversion model 1170 . The generated condition-class conversion model 1170 is stored in the auxiliary storage device 103 .

図1Bの構成例において、感情認識器1130が出力した感情パラメタは、正規化部1145に入力される。正規化部1145は、感情パラメタの正規化処理を行う。図1Aの構成例において、正規化処理は、クラスタ生成部1140により実行される。正規化処理の詳細は後述する。なお、正規化処理は、正規化モードが指定されている場合に実行される。 In the configuration example of FIG. 1B , the emotion parameters output by the emotion recognizer 1130 are input to the normalization section 1145 . The normalization unit 1145 normalizes the emotion parameter. In the configuration example of FIG. 1A, normalization processing is performed by the cluster generator 1140 . Details of the normalization process will be described later. Note that the normalization process is executed when the normalization mode is designated.

図1Bの構成例において、ターゲット音声統計量計算部1150は、正規化部1145により正規化された感情パラメタ又は正規化が省略された感情パラメタと、ターゲット音声データベース1090の条件欄1125が示す条件との組み合わせによって、条件-感情パラメタ変換モデル1165の訓練(学習)を行う。 In the configuration example of FIG. 1B, the target speech statistic calculation unit 1150 calculates the emotion parameter normalized by the normalization unit 1145 or the emotion parameter without normalization, and the condition indicated by the condition column 1125 of the target speech database 1090. , training (learning) of the condition-emotion parameter conversion model 1165 is performed.

ターゲット音声データベース1090に対する上記処理の詳細を説明する。図8は、ターゲット音声データベース1090から、条件と感情パラメタを関連付けるモデルを生成する処理例のフローチャートを示す。 Details of the above processing for the target speech database 1090 will be described. FIG. 8 shows a flow chart of an example of processing for generating a model that associates conditions and emotional parameters from the target speech database 1090 .

ステップS201において、感情認識器1130は、ターゲット音声データベース1090内の音声サンプルそれぞれから、感情パラメタを求める。ステップS202において、クラスタ生成部1140又は正規化部1145は、事前設定に従って、正規化モードを適用するか否か判定する。正規化モードは、ターゲット話者の音声における話者性の影響を減らす処理を有効にするモードである。 In step S201, the emotion recognizer 1130 determines emotion parameters from each speech sample in the target speech database 1090. FIG. In step S202, the cluster generation unit 1140 or the normalization unit 1145 determines whether or not to apply the normalization mode according to presetting. The normalization mode is a mode that enables processing to reduce speaker-related effects in the target speaker's speech.

ステップS203及びS204は、正規化モードが有効であるときの処理である。ステップS203において、クラスタ生成部1140又は正規化部1145は、ターゲット音声データベース1090内の各話者の感情パラメタの平均値を求める。具体的には、クラスタ生成部1140は、話者IDが同一のレコードを抽出し、抽出した全てのレコードの感情パラメタの各変数の平均値を求める。 Steps S203 and S204 are processes when the normalization mode is valid. In step S<b>203 , the cluster generator 1140 or the normalizer 1145 finds the average value of the emotional parameters of each speaker in the target speech database 1090 . Specifically, the cluster generation unit 1140 extracts records having the same speaker ID, and obtains the average value of each variable of the emotion parameter of all the extracted records.

ステップS204において、クラスタ生成部1140又は正規化部1145は、感情認識器1130による各ターゲット音声サンプルの感情パラメタから、各ターゲット音声サンプルの話者の感情パラメタの平均値を減算する。これにより、各話者の基準レベルからの感情の変化を示す感情パラメタを得ることができる。 In step S204, the cluster generation unit 1140 or the normalization unit 1145 subtracts the average value of the speaker's emotion parameter of each target voice sample from the emotion parameter of each target voice sample obtained by the emotion recognizer 1130. FIG. As a result, it is possible to obtain emotion parameters indicating changes in emotion from the reference level of each speaker.

ステップS205において、ターゲット音声統計量計算部1150は、ターゲット音声データベース1090の条件欄1125が示す条件と、ターゲット音声サンプルの感情パラメタの統計量との関係を、モデル化する。 In step S205, the target speech statistic calculation unit 1150 models the relationship between the condition indicated by the condition column 1125 of the target speech database 1090 and the statistic of the emotion parameter of the target speech sample.

入力された条件から感情パラメタ統計量を計算する方法、つまり、入力条件と感情パラメタ統計量とを関連付けるモデルのいくつかの例が存在する。以下において、クラスタリングベースモデル化、平均値ベースモデル化、機械学習ベースモデル化を説明する。クラスタリングベースモデル化は図1Aの構成例に対応し、機械学習ベースモデル化は図1Bの構成例に対応する。平均値ベースモデル化は、図1Aの構成例からクラスタ生成部1140を省略した構成例に対応する。 There are several examples of methods for computing affective parameter statistics from input conditions, ie models that associate input conditions with affective parameter statistics. Clustering-based modeling, mean-value-based modeling, and machine-learning-based modeling are described below. Clustering-based modeling corresponds to the example configuration of FIG. 1A, and machine learning-based modeling corresponds to the example configuration of FIG. 1B. Mean value-based modeling corresponds to a configuration example in which the cluster generator 1140 is omitted from the configuration example in FIG. 1A.

まず、クラスタリングベースモデル化を説明する。図9Aは、クラスタリングベースモデル化の例を示すフローチャートである。ステップS311において、クラスタ生成部1140は、感情認識器1130から取得したターゲット音声サンプルの感情パラメタに対して、非教師クラスタリングを実施する。これにより、いくつかのクラス(クラスタ)が生成される。 First, clustering-based modeling is described. FIG. 9A is a flowchart illustrating an example of clustering-based modeling. In step S<b>311 , the cluster generator 1140 performs unsupervised clustering on the emotion parameters of the target speech samples obtained from the emotion recognizer 1130 . This will generate several classes (clusters).

ステップS312において、ターゲット音声統計量計算部1150は、各クラスに属するターゲット音声サンプルの感情パラメタの平均値(各変数の平均値)を計算する。平均値が計算される前の感情パラメタは、正規化モードにおいて、話者の感情パラメタ平均値が減算されたベクトルであり、非正規化モードにおいて感情認識器1130から出力されたベクトルである。 In step S312, the target speech statistic calculation unit 1150 calculates the average value (average value of each variable) of the emotion parameters of the target speech samples belonging to each class. The emotion parameter before the average value is calculated is the vector from which the speaker's emotion parameter average value is subtracted in the normalized mode, and the vector output from the emotion recognizer 1130 in the non-normalized mode.

ステップS313において、ターゲット音声統計量計算部1150は、ターゲット音声データベース1090の条件欄1125が示す条件を説明変数とし、ステップS311で決定されたターゲット音声サンプルそれぞれのクラスIDを出力とする決定木を、訓練する。ステップS314において、ターゲット音声統計量計算部1150は、訓練された決定木を条件-クラス変換モデル1170として保存する。 In step S313, the target speech statistic calculation unit 1150 sets the condition shown in the condition column 1125 of the target speech database 1090 as an explanatory variable, and creates a decision tree that outputs the class ID of each target speech sample determined in step S311. train. In step S 314 , target speech statistic calculator 1150 saves the trained decision tree as condition-class transformation model 1170 .

ステップS315において、ターゲット音声統計量計算部1150は、ステップS312で計算した各クラスの感情パラメタの平均値をターゲット音声統計量データベース1160の感情パラメタ欄1162に格納する。対応するクラスIDは、クラスID欄1161に格納される。 In step S<b>315 , the target speech statistics calculation unit 1150 stores the average value of the emotion parameters of each class calculated in step S<b>312 in the emotion parameter column 1162 of the target speech statistics database 1160 . The corresponding class ID is stored in class ID column 1161 .

ステップS313で生成された決定木に対して、合成音声を生成するときのシチュエーションを表す条件1180を入力することにより、対応するクラスIDを同定することができる。同定されたクラスに属する感情パラメタと発話テキストの言語特徴量を音声合成モデル1080に入力することにより、そのシチュエーションにふさわしい感情の音声を生成することが可能となる。なお、条件を入力としてクラスIDを出力するモデルであれば、決定木と異なるモデリング手法を用いてよい。 A corresponding class ID can be identified by inputting a condition 1180 representing a situation when synthetic speech is generated for the decision tree generated in step S313. By inputting the emotional parameters belonging to the identified class and the linguistic features of the uttered text to the speech synthesis model 1080, it is possible to generate emotional speech suitable for the situation. Note that a modeling method different from the decision tree may be used as long as it is a model that outputs a class ID with conditions as input.

次に、平均値ベースモデル化を説明する。図9Bは、平均値ベースモデル化の例を示すフローチャートである。まず、ステップS321において、条件をクラスに変換するテーブルが用意される。このテーブルは開発者が作成する想定でよい。最も単純な場合、条件の組み合わせそれぞれに対して、1個のクラスが対応する関係を採用することができる。 Next, mean value-based modeling will be described. FIG. 9B is a flowchart illustrating an example of mean-based modeling. First, in step S321, a table for converting conditions into classes is prepared. This table can be assumed to be created by the developer. In the simplest case, one class can adopt the corresponding relationship for each combination of conditions.

ステップS322において、ターゲット音声統計量計算部1150は、各クラスに属するターゲット音声サンプルの感情パラメタの平均値を計算する。ターゲット音声サンプルのクラスは、上記テーブルにより決定される。ステップS323において、ターゲット音声統計量計算部1150は、ステップS321で得られたテーブルを、条件-クラス変換モデル1170として保存する。 In step S322, the target speech statistic calculation unit 1150 calculates the average value of the emotion parameters of the target speech samples belonging to each class. The class of target speech samples is determined by the above table. In step S323, the target speech statistic calculation unit 1150 saves the table obtained in step S321 as the condition-class conversion model 1170. FIG.

ステップS324において、ターゲット音声統計量計算部1150は、ステップS322で求めた各クラスの感情パラメタの平均値を、ターゲット音声統計量データベース1160の感情パラメタ欄1162に格納する。対応するクラスIDは、クラスID欄1161に格納される。 In step S 324 , the target speech statistic calculation unit 1150 stores the average value of the emotion parameter of each class obtained in step S 322 in the emotion parameter column 1162 of the target speech statistic database 1160 . The corresponding class ID is stored in class ID column 1161 .

平均値ベースの手法は単純であるが、音声を生成したいシチュエーションの内訳が明確であり、かつそれぞれのシチュエーションにおけるターゲット話者の音声を採取可能である場合、本手法は特に有効である。 The average value-based method is simple, but this method is particularly effective when the breakdown of the situations for which speech is to be generated is clear and the speech of the target speaker in each situation can be collected.

次に、機械学習ベースモデル化を説明する。図9Cは、機械学習ベースモデル化の例を示すフローチャートである。ステップS331において、ターゲット音声統計量計算部1150は、条件を入力変数とし、感情パラメタを出力(すなわち予測対象変数)とするデータセットを作成する。ステップS332において、ターゲット音声統計量計算部1150は、データセットに基づき入力を出力に変換する機械学習モデルを生成する。ステップS333において、ターゲット音声統計量計算部1150は、生成した機械学習モデルを、図1Bに示す、条件-感情パラメタ変換モデル1165として保存する。 Next, machine learning-based modeling is described. FIG. 9C is a flowchart illustrating an example of machine learning-based modeling. In step S331, the target speech statistic calculation unit 1150 creates a data set with conditions as input variables and emotion parameters as outputs (that is, prediction target variables). In step S332, the target speech statistic calculator 1150 generates a machine learning model that transforms inputs into outputs based on the data set. In step S333, target speech statistic calculation unit 1150 stores the generated machine learning model as condition-emotion parameter conversion model 1165 shown in FIG. 1B.

本手法では、シチュエーションを表す条件を指定すると、機械学習モデルが感情パラメタを直接出力する。よって、ターゲット音声統計量データベースを省略できる。訓練済みの機械学習モデルは、ターゲット音声データベース1090の音声サンプルの感情パラメタに基づく感情パラメタを出力する。機械学習モデルの出力は、音声サンプルの感情パラメタ統計量を表す。 In this method, the machine learning model directly outputs the emotion parameters when the conditions representing the situation are specified. Therefore, the target speech statistics database can be omitted. The trained machine learning model outputs affective parameters based on the affective parameters of speech samples in the target speech database 1090 . The output of the machine learning model represents the sentiment parameter statistics of the speech samples.

図1A又は1Bに戻り、学習済み音声合成モデル及びターゲット音声サンプルの感情パラメタの統計量に基づく音声合成を、説明する。条件1180は、対話システムによって音声が発せされるシチュエーションを表す変数である。条件1180は、ターゲット音声データベース1090の条件欄1125に規定される変数で表される。音声合成システム100の外部システム(不図示)から、条件1180は入力される。条件1180は、感情パラメタ取得部1190に入力される。 Returning to FIG. 1A or 1B, speech synthesis based on the trained speech synthesis model and the statistics of the emotion parameters of the target speech sample will be described. Condition 1180 is a variable that represents the situation in which speech is emitted by the dialogue system. Condition 1180 is represented by variables defined in condition column 1125 of target speech database 1090 . A condition 1180 is input from an external system (not shown) of the speech synthesis system 100 . Condition 1180 is input to emotion parameter acquisition section 1190 .

図1Aの構成例において、感情パラメタ取得部1190は、条件-クラス変換モデル1170を使用し、指定された条件1180に対応するクラスを決定する。さらに、感情パラメタ取得部1190は、決定されたクラスに対応する感情パラメタを、ターゲット音声統計量データベース1160の感情パラメタ欄1162から読み込む。図1Bの構成例において、条件-感情パラメタ変換モデル1165によって、入力条件1180から感情パラメタが生成される。 In the configuration example of FIG. 1A, emotion parameter acquisition section 1190 uses condition-class conversion model 1170 to determine the class corresponding to specified condition 1180 . Furthermore, the emotion parameter acquisition unit 1190 reads the emotion parameter corresponding to the determined class from the emotion parameter column 1162 of the target speech statistic database 1160 . In the configuration example of FIG. 1B, emotion parameters are generated from input conditions 1180 by condition-emotion parameter conversion model 1165 .

感情パラメタ変換部1200は、本実施形態ではとくに何も処理をしない。そのため、感情パラメタ取得部1190が得た感情パラメタを、無変換で、そのまま音声合成器1230に入力する。 The emotion parameter conversion unit 1200 does not perform any particular processing in this embodiment. Therefore, the emotion parameter obtained by emotion parameter acquisition section 1190 is input to speech synthesizer 1230 without conversion.

テキスト1210は、音声合成で生成したい文を規定した文字列である。言語特徴量変換部1220は、入力されたテキスト1210を音声合成器1230の入力となる言語特徴量に変換する。この処理は、言語特徴量変換部1050の処理と同様である。 A text 1210 is a character string defining a sentence to be generated by speech synthesis. The linguistic feature conversion unit 1220 converts the input text 1210 into a linguistic feature to be input to the speech synthesizer 1230 . This process is the same as the process of the language feature quantity conversion unit 1050 .

音声合成器1230は、入力された言語特徴量及び感情パラメタを、音声合成モデル1080に入力し、音響特徴量を取得する。音声合成器1230は、音響特徴量から合成音声1240を生成し、出力する。 The speech synthesizer 1230 inputs the input linguistic feature amount and emotion parameter to the speech synthesis model 1080 to obtain an acoustic feature amount. A speech synthesizer 1230 generates and outputs a synthesized speech 1240 from the acoustic features.

音声合成の手順の詳細を説明する。図10は、音声合成の方法例を示すフローチャートである。ステップS401において、ターゲット音声サンプルの感情パラメタに対する統計量計算の方法が、機械学習ベースか否かにより分岐する。 The details of the speech synthesis procedure will be explained. FIG. 10 is a flowchart illustrating an example method for speech synthesis. In step S401, the process branches depending on whether the method of calculating the statistics for the emotion parameter of the target voice sample is machine learning based.

機械学習ベースと異なる手法が使用されている場合(S401:NO)、フローはステップS402に進む。感情パラメタ取得部1190は、条件-クラス変換モデル1170を使用して、入力された条件1180からクラスIDを決定する。さらに、ステップS403において、感情パラメタ取得部1190は、クラスIDに対応する感情パラメタを、ターゲット音声統計量データベース1160の感情パラメタ欄1162から読み込む。 If a method different from the machine learning base is used (S401: NO), the flow proceeds to step S402. Emotion parameter acquisition section 1190 determines a class ID from input condition 1180 using condition-class conversion model 1170 . Furthermore, in step S403, the emotion parameter acquisition unit 1190 reads the emotion parameter corresponding to the class ID from the emotion parameter column 1162 of the target speech statistics database 1160. FIG.

機械学習ベースの手法が使用されている場合(S401:YES)、フローはステップS410に進む。機械学習ベースを用いる場合、条件-クラス変換モデル1170は、条件を入力すると感情パラメタを出力する機械学習モデルである。感情パラメタ取得部1190は、条件-クラス変換モデル1170に対して条件1180を入力し、感情パラメタを得る。 If a machine learning based technique is used (S401: YES), flow proceeds to step S410. When using a machine learning base, the condition-class conversion model 1170 is a machine learning model that outputs emotion parameters when conditions are input. Emotion parameter acquisition section 1190 inputs condition 1180 to condition-class conversion model 1170 and acquires an emotion parameter.

ステップS404において、感情パラメタ取得部1190は、指定されたモードが正規化モードか否か判定する。正規化モードが有効である場合(S404:YES)、フローはステップS405に進む。正規化モードの場合には、ステップS403またはステップS410で得られた感情パラメタは、絶対値ではなく、1話者の音声に含まれる平均的な感情パラメタからの変動(相対値)である。 In step S404, emotion parameter acquisition section 1190 determines whether or not the specified mode is normalization mode. If the normalization mode is valid (S404: YES), the flow proceeds to step S405. In the normalization mode, the emotion parameter obtained in step S403 or step S410 is not an absolute value but a variation (relative value) from an average emotion parameter included in the speech of one speaker.

よって、ステップS405において、感情パラメタ取得部1190は、この感情パラメタに対して、特定の話者の平均的な感情パラメタを加える。ここで加得る感情パラメタを、どの話者から得るかは任意である。例えば、ターゲット話者のなかでもっとも好ましい音声で話している話者を選ぶ方法や、音声合成コーパス1010の音声を発話した話者を選び、その話者のさまざまな声から得た感情パラメタの平均値を加算することができる。 Therefore, in step S405, emotion parameter acquisition section 1190 adds the average emotion parameter of the specific speaker to this emotion parameter. It is arbitrary from which speaker the emotion parameter to be added here is obtained. For example, a method of selecting the speaker who speaks with the most preferable voice among the target speakers, a method of selecting a speaker who uttered the voice of the speech synthesis corpus 1010, and averaging the emotional parameters obtained from various voices of the speaker values can be added.

正規化モードが無効である(S404:YES)又はステップS405の後、ステップS406において、感情パラメタ変換部1200は、得られた感情パラメタにさらに変換を行う。ただし、本実施形態ではこの変換は実行されない。よって、無変換である。 If the normalization mode is invalid (S404: YES) or after step S405, the emotion parameter conversion unit 1200 further converts the obtained emotion parameter in step S406. However, this conversion is not performed in this embodiment. Therefore, there is no conversion.

ステップS407において、言語特徴量変換部1220は、入力されたテキスト1210から、言語特徴量を生成、出力する。ステップS408において、音声合成器1230は、言語特徴量変換部1220からの言語特徴量と、感情パラメタ変換部1200からの感情パラメタとを、受け取る。 In step S407, the linguistic feature quantity conversion unit 1220 generates and outputs a linguistic feature quantity from the input text 1210. FIG. In step S<b>408 , speech synthesizer 1230 receives the linguistic feature amount from linguistic feature amount conversion section 1220 and the emotion parameter from emotion parameter conversion section 1200 .

ステップS409において、音声合成器1230は、合成音声1240を生成し、出力する。音声合成器1230は、取得した言語特徴量及び感情パラメタを音声合成モデル1080に入力し、出力された音響特徴量を取得する。音声合成器1230は、音響特徴量から合成音声1240を生成する。 In step S409, speech synthesizer 1230 generates synthesized speech 1240 and outputs it. The speech synthesizer 1230 inputs the acquired linguistic feature quantity and emotion parameter to the speech synthesis model 1080 and acquires the outputted acoustic feature quantity. A speech synthesizer 1230 generates synthesized speech 1240 from the acoustic features.

以上、第1の実施形態では、音声合成コーパスに対して感情認識器を経て得た感情パラメタを使って音声合成モデルの学習を行い、ターゲット音声から感情認識器を使い得た感情パラメタの統計量を使用して音声合成を行う。これにより、ターゲット音声の感情を真似た音声合成を簡便に実現することができる。 As described above, in the first embodiment, the speech synthesis model is trained using the emotion parameters obtained through the emotion recognizer for the speech synthesis corpus, and the statistics of the emotion parameters obtained by using the emotion recognizer from the target speech are obtained. to perform speech synthesis. This makes it possible to easily realize speech synthesis that imitates the emotion of the target speech.

<第2の実施形態>
本実施形態では、ターゲット音声データベースの感情パラメタ分布が音声合成コーパスの感情パラメタ分布に近くなるように、ターゲット音声の感情パラメタが変換される。変換された感情パラメタが、音声合成器に入力される。
<Second embodiment>
In this embodiment, the emotion parameters of the target speech are transformed so that the emotion parameter distribution of the target speech database becomes closer to the emotion parameter distribution of the speech synthesis corpus. The converted emotion parameters are input to the speech synthesizer.

これにより、学習に使用される音声合成コーパスの話者が持つ感情の話者内変動を模擬して、音声合成ができるようになる。結果、開発者が所望した感情により近い音声を合成することができる。本実施形態は、第1の実施形態に追加変更を行ったものであるため、第1の実施形態と異なる部分を主に説明する。 This enables speech synthesis by simulating intra-speaker variations in the emotions of the speakers of the speech synthesis corpus used for training. As a result, it is possible to synthesize a voice that is closer to the emotion desired by the developer. Since this embodiment is obtained by making additional changes to the first embodiment, differences from the first embodiment will be mainly described.

図11は、第2の実施形態に係る音声合成システム100の論理構成例を模式的に示す。図1Aに示す構成例に加えて、音声合成システム100は、音声合成コーパス統計量計算部1250、音声合成コーパス統計量データベース1260を含む。さらに、音声合成システム100は、変換パラメタデータベース1280、及び変換パラメタ計算部1270を含む。なお、図1Bに示す構成例に対しても、本実施形態の構成が同様に適用される。 FIG. 11 schematically shows a logical configuration example of a speech synthesis system 100 according to the second embodiment. In addition to the configuration example shown in FIG. 1A, the speech synthesis system 100 includes a speech synthesis corpus statistics calculator 1250 and a speech synthesis corpus statistics database 1260 . Furthermore, the speech synthesis system 100 includes a transformation parameter database 1280 and a transformation parameter calculator 1270 . Note that the configuration of this embodiment is similarly applied to the configuration example shown in FIG. 1B.

図11を参照して、音声合成コーパス統計量計算部1250は、音声合成コーパス1010にある音声サンプルの感情パラメタにおける統計量、すなわち分布を規定するパラメタを計算する。音声合成コーパス統計量データベース1260は、音声合成コーパス統計量計算部1250で求めた統計量を保存する。 Referring to FIG. 11 , speech synthesis corpus statistic calculation unit 1250 calculates statistics in emotion parameters of speech samples in speech synthesis corpus 1010 , that is, parameters that define distribution. The speech synthesis corpus statistics database 1260 stores the statistics obtained by the speech synthesis corpus statistics calculator 1250 .

いかなる分布形態も使うことができるが、ここでは正規分布を仮定し、平均と標準偏差を求めるものとする。なお、感情認識器が出力する感情パラメタは多次元ベクトルであることを仮定するため、平均および標準偏差もそれぞれベクトルとなる。 Although any form of distribution can be used, a normal distribution is assumed here to find the mean and standard deviation. Since it is assumed that the emotion parameter output by the emotion recognizer is a multidimensional vector, the mean and standard deviation are also vectors.

変換パラメタ計算部1270は、音声合成コーパス1010及びターゲット音声データベース1090の両方を参照し、ターゲット音声の感情パラメタを音声合成コーパス1010の分布に近づけるための変換アルゴリズムで使用するパラメタを求める。 Transformation parameter calculation unit 1270 refers to both speech synthesis corpus 1010 and target speech database 1090 to obtain parameters to be used in a transformation algorithm to approximate the distribution of emotion parameters of target speech to speech synthesis corpus 1010 .

ターゲット音声の感情パラメタを機械学習モデル(条件-感情パラメタ変換モデル)1165により求める場合、変換パラメタ計算部1270は、対話システムを使用する条件の一覧、つまり、条件1180として使用され得る条件の一覧を使用して、機械学習モデル1165に、それぞれの条件を与える。変換パラメタ計算部1270は、機械学習モデル1165から得られた感情パラメタから統計量を求め、それをターゲット音声統計量データベース1160に保存されている感情パラメタの代替として使用する。 When the emotion parameter of the target speech is obtained by the machine learning model (condition-emotion parameter conversion model) 1165, the conversion parameter calculation unit 1270 creates a list of conditions for using the dialogue system, that is, a list of conditions that can be used as the condition 1180. are used to feed machine learning models 1165 with their respective conditions. The conversion parameter calculator 1270 obtains statistics from the emotion parameters obtained from the machine learning model 1165 and uses them as substitutes for the emotion parameters stored in the target speech statistics database 1160 .

図12を参照して、この手順を説明する。ステップS501において、変換パラメタ計算部1270は、音声合成コーパス1010にあるそれぞれの音声サンプルを感情認識器1060に入力することにより、それぞれの音声サンプルの感情パラメタを求める。 This procedure will be described with reference to FIG. In step S501, transformation parameter calculator 1270 inputs each speech sample in speech synthesis corpus 1010 to emotion recognizer 1060 to obtain the emotion parameter of each speech sample.

ステップS502において、変換パラメタ計算部1270は、感情パラメタから統計量を求める。ここでは統計量として、平均と標準偏差を求めることとする。各音声サンプルをwとし、音声サンプルの全体集合をWとすると、感情パラメタの平均値a及び標準偏差σaは、以下の式で計算される。 In step S502, transformation parameter calculation section 1270 obtains a statistic from the emotion parameter. Here, the average and standard deviation are obtained as statistics. Assuming that each audio sample is w and the entire set of audio samples is W, the average value a and the standard deviation σa of the emotion parameter are calculated by the following equations.

Figure 2023038957000002
Figure 2023038957000002

Figure 2023038957000003
Figure 2023038957000003

|W|は音声サンプルの個数である。SER(w)は、音声サンプルwの感情パラメタを求める関数である。標準偏差を求める式における二乗と平方根は、ともにベクトルの各次元の値に適用される。 |W| is the number of speech samples. SER(w) is a function that obtains the emotional parameter of voice sample w. Both the square and the square root in the standard deviation formula apply to the values in each dimension of the vector.

ステップS503において、変換パラメタ計算部1270は、多くの条件を含む条件セットを作成する。この条件セットには、対話システムを実際に使用する場面を表す条件を普遍的に含むことが望ましい。一つのシチュエーションを特徴づける条件変数は1個ないし複数あるため、この条件変数の組を条件タプルと呼ぶこととする。よって、条件セットには、複数の条件タプルが含まれている。さらに、実際の利用におけるそれぞれの条件の利用頻度に応じて、含める条件タプルの数の割合を調整してもよい。 In step S503, conversion parameter calculator 1270 creates a condition set including many conditions. It is desirable that this set of conditions universally include conditions representing situations in which the dialogue system is actually used. Since there are one or more condition variables that characterize one situation, this set of condition variables is called a condition tuple. Therefore, the condition set contains multiple condition tuples. Furthermore, the ratio of the number of condition tuples to be included may be adjusted according to the frequency of use of each condition in actual use.

条件セットをXと表し、格納されるそれぞれの条件タプルをxと表すと、以下の式が定義できる。|X|は条件タプルの数である。 Denoting the condition set as X and each stored condition tuple as x, the following equation can be defined. |X| is the number of condition tuples.

Figure 2023038957000004
Figure 2023038957000004

i番目の条件タプルxiは、以下のように表現できる。qi1,qi2,…は、条件タプルxiを構成するそれぞれの条件であり、|Q|は条件の数である。 The i-th condition tuple xi can be expressed as follows. qi1, qi2, . . . are respective conditions that make up the condition tuple xi, and |Q|

Figure 2023038957000005
Figure 2023038957000005

ステップS504は分岐であり、ターゲット音声の感情パラメタのモデル化に機械学習を使用しているか否かにより分岐する。 Step S504 is a branch, and branches depending on whether machine learning is used for modeling the emotional parameters of the target speech.

機械学習を使用していない場合(S504:NO)、フローはステップS505に進む。ステップS505において、変換パラメタ計算部1270は、それぞれの条件タプルからクラスIDを求める。i番目のクラスIDをciとすると、ciは以下の式で表される。CLSは条件タプルをクラスIDに変換する関数である。 If machine learning is not used (S504: NO), the flow proceeds to step S505. In step S505, the conversion parameter calculator 1270 obtains class IDs from the respective condition tuples. Assuming that the i-th class ID is ci, ci is represented by the following formula. CLS is a function that converts a condition tuple into a class ID.

Figure 2023038957000006
Figure 2023038957000006

ステップS506において、変換パラメタ計算部1270は、それぞれのクラスに対応した感情パラメタを得る。i番目の感情パラメタをeiとすると、eiは以下の式で表される。EPは、クラスIDを感情パラメタに変換する関数である。 In step S506, transformation parameter calculation section 1270 obtains emotion parameters corresponding to each class. Assuming that the i-th emotion parameter is ei, ei is expressed by the following equation. EP is a function that converts class IDs into emotion parameters.

Figure 2023038957000007
Figure 2023038957000007

機械学習が使用されている場合(S504:YES)、フローはステップS509に進む。変換パラメタ計算部1270は、以下の数式に示すように、条件タプルから直接感情パラメタを求める。EPMは、条件タプルを感情パラメタに変換する関数であり、機械学習モデルにより実現される。 If machine learning is used (S504: YES), the flow proceeds to step S509. Transformation parameter calculation section 1270 obtains the emotion parameter directly from the condition tuple as shown in the following formula. EPM is a function that converts condition tuples into emotion parameters, and is implemented by a machine learning model.

Figure 2023038957000008
Figure 2023038957000008

ステップS507において、変換パラメタ計算部1270は、感情パラメタ(ei)の統計量を求める。ここでは、平均値と標準偏差を求める。eおよびσeは、それぞれターゲット音声から求められた感情パラメタの平均値および標準偏差である。 In step S507, transformation parameter calculation section 1270 obtains the statistic of the emotion parameter (ei). Here, the average value and standard deviation are obtained. e and σe are the mean value and standard deviation of the emotional parameter obtained from the target speech, respectively.

Figure 2023038957000009
Figure 2023038957000009

Figure 2023038957000010
Figure 2023038957000010

ステップS508において、変換パラメタ計算部1270は、以上求めたa、σa、e、σeが、感情パラメタ変換部1200において使われる変換用のパラメタと決定する。これらを変換パラメタデータベース1280に保存する。 In step S<b>508 , conversion parameter calculation section 1270 determines a, σa, e, and σe obtained above as parameters for conversion used in emotion parameter conversion section 1200 . These are saved in the conversion parameter database 1280 .

次に、上記変換用パラメタを音声の合成時に使用する方法を説明する。この処理は、感情パラメタ変換部1200により、図10のフローチャートのステップS406において実行される。音声合成時において、ある条件xが指定され、感情パラメタ欄1162から読み込まれた対応する感情パラメタがmであったと仮定する。 Next, a method of using the above conversion parameters when synthesizing speech will be described. This process is executed by the emotion parameter conversion unit 1200 in step S406 of the flowchart in FIG. Suppose that a certain condition x is specified at the time of speech synthesis, and the corresponding emotion parameter read from the emotion parameter column 1162 is m.

最初に、感情パラメタ変換部1200は、感情パラメタmから、ターゲット音声の感情分布における標準得点zを計算する。 First, the emotion parameter conversion unit 1200 calculates the standard score z in the emotion distribution of the target speech from the emotion parameter m.

Figure 2023038957000011
Figure 2023038957000011

次に、感情パラメタ変換部1200は、標準得点zに対応する音声合成コーパス1010の感情分布における感情パラメタbを計算する。 Next, the emotion parameter conversion unit 1200 calculates the emotion parameter b in the emotion distribution of the speech synthesis corpus 1010 corresponding to the standard score z.

Figure 2023038957000012
Figure 2023038957000012

感情パラメタ変換部1200は、この感情パラメタbを音声合成器1230に入力し、音声合成をする。つまり、ここでは、感情パラメタを線形変換している。 The emotion parameter conversion unit 1200 inputs this emotion parameter b to the speech synthesizer 1230 to synthesize speech. In other words, the emotion parameter is linearly transformed here.

本実施形態では、ターゲット音声の感情パラメタを、音声合成コーパスの話者の感情分布の情報に基づいて変換するため、開発者が所望した感情により近い音声を合成することができる。 In this embodiment, since the emotion parameter of the target speech is converted based on the information on the speaker's emotion distribution in the speech synthesis corpus, it is possible to synthesize speech that is closer to the emotion desired by the developer.

<第3の実施形態>
本実施形態は、音声合成器が生成した音声の感情パラメタ分布に基づいて、感情パラメタの変換パラメタを更新(補正)する。これにより、開発者が所望した感情により近い音声を合成することができる。感情パラメタの変換パラメタの初期値は、例えば、第2の実施形態において決定された変換パラメタであってもよく、予め設定された変換パラメタであってもよい。初期値は設定されていなくてもよい。
<Third Embodiment>
This embodiment updates (corrects) the conversion parameter of the emotion parameter based on the emotion parameter distribution of the speech generated by the speech synthesizer. As a result, it is possible to synthesize a voice that is closer to the emotion desired by the developer. The initial value of the conversion parameter of the emotion parameter may be, for example, the conversion parameter determined in the second embodiment, or may be a preset conversion parameter. The initial value does not have to be set.

図13は、本実施形態の音声合成システム100の論理構成例を示す。図11に示す構成例に加えて、感情認識器1290、出力音声統計量計算部1300、及び出力音声統計量データベース1310を含む。 FIG. 13 shows a logical configuration example of the speech synthesis system 100 of this embodiment. In addition to the configuration example shown in FIG. 11, an emotion recognizer 1290, an output speech statistic calculator 1300, and an output speech statistic database 1310 are included.

本実施形態に関係する構成要素を、図13を参照して説明する。音声合成器1230が出力した合成音声1240から、感情認識器1290が、感情パラメタを求める。出力音声統計量計算部1300は、感情認識器1290からの感情パラメタを取得して、感情パラメタの統計量を算出する。出力音声統計量計算部1300は、感情パラメタの統計量を、出力音声統計量データベース1310に保存する。 Components related to this embodiment will be described with reference to FIG. An emotion recognizer 1290 obtains emotion parameters from the synthesized speech 1240 output by the speech synthesizer 1230 . The output speech statistic calculation unit 1300 acquires the emotion parameter from the emotion recognizer 1290 and calculates the statistic of the emotion parameter. The output speech statistics calculator 1300 stores the emotion parameter statistics in the output speech statistics database 1310 .

図14は、出力音声統計量データベース1310の構成例を示す。出力音声統計量データベース1310は、音声合成器1230が生成した合成音声の統計情報を格納する。具体的には、出力音声統計量データベース1310は、クラスID欄1320、及び感情パラメタ欄1330を含む。クラスID欄1320は、音声合成器1230が生成した合成音声それぞれが属するクラスのIDを示す。感情パラメタ欄1330は、各クラスにおけるターゲット音声の感情パラメタの統計量を示す。ターゲット音声統計量データベース1160と合わせて、感情パラメタの変数それぞれの平均値が格納される。 FIG. 14 shows a configuration example of the output speech statistic database 1310 . The output speech statistics database 1310 stores statistical information of synthesized speech generated by the speech synthesizer 1230 . Specifically, output speech statistics database 1310 includes class ID column 1320 and emotion parameter column 1330 . The class ID column 1320 indicates the ID of the class to which each synthesized speech generated by the speech synthesizer 1230 belongs. The emotion parameter column 1330 shows the statistics of the emotion parameter of the target speech in each class. Together with the target speech statistics database 1160, the mean values for each of the emotional parameter variables are stored.

本実施形態における変換パラメタの補正処理を説明する。図15は、感情パラメタの変換パラメタ補正処理例を示すフローチャートである。ステップS601において、変換パラメタ計算部1270は、多くの条件を含む条件セットを作成する。この処理は、図12のフローチャートにおけるステップS503と同様である。 Correction processing of conversion parameters according to the present embodiment will be described. FIG. 15 is a flow chart showing an example of conversion parameter correction processing for emotion parameters. In step S601, conversion parameter calculator 1270 creates a condition set including many conditions. This process is the same as step S503 in the flowchart of FIG.

ステップS602は分岐であり、ターゲット音声の感情パラメタのモデル化に機械学習を使っているか否かにより分岐する。機械学習を使っていない場合(S602:NO)、フローはステップS604に進む。ステップS604において、変換パラメタ計算部1270は、それぞれの条件タプルからクラスIDを求める。この処理は、図12のフローチャートにおけるステップS505と同様である。ステップS605において、変換パラメタ計算部1270は、それぞれのクラスに対応した感情パラメタを得る。 Step S602 is a branch, depending on whether machine learning is used to model the emotional parameters of the target speech. If machine learning is not used (S602: NO), the flow proceeds to step S604. In step S604, the conversion parameter calculator 1270 obtains class IDs from the respective condition tuples. This process is the same as step S505 in the flowchart of FIG. In step S605, conversion parameter calculation section 1270 obtains emotion parameters corresponding to each class.

機械学習を使用する場合(S602:YES)、フローは、ステップS603に進む。ステップS603において、変換パラメタ計算部1270は、条件タプルから直接感情パラメタを求める。この処理は、図12のフローチャートにおけるステップS509と同様である。 If machine learning is used (S602: YES), the flow proceeds to step S603. In step S603, conversion parameter calculation section 1270 obtains an emotion parameter directly from the condition tuple. This process is the same as step S509 in the flowchart of FIG.

ステップS606において、変換パラメタ計算部1270は、感情パラメタを感情パラメタ変換部1200に通し、変換後の感情パラメタを得る。この処理は、第2の実施形態を実施したのちに本実施形態を実施する想定である。ただし、第1の実施形態と本実施形態を組み合わせることもできる。その際には、ステップS606では感情パラメタの変換は行わない。第2の実施形態の数式表現を踏襲するのであれば、この時点で得られる感情パラメタの個数は|X|個である。 In step S606, conversion parameter calculation section 1270 passes the emotion parameter through emotion parameter conversion section 1200 to obtain the emotion parameter after conversion. This processing assumes that the present embodiment is performed after the second embodiment is performed. However, the first embodiment and this embodiment can also be combined. In that case, the emotion parameter is not converted in step S606. If the mathematical expression of the second embodiment is followed, the number of emotion parameters obtained at this point is |X|.

ステップS607において、変換パラメタ計算部1270は、ステップS606で得た感情パラメタを使用して、音声合成を実行する。音声合成の対象となるテキストは任意である。例えば、対話システムの利用場面においてよく発話される文を使用することができる。また、それぞれの感情パラメタを得た条件タプルそれぞれに対して、よく発話される文を個別に設計し、その文を入力してもよい。 In step S607, conversion parameter calculation section 1270 uses the emotion parameter obtained in step S606 to perform speech synthesis. Any text can be used for speech synthesis. For example, it is possible to use sentences that are often uttered in situations where the dialogue system is used. Also, for each condition tuple obtained with each emotion parameter, a frequently uttered sentence may be individually designed, and the sentence may be input.

ステップS608において、変換パラメタ計算部1270は、ステップS607で得た合成音声を感情認識器1290に入力して、合成音声の感情パラメタを得る。ステップS609において、変換パラメタ計算部1270は、ステップS608で得た感情パラメタに対して、統計量を求める。すなわち、合成音声における感情パラメタの分布を求める。ここでは、平均値と標準偏差を求めることを想定する。この処理は、6050と同様の方法をとることができる。 In step S608, conversion parameter calculation section 1270 inputs the synthesized speech obtained in step S607 to emotion recognizer 1290 to obtain emotion parameters of the synthesized speech. In step S609, conversion parameter calculation section 1270 obtains a statistic for the emotion parameter obtained in step S608. That is, the distribution of emotion parameters in synthesized speech is obtained. Here, it is assumed that the average value and standard deviation are to be obtained. This process can take the same method as the 6050.

ステップS610は分岐であり、合成音声の感情パラメタ分布に対して比較対象とする感情パラメタ分布を決定する。いずれの感情パラメタ分布を選択するか、予めユーザにより指定されているものとする。なお、指定されている感情パラメタ分布は下記の例と異なるものであってもよい。また、指定され得る感情パラメタ分布は一つのみであってもよい。 Step S610 is a branch, determining an emotional parameter distribution to be compared with the synthetic speech emotional parameter distribution. It is assumed that the user has designated in advance which emotion parameter distribution to select. Note that the specified emotion parameter distribution may be different from the example below. Also, only one emotion parameter distribution may be specified.

ステップS611において、変換パラメタ計算部1270は、比較対象分布を音声合成コーパス1010の感情パラメタ分布と決定する。この場合、変換パラメタ計算部1270は、音声合成コーパス統計量データベース1260に格納されている平均値及び標準偏差を読み込む。 In step S611, transformation parameter calculation section 1270 determines the emotion parameter distribution of speech synthesis corpus 1010 as the comparison target distribution. In this case, the conversion parameter calculation unit 1270 reads the average value and standard deviation stored in the speech synthesis corpus statistics database 1260 .

ステップS612において、変換パラメタ計算部1270は、比較対象分布をターゲット音声の変換前の感情パラメタ分布と決定する。すなわち、変換パラメタ計算部1270は、第2の実施形態で得た平均値e及び標準偏差σeを、変換パラメタデータベース1280から読み込む。 In step S612, conversion parameter calculation section 1270 determines the comparison target distribution as the emotion parameter distribution before conversion of the target speech. That is, the conversion parameter calculator 1270 reads the average value e and the standard deviation σe obtained in the second embodiment from the conversion parameter database 1280 .

ステップS613において、変換パラメタ計算部1270は、比較対象分布をターゲット音声の変換後の感情パラメタ分布と決定する。すなわち、変換パラメタ計算部1270は、第2の実施形態で得られる変換後の感情パラメタbをそれぞれの条件タプルで求め、条件タプル間での変換後感情パラメタの平均値及び標準偏差を計算し、読み込む。 In step S613, conversion parameter calculation section 1270 determines the comparison target distribution as the emotion parameter distribution after conversion of the target speech. That is, the conversion parameter calculation unit 1270 obtains the converted emotion parameter b obtained in the second embodiment for each condition tuple, calculates the average value and standard deviation of the converted emotion parameter between the condition tuples, load.

ステップS614において、変換パラメタ計算部1270は、合成音声の感情パラメタ分布と比較対象分布の差を求める。この差の計算には様々な方法をとることができるが、たとえばKullback-Leibler divergenceをとることもできるし、単に平均の差を計算する方法も取ることができる。 In step S614, conversion parameter calculation section 1270 obtains the difference between the emotion parameter distribution of synthesized speech and the comparison target distribution. Various methods can be used to calculate this difference. For example, Kullback-Leibler divergence can be used, or a method of simply calculating an average difference can be used.

ステップS615において、変換パラメタ計算部1270は、ステップS614で求めた分布間の差が所定の閾値であるか否かを判定する。差が閾値以下であれば(S615:YES)、処理が終了する。差が閾値を上回る場合(S615:NO)、フローはステップS616に進む。 In step S615, the conversion parameter calculator 1270 determines whether the difference between the distributions obtained in step S614 is a predetermined threshold. If the difference is equal to or less than the threshold (S615: YES), the process ends. If the difference exceeds the threshold (S615: NO), the flow proceeds to step S616.

ステップS616において、変換パラメタ計算部1270は、分布の差が小さくなるように、変換パラメタを更新する。すなわち、第2の実施形態では、変換後の感情パラメタbが一意に決定できたが、この変換式を変更し、変換に必要となるパラメタσaとaを調整可能な値であるσa’とa’として再定義する。 In step S616, transformation parameter calculation section 1270 updates the transformation parameters so that the distribution difference is reduced. That is, in the second embodiment, the post-conversion emotion parameter b could be uniquely determined. '.

Figure 2023038957000013
Figure 2023038957000013

変換パラメタ計算部1270は、このσa’とa’を調整し、分布の差が小さくなる方向に更新する。 The transformation parameter calculation unit 1270 adjusts σa′ and a′ and updates them so that the distribution difference becomes smaller.

ステップS617において、変換パラメタ計算部1270は、変換後のパラメタを変換パラメタデータベース1280に保存する。さらに、ステップS602に戻り、変換パラメタ計算部1270は、分布の差が所定の閾値以下になるまで繰り返す。音声合成では、調整後の変換パラメタが使用され、音声合成に用いる感情パラメタが決定される。 In step S<b>617 , the conversion parameter calculator 1270 saves the converted parameters in the conversion parameter database 1280 . Furthermore, returning to step S602, the transformation parameter calculation unit 1270 repeats until the distribution difference becomes equal to or less than a predetermined threshold. In speech synthesis, the adjusted conversion parameters are used to determine emotion parameters to be used in speech synthesis.

以上、本実施形態では、感情パラメタの変換部の挙動を決めるために、音声合成器が実際に生成した音声の感情認識結果に基づいて求めることが特徴となる。音声合成器が生成する音声に含まれる感情は、音声合成器に入力した感情パラメタと一致するとは限らない。よって、本実施形態で説明したとおり、実際の音声合成音に対する感情認識器による感情推定結果を使用することで、より所望の感情に近い音声を生成することができる。 As described above, this embodiment is characterized in that the behavior of the emotion parameter converter is determined based on the emotion recognition result of the speech actually generated by the speech synthesizer. The emotion included in the speech generated by the speech synthesizer does not necessarily match the emotion parameter input to the speech synthesizer. Therefore, as described in the present embodiment, by using the emotion estimation result obtained by the emotion recognizer for the actual synthesized speech, it is possible to generate speech that is closer to the desired emotion.

<第4の実施形態>
第4の実施形態では、第1から第3の実施形態において求めた音声合成用の感情パラメタに対して、開発者が調整する機能を提供する。本実施形態を図16Aから16Cを参照して説明する。
<Fourth Embodiment>
The fourth embodiment provides a function for the developer to adjust the emotional parameters for speech synthesis obtained in the first to third embodiments. This embodiment will be described with reference to Figures 16A to 16C.

図16Aから16Cのそれぞれのグラフは、音声群に対する感情の分布であり、横軸に感情の大きさ、縦軸に確率密度をプロットしている。横軸となる感情の大きさは、多次元で表現される感情パラメタの各次元の値であり、例えば活性度(Arousal)、感情価(Pleasantness)、支配度(Dominance)などである。 Each graph of FIGS. 16A to 16C shows the distribution of emotions for voice groups, plotting the magnitude of emotion on the horizontal axis and the probability density on the vertical axis. The magnitude of emotion on the horizontal axis is the value of each dimension of the emotion parameter expressed in multiple dimensions, such as activity (Arousal), emotional valence (Pleasantness), and dominance (Dominance).

図16Aは、ターゲット音声の感情パラメタから求めた条件間の感情分布を示す。条件のかわりにクラスID間の感情分布を用いてもよい。図16Bは、音声合成コーパスに含まれる音声サンプルの感情分布を示す。 FIG. 16A shows the emotion distribution between conditions obtained from the emotion parameters of the target voice. Emotion distribution between class IDs may be used instead of conditions. FIG. 16B shows the emotion distribution of speech samples included in the speech synthesis corpus.

図16Aに示すターゲット音声の分布と、音声合成コーパスの分布8020は、異なるケースが多い。そこで、ターゲット音声の分布を音声合成コーパスの分布に近くなるような感情パラメタの変換を行った実施形態を説明した。よって、対話システムが生成する音声は、音声合成コーパスの分布8020に沿った形で感情が生成される。 The target speech distribution shown in FIG. 16A and the speech synthesis corpus distribution 8020 are often different. Therefore, an embodiment has been described in which emotion parameters are converted so that the distribution of the target speech is close to the distribution of the speech synthesis corpus. Therefore, the speech generated by the dialogue system has emotions generated along the distribution 8020 of the speech synthesis corpus.

図16Cは、実際にアプリケーションで使用する音声の感情分布を示す。上記の場合には、音声合成コーパス1010の分布に沿った形となるため、分布は線8035のような形となる。たとえば、ターゲット音声では感情の大きさがxであったものが、合成時にはx’の感情の大きさで合成される。この両者は、それぞれの分布上の標準得点が同一である。 FIG. 16C shows the emotional distribution of speech actually used in the application. In the above case, the shape follows the distribution of the speech synthesis corpus 1010 , so the distribution has a shape like line 8035 . For example, if the target voice has an emotion level of x, it is synthesized with an emotion level of x' at the time of synthesis. Both have the same standard score on their respective distributions.

しかし、対話システムの用途によっては、この分布からさらに人手で感情を調整したいケースがある。たとえば、より感情の起伏をつけたい場合や、全体的に落ち着いて発話させたいといったケースがある。 However, depending on the use of the dialogue system, there are cases where it is desirable to manually adjust the emotions from this distribution. For example, there are cases where it is desired to add more emotional ups and downs, or where it is desired to make the person speak calmly overall.

こういったケースに対応するため、本実施形態では、変換パラメタを開発者が変更する機能を提供する。たとえば、より感情の起伏をつけるために標準偏差を大きくし、全体的に落ち着いた声にするため平均値を下げるような操作を想定する。そのため、開発者が感情の変換アルゴリズムにおけるパラメタ(σa’とa’)を操作できる機能を提供する。 In order to deal with such cases, this embodiment provides a function for the developer to change the conversion parameters. For example, an operation is assumed in which the standard deviation is increased to make the voice more emotional, and the average value is decreased to make the voice calmer overall. Therefore, a function is provided that allows the developer to manipulate the parameters (σa' and a') in the emotion conversion algorithm.

図16Cにおいて、線8040は、調整後の分布の例を示す。この場合、ターゲット音声では感情の大きさがxであったものが、合成時にはx’’の感情の大きさで合成される。この両者は、それぞれの感情の分布において同一の標準得点をとる。 In FIG. 16C, line 8040 shows an example distribution after adjustment. In this case, the emotion level x in the target voice is synthesized with the emotion level x'' at the time of synthesis. Both receive the same standard score in their respective emotional distributions.

音声合成システム100は、パラメタ操作のためのGUI画面を出力装置105において表示する。音声合成システム100は、例えば、比較対象の感情パラメタ分布の情報を開発者に出力装置105において提示し、入力装置104からのユーザ入力に応じて、変換アルゴリズムにおけるパラメタ(σa’とa’)を変更する。 The speech synthesis system 100 displays a GUI screen for parameter manipulation on the output device 105 . The speech synthesis system 100 presents, for example, the information of the emotional parameter distribution to be compared to the developer on the output device 105, and according to the user input from the input device 104, the parameters (σa' and a') in the conversion algorithm are changed. change.

例えば、GUIは、比較する二つの分布の間の対応点のユーザからの指定を受け付け、音声合成システム100は、それら対応点の位置から変換パラメタを計算する、例えば対応点が一致するように変換パラメタを決定してもよい。音声合成システム100は、例えば、変更前の分布図と変更後の分布図とを出力装置105において表示してもよい。変換パラメタは、感情パラメタの変数毎に調整可能であってもよい。 For example, the GUI accepts designation from the user of corresponding points between two distributions to be compared, and the speech synthesis system 100 calculates transformation parameters from the positions of those corresponding points. parameters may be determined. The speech synthesis system 100 may display the distribution map before change and the distribution map after change on the output device 105, for example. The transformation parameter may be adjustable for each emotion parameter variable.

比較する二つの分布の間の対応点をユーザが指定し、その対応店から変換パラメタを決める方法を説明する。ユーザは、入力装置104を使用して、基準音声サンプルとして、1個のターゲット音声サンプルを指定し、出力装置105によってそれを聴取する。次に、音声合成システム100は、音声合成器1230にテキストと感情パラメタを入力し、音声を合成する。ユーザは、それを出力装置105において聴取する。 A method of specifying a corresponding point between two distributions to be compared by the user and determining a conversion parameter from the corresponding store will be described. The user uses input device 104 to designate a single target speech sample as a reference speech sample and listens to it via output device 105 . Next, speech synthesis system 100 inputs text and emotion parameters to speech synthesizer 1230 to synthesize speech. The user listens to it on the output device 105 .

ユーザは、ターゲット音声及び合成音声を聞き比べ、合成音声の感情がターゲット音声の感情と近づくよう、入力装置104を介して音声合成器1230に入力する感情パラメタを変更する。音声合成システム100は、ユーザにより変更された感情パラメタにより再度合成を行い、ユーザは合成音声を聴取する。このプロセスを繰り返して、ターゲット音声の感情により類似する音声を生成するための音声合成器へ入力する感情パラメタが決定される。 The user listens to and compares the target speech and the synthesized speech, and changes the emotion parameter input to the speech synthesizer 1230 via the input device 104 so that the emotion of the synthesized speech approaches the emotion of the target speech. The speech synthesis system 100 synthesizes again with the emotion parameter changed by the user, and the user listens to the synthesized speech. This process is repeated to determine the emotional parameters that are input to the speech synthesizer to produce speech that more closely resembles the target speech.

ここで比較対象としていたターゲット音声サンプルを例えば感情認識器1290に入力して得た感情パラメタをxi、音声合成器1230に入力した感情パラメタをyiとする。iは、比較対象となったターゲット音声の順序を表す。ユーザは、複数のターゲット音声に対して上記の作業を行う。この作業をN個のターゲット音声に対して行った場合、得られるターゲット音声の感情パラメタはx1、x2、・・・、xNとなり、それぞれに対応する音声合成器1230に入力する感情パラメタはy1、y2、・・・、yNとなる。 Here, let xi be the emotion parameter obtained by inputting the target voice sample to be compared to the emotion recognizer 1290 and yi be the emotion parameter input to the speech synthesizer 1230 . i represents the order of the target speech used for comparison. The user performs the above operations for multiple target voices. When this operation is performed for N target voices, the emotion parameters of the obtained target voices are x1, x2, . . . , xN. y2, . . . , yN.

感情パラメタ変換部1200は、ここで得た感情パラメタを使い、分布の変換を行う。ここではxiとyiの変換を線形関数により行うと仮定する。ただし、他の関数形式による変換を用いてもよい。第3の実施形態の数式の変換式に則りxiからyiへの変換を行う場合、以下の式を用いることができる。 The emotion parameter conversion unit 1200 uses the emotion parameters obtained here to convert the distribution. Assume here that the transformation of xi and yi is performed by a linear function. However, transformations in other functional forms may be used. When converting from xi to yi according to the conversion formula of the numerical formula of the third embodiment, the following formula can be used.

Figure 2023038957000014
Figure 2023038957000014

eおよびσeは、それぞれターゲット音声から求められた感情パラメタの平均値および標準偏差であり、既知の値である。よって、xiからyiに変換するには、a’およびσa’が求まればよい。 e and σe are the mean value and standard deviation of the emotional parameter obtained from the target speech, and are known values. Therefore, to convert from xi to yi, a' and σa' should be obtained.

xiとyiとの間に線形関係を仮定する場合、最小二乗法を用いてa’およびσa’を求めることができる。すなわち、以下の式で定義される変換誤差Dを計算する。 Assuming a linear relationship between xi and yi, a least squares method can be used to determine a' and σa'. That is, the conversion error D defined by the following formula is calculated.

Figure 2023038957000015
Figure 2023038957000015

この変換誤差Dを最小化するa’およびσa’を計算により求める。この計算は、既知の方法により行うことができる。 a' and .sigma.a' that minimize this conversion error D are obtained by calculation. This calculation can be performed by known methods.

本実施形態では、少数の変換パラメタを変える手段を提供することで、開発者が容易に音声の感情を変更することを実現する。 In this embodiment, by providing means for changing a small number of conversion parameters, the developer can easily change the emotion of the voice.

<第5の実施形態>
本実施形態では、感情を開発者が調整する際に、音声の情報を視聴しつつ簡便に調整できる機能を提供する。図17は、調整方法例を示すフローチャートである。ステップS704において、開発者が1個のターゲット音声のクラスを入力装置104によって指定し、音声合成システム100がそれを受け取る。クラスの代替として、条件を指定してもよい。
<Fifth Embodiment>
The present embodiment provides a function that allows the developer to easily adjust emotions while listening to audio information. FIG. 17 is a flow chart showing an example of an adjustment method. In step S704, the developer designates a single target speech class through the input device 104, which the speech synthesis system 100 receives. As an alternative to classes, conditions may be specified.

ステップS705において、音声合成システム100は、指定されたクラスが持つ感情パラメタを使い、音声合成を実施し、出力装置105で再生する。ステップS707において、開発者が音声を聴取した結果に基づき、音声合成時の感情パラメタを入力装置104によって変更する。音声合成システム100は、変更後の感情パラメタを受け取る。そして、ステップS708において、音声合成システム100は、変更した後の感情パラメタを使い合成音声を生成し、その音声を出力装置105によって再生し、開発者が聴取する。このプロセスを開発者が編集を終了するまで繰り返す(ステップS706の分岐がNOのループ)。 In step S<b>705 , the speech synthesis system 100 uses the emotional parameters of the specified class to perform speech synthesis and reproduce it on the output device 105 . In step S707, the input device 104 changes the emotion parameter at the time of voice synthesis based on the result of listening to the voice by the developer. The speech synthesis system 100 receives the changed emotion parameters. Then, in step S708, the speech synthesis system 100 generates synthesized speech using the changed emotion parameters, reproduces the speech by the output device 105, and listens to it by the developer. This process is repeated until the developer finishes editing (loop of NO at step S706).

開発者が編集を終了した場合、音声合成システム100は、再度クラスの指定をするかを開発者に尋ねる。ここで開発者が編集の終了を指定した場合(S706:YES)、フローは、ステップS701を経て、ステップS702に進む。ステップS702において、音声合成システム100は、編集前の感情パラメタを編集後の感情パラメタに変換するよう変換パラメタを計算する。ステップS703では、音声合成システム100は、計算された変換パラメタを変換パラメタデータベース1280に保存する。 When the developer has finished editing, the speech synthesis system 100 asks the developer whether to specify the class again. If the developer designates the end of editing (S706: YES), the flow advances to step S702 via step S701. In step S702, the speech synthesis system 100 calculates conversion parameters to convert pre-edited emotion parameters into post-edited emotion parameters. In step S<b>703 , speech synthesis system 100 stores the calculated transformation parameters in transformation parameter database 1280 .

本実施形態は、開発者が試行錯誤的に所望する音声合成音を設計する。本実施形態では、ユーザが指定した編集前・編集後の感情パラメタの関係から、感情パラメタの分布全体を変換する。すなわち、たとえば高々2個のクラスに基づいてユーザが感情を編集したとしても、その結果から、対話システムの音声全体の感情が、開発者の編集と矛盾しないように変更される。よって、開発者の試行錯誤の手間を大幅に減らすことができ、効率的な感情音声の設計を実現することができる。 In this embodiment, a developer designs a desired synthesized voice through trial and error. In this embodiment, the entire distribution of emotion parameters is converted based on the relationship between emotion parameters before and after editing specified by the user. That is, even if the user edits the emotions based on, for example, at most two classes, the result is that the overall emotion of the dialogue system's voice is changed to be consistent with the developer's edits. Therefore, it is possible to greatly reduce the time and effort of trial and error of the developer, and to realize efficient design of emotional voices.

<第6の実施形態>
本実施形態は、第2の実施形態における感情パラメタ分布の変換を、別の観点で実現する。第2の実施形態は、感情パラメタ分布を変換する際に、条件間の感情パラメタのバラつきを音声合成コーパスの標準偏差に合わせる。これに代えて、本実施形態は、ターゲット話者個人の音声の感情に表れる条件間のバラつきに合わせるものである。
<Sixth embodiment>
This embodiment implements the transformation of the emotion parameter distribution in the second embodiment from a different point of view. In the second embodiment, when the emotion parameter distribution is transformed, the variation in emotion parameters between conditions is adjusted to the standard deviation of the speech synthesis corpus. Instead, the present embodiment accommodates variations between emotional conditions in the target speaker's individual speech.

本実施形態では、第2の実施形態における感情パラメタの統計量の計算(S507)において、さらに以下の処理を行う。ここで、ターゲット話者の全体集合をSと表す。s1,s2,…は、それぞれのターゲット話者を表す。ターゲット話者の数は|S|である。 In this embodiment, the following processing is further performed in the calculation of the emotion parameter statistics (S507) in the second embodiment. Here, let S denote the entire set of target speakers. s1, s2, . . . represent respective target speakers. The number of target speakers is |S|.

Figure 2023038957000016
Figure 2023038957000016

さらに、ターゲット話者sがクラスcに属する条件タプルにおいて発話した音声をus,cと表すこととする。変換パラメタ計算部1270は、この音声us,cを使い、ターゲット話者1名の音声に表れるクラス間の感情パラメタの分散σu,s2を計算する。以下で説明する乗算、加算、二乗計算、平方根計算、除算は、すべてベクトルの要素ごとに計算するものである。 Furthermore, let us and c denote the speech uttered by the target speaker s in the condition tuple belonging to class c. The conversion parameter calculator 1270 uses the speech us,c to calculate the variance σu,s2 of the interclass emotion parameter appearing in the speech of one target speaker. Multiplication, addition, square calculation, square root calculation, and division, which will be described below, are all calculated for each vector element.

Figure 2023038957000017
Figure 2023038957000017

Figure 2023038957000018
Figure 2023038957000018

ただし、Cはクラスの一覧である。 where C is a list of classes.

Figure 2023038957000019
Figure 2023038957000019

さらに、変換パラメタ計算部1270は、このターゲット話者それぞれの分散をターゲット話者全体で平均する。さらに平方根をとり、標準偏差σuに変換する。 Furthermore, transformation parameter calculator 1270 averages the variance of each target speaker over all target speakers. Further take the square root and convert to standard deviation σu.

Figure 2023038957000020
Figure 2023038957000020

変換パラメタ計算部1270は、ここで計算したσuを、変換パラメタデータベース1280に保存する。 The conversion parameter calculator 1270 saves σu calculated here in the conversion parameter database 1280 .

次に、変換パラメタを使って音声合成する方法を説明する。音声合成時において、ある条件xが指定され、それに対する感情パラメタ欄1162から読み込まれた感情パラメタがmであったと仮定する。この値を使い、音声合成器1230に入力する感情パラメタbを以下の式により求められる。 Next, a method of synthesizing speech using conversion parameters will be described. It is assumed that a certain condition x is designated at the time of speech synthesis, and the emotion parameter read from the emotion parameter column 1162 for that condition is m. Using this value, the emotion parameter b to be input to the speech synthesizer 1230 is obtained by the following equation.

Figure 2023038957000021
Figure 2023038957000021

この式における平均値aとしては、音声合成コーパスの感情パラメタから求めた平均値、またはターゲット音声の感情パラメタから求めた平均値を使うことができる。この式における係数であるλは、感情パラメタの次元ごとに標準偏差の値を除算することにより求められる。ただし、クラス数が少ない場合、標準偏差の各次元の値が0に近くなる可能性があり、除算の結果、極端に大きな値となることがありえる。その対策として、上記式で使われるλを、以下の式を用いてスカラとして計算してもよい。 As the average value a in this equation, the average value obtained from the emotion parameter of the speech synthesis corpus or the average value obtained from the emotion parameter of the target speech can be used. The coefficient λ in this formula is obtained by dividing the standard deviation value for each dimension of the emotion parameter. However, when the number of classes is small, the value of each dimension of the standard deviation may be close to 0, and the division may result in an extremely large value. As a countermeasure, λ used in the above equation may be calculated as a scalar using the following equation.

Figure 2023038957000022
Figure 2023038957000022

または、以下の式も用いることができる。 Alternatively, the following formula can also be used.

Figure 2023038957000023
Figure 2023038957000023

ここでEは感情パラメタの次元数である。[i]により、ベクトルのi番目の要素を参照することを表す。 Here, E is the number of dimensions of the emotion parameter. [i] indicates to refer to the i-th element of the vector.

すなわち、第2の実施形態では、感情のバラつきを音声合成コーパスの音声に一致するようにする。一方、本実施形態は、ターゲット話者それぞれに表れるバラつき(分布)を模擬するように音声合成をする。これにより、第2の実施形態と比べて、よりターゲット話者の感情の操作を模した音声を合成することができる。実際には、第2の実施形態と本実施形態の音声を開発者が効き比べ、応用用途によって適する実施形態を選択してよい。 That is, in the second embodiment, the variation in emotion is made to match the speech of the speech synthesis corpus. On the other hand, this embodiment synthesizes speech so as to simulate the variation (distribution) that appears in each target speaker. As a result, compared to the second embodiment, it is possible to synthesize speech that more closely mimics the manipulation of the target speaker's emotions. In practice, a developer may compare the sound effects of the second embodiment and the sound of this embodiment and select an embodiment suitable for the application.

<その他の実施>
以上の実施形態では、感情パラメタの変換において線形関数による変換を説明したが、他の非線形な関数を使用する変換が採用されてもよい。
<Other activities>
In the above embodiments, conversion using a linear function has been described in conversion of emotion parameters, but conversion using other non-linear functions may be employed.

なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。 In addition, the present invention is not limited to the above-described embodiments, and includes various modifications. For example, the above embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the described configurations. Also, part of the configuration of one embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of one embodiment. Moreover, it is possible to add, delete, or replace part of the configuration of each embodiment with another configuration.

また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。 Further, each of the configurations, functions, processing units, etc. described above may be realized by hardware, for example, by designing a part or all of them using an integrated circuit. Moreover, each of the above configurations, functions, etc. may be realized by software by a processor interpreting and executing a program for realizing each function. Information such as programs, tables, and files that implement each function can be stored in recording devices such as memories, hard disks, SSDs (Solid State Drives), or recording media such as IC cards and SD cards.

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。 In addition, the control lines and information lines indicate those considered necessary for explanation, and not all control lines and information lines are necessarily indicated on the product. In fact, it may be considered that almost all configurations are interconnected.

100 音声合成システム
101 演算装置
102 主記憶装置
103 補助記憶装置
104 入力装置
105 出力装置
106 通信インターフェース
1010 音声合成コーパス
1040 音響特徴量変換部
1050 言語特徴量変換部
1060、1130、1290 感情認識器
1070 音声合成モデル学習部
1080 音声合成モデル
1090 ターゲット音声データベース
1140 クラスタ生成部
1145 正規化部
1150 ターゲット音声統計量計算部
1160 ターゲット音声統計量データベース
1165 条件-感情パラメタ変換モデル
1170 条件-クラス変換モデル
1190 感情パラメタ取得部
1200 感情パラメタ変換部
1220 言語特徴量変換部
1230 音声合成器
1250 音声合成コーパス統計量計算部
1260 音声合成コーパス統計量データベース
1270 変換パラメタ計算部
1280 変換パラメタデータベース
1300 出力音声統計量計算部
1310 出力音声統計量データベース
100 Speech Synthesis System 101 Arithmetic Device 102 Main Storage Device 103 Auxiliary Storage Device 104 Input Device 105 Output Device 106 Communication Interface 1010 Speech Synthesis Corpus 1040 Acoustic Feature Amount Converter 1050 Language Feature Amount Converter 1060, 1130, 1290 Emotion Recognizer 1070 Voice Synthesis model learning unit 1080 Speech synthesis model 1090 Target speech database 1140 Cluster generation unit 1145 Normalization unit 1150 Target speech statistics calculation unit 1160 Target speech statistics database 1165 Condition-emotion parameter conversion model 1170 Condition-class conversion model 1190 Emotion parameter acquisition Unit 1200 Emotion parameter conversion unit 1220 Language feature conversion unit 1230 Speech synthesizer 1250 Speech synthesis corpus statistics calculation unit 1260 Speech synthesis corpus statistics database 1270 Conversion parameter calculation unit 1280 Conversion parameter database 1300 Output speech statistics calculation unit 1310 Output speech statistics database

Claims (15)

音声合成システムであって、
1以上の演算装置と、
1以上の記憶装置と、を含み、
前記1以上の記憶装置は、
感情パラメタ及びテキストの言語特徴量に基づき、前記テキストの音響特徴量を生成する、音声合成モデルと
発話条件をターゲット音声サンプルの感情パラメタの統計量と関連付ける変換モデルと、を格納し、
前記ターゲット音声サンプルは、感情を模倣する対象であるターゲット話者の音声サンプルであり、
前記1以上の演算装置は、
入力された現在発話条件を取得し、
前記現在発話条件から、前記変換モデルを使用して、現在感情パラメタを生成し、
前記現在感情パラメタ及び目的発話の言語特徴量に基づき、前記音声合成モデルを使用して、前記目的発話の音響特徴量を生成し、
前記音響特徴量に基づき合成音声を生成する、音声合成システム。
A speech synthesis system,
one or more computing devices;
one or more storage devices,
The one or more storage devices are
storing a speech synthesis model that generates acoustic features of the text based on the emotional parameters and the linguistic features of the text; and a transformation model that associates speech conditions with statistics of the emotional parameters of a target speech sample;
the target voice sample is a voice sample of a target speaker whose emotion is to be mimicked;
The one or more computing devices,
Get the input current utterance condition,
generating current emotion parameters from the current utterance condition using the conversion model;
generating acoustic features of the target utterance using the speech synthesis model based on the current emotion parameters and the linguistic features of the target utterance;
A speech synthesis system that generates synthesized speech based on the acoustic features.
請求項1に記載の音声合成システムであって、
前記音声合成モデルは、前記ターゲット話者と異なる話者の音声サンプルを使用して訓練されている、音声合成システム。
A speech synthesis system according to claim 1,
A speech synthesis system, wherein the speech synthesis model is trained using speech samples of a speaker different from the target speaker.
請求項1に記載の音声合成システムであって、
前記変換モデルは、
前記現在発話条件に対応するクラスを決定し、
前記クラスに対応する感情パラメタの統計量を決定し、
前記感情パラメタの統計量を前記現在感情パラメタとして出力する、音声合成システム。
A speech synthesis system according to claim 1,
The transformation model is
determining a class corresponding to the current utterance condition;
determining a statistic of an emotion parameter corresponding to the class;
A speech synthesis system that outputs statistics of the emotion parameter as the current emotion parameter.
請求項3に記載の音声合成システムであって、
前記1以上の演算装置は、
前記ターゲット音声サンプルの感情パラメタのクラスタリングを実行して、前記感情パラメタの統計量が属するクラスとの間の関係を決定し、
前記感情パラメタの統計量が属するクラスの情報を前記変換モデルに含める、音声合成システム。
A speech synthesis system according to claim 3,
The one or more computing devices,
performing clustering of the emotion parameter of the target audio samples to determine the relationship between the classes to which the statistics of the emotion parameter belong;
A speech synthesis system, wherein information of a class to which the emotion parameter statistics belong is included in the conversion model.
請求項4に記載の音声合成システムであって、
前記クラスタリングが実行される感情パラメタは、同一話者のターゲット音声サンプルから得た感情パラメタの平均値を除いた感情パラメタである、音声合成システム。
A speech synthesis system according to claim 4,
The speech synthesis system, wherein the emotion parameter on which the clustering is performed is an emotion parameter excluding an average value of emotion parameters obtained from target speech samples of the same speaker.
請求項1に記載の音声合成システムであって、
前記変換モデルは、入力された前記現在発話条件から前記現在感情パラメタを出力する機械学習モデルである、音声合成システム。
A speech synthesis system according to claim 1,
The speech synthesis system, wherein the transformation model is a machine learning model that outputs the current emotion parameter from the input current utterance condition.
請求項6に記載の音声合成システムであって、
前記機械学習モデルの学習データの感情パラメタは、同一話者のターゲット音声サンプルから得た感情パラメタの平均を除いた感情パラメタである、音声合成システム。
A speech synthesis system according to claim 6,
The speech synthesis system, wherein the emotion parameter of the learning data of the machine learning model is an emotion parameter excluding an average of emotion parameters obtained from target speech samples of the same speaker.
請求項1に記載の音声合成システムであって、
前記1以上の記憶装置は、前記音声合成モデルの学習データを格納し、
前記1以上の演算装置は、前記音響特徴量の生成前に、前記変換モデルの変換結果の分布が前記音声合成モデルの学習データの感情パラメタの分布と近づくように、前記現在感情パラメタを変換する、音声合成システム。
A speech synthesis system according to claim 1,
the one or more storage devices store training data for the speech synthesis model;
The one or more arithmetic devices convert the current emotion parameter so that the distribution of the conversion result of the conversion model approaches the distribution of the emotion parameter of the training data of the speech synthesis model before generating the acoustic feature quantity. , speech synthesis system.
請求項1に記載の音声合成システムであって、
前記1以上の演算装置は、前記音響特徴量の生成前に、前記現在感情パラメタを変換パラメタに従って変換し、
合成音声の感情パラメタの分布が、予め指定された感情パラメタの分布に近づくように、前記変換パラメタを更新する、音声合成システム。
A speech synthesis system according to claim 1,
The one or more computing devices convert the current emotion parameter according to the conversion parameter before generating the acoustic feature quantity,
A speech synthesis system that updates the transformation parameters so that the distribution of emotion parameters of synthesized speech approaches a distribution of predesignated emotion parameters.
請求項9に記載の音声合成システムであって、
前記予め指定された感情パラメタの分布は、前記音声合成モデルの学習データの感情パラメタの分布、前記ターゲット音声サンプルの感情パラメタの分布、又は前記ターゲット音声サンプルの感情パラメタの前記変換パラメタによって変換されたの感情パラメタの分布、のいずれかである、音声合成システム。
A speech synthesis system according to claim 9,
The distribution of the pre-specified emotion parameter is transformed by the distribution of the emotion parameter of training data of the speech synthesis model, the distribution of the emotion parameter of the target voice sample, or the transformation parameter of the emotion parameter of the target voice sample. A speech synthesis system that is either a distribution of emotional parameters of
請求項9に記載の音声合成システムであって、
前記1以上の演算装置は、前記合成音声の感情パラメタの分布と前記予め指定された感情パラメタの分布との差が閾値以下となるまで、前記変換パラメタの更新を繰り返す、音声合成システム。
A speech synthesis system according to claim 9,
The speech synthesis system, wherein the one or more arithmetic units repeatedly update the conversion parameter until a difference between the distribution of the emotion parameter of the synthesized speech and the distribution of the pre-designated emotion parameter becomes equal to or less than a threshold.
請求項9に記載の音声合成システムであって、
前記1以上の演算装置は、前記合成音声の感情パラメタの分布の情報と前記予め指定された感情パラメタの分布情報を提示して、前記変換パラメタのユーザによる編集を受け付ける、音声合成システム。
A speech synthesis system according to claim 9,
The speech synthesis system, wherein the one or more arithmetic units present information on the distribution of emotion parameters of the synthesized speech and information on the distribution of the pre-specified emotion parameters, and receive editing of the transformation parameters by a user.
請求項1に記載の音声合成システムであって、
前記1以上の演算装置は、前記音響特徴量の生成前に、前記変換モデルの変換結果の分布が前記ターゲット音声サンプルの話者の感情パラメタ分布に近づくように、前記現在感情パラメタを変換する、音声合成システム。
A speech synthesis system according to claim 1,
The one or more computing devices convert the current emotion parameter so that the distribution of the transformation result of the transformation model approaches the speaker's emotion parameter distribution of the target speech sample before generating the acoustic feature. speech synthesis system.
請求項1に記載の音声合成システムであって、
前記1以上の演算装置は、
前記音響特徴量の生成前に、前記現在感情パラメタを変換パラメタに従って変換し、
基準音声サンプル及び現在の前記変換パラメタによる合成音声の感情パラメタの分布の間の対応点のユーザからの指定を受け付け、前記対応点に基づき前記変換パラメタを更新する、音声合成システム。
A speech synthesis system according to claim 1,
The one or more computing devices,
transforming the current emotion parameter according to a transformation parameter before generating the acoustic feature;
A speech synthesis system that accepts a user designation of a correspondence point between a reference speech sample and a current distribution of emotion parameters of synthesized speech according to the transformation parameters, and updates the transformation parameters based on the correspondence points.
システムが音声を合成する方法であって、
前記システムは、感情パラメタ及びテキストの言語特徴量に基づき、前記テキストの音響特徴量を生成する、音声合成モデルと
発話条件をターゲット音声サンプルの感情パラメタの統計量と関連付ける変換モデルと、を格納し、
前記ターゲット音声サンプルは、感情を模倣する対象であるターゲット話者の音声サンプルであり、
前記方法は、前記システムが、
入力された現在発話条件を取得し、
前記現在発話条件から、前記変換モデルを使用して、現在感情パラメタを生成し、
前記現在感情パラメタ及び目的発話の言語特徴量に基づき、前記音声合成モデルを使用して、前記目的発話の音響特徴量を生成し、
前記音響特徴量に基づき合成音声を生成する、ことを含む方法。
A method for a system to synthesize speech, comprising:
The system stores a speech synthesis model that generates acoustic features of the text based on the emotional parameters and the linguistic features of the text, and a transformation model that associates utterance conditions with statistics of the emotional parameters of a target speech sample. ,
the target voice sample is a voice sample of a target speaker whose emotion is to be mimicked;
The method comprises: the system comprising:
Get the input current utterance condition,
generating current emotion parameters from the current utterance condition using the conversion model;
generating acoustic features of the target utterance using the speech synthesis model based on the current emotion parameters and the linguistic features of the target utterance;
generating synthetic speech based on the acoustic features.
JP2021145841A 2021-09-08 2021-09-08 Voice synthesis system and method for synthesizing voice Pending JP2023038957A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021145841A JP2023038957A (en) 2021-09-08 2021-09-08 Voice synthesis system and method for synthesizing voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021145841A JP2023038957A (en) 2021-09-08 2021-09-08 Voice synthesis system and method for synthesizing voice

Publications (2)

Publication Number Publication Date
JP2023038957A true JP2023038957A (en) 2023-03-20
JP2023038957A5 JP2023038957A5 (en) 2024-02-01

Family

ID=85600589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021145841A Pending JP2023038957A (en) 2021-09-08 2021-09-08 Voice synthesis system and method for synthesizing voice

Country Status (1)

Country Link
JP (1) JP2023038957A (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002169582A (en) * 2000-11-29 2002-06-14 Canon Inc Speech synthesis device and control method thereof, computer readable memory
JP2006113546A (en) * 2004-09-14 2006-04-27 Honda Motor Co Ltd Information transmission device
JP2008015424A (en) * 2006-07-10 2008-01-24 Nippon Telegr & Teleph Corp <Ntt> Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof
WO2021106080A1 (en) * 2019-11-26 2021-06-03 日本電信電話株式会社 Dialog device, method, and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002169582A (en) * 2000-11-29 2002-06-14 Canon Inc Speech synthesis device and control method thereof, computer readable memory
JP2006113546A (en) * 2004-09-14 2006-04-27 Honda Motor Co Ltd Information transmission device
JP2008015424A (en) * 2006-07-10 2008-01-24 Nippon Telegr & Teleph Corp <Ntt> Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof
WO2021106080A1 (en) * 2019-11-26 2021-06-03 日本電信電話株式会社 Dialog device, method, and program

Similar Documents

Publication Publication Date Title
US20210287657A1 (en) Speech synthesis method and device
JP6246777B2 (en) Speech synthesis method, apparatus and program
US11144597B2 (en) Computer generated emulation of a subject
CN108806696B (en) Method, apparatus, computer equipment and storage medium for establishing voiceprint model
JP6092293B2 (en) Text-to-speech system
CN104424943B (en) Speech processing system and method
Sodimana et al. A Step-by-Step Process for Building TTS Voices Using Open Source Data and Frameworks for Bangla, Javanese, Khmer, Nepali, Sinhala, and Sundanese.
US9601106B2 (en) Prosody editing apparatus and method
JP2020154076A (en) Reasoner, learning method and learning program
GB2524505A (en) Voice conversion
CN112185341A (en) Dubbing method, apparatus, device and storage medium based on speech synthesis
CN117854470A (en) Speech synthesis method, device, electronic equipment and readable storage medium
US20040181407A1 (en) Method and system for creating speech vocabularies in an automated manner
JP2023038957A (en) Voice synthesis system and method for synthesizing voice
KR20190088126A (en) Artificial intelligence speech synthesis method and apparatus in foreign language
JP6786065B2 (en) Voice rating device, voice rating method, teacher change information production method, and program
Shah Wavelet packets for speech emotion recognition
JP6864322B2 (en) Voice processing device, voice processing program and voice processing method
JP3413384B2 (en) Articulation state estimation display method and computer-readable recording medium recording computer program for the method
CN117894293A (en) Speech synthesis method, device, computer equipment and storage medium
JP6681264B2 (en) Audio processing device and program
JP2016102860A (en) Voice processing device and program
Raveh et al. A Computational Model for Phonetically Responsive Spoken Dialogue Systems.
CN114168713A (en) Intelligent voice AI pacifying method
Zhang et al. Emotional speech synthesis based on DNN and PAD emotional state model

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240124

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240924

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20250218