JP2010191463A - Singing scoring device and singing scoring program - Google Patents
Singing scoring device and singing scoring program Download PDFInfo
- Publication number
- JP2010191463A JP2010191463A JP2010101757A JP2010101757A JP2010191463A JP 2010191463 A JP2010191463 A JP 2010191463A JP 2010101757 A JP2010101757 A JP 2010101757A JP 2010101757 A JP2010101757 A JP 2010101757A JP 2010191463 A JP2010191463 A JP 2010191463A
- Authority
- JP
- Japan
- Prior art keywords
- singing
- user
- singing sound
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
       【課題】メロディーが無い曲でも歌唱採点できる歌唱採点装置を実現する。
【解決手段】伴奏データの再生により発生するカラオケ伴奏音に合せてユーザが歌唱する歌唱音をサンプリングして得たユーザ歌唱データと、伴奏データの再生に同期してカラオケデータメモリ13から読み出される手本歌唱データとを所定のデータ数分のフレームで区切り、区切られたフレーム中の手本歌唱データから手本歌唱音の音声特徴量MFCCを、ユーザ歌唱データからユーザ歌唱音の音声特徴量MFCCをそれぞれ抽出する。抽出した手本歌唱音の音声特徴量MFCCとユーザ歌唱音の音声特徴量MFCCとの類似度から適否判定して歌唱を採点する。つまり、曲の歌詞が正しく歌唱されているかどうかを採点する為、「ラップ」と呼ばれるメロディーが無い曲でも歌唱採点できる。
【選択図】図3A singing scoring apparatus is provided that can sing even a song without a melody. 
 User singing data obtained by sampling a singing sound sung by a user in accordance with a karaoke accompaniment sound generated by reproduction of accompaniment data, and a hand read from a karaoke data memory 13 in synchronization with the reproduction of the accompaniment data. The singing data is divided into frames for a predetermined number of data, the singing voice data MFCC of the model singing sound from the singing singing data in the divided frame, and the singing voice feature MFCC of the user singing sound from the user singing data. Extract each one. The singing is scored by determining the suitability based on the similarity between the extracted voice feature quantity MFCC of the model singing sound and the voice feature quantity MFCC of the user singing sound. In other words, in order to score whether the lyrics of a song are sung correctly, even a song without a melody called “rap” can be scored. 
 [Selection] Figure 3
    
Description
本発明は、カラオケ装置に用いて好適な歌唱採点装置および歌唱採点プログラムに関する。 The present invention relates to a singing scoring device and a singing scoring program suitable for use in a karaoke apparatus.
カラオケ伴奏の主旋律パートを構成する各音符の音高および発音タイミングを採点基準とし、この採点基準に対して歌唱者の歌声から抽出したピッチを比較することで歌唱採点する歌唱採点装置を備えたカラオケ装置が各種開発されている。この種の装置については、例えば特許文献1に開示されている。 A karaoke equipped with a singing scoring device that scores singing by comparing the pitch extracted from the singing voice of the singer against the scoring standard, with the pitch and pronunciation timing of each note constituting the main melody part of the karaoke accompaniment as the scoring standard Various devices have been developed. This type of apparatus is disclosed in, for example, Patent Document 1.
          
ところで、上記特許文献1に開示の技術のように、採点基準と歌唱ピッチとを比較して採点する方式では、明確なメロディーを持たない「ラップ」と呼ばれるスタイルのカラオケ曲であると、採点基準が存在しないことから歌唱採点することができない、という問題がある。 By the way, as in the technique disclosed in Patent Document 1 above, in the method of scoring by comparing the scoring standard with the singing pitch, the scoring standard is a karaoke song of the style called “rap” that does not have a clear melody. There is a problem that singing cannot be scored because there is no.
また、採点基準と歌唱ピッチとを比較して採点する方式であっても、カラオケ曲の一部分のみを丁寧に歌唱してカラオケ伴奏を停止させると、その一部分のみについて歌唱採点されることから、高得点を得ることが出来てしまう弊害もある。そうした弊害を回避するには、一定時間以上歌唱し続けなければ、得点が無効になるようにすれば良いが、そのようにすると、今度は非常に短い曲では全て歌唱しても採点されなくなるという問題が生じる。 In addition, even if the scoring standard is compared with the singing pitch, if only a part of the karaoke song is sung carefully and the karaoke accompaniment is stopped, the singing score is only given to that part. There is also an adverse effect that can be scored. In order to avoid such harmful effects, if the singing is not continued for a certain period of time, the score may be invalidated. However, in this case, all the very short songs will not be scored even if they are sung. Problems arise.
本発明は、このような事情に鑑みてなされたもので、メロディーが無い曲や、演奏時間が非常に短い曲であっても歌唱採点することができる歌唱採点装置および歌唱採点プログラムを提供することを目的としている。 The present invention has been made in view of such circumstances, and provides a singing scoring device and a singing scoring program capable of scoring even a song without a melody or a song with a very short performance time. It is an object.
上記目的を達成するため、請求項1に記載の発明では、手本として歌唱された手本歌唱音の音声特徴量を抽出する第1の特徴抽出手段と、ユーザが歌唱するユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出手段と、前記第1および第2の特徴抽出手段によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出手段と、前記類似度算出手段により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する採点手段とを具備することを特徴とする。 In order to achieve the above object, in the first aspect of the present invention, the first feature extraction means for extracting the voice feature amount of the model singing sound sung as a model, and the voice of the user singing sound sung by the user The second feature extraction means for extracting the feature quantity, and the similarity between the voice feature quantity of the sample singing sound and the voice feature quantity of the user singing sound respectively extracted by the first and second feature extraction means A degree-of-similarity calculating means, and a scoring means for determining whether or not the user singing sound is appropriate for the model singing sound according to the degree of similarity calculated by the degree-of-similarity calculating means.
上記請求項1に従属する請求項2に記載の発明では、前記第1および第2の特徴抽出手段が抽出する音声特徴量は、ケプストラム領域の特徴量MFCC(Mel Frequency Cepstrum Coefficient)であることを特徴とする。 In the invention according to claim 2 subordinate to claim 1, the speech feature quantity extracted by the first and second feature extraction means is a feature quantity MFCC (Mel Frequency Cepstrum Coefficient) of a cepstrum region. Features.
上記請求項1に従属する請求項3に記載の発明では、前記類似度算出手段は、手本歌唱音の音声特徴量を表す第1のベクトルと、ユーザ歌唱音の音声特徴量を表す第2のベクトルとの間のユークリッド距離を類似度として算出することを特徴とする。 In the invention according to claim 3, which is dependent on claim 1, the similarity calculation means includes a first vector representing the voice feature amount of the model singing sound and a second vector representing the voice feature amount of the user singing sound. The Euclidean distance between the two vectors is calculated as the similarity.
請求項4に記載の発明では、カラオケ曲の再生に同期して発生するデータであって、手本として歌唱された手本歌唱音を表す手本歌唱音データと、再生されるカラオケ曲に合せてユーザが歌唱するユーザ歌唱音から得たユーザ歌唱データとを所定データ数毎に区切りフレーム化するフレーム化手段と、前記フレーム化手段によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出手段と、前記フレーム化手段によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出手段と、前記第1および第2の特徴抽出手段によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出手段と、前記類似度算出手段により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定手段と、前記判定手段がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点手段とを具備することを特徴とする。 In the invention according to claim 4, the data is generated in synchronization with the reproduction of the karaoke song, and the sample song sound data representing the example song sound sung as a model and the reproduced karaoke song are matched. From the singing sound data corresponding to the predetermined number of data framed by the framing means, and the framing means for dividing the user singing data obtained from the user singing sound sung by the user into predetermined frames. A first feature extracting unit that extracts a voice feature amount of the model singing sound; and a second feature extracting unit that extracts the voice feature amount of the user singing sound from the user singing data of a predetermined number of data framed by the framing unit. Similarity calculation for calculating the similarity between the voice feature amount of the model singing sound and the voice feature amount of the user singing sound respectively extracted by the feature extraction means and the first and second feature extraction means And a determination means for determining the suitability of the user singing sound for the model singing sound for each frame according to the similarity calculated by the similarity calculating means, and the result of the determination by the determining means for each frame And scoring means for scoring the user's song.
上記請求項4に従属する請求項5に記載の発明では、前記採点手段は、ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、前記判定手段がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点することを特徴とする。 In the invention according to claim 5 subordinate to claim 4, the scoring means only when the ratio between the number of frames of the user song data and the number of frames of the sample song sound data is a certain value or more, The determination means scores the user's song based on the result of determination of suitability for each frame.
請求項6に記載の発明では、カラオケ曲のメロディ部分とラップ部分とを識別して再生可能なカラオケ装置において、カラオケ曲のメロディ部分が再生される場合に、ユーザが歌唱するユーザ歌唱音のピッチを抽出し、抽出したピッチと再生されるメロディ部分のピッチとを比較してユーザ歌唱音の適否を判定して採点する第1の採点手段と、カラオケ曲のラップ部分が再生される場合に、手本として歌唱される手本歌唱音の音声特徴量およびユーザが歌唱するユーザ歌唱音の音声特徴量を各々抽出し、抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する第2の採点手段とを具備することを特徴とする。 In the invention according to claim 6, in the karaoke apparatus capable of identifying and reproducing the melody portion and the lap portion of the karaoke song, the pitch of the user singing sound sung by the user when the melody portion of the karaoke song is reproduced. A first scoring means for comparing the extracted pitch and the pitch of the melody part to be reproduced to determine the suitability of the user singing sound and scoring, and when the rap part of the karaoke song is reproduced, The voice feature amount of the model singing sound sung as a model and the voice feature amount of the user singing sound sung by the user are extracted, respectively, and the extracted voice feature amount of the sample singing sound and the voice feature amount of the user singing sound And second scoring means for determining whether or not the user singing sound is appropriate for the model singing sound and scoring according to the degree of similarity.
請求項7に記載の発明では、手本として歌唱された手本歌唱音の音声特徴量を抽出する第1の特徴抽出処理と、ユーザが歌唱するユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出処理と、前記第1および第2の特徴抽出処理によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出処理と、前記類似度算出処理により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する採点処理とをコンピュータで実行させることを特徴とする。 In the invention according to claim 7, a first feature extraction process for extracting a voice feature amount of a model singing sound sung as a model, and a second feature extraction unit for extracting a voice feature amount of a user singing sound sung by the user. A similarity calculation process for calculating the similarity between the voice feature quantity of the model singing sound and the voice feature quantity of the user singing sound, respectively extracted by the first feature extraction process and the second feature extraction process; According to the similarity calculated by the similarity calculation process, the computer performs a scoring process for determining whether or not the user singing sound is appropriate for the model singing sound and scoring.
上記請求項7に従属する請求項8に記載の発明では、前記第1および第2の特徴抽出処理により抽出される音声特徴量は、ケプストラム領域の特徴量MFCC(Mel Frequency Cepstrum Coefficient)であることを特徴とする。 In the invention according to claim 8, which is dependent on claim 7, the speech feature quantity extracted by the first and second feature extraction processes is a feature quantity MFCC (Mel Frequency Cepstrum Coefficient) of a cepstrum region. It is characterized by.
上記請求項7に従属する請求項9に記載の発明では、前記類似度算出処理は、手本歌唱音の音声特徴量を表す第1のベクトルと、ユーザ歌唱音の音声特徴量を表す第2のベクトルとの間のユークリッド距離を類似度として算出することを特徴とする。 In the invention according to claim 9, which is dependent on claim 7, the similarity calculation processing includes a first vector representing the voice feature amount of the model singing sound and a second vector representing the voice feature amount of the user singing sound. The Euclidean distance between the two vectors is calculated as the similarity.
           
  請求項10に記載の発明では、カラオケ曲の再生に同期して発生するデータであって、手本として歌唱された手本歌唱音を表す手本歌唱音データと、再生されるカラオケ曲に合せてユーザが歌唱するユーザ歌唱音から得たユーザ歌唱データとを所定データ数毎に区切りフレーム化するフレーム化処理と、前記フレーム化処理によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出処理と、前記フレーム化処理によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出処理と、前記第1および第2の特徴抽出処理によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出処理と、前記類似度算出処理により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定処理と、前記判定処理がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点処理とをコンピュータで実行させることを特徴とする。
  In the invention according to 
           
  上記請求項10に従属する請求項11に記載の発明では、前記採点処理は、ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、前記判定処理がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点することを特徴とする。
  In the invention according to 
請求項12に記載の発明では、カラオケ曲のメロディ部分とラップ部分とを識別して再生可能なカラオケ装置に適用されるプログラムであって、カラオケ曲のメロディ部分が再生される場合に、ユーザが歌唱するユーザ歌唱音のピッチを抽出し、抽出したピッチと再生されるメロディ部分のピッチとを比較してユーザ歌唱音の適否を判定して採点する第1の採点処理と、カラオケ曲のラップ部分が再生される場合に、手本として歌唱された手本歌唱音の音声特徴量およびユーザが歌唱するユーザ歌唱音の音声特徴量を各々抽出し、抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する第2の採点処理とをコンピュータで実行させることを特徴とする。 In the twelfth aspect of the present invention, the program is applied to a karaoke apparatus capable of identifying and reproducing the melody portion and the lap portion of the karaoke song, and when the melody portion of the karaoke song is reproduced, the user A first scoring process for extracting the pitch of the user singing sound to be sung, comparing the extracted pitch with the pitch of the melody part to be reproduced, determining the suitability of the user singing sound, and scoring the karaoke song lap part Are extracted, respectively, the voice feature amount of the model singing sound sung as a model and the voice feature amount of the user singing sound sung by the user, and the voice feature amount of the extracted sample singing sound and A second scoring process is performed by a computer that determines whether or not the user singing sound is appropriate for the model singing sound according to the similarity with the voice feature amount of the user singing sound and performs scoring.
本発明では、手本として歌唱された手本歌唱音から抽出した音声特徴量と、ユーザが歌唱するユーザ歌唱音から抽出した音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点するので、曲の歌詞が正しく歌唱されているかどうかを歌唱採点できる。したがって、明確なメロディーを持たない「ラップ」と呼ばれるスタイルのカラオケ曲であっても歌唱採点することができる。 In the present invention, the user singing for the model singing sound according to the similarity between the voice feature extracted from the model singing sound sung as a model and the voice feature extracted from the user singing sound sung by the user. Since the sound is judged to be appropriate and graded, it can be scored whether the lyrics of the song are sung correctly. Therefore, even a karaoke song of a style called “rap” without a clear melody can be scored.
また、本発明では、ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、フレーム毎に適否判定した結果に基づきユーザの歌唱を採点するので、演奏時間が非常に短い曲であっても歌唱採点することができる。 Moreover, in this invention, only when the ratio of the number of frames of user song data and the number of frames of model song sound data is a certain value or more, the user's song is scored based on the result of determining the suitability for each frame. Therefore, even a song with a very short performance time can be scored.
        
         
  以下、図面を参照して本発明の実施の形態について説明する。
A.構成 
  図1は、本発明の実施の一形態による歌唱採点装置を備えたカラオケ装置の構成を示すブロック図である。この図において、CPU10は、スイッチ部14から供給されるスイッチイベントに応じて、プログラムROM11に記憶される所定のプログラムを実行して装置各部を制御する。本発明の要旨に係わるCPU10の特徴的な処理動作(カラオケ処理、部分採点処理およびMFCC算出処理)については追って述べる。
Embodiments of the present invention will be described below with reference to the drawings. 
 A. Constitution 
 FIG. 1 is a block diagram showing a configuration of a karaoke apparatus provided with a singing scoring apparatus according to an embodiment of the present invention. In this figure, the 
         
  プログラムROM11には、CPU10により実行される各種プログラムや制御データが記憶される。プログラムROM11に記憶される各種プログラムとは、後述する「カラオケ処理」、「部分採点処理」および「MFCC算出処理」を含む。RAM12は、ワークエリアおよびバッファエリアを備える。RAM12のワークエリアには、CPU10の処理に用いる各種レジスタ・フラグデータが一時記憶される。RAM12のバッファエリアには、後述する手本歌唱データおよびユーザ歌唱データが一時記憶される。
  The 
         
  カラオケデータメモリ13は、例えばフラッシュメモリなど電気的に書き換え可能な不揮発性メモリから構成され、複数の曲のカラオケデータを記憶する。スイッチ部14には、例えば電源スイッチの他、カラオケ伴奏する曲を選択する曲選択スイッチや、カラオケの開始/停止を指示するスタート/ストップスイッチ等の各種スイッチを備え、これらスイッチ操作に応じたスイッチイベントを発生してCPU10に供給する。スイッチ部14のスタート/ストップスイッチの操作によってカラオケが開始された場合、CPU10は曲選択スイッチの操作で予め選択される曲のカラオケデータをカラオケデータメモリ13から読み出すようになっている。
  The 
         
  カラオケデータメモリ13に記憶される1つの曲のカラオケデータは、歌詞データおよび音声データから構成される。歌詞データは、カラオケ伴奏に同期して曲の歌詞を字幕表示させるための情報である。音声データは、カラオケトラックおよびボーカルトラックを有するデュアルモノラルモードでMP3形式に圧縮符号化された伴奏データおよび手本歌唱データを含む。
  The karaoke data of one song stored in the 
すなわち、カラオケトラックには、カラオケ伴奏音をサンプリングしてなる伴奏データが圧縮符号化されて格納され、ボーカルトラックには、例えばカラオケ伴奏音に同期して歌手が手本として歌唱した歌唱音をサンプリングしてなる手本歌唱データが圧縮符号化されて格納されている。 That is, accompaniment data obtained by sampling the karaoke accompaniment sound is compressed and stored in the karaoke track, and the vocal track samples the singing sound sung by the singer as a model in synchronization with the karaoke accompaniment sound, for example. The model singing data is stored after being compressed and encoded.
         
  マイク15は、入力されるユーザの歌唱音を歌唱音声信号に変換して出力する。コーデック16は、マイク15から供給される歌唱音声信号をA/D変換して得るユーザ歌唱データを、CPU10の制御の下に、RAM12のバッファエリアにストアする。また、コーデック16は、CPU10の制御の下に、カラオケデータメモリ13から読み出されるMP3形式の手本歌唱データをデコード(伸長復号)してRAM12のバッファエリアにストアする。なお、カラオケ実行中にRAM12のバッファエリアにストアされるユーザ歌唱データおよび手本歌唱データは、それぞれ1024サンプリングポイント分のフレームに相当する256msec毎に更新される。
  The 
         
  さらに、コーデック16は、CPU10の制御の下に、カラオケデータメモリ13から読み出されるMP3形式の伴奏データをデコード(伸長復号)すると共に、デコードされた伴奏データをD/A変換して得られるカラオケ伴奏音信号と、マイク15から供給される歌唱音声信号とを混合してオーディオ出力を発生する。オーディオ出力は、例えば図示されていないテレビジョン受像機の外部音声入力端子に供給されて音声再生される。ビデオエンコーダ17は、CPU10の制御の下に、カラオケデータメモリ13から読み出される歌詞データを字幕表示用のビデオ出力に変換する。ビデオ出力は、例えば図示されていないテレビジョン受像機のビデオ入力端子に供給されて歌詞字幕として画面表示される。
  Further, the 
         
B.動作 
  次に、図2〜図5を参照して、上記構成によるカラオケ装置の動作を説明する。以下では、CPU10が実行するカラオケ処理、部分採点処理およびMFCC算出処理の各動作について述べる。
B. Action 
 Next, with reference to FIGS. 2-5, operation | movement of the karaoke apparatus by the said structure is demonstrated. Below, each operation | movement of the karaoke process, partial scoring process, and MFCC calculation process which CPU10 performs is described.
      
         
(1)カラオケ処理の動作 
  図2は、カラオケ処理の動作を示すフローチャートである。装置電源が投入されると、CPU10は、図2に示すステップSA1に処理を進め、カラオケ開始指示があるまで待機する。ここで、スイッチ部14に設けられるスタート/ストップスイッチの操作に応じてカラオケ開始指示が発生すると、ステップSA1の判断結果が「YES」になり、次のステップSA2に進む。
(1) Karaoke processing operation 
 FIG. 2 is a flowchart showing the operation of karaoke processing. When the apparatus power is turned on, the 
         
  ステップSA2では、曲選択スイッチの操作で予め選択される曲のカラオケデータ(歌詞データおよび音声データ)をカラオケデータメモリ13から読み出し、読み出したカラオケデータ中の歌詞データをビデオエンコーダ17に供給して歌詞字幕表示用のビデオ出力に変換する。また、ステップSA2では、読み出したカラオケデータ中の音声データ、すなわちMP3形式で圧縮符号化されたカラオケトラックの伴奏データおよびボーカルトラックの手本歌唱データをコーデック16に供給してデコード(伸長復号)させる。
  In step SA2, karaoke data (lyric data and audio data) of a song preselected by the operation of the song selection switch is read from the 
         
  次いで、ステップSA3では、上記ステップSA2においてデコードされた伴奏データをD/A変換して得られるカラオケ伴奏音信号と、マイク15から供給される歌唱音声信号とを混合してオーディオ出力を発生するようコーデック16に指示する。これにより、例えばテレビジョン受像機(不図示)の外部音声入力端子にオーディオ出力を、ビデオ入力端子にビデオ出力をそれぞれ供給すれば、歌詞字幕が画面表示されると共に、カラオケ伴奏音が再生される。
  Next, in step SA3, the karaoke accompaniment sound signal obtained by D / A converting the accompaniment data decoded in step SA2 and the singing voice signal supplied from the 
         
  こうしてカラオケ伴奏が始ると、CPU10はステップSA4に処理を進め、上記ステップSA2においてコーデック16がデコードした手本歌唱データをRAM12のバッファエリアにストアし、続くステップSA5では、コーデック16が発生するユーザ歌唱データをRAM12のバッファエリアにストアする。
  When the karaoke accompaniment starts, the 
         
  そして、ステップSA6では、RAM12にバッファリングされた1024サンプリングポイント分の手本歌唱データおよびユーザ歌唱データからそれぞれ抽出する両者の音声特徴量MFCCに基づき、手本歌唱音(手本歌唱データ)に対するユーザ歌唱音(ユーザ歌唱データ)の類似度を算出し、算出した類似度に応じて適否判定した結果に基づき歌唱採点する部分採点処理(後述する)を実行する。なお、部分採点処理は、RAM12にバッファリングされる1024サンプリングポイント分のデータを使用する為、256msec毎に実行される。
  In step SA6, based on both voice feature values MFCC extracted from the sample song data and user song data for 1024 sampling points buffered in the 
         
  次いで、ステップSA7では、カラオケ停止指示の有無を判断する。カラオケ停止指示が無ければ、判断結果は「NO」になり、上述したステップSA2に処理を戻す。以後、カラオケ伴奏が曲終端に達するか、あるいはスイッチ部14のスタート/ストップスイッチの操作によってカラオケ停止指示が発生するまで上述したステップSA2〜SA6を繰り返してカラオケ伴奏を進行させながら、ユーザ歌唱音を256msec毎に採点する。そして、例えばカラオケ伴奏が曲終端に達してカラオケ停止指示が発生すると、ステップSA7の判断結果が「YES」になり、ステップSA8に進み、採点処理を実行する。
  Next, in step SA7, it is determined whether or not there is a karaoke stop instruction. If there is no karaoke stop instruction, the determination result is “NO”, and the process returns to step SA2 described above. Thereafter, until the karaoke accompaniment reaches the end of the song or the karaoke stop instruction is generated by operating the start / stop switch of the 
採点処理では、フレームカウンタの数と楽曲全体のフレーム数の比率が一定値以上あるか否かを判定する。なお、フレームカウンタとは、後述するように、無音状態でない手本歌唱データのフレームを計数するカウンタである。また、フレームとは、1024サンプリングポイント毎(256msec毎)にバッファリングされるデータの区切りを指す。楽曲全体のフレーム数とは、手本歌唱データをフレームで除した数に相当する。 In the scoring process, it is determined whether or not the ratio between the number of frame counters and the number of frames of the entire music is a certain value or more. As will be described later, the frame counter is a counter that counts frames of model singing data that are not silent. A frame refers to a segment of data buffered every 1024 sampling points (every 256 msec). The number of frames of the entire music corresponds to the number obtained by dividing the model song data by frames.
したがって、採点処理では、カラオケ伴奏される曲を一定比率以上歌唱したかどうかを判断し、一定比率以上歌唱していなければ、上記ステップSA6の部分採点処理で得られる部分得点を無効とし、歌唱評価を零点と採点して次のステップSA9に進む。 Therefore, in the scoring process, it is determined whether or not the karaoke accompaniment has been sung over a certain ratio. If the singing is not performed over a certain ratio, the partial scoring obtained in the partial scoring process in step SA6 is invalidated and the singing evaluation is performed. Is scored as zero, and the process proceeds to the next step SA9.
         
  一方、カラオケ伴奏される曲を一定比率以上歌唱していれば、上記ステップSA6の部分採点処理で得られる部分得点をフレームカウンタの数で除し、その値の百分率を点数データとして算出する。この後、ステップSA9に進み、算出した点数データをビデオエンコーダ17にてビデオ出力に変換することでユーザの歌唱点数を画面表示して本処理を終える。
  On the other hand, if the karaoke accompaniment is sung at a certain ratio or more, the partial score obtained by the partial scoring process in step SA6 is divided by the number of frame counters, and the percentage of the value is calculated as score data. Thereafter, the process proceeds to step SA9, where the calculated score data is converted into a video output by the 
         
(2)部分採点処理の動作 
  次に、図3を参照して部分採点処理の動作を説明する。上述したカラオケ処理のステップSA6(図2参照)を介して本処理が実行されると、CPU10は図3に図示するステップSB1に進み、RAM12のバッファエリアにストアされた1024サンプリングポイント分の手本歌唱データが無音状態であるかをチェックする。
(2) Partial scoring operation 
 Next, the operation of the partial scoring process will be described with reference to FIG. When this processing is executed through the above-described karaoke processing step SA6 (see FIG. 2), the 
続いて、ステップSB2では、上記ステップSB1のチェック結果に基づき、無音状態の手本歌唱データであるかどうかを判断する。無音状態の手本歌唱データであると、歌唱部分ではないと見做し、ここでの判断結果が「YES」となり、一旦本処理を完了させる。この場合、無音状態の手本歌唱データを含むフレームを破棄し、次フレームまで待機する。 Subsequently, in step SB2, based on the check result in step SB1, it is determined whether the sample singing data is silent. If the sample singing data is in the silent state, it is assumed that it is not a singing part, and the determination result here is “YES”, and this processing is once completed. In this case, the frame including the model song data in the silent state is discarded, and the process waits until the next frame.
一方、無音状態でない手本歌唱データならば、上記ステップSB2の判断結果は「NO」になり、ステップSB3に進む。ステップSB3では、フレームカウンタをインクリメントして歩進させる。フレームカウンタとは、無音状態でない手本歌唱データのフレームを計数するカウンタであり、その値は曲の進行位置を表す。次いで、ステップSB4では、手本歌唱データMFCC算出処理を実行する。 On the other hand, if it is model singing data that is not silent, the determination result of step SB2 is “NO”, and the process proceeds to step SB3. In step SB3, the frame counter is incremented and incremented. The frame counter is a counter that counts the frames of the model song data that is not silent, and the value represents the progress position of the song. Next, in step SB4, a model song data MFCC calculation process is executed.
         
  ここで、図4を参照してMFCC算出処理の動作を説明する。上記ステップSB4を介してMFCC算出処理が実行されると、CPU10は図4に図示するステップSC1に処理を進め、RAM12のバッファエリアにストアされた無音状態でない1024サンプリングポイント分の手本歌唱データ(以下、入力信号と称す)に対し、低次のハイパスフィルタリングを施して直流分(バイアスノイズ)を除去する。続いて、ステップSC2では、バイアス除去された入力信号にハニング窓をかけて高速フーリエ変換FFTを施すことによって、入力信号をスペクトル領域に変換する。
  Here, the operation of the MFCC calculation process will be described with reference to FIG. When the MFCC calculation process is executed via the above step SB4, the 
次いで、ステップSC3では、スペクトル領域に変換された入力信号にフィルタバンク処理を施し、特徴量として用いられる20次元のスペクトル系列を発生する。すなわち、このフィルタバンク処理では、図5に図示するように、周波数軸に対して対数尺度で幅をとった20個の三角窓を備えるフィルタバンクを用いる。続いて、ステップSC4では、線形領域にある20次元のスペクトル系列を対数スペクトル系列に変換する対数化処理を行う。そして、ステップSC4では、対数スペクトル系列に離散コサイン変換DCTを施してケプストラム領域に変換するDCT処理を実行する。 Next, in step SC3, a filter bank process is performed on the input signal converted into the spectral domain to generate a 20-dimensional spectral sequence used as a feature quantity. That is, in this filter bank processing, as shown in FIG. 5, a filter bank having 20 triangular windows having a logarithmic scale with respect to the frequency axis is used. Subsequently, in step SC4, a logarithmic process for converting a 20-dimensional spectrum sequence in the linear region into a logarithmic spectrum sequence is performed. In step SC4, a DCT process is performed in which a discrete cosine transform DCT is performed on the logarithmic spectrum sequence to convert it into a cepstrum region.
次に、ステップSC6では、上記ステップSC5のDCT処理で得られたDCT係数の内からスペクトル直流成分である最低次の係数C0を除いた低次から12個の係数を、ケプストラム領域の音声特徴量MFCC(Mel Frequency Cepstrum Coefficient)として抽出する係数抽出処理を実行した後、本処理を完了させて図3に図示する部分採点処理に復帰する。 Next, in step SC6, the 12 coefficients from low order excluding the lowest-order coefficient C 0 is the spectral DC component from among the DCT coefficients obtained by the DCT process in the step SC5, the audio characteristics of the cepstrum domain After executing a coefficient extraction process for extracting as a quantity MFCC (Mel Frequency Cepstrum Coefficient), the present process is completed and the process returns to the partial scoring process shown in FIG.
         
  以上のように、ステップSB4の手本歌唱データMFCC算出処理では、RAM12のバッファエリアにストアされた無音状態でない1024サンプリングポイント分の手本歌唱データからケプストラム領域の音声特徴量MFCCを算出するようになっている。
  As described above, in the example song data MFCC calculation process in step SB4, the speech feature value MFCC of the cepstrum area is calculated from the sample song data for 1024 sampling points stored in the buffer area of the 
         
  この後、図3に図示するステップSB5に進み、RAM12のバッファエリアにストアされた1024サンプリングポイント分のユーザ歌唱データが無音状態であるかをチェックする。そして、ステップSB6では、上記ステップSB5のチェック結果に基づき、無音状態のユーザ歌唱データであるかどうかを判断する。無音状態のユーザ歌唱データであると、歌唱部分ではないと見做して判断結果が「YES」となり、一旦本処理を完了させる。この場合、無音状態のユーザ歌唱データを含むフレームを破棄し、次フレームまで待機する。
  Thereafter, the process proceeds to step SB5 shown in FIG. 3 to check whether the user singing data for 1024 sampling points stored in the buffer area of the 
         
  一方、無音状態でないユーザ歌唱データならば、上記ステップSB6の判断結果が「NO」になり、ステップSB7に進む。ステップSB7では、ユーザ歌唱データMFCC算出処理を実行する。ユーザ歌唱データMFCC算出処理では、上述したステップSB4と同様、RAM12のバッファエリアにストアされた無音状態でない1024サンプリングポイント分のユーザ歌唱データから音声特徴量MFCCを算出する。
  On the other hand, if the user song data is not silent, the determination result in step SB6 is “NO”, and the process proceeds to step SB7. In step SB7, user song data MFCC calculation processing is executed. In the user song data MFCC calculation process, the speech feature value MFCC is calculated from the user song data for 1024 sampling points that are not silenced and stored in the buffer area of the 
続いて、ステップSB8では、上記ステップSB4で算出した手本歌唱データの音声特徴量MFCCと、上記ステップSB7で算出したユーザ歌唱データの音声特徴量MFCCとの類似度を測る尺度として、手本歌唱データの音声特徴量MFCCを表すベクトルa=(a1,a2,…,a12)と、ユーザ歌唱データの音声特徴量MFCCを表すベクトルb=(b1,b2,…,b12)との間のユークリッド距離d(a,b)を算出する。 Subsequently, in step SB8, the model song is used as a scale for measuring the similarity between the voice feature value MFCC of the model song data calculated in step SB4 and the voice feature value MFCC of the user song data calculated in step SB7. A vector a = (a 1 , a 2 ,..., A 12 ) representing the voice feature value MFCC of the data, and a vector b = (b 1 , b 2 ,..., B 12 ) representing the voice feature value MFCC of the user song data. Euclidean distance d (a, b) between is calculated.
次いで、ステップSB9では、上記ステップSB8にて算出したユークリッド距離d(a,b)が予め設定した閾値以下であるか否か、すなわち手本の歌唱音とユーザの歌唱音とが類似しているかどうかを判断する。上記ステップSB8にて算出したユークリッド距離d(a,b)が閾値以上となり、手本の歌唱音とユーザの歌唱音との類似度が低い場合には、判断結果が「NO」となり、本処理を終える。 Next, in step SB9, whether or not the Euclidean distance d (a, b) calculated in step SB8 is equal to or smaller than a preset threshold value, that is, whether the model singing sound is similar to the user singing sound. Judge whether. When the Euclidean distance d (a, b) calculated in step SB8 is equal to or greater than the threshold value and the similarity between the model singing sound and the user singing sound is low, the determination result is “NO”, and this processing is performed. Finish.
これに対し、上記ステップSB8にて算出したユークリッド距離d(a,b)が閾値未満となり、手本の歌唱音とユーザの歌唱音との類似度が高い場合には、判断結果が「YES」となり、ステップSB10に進む。そして、ステップSB10では、採点対象としているフレームの採点結果を合格とし、部分得点をインクリメントして本処理を終える。 On the other hand, when the Euclidean distance d (a, b) calculated in step SB8 is less than the threshold value and the similarity between the model singing sound and the user singing sound is high, the determination result is “YES”. Thus, the process proceeds to step SB10. In step SB10, the scoring result of the frame that is the scoring target is accepted, the partial score is incremented, and the process ends.
         
  以上のように、本実施の形態では、カラオケ伴奏音をサンプリングした伴奏データと、歌手が手本として歌唱した歌唱音をサンプリングした手本歌唱データとをカラオケデータメモリ13に記憶しておき、カラオケ開始指示に応じて、カラオケデータメモリ13から伴奏データを読み出してカラオケ伴奏音を再生すると、再生されるカラオケ伴奏音に合せてユーザが歌唱する歌唱音をサンプリングして得たユーザ歌唱データと、上記伴奏データに同期してカラオケデータメモリ13から読み出される手本歌唱データとを所定のデータ数分のフレームで区切り、区切られたフレーム中の手本歌唱データから手本歌唱音の音声特徴量MFCCを、ユーザ歌唱データからユーザ歌唱音の音声特徴量MFCCをそれぞれ抽出する。
  As described above, in the present embodiment, accompaniment data obtained by sampling a karaoke accompaniment sound and sample singing data obtained by sampling a singing sound sung by a singer as a model are stored in the 
そして、抽出した手本歌唱音の音声特徴量MFCCおよびユーザ歌唱音の音声特徴量MFCCに基づき手本歌唱音に対するユーザ歌唱音の類似度を算出して適否判定し、その結果に基づき歌唱採点するので、曲の歌詞が正しく歌唱されているかどうかを歌唱採点できる。この結果、明確なメロディーを持たない「ラップ」と呼ばれるスタイルのカラオケ曲であっても歌唱採点し得るようになる。 Then, based on the extracted voice feature value MFCC of the model singing sound and the voice feature value MFCC of the user singing sound, the similarity of the user singing sound with respect to the model singing sound is calculated to determine suitability, and singing is scored based on the result. So, you can score whether the song lyrics are sung correctly. As a result, even a karaoke song of a style called “rap” without a clear melody can be scored.
また、本実施の形態では、ユーザが歌唱したフレームの数と、カラオケ曲中で手本歌唱データが存在するフレームの数との比をとり、その比が一定値以上ある場合にのみ歌唱採点するので、演奏時間が非常に短い曲であっても歌唱採点することが可能になる。 In this embodiment, the ratio between the number of frames sung by the user and the number of frames in which singing singing data exists in the karaoke song is taken, and the singing score is given only when the ratio is a certain value or more. Therefore, even a song with a very short performance time can be scored.
なお、上述した実施形態では、音声特徴量MFCCに基づき手本歌唱音に対するユーザ歌唱音の類似度を算出して歌唱採点したが、これに加えて、従来のピッチ抽出による歌唱採点方式を併用する態様としてもよい。例えば、カラオケ曲の伴奏データにメロディ部分とラップ部分とが混在する場合には、当該伴奏データ中にメロディ部分とラップ部分とを区別する識別フラグを設けておき、この識別フラグを参照してメロディ部分の伴奏データが再生される時にはピッチ抽出して歌唱採点を行い、一方、ラップ部分の伴奏データが再生される時には音声特徴量MFCCを抽出して歌唱採点を行う態様となる。このようにすれば、ユーザ歌唱音の音高の適否と、歌唱した歌詞の適否とを同時に判定することができる。 In the embodiment described above, the singing score is calculated by calculating the similarity of the user singing sound with respect to the model singing sound based on the voice feature value MFCC, but in addition to this, the singing scoring method based on the conventional pitch extraction is used in combination. It is good also as an aspect. For example, when the accompaniment data of a karaoke song contains a melody part and a rap part, an identification flag for distinguishing the melody part from the rap part is provided in the accompaniment data, and the melody is referenced with reference to this identification flag. When the accompaniment data of the part is reproduced, the pitch is extracted and the singing is performed. On the other hand, when the accompaniment data of the rap part is reproduced, the voice feature amount MFCC is extracted and the singing is performed. In this way, it is possible to simultaneously determine whether the pitch of the user singing sound is appropriate and whether the sung lyrics are appropriate.
また、上述した実施形態では、音声の特徴量を表すパラメータとして、ケプストラム領域の特徴量であるMFCC(Mel Frequency Cepstrum Coefficient)を抽出するようにしたが、これに替えて、LPCケプストラム等の他の特徴パラメータを抽出する態様としても構わない。 In the above-described embodiment, the MFCC (Mel Frequency Cepstrum Coefficient), which is a feature amount of the cepstrum region, is extracted as a parameter representing the feature amount of the voice. However, instead of this, other parameters such as an LPC cepstrum are extracted. A feature parameter may be extracted.
加えて、本実施形態では、手本歌唱データの音声特徴量MFCCと、ユーザ歌唱データの音声特徴量MFCCとの類似度を測る尺度として、手本歌唱データの音声特徴量MFCCを表すベクトルa=(a1,a2,…,a12)と、ユーザ歌唱データの音声特徴量MFCCを表すベクトルb=(b1,b2,…,b12)との間のユークリッド距離d(a,b)を算出するようにしたが、これに限らず、例えば板倉距離などの他の尺度で類似度を算出しても構わない。 In addition, in the present embodiment, as a measure for measuring the similarity between the voice feature value MFCC of the sample song data and the voice feature value MFCC of the user song data, a vector a = representing the voice feature value MFCC of the sample song data Euclidean distance d (a, b) between (a 1 , a 2 ,..., A 12 ) and a vector b = (b 1 , b 2 ,..., B 12 ) representing the voice feature value MFCC of the user song data. However, the present invention is not limited to this, and the degree of similarity may be calculated using another scale such as the Itakura distance.
         
  また、上述した実施形態では、カラオケ伴奏音の再生に同期してカラオケデータメモリ13から読み出される手本歌唱データを所定のデータ数分のフレームで区切り、区切られたフレーム毎の音声特徴量MFCCを抽出するようにしたが、これに替えて、予め手本歌唱データからフレーム毎の音声特徴量MFCCを算出し、これを手本歌唱データの替わりにカラオケデータメモリ13に記憶しておくこともできる。このようにすれば、前述したステップSB4(図3参照)の手本歌唱データMFCC算出処理を不要にし、CPU10の処理負荷低減を図ることができる。
  In the above-described embodiment, the sample singing data read from the 
         
  10  CPU
  11  プログラムROM
  12  RAM
  13  カラオケデータメモリ
  14  スイッチ部
  15  マイク
  16  コーデック
  17  ビデオエンコーダ
10 CPU 
 11 Program ROM 
 12 RAM 
 13 
Claims (12)
ユーザが歌唱するユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出手段と、
前記第1および第2の特徴抽出手段によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する採点手段と
を具備することを特徴とする歌唱採点装置。 First feature extraction means for extracting a voice feature amount of a model singing sound sung as a model;
A second feature extracting means for extracting a voice feature amount of the user singing sound sung by the user;
Similarity calculating means for calculating the similarity between the voice feature quantity of the model singing sound and the voice feature quantity of the user singing sound respectively extracted by the first and second feature extracting means;
A singing scoring apparatus comprising: scoring means for determining whether or not the user singing sound is appropriate for the model singing sound according to the similarity calculated by the similarity calculating means.
前記フレーム化手段によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出手段と、
前記フレーム化手段によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出手段と、
前記第1および第2の特徴抽出手段によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定手段と、
前記判定手段がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点手段と
を具備することを特徴とする歌唱採点装置。 Data generated in synchronization with the reproduction of the karaoke song, from the model singing sound data representing the model singing sound sung as a model, and the user singing sound sung by the user in accordance with the reproduced karaoke song Framing means for dividing the obtained user singing data into predetermined frames for each predetermined number of data;
First feature extraction means for extracting a voice feature amount of model singing sound from model singing sound data for a predetermined number of data framed by the framing means;
Second feature extraction means for extracting voice feature values of user singing sound from user singing data for a predetermined number of data framed by the framing means;
Similarity calculating means for calculating the similarity between the voice feature quantity of the model singing sound and the voice feature quantity of the user singing sound respectively extracted by the first and second feature extracting means;
A determination unit that determines the suitability of the user singing sound with respect to the model singing sound for each frame according to the similarity calculated by the similarity calculating unit;
A singing scoring apparatus comprising: scoring means for scoring a user's song based on a result of the determination by the determination means for each frame.
カラオケ曲のメロディ部分が再生される場合に、ユーザが歌唱するユーザ歌唱音のピッチを抽出し、抽出したピッチと再生されるメロディ部分のピッチとを比較してユーザ歌唱音の適否を判定して採点する第1の採点手段と、
カラオケ曲のラップ部分が再生される場合に、手本として歌唱される手本歌唱音の音声特徴量およびユーザが歌唱するユーザ歌唱音の音声特徴量を各々抽出し、抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する第2の採点手段と
を具備することを特徴とする歌唱採点装置。 In a karaoke device that can distinguish and reproduce the melody part and rap part of a karaoke song,
When the melody part of the karaoke song is reproduced, the pitch of the user singing sound sung by the user is extracted, and the suitability of the user singing sound is determined by comparing the extracted pitch with the pitch of the reproduced melody part. A first scoring means for scoring;
When the rap part of a karaoke song is played, the voice feature amount of the sample singing sound sung as a model and the voice feature amount of the user singing sound sung by the user are extracted, respectively, and the extracted sample singing sound And a second scoring means for scoring by determining the suitability of the user singing sound with respect to the model singing sound according to the similarity between the voice feature amount of the user singing sound and the sound feature amount of the user singing sound. Singing scoring device.
ユーザが歌唱するユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出処理と、
前記第1および第2の特徴抽出処理によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出処理と、
前記類似度算出処理により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する採点処理と
をコンピュータで実行させることを特徴とする歌唱採点プログラム。 A first feature extraction process for extracting a voice feature amount of a model singing sound sung as a model;
A second feature extraction process for extracting a voice feature amount of the user singing sound sung by the user;
A similarity calculation process for calculating a similarity between the voice feature quantity of the model singing sound and the voice feature quantity of the user singing sound, respectively extracted by the first and second feature extraction processes;
A singing scoring program that causes a computer to execute a scoring process for determining whether or not a user singing sound is appropriate for a model singing sound according to the similarity calculated by the similarity calculating process.
前記フレーム化処理によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出処理と、
前記フレーム化処理によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出処理と、
前記第1および第2の特徴抽出処理によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出処理と、
前記類似度算出処理により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定処理と、
前記判定処理がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点処理と
をコンピュータで実行させることを特徴とする歌唱採点プログラム。 Data generated in synchronization with the reproduction of the karaoke song, from the model singing sound data representing the model singing sound sung as a model, and the user singing sound sung by the user in accordance with the reproduced karaoke song A framing process for dividing the obtained user singing data into predetermined frames for each predetermined number of data;
A first feature extraction process for extracting a voice feature amount of a model singing sound from model singing sound data for a predetermined number of data framed by the framing process;
A second feature extraction process for extracting voice feature quantities of user singing sound from user singing data for a predetermined number of data framed by the framing process;
A similarity calculation process for calculating a similarity between the voice feature quantity of the model singing sound and the voice feature quantity of the user singing sound, respectively extracted by the first and second feature extraction processes;
A determination process for determining the suitability of the user singing sound for the model singing sound for each frame according to the similarity calculated by the similarity calculating process;
A singing scoring program that causes a computer to perform scoring processing for scoring a user's singing based on a result of determining whether the determination processing is appropriate for each frame.
カラオケ曲のメロディ部分が再生される場合に、ユーザが歌唱するユーザ歌唱音のピッチを抽出し、抽出したピッチと再生されるメロディ部分のピッチとを比較してユーザ歌唱音の適否を判定して採点する第1の採点処理と、
カラオケ曲のラップ部分が再生される場合に、手本として歌唱された手本歌唱音の音声特徴量およびユーザが歌唱するユーザ歌唱音の音声特徴量を各々抽出し、抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する第2の採点処理と
をコンピュータで実行させることを特徴とする歌唱採点プログラム。 A program applied to a karaoke apparatus capable of identifying and reproducing a melody part and a rap part of a karaoke song,
When the melody part of the karaoke song is reproduced, the pitch of the user singing sound sung by the user is extracted, and the suitability of the user singing sound is determined by comparing the extracted pitch with the pitch of the reproduced melody part. A first scoring process for scoring;
When the rap part of the karaoke song is played, the voice feature amount of the sample singing sound sung as a model and the voice feature amount of the user singing sound sung by the user are extracted, respectively, and the extracted sample singing sound A second scoring process for determining whether or not the user singing sound is appropriate for the model singing sound according to the similarity between the voice feature amount of the user singing sound and the voice feature amount of the user singing sound, and causing the computer to execute Singing scoring program.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2010101757A JP4983958B2 (en) | 2010-04-27 | 2010-04-27 | Singing scoring device and singing scoring program | 
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2010101757A JP4983958B2 (en) | 2010-04-27 | 2010-04-27 | Singing scoring device and singing scoring program | 
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2006192514A Division JP2008020677A (en) | 2006-07-13 | 2006-07-13 | Singing scoring device and singing scoring program | 
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2012007606A Division JP5246354B2 (en) | 2012-01-18 | 2012-01-18 | Singing scoring device and singing scoring program | 
Publications (2)
| Publication Number | Publication Date | 
|---|---|
| JP2010191463A true JP2010191463A (en) | 2010-09-02 | 
| JP4983958B2 JP4983958B2 (en) | 2012-07-25 | 
Family
ID=42817491
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2010101757A Expired - Fee Related JP4983958B2 (en) | 2010-04-27 | 2010-04-27 | Singing scoring device and singing scoring program | 
Country Status (1)
| Country | Link | 
|---|---|
| JP (1) | JP4983958B2 (en) | 
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| EP2450877A1 (en) * | 2010-11-09 | 2012-05-09 | Sony Computer Entertainment Europe Limited | System and method of speech evaluation | 
| JP2016136204A (en) * | 2015-01-23 | 2016-07-28 | 株式会社第一興商 | Karaoke device with repetitive playback function | 
| CN109905789A (en) * | 2017-12-10 | 2019-06-18 | 张德明 | A kind of K song microphone | 
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JPH11259081A (en) * | 1998-03-13 | 1999-09-24 | Nec Corp | Singing score display karaoke device | 
| JP2001117568A (en) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | Singing evaluation device and karaoke device | 
| JP2005215493A (en) * | 2004-01-30 | 2005-08-11 | Brother Ind Ltd | Karaoke device and program | 
| JP2005316077A (en) * | 2004-04-28 | 2005-11-10 | Techno Face:Kk | Information processor and program | 
- 
        2010
        - 2010-04-27 JP JP2010101757A patent/JP4983958B2/en not_active Expired - Fee Related
 
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JPH11259081A (en) * | 1998-03-13 | 1999-09-24 | Nec Corp | Singing score display karaoke device | 
| JP2001117568A (en) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | Singing evaluation device and karaoke device | 
| JP2005215493A (en) * | 2004-01-30 | 2005-08-11 | Brother Ind Ltd | Karaoke device and program | 
| JP2005316077A (en) * | 2004-04-28 | 2005-11-10 | Techno Face:Kk | Information processor and program | 
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| EP2450877A1 (en) * | 2010-11-09 | 2012-05-09 | Sony Computer Entertainment Europe Limited | System and method of speech evaluation | 
| US8620665B2 (en) | 2010-11-09 | 2013-12-31 | Sony Computer Entertainment Europe Limited | Method and system of speech evaluation | 
| JP2016136204A (en) * | 2015-01-23 | 2016-07-28 | 株式会社第一興商 | Karaoke device with repetitive playback function | 
| CN109905789A (en) * | 2017-12-10 | 2019-06-18 | 张德明 | A kind of K song microphone | 
Also Published As
| Publication number | Publication date | 
|---|---|
| JP4983958B2 (en) | 2012-07-25 | 
Similar Documents
| Publication | Publication Date | Title | 
|---|---|---|
| US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
| US8311831B2 (en) | Voice emphasizing device and voice emphasizing method | |
| KR100949872B1 (en) | A computer-readable medium that records a program that executes a computer program for executing the music practice support device, the control method of the music practice support device, and the control method for controlling the music practice support device. | |
| JP5246354B2 (en) | Singing scoring device and singing scoring program | |
| JP6060867B2 (en) | Information processing apparatus, data generation method, and program | |
| US9892758B2 (en) | Audio information processing | |
| JP4212446B2 (en) | Karaoke equipment | |
| JP2006195385A (en) | Music playback apparatus and music playback program | |
| JP2009210790A (en) | Music selection singer analysis and recommendation device, its method, and program | |
| JP4983958B2 (en) | Singing scoring device and singing scoring program | |
| JP5598516B2 (en) | Voice synthesis system for karaoke and parameter extraction device | |
| JP7355165B2 (en) | Music playback system, control method and program for music playback system | |
| JP6252420B2 (en) | Speech synthesis apparatus and speech synthesis system | |
| JP2008020677A (en) | Singing scoring device and singing scoring program | |
| WO2014142200A1 (en) | Voice processing device | |
| JP5125958B2 (en) | Range identification system, program | |
| JP2013210501A (en) | Synthesis unit registration device, voice synthesis device, and program | |
| CN107871492A (en) | Music synthesis method and system | |
| JP4595948B2 (en) | Data reproducing apparatus, data reproducing method and program | |
| CN112750420B (en) | Singing voice synthesis method, device and equipment | |
| JP4048249B2 (en) | Karaoke equipment | |
| JP4209751B2 (en) | Karaoke equipment | |
| JP5983670B2 (en) | Program, information processing apparatus, and data generation method | |
| JP5034642B2 (en) | Karaoke equipment | |
| JP6260499B2 (en) | Speech synthesis system and speech synthesizer | 
Legal Events
| Date | Code | Title | Description | 
|---|---|---|---|
| A521 | Request for written amendment filed | Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100526 | |
| A621 | Written request for application examination | Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100526 | |
| A131 | Notification of reasons for refusal | Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111129 | |
| A521 | Request for written amendment filed | Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120118 | |
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120327 | |
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text: JAPANESE INTERMEDIATE CODE: A01 | |
| A61 | First payment of annual fees (during grant procedure) | Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120409 | |
| R150 | Certificate of patent or registration of utility model | Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4983958 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 | |
| LAPS | Cancellation because of no payment of annual fees |