[go: up one dir, main page]

JPH11305794A - Pitch detecting device and information medium - Google Patents

Pitch detecting device and information medium

Info

Publication number
JPH11305794A
JPH11305794A JP10115659A JP11565998A JPH11305794A JP H11305794 A JPH11305794 A JP H11305794A JP 10115659 A JP10115659 A JP 10115659A JP 11565998 A JP11565998 A JP 11565998A JP H11305794 A JPH11305794 A JP H11305794A
Authority
JP
Japan
Prior art keywords
maximum
local
pitch
point
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10115659A
Other languages
Japanese (ja)
Inventor
Mitsuo Matsumoto
光雄 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP10115659A priority Critical patent/JPH11305794A/en
Publication of JPH11305794A publication Critical patent/JPH11305794A/en
Pending legal-status Critical Current

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

PROBLEM TO BE SOLVED: To detect a pitch from features of a voice signal waveform with a small amount of arithmetic operations without obtaining the correlation of the voice signal. SOLUTION: This device has a buffer memory 4 which segments a digital voice signal by frames of about 30 milliseconds, a low-pass filter circuit 3 which filters the voice signal, a peak search circuit 5 which detects a local maximum and a local minimum from the low-pass filtered voice signal waveform, a data analyzing circuit 7 which obtains the local maximum and local minimum having the largest absolute values of amplitudes among respective local maximums and local minimums, obtains local maximums and local minimums within specified ranges among the obtained local maximums and local minimums, and obtains as common histograms the histograms of time intervals obtained among the local maximums and local minimums, and a pitch determining circuit 8 which determines the highest frequency of the histograms as the pitch of the voice signal.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、例えば歌唱者の声
やコーラスの声の基本周期(ピッチ)、音声の性質変換
の際に好適なものであり、詳しくは、音声信号の相関を
求めることなく、少ない演算量で声の高さに対応するピ
ッチ周波数、或いはその逆数であるピッチ周期を検出す
るピッチ検出装置及びそのピッチ検出を実現するための
プログラムデータを記録若しくは伝送する情報媒体に関
する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention is suitable for, for example, converting the fundamental period (pitch) of a singer's voice or a chorus's voice, or the nature of a voice. In addition, the present invention relates to a pitch detection device for detecting a pitch frequency corresponding to a voice pitch or a reciprocal of the pitch period with a small amount of calculation, and an information medium for recording or transmitting program data for realizing the pitch detection.

【0002】[0002]

【従来の技術】従来より、音声の特徴を抽出する際に
は、音声波形を直接扱う代わりに、周波数スペクトルや
自己相関関数など、スペクトルに関連した特徴に変換し
て扱うことが多い。すなわち、音声波形は、振幅と位相
が時間的にゆるやかに変化する正弦波の和で構成されて
いると考えることができ、また、人間の聴覚による音声
の知覚において重要な特徴は主として振幅情報に含まれ
ており、位相情報は通常重要な役割を果たしていないた
め、当該音声の特徴抽出の際には、音声信号をスペクト
ルに関連した特徴に変換して扱うことが多い。なお、音
声の短時間区間毎の電力スペクトル密度、すなわち短時
間スペクトルは、周波数とともに緩やかに変化する成分
であるスペクトル包絡と、有音声の場合の細かく周期的
に変化する成分と、無音声の場合の非周期的に変化する
成分とに、分解して考えることができる。
2. Description of the Related Art Conventionally, when extracting speech features, in many cases, instead of directly treating speech waveforms, the speech waveforms are converted into spectrum-related features such as a frequency spectrum and an autocorrelation function. In other words, the speech waveform can be considered to be composed of the sum of sine waves whose amplitude and phase gradually change over time, and an important feature in the perception of speech by human hearing is mainly amplitude information. Since the phase information is included and the phase information usually does not play an important role, when extracting the feature of the voice, the voice signal is often converted into a spectrum-related feature. Note that the power spectrum density of each short-time section of voice, that is, the short-time spectrum, is a spectrum envelope that is a component that changes slowly with frequency, a component that changes finely and periodically in the case of voice, and a case that there is no voice. And a non-periodically changing component can be considered.

【0003】ここで、音声の特徴の一つとして、声の高
さに対応する周波数(ピッチ周波数)、或いはその逆数
である周期(ピッチ周期)があり、当該ピッチを検出す
る手法の代表的なものとしては、いわゆる自己相関法や
変形相関法などが良く知られている。
Here, one of the features of speech is a frequency (pitch frequency) corresponding to the pitch of the voice, or a cycle (pitch cycle) that is the reciprocal thereof, and a typical technique for detecting the pitch. As the method, a so-called autocorrelation method and a modified correlation method are well known.

【0004】[0004]

【発明が解決しようとする課題】しかし、それら従来の
ピッチ検出手法は、音声信号の相関を求める必要がある
ので、演算量が膨大となり、また、リアルタイムにピッ
チ周波数やピッチ周期を検出するためには、高速な演算
処理を実行できる高価な演算処理装置が必要となる。
However, these conventional pitch detection methods require the calculation of the correlation of the audio signals, so that the amount of calculation becomes enormous, and it is necessary to detect the pitch frequency and the pitch period in real time. Requires an expensive arithmetic processing device capable of executing high-speed arithmetic processing.

【0005】本発明は、上述の課題に鑑みてなされたも
のであり、音声信号の相関を求めることなく、その音声
波形の特徴から少ない演算量でピッチを検出可能とし、
さらに音声信号が母音又はそれ以外の信号であるかの判
定をも可能とするピッチ検出装置及びそのピッチ検出を
実現するためのプログラムデータを記録若しくは伝送す
る情報媒体の提供を目的とする。
SUMMARY OF THE INVENTION The present invention has been made in view of the above-mentioned problems, and makes it possible to detect a pitch with a small amount of calculation from the characteristics of an audio waveform without finding a correlation between audio signals.
It is another object of the present invention to provide a pitch detection device that can also determine whether a voice signal is a vowel or another signal, and an information medium that records or transmits program data for realizing the pitch detection.

【0006】[0006]

【課題を解決するための手段】本発明に係るピッチ検出
装置は、上述の課題を解決するために、デジタル入力さ
れた音声信号を所定の長さの単位時間毎に切り出し、音
声信号から所望の周波数帯域のみを通過させ、所望の周
波数帯域の音声信号波形から複数の極大点と極小点を検
出し、単位時間内の複数の極大点の中から振幅の絶対値
が最大となる極大点を求め、単位時間内の複数の極小点
の中から振幅の絶対値が最大となる極小点を求め、最大
の極大点に対して振幅が所定の範囲内に入る極大点を求
め、最大の極小点に対して振幅が所定の範囲内に入る極
小点を求め、所定の範囲内に入る各極大点間でそれぞれ
時間間隔を求め、所定の範囲内に入る各極小点間でそれ
ぞれ時間間隔を求め、時間間隔のヒストグラムを共通の
ものとして求め、ヒストグラムの最瀕値を音声信号のピ
ッチとして取り出す。
SUMMARY OF THE INVENTION In order to solve the above-mentioned problems, a pitch detection device according to the present invention cuts out a digitally input audio signal every unit time of a predetermined length, and extracts a desired signal from the audio signal. Passes only the frequency band, detects a plurality of maximum points and minimum points from the audio signal waveform of the desired frequency band, and finds a maximum point at which the absolute value of the amplitude is maximum from among the plurality of maximum points in a unit time. From among a plurality of minimum points in a unit time, a minimum point where the absolute value of the amplitude is maximum is determined, a maximum point where the amplitude falls within a predetermined range with respect to the maximum maximum point is determined, and the maximum minimum point is determined. On the other hand, a minimum point where the amplitude falls within a predetermined range is determined, a time interval is determined between each maximum point falling within the predetermined range, and a time interval is determined between each minimum point falling within the predetermined range. Determine the interval histogram as a common one, The mean value and the Sutoguramu taken out as the pitch of the speech signal.

【0007】本発明に係るピッチ検出装置は、上述の課
題を解決するために、デジタル入力された音声信号を所
定の長さの単位時間毎に切り出し、音声信号から所望の
周波数帯域のみを通過させ、所望の周波数帯域の音声信
号波形から複数の極大点と極小点を検出し、単位時間内
の複数の極大点の中から振幅の絶対値が最大となる極大
点を求め、単位時間内の複数の極小点の中から振幅の絶
対値が最大となる極小点を求め、最大の極大点に対して
振幅が所定の範囲よりも大きい極大点を求め、最大の極
大点に対して振幅が所定の範囲よりも小さい極大点を求
め、最大の極小点に対して振幅が所定の範囲よりも大き
い極小点を求め、最大の極小点に対して振幅が所定の範
囲よりも小さい極小点を求め、所定の範囲よりも大きい
各極大点間でそれぞれ時間間隔を求め、所定の範囲より
も小さい各極大点間でそれぞれ時間間隔を求め、所定の
範囲よりも大きい各極小点間でそれぞれ時間間隔を求
め、所定の範囲よりも小さい各極小点間でそれぞれ時間
間隔を求め、時間間隔のヒストグラムを共通のものとし
て求め、ヒストグラムの最瀕値を前記音声信号のピッチ
として取り出す。
[0007] In order to solve the above-mentioned problems, a pitch detection device according to the present invention cuts out a digitally input audio signal every unit time of a predetermined length and passes only a desired frequency band from the audio signal. Detecting a plurality of local maximum points and local minimum points from an audio signal waveform in a desired frequency band, finding a local maximum point at which the absolute value of the amplitude is maximum from among the local maximum points within a unit time, and From among the local minimum points, the local minimum point where the absolute value of the amplitude is maximum is determined, the local maximum point whose amplitude is larger than a predetermined range with respect to the maximum local maximum point is obtained, and the amplitude is predetermined with respect to the maximum local maximum point. Obtain a local maximum point smaller than the range, obtain a local minimum point whose amplitude is larger than a predetermined range for the maximum local minimum point, obtain a local minimum point whose amplitude is smaller than the predetermined range for the maximum local minimum point, It between each maxima greater than the range of The time interval is determined between each local maximum point smaller than the predetermined range, the time interval is determined between each local minimum point larger than the predetermined range, and the local time interval between the local minimum points smaller than the predetermined range. , A time interval is obtained, a histogram of the time interval is obtained as a common one, and the most probable value of the histogram is extracted as the pitch of the audio signal.

【0008】ここで、本発明に係るピッチ検出装置で
は、ヒストグラムの最瀕値とその周辺の値を比較し、比
較結果に基づいて音声の母音/非母音を判定する。
Here, in the pitch detecting apparatus according to the present invention, the most probable value of the histogram is compared with its surrounding values, and the vowel / non-vowel of the voice is determined based on the comparison result.

【0009】また、本発明に係る情報媒体は、上述の課
題を解決するために、本発明に係るピッチ検出装置を実
現するためのプログラムデータを記録、若しくは伝送す
る。
Further, in order to solve the above-mentioned problems, the information medium according to the present invention records or transmits program data for realizing the pitch detecting device according to the present invention.

【0010】[0010]

【発明の実施の形態】以下、本発明に係るピッチ検出装
置及び情報媒体の好ましい実施の形態について、図面を
参照しながら詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Preferred embodiments of a pitch detecting device and an information medium according to the present invention will be described below in detail with reference to the drawings.

【0011】本発明の第1の実施の形態となるピッチ検
出装置の概略構成を図1に示す。
FIG. 1 shows a schematic configuration of a pitch detecting device according to a first embodiment of the present invention.

【0012】この図1において、入力端子1には、アナ
ログ音声信号として例えば図2に示すような波形信号が
供給され、アナログ/デジタル(A/D)変換器2に供
給される。このアナログ/デジタル変換器2は、図2の
アナログ音声信号波形を、例えば44.1kHzのサン
プリング周波数でサンプリング処理してデジタル信号に
変換する。アナログ/デジタル変換器2にてデジタル化
された音声データは、フィルタ回路3に送られる。
In FIG. 1, for example, a waveform signal as shown in FIG. 2 is supplied to an input terminal 1 as an analog audio signal, and supplied to an analog / digital (A / D) converter 2. The analog / digital converter 2 converts the analog audio signal waveform in FIG. 2 into a digital signal by performing a sampling process at a sampling frequency of, for example, 44.1 kHz. The audio data digitized by the analog / digital converter 2 is sent to the filter circuit 3.

【0013】当該フィルタ回路3は、IIR(巡回型)
若しくはFIR(非巡回型)のデジタルフィルタであ
り、例えば図3に示すようなカットオフ周波数が300
Hzの周波数特性を有する低域濾波器(ローパスフィル
タ)である。このフィルタ回路3にて低域濾波を行うこ
とで、図2に示したような波形信号は例えば図4(a)
に示したような高域成分が除去された波形信号となる。
なお、フィルタ回路3の出力は、実際にはデジタルデー
タであるが、該フィルタ処理の結果をわかりやすくする
ために、図4(a)の例ではアナログ波形信号のように
表している。このフィルタ回路3からの出力データは、
バッファメモリ4に送られる。
The filter circuit 3 has an IIR (circular type).
Alternatively, it is an FIR (non-recursive) digital filter having a cutoff frequency of 300 as shown in FIG.
It is a low-pass filter (low-pass filter) having a frequency characteristic of Hz. By performing low-pass filtering in the filter circuit 3, the waveform signal as shown in FIG.
A high-frequency component as shown in FIG.
Although the output of the filter circuit 3 is actually digital data, it is represented as an analog waveform signal in the example of FIG. The output data from this filter circuit 3 is
The data is sent to the buffer memory 4.

【0014】該バッファメモリ4は、フィルタ回路3か
らのデータを蓄積し、後段のピークサーチ回路5におけ
る処理単位時間分毎に出力、すなわち処理単位時間分に
対応するサンプル数毎のデータを出力する。本実施の形
態では、該処理単位時間を約30m秒(正確には約29
m秒、サンプル数で表すと1280サンプル毎)のフレ
ームとしている。バッファメモリ4から出力された該フ
レーム(1280サンプル)毎のデータは、ピークサー
チ回路5に送られる。
The buffer memory 4 accumulates data from the filter circuit 3 and outputs the data for each processing unit time in the peak search circuit 5 at the subsequent stage, ie, outputs data for each sample number corresponding to the processing unit time. . In the present embodiment, the processing unit time is set to about 30 ms (more precisely, about 29 ms).
(m seconds, every 1280 samples in terms of the number of samples). The data for each frame (1280 samples) output from the buffer memory 4 is sent to the peak search circuit 5.

【0015】このピークサーチ回路5では、バッファメ
モリ4から供給された各サンプルデータを1サンプル毎
に比較し、その比較出力に基づいて、音声データのロー
カルピーク(極大点及び極小点)を抽出する。
The peak search circuit 5 compares each sample data supplied from the buffer memory 4 for each sample, and extracts local peaks (maximum points and minimum points) of the audio data based on the comparison output. .

【0016】具体的に言うと、該ピークサーチ回路5で
は、音声データの各サンプル毎に、現在の音声データと
その1サンプル前の音声データとを比較し、現在のサン
プル値がその1サンプル前のサンプル値よりも大きいこ
とを示す比較結果が続いた後、現在のサンプル値がその
1サンプル前のサンプル値よりも小さくなったことを示
す比較結果が得られたとき、或いは、現在のサンプル値
がその1サンプル前のサンプル値よりも小さいことを示
す比較結果が続いた後、現在のサンプル値がその1サン
プル前のサンプル値よりも大きくなったことを示す比較
結果が得られたときに、それら比較結果の変化時点を、
音声データのローカルピーク(極大点あるいは極小点)
として検出する。
More specifically, the peak search circuit 5 compares, for each sample of the audio data, the current audio data with the audio data one sample before the current data, and determines that the current sample value is one sample before the sample data. After the comparison result indicating that the current sample value is smaller than the sample value of the immediately preceding sample after the comparison result indicating that the current sample value is smaller than the sample value of the current sample value, or Is followed by a comparison result indicating that the current sample value is smaller than the sample value of the previous sample, and then when a comparison result indicating that the current sample value is larger than the sample value of the previous sample is obtained, The time of change of those comparison results is
Local peak of audio data (maximum point or minimum point)
Detected as

【0017】すなわち、現在のサンプル値がその1サン
プル前のサンプル値よりも大きいことを示す比較結果が
続いた後、現在のサンプル値がその1サンプル前のサン
プル値よりも小さくなった時点の当該現在のサンプル値
の1つ前のサンプル値が極大点(以下、ローカルマキシ
マムMAと言う)を示し、一方で、現在のサンプル値が
その1サンプル前のサンプル値よりも小さいことを示す
比較結果が続いた後、現在のサンプル値がその1サンプ
ル前のサンプル値よりも大きくなった時点の当該現在の
サンプル値の1つ前のサンプル値が極小点(以下、ロー
カルミニマムMIと言う)を示す。
That is, after the comparison result indicating that the current sample value is larger than the sample value of the immediately preceding sample followed by the comparison result indicating that the current sample value is smaller than the sample value of the immediately preceding sample. The comparison result indicating that the sample value immediately before the current sample value indicates the local maximum point (hereinafter, referred to as local maximum MA), while the current sample value is smaller than the sample value immediately before the current sample value. After that, the sample value immediately before the current sample value when the current sample value becomes larger than the sample value immediately before the current sample value indicates a minimum point (hereinafter, referred to as a local minimum MI).

【0018】したがって、当該ピークサーチ回路5で
は、このようにサンプル比較結果の変化に基づいて、音
声データのローカルマキシマムMAのサンプルデータ、
及びローカルミニマムMIのサンプルデータを検出す
る。このピークサーチ回路5によって検出されたローカ
ルマキシマムMA及びローカルミニマムMIのサンプル
データは符号データ化回路6に送られる。
Therefore, in the peak search circuit 5, based on the change in the sample comparison result, the sample data of the local maximum MA of the audio data,
And sample data of the local minimum MI. The sample data of the local maximum MA and the local minimum MI detected by the peak search circuit 5 are sent to the code data conversion circuit 6.

【0019】符号データ化回路6は、図4(b)及び図
5に示すように、ピークサーチ回路5より供給された各
ローカルマキシマムMAのサンプルデータに対しては正
(+)の符号を付加し、各ローカルミニマムMIのサン
プルデータに対しては負(−)の符号を付加する。な
お、図5には、一例として、ローカルマキシマムMAの
サンプルデータ及び各ローカルミニマムMIのサンプル
データのみを抜き出して示している。この符号データ化
回路6にて符号データ化されたローカルマキシマムMA
及びローカルミニマムMIの各サンプルデータは、デー
タ分析回路7に送られる。
The sign data converting circuit 6 adds a positive (+) sign to the sample data of each local maximum MA supplied from the peak search circuit 5, as shown in FIGS. Then, a negative (-) sign is added to the sample data of each local minimum MI. FIG. 5 shows only the sample data of the local maximum MA and the sample data of each local minimum MI as an example. The local maximum MA converted into code data by the code data conversion circuit 6
And the respective sample data of the local minimum MI are sent to the data analysis circuit 7.

【0020】データ分析回路7では、先ず、正(+)の
符号が付加された各ローカルマキシマム(極大値)MA
の振幅の絶対値と、符号データ化回路6にて負(−)の
符号が付加された各ローカルミニマム(極小値)MIの
振幅の絶対値とを、それぞれ求め、当該フレーム内にお
いてそれら振幅の絶対値が最も大きいローカルマキシマ
ムMAとローカルミニマムMIを求める。なお、図5の
例では、振幅の絶対値が最も大きいローカルマキシマム
MAを特に第1ローカルマキシマムMAGとして表し、
振幅の絶対値が最も大きいローカルミニマムMIを特に
第1ローカルミニマムMIGとして表している。
In the data analysis circuit 7, first, each local maximum (maximum value) MA to which a plus (+) sign is added.
And the absolute value of the amplitude of each local minimum (minimum value) MI to which a negative (-) sign is added by the sign data conversion circuit 6, and obtains the absolute value of these amplitudes in the frame. The local maximum MA and the local minimum MI having the largest absolute values are obtained. In the example of FIG. 5, the local maximum MA having the largest absolute value of the amplitude is represented as the first local maximum MAG, in particular.
The local minimum MI having the largest absolute value of the amplitude is particularly represented as a first local minimum MIG.

【0021】次いで、データ分析回路7は、第1ローカ
ルマキシマムMAGに対応して設定される図5中の所定
範囲RT内に、その振幅の値が入っている全てのローカ
ルマキシマムMAと、第1ローカルミニマムMIGに対
応して設定される図5中の所定範囲RU内に、その振幅
の値が入っている全てのローカルミニマムMIを求め
る。
Next, the data analysis circuit 7 performs all local maximum MAs whose amplitude values fall within a predetermined range RT in FIG. 5 set corresponding to the first local maximum MAG and the first local maximum MA. All local minimums MI whose amplitude values fall within a predetermined range RU in FIG. 5 set corresponding to the local minimum MIG are obtained.

【0022】図5の例では、第1ローカルマキシマムM
AGに対応した所定範囲RT内に、その振幅値が入って
いるローカルマキシマムMAを、特に第2ローカルマキ
シマムMAR(MAR1,MAR2,・・・)として表
しており、また、第1ローカルミニマムMIMに対応し
た所定範囲RU内に、その振幅値が入っているローカル
ミニマムMIを、特に第2ローカルミニマムMIR(M
IR1,MIR2,・・・)として表している。
In the example of FIG. 5, the first local maximum M
The local maximum MA whose amplitude value falls within the predetermined range RT corresponding to the AG is represented in particular as a second local maximum MAR (MAR1, MAR2,...), And a first local minimum MIM. A local minimum MI whose amplitude value falls within the corresponding predetermined range RU, particularly a second local minimum MIR (M
IR1, MIR2,...).

【0023】ここで、第1ローカルマキシマムMAGに
対応した所定範囲RTは、第2ローカルマキシマムMA
Rを複数個求めることができるような範囲であり、同じ
く、第1ローカルミニマムMIGに対応した所定範囲R
Uは、第2ローカルミニマムMIRを複数個求めること
ができるような範囲である。すなわち、データ分析回路
7では、後述するように、時間間隔の統計的分析を行う
ようにしているので、該統計的分析の精度を高めるに
は、第2ローカルマキシマムMARと第2ローカルミニ
マムMIRがそれぞれ複数個必要になるからである。
Here, the predetermined range RT corresponding to the first local maximum MAG is the second local maximum MA.
R is a range in which a plurality of R can be obtained, and similarly, a predetermined range R corresponding to the first local minimum MIG.
U is a range in which a plurality of second local minimum MIRs can be obtained. That is, in the data analysis circuit 7, as will be described later, the statistical analysis of the time interval is performed. To improve the accuracy of the statistical analysis, the second local maximum MAR and the second local minimum MIR are used. This is because each requires a plurality.

【0024】なお、所定範囲RTとしては、図5中の振
幅値0から第1のローカルマキシマムMAGの振幅値ま
での間で任意の範囲に設定することができ、所定範囲R
Uとしては、図5中の振幅値0から第1のローカルミニ
マムMIGの振幅値までの間で任意の範囲に設定するこ
とができる。
The predetermined range RT can be set to any range between the amplitude value 0 in FIG. 5 and the amplitude value of the first local maximum MAG.
U can be set to an arbitrary range from the amplitude value 0 in FIG. 5 to the amplitude value of the first local minimum MIG.

【0025】これら所定範囲RTと所定範囲RUの一例
としては、任意フレーム内の全てのローカルマキシマム
MA,ローカルミニマムMIのなかで、例えば音声信号
のピッチを最も特徴的に表すローカルマキシマムMA,
ローカルミニマムMIのみを抜き出すことができるよう
な範囲に設定することが考えられる。例えば振幅の絶対
値が極端に大きなローカルマキシマムMAやローカルミ
ニマムMI、或いは、例えば振幅の絶対値が極端に小さ
なローカルマキシマムMAやローカルミニマムMIをピ
ッチ検出に用いることが好ましくないと考える場合に
は、それら極端に大きなローカルマキシマムMAやロー
カルミニマムMI、及び、極端に小さなローカルマキシ
マムMAやローカルミニマムMIを除外することができ
る所定範囲RTと所定範囲RUを設定しておくことが望
ましい。このような所定範囲RTと所定範囲RUを用い
れば、フレーム内の全てのローカルマキシマムMA及び
ローカルミニマムMIのなかで、ピッチ検出に好適なロ
ーカルマキシマムMA及びローカルミニマMIムのみを
取り出すことが可能となり、正確なピッチの検出ができ
ると共に、フレーム内の全てのローカルマキシマムM
A,ローカルミニマムMIを用いてピッチ検出を行う場
合よりも、遙かに少ない演算量でピッチを検出すること
が可能になる。
As an example of the predetermined range RT and the predetermined range RU, among all the local maximums MA and the local minimums MI in an arbitrary frame, for example, the local maximum MA, which most specifically represents the pitch of the audio signal,
It is conceivable to set the range so that only the local minimum MI can be extracted. For example, when it is not preferable to use a local maximum MA or a local minimum MI having an extremely large absolute value of the amplitude, or a local maximum MA or a local minimum MI having an extremely small absolute value of the amplitude for the pitch detection, for example, It is desirable to set a predetermined range RT and a predetermined range RU from which the extremely large local maximum MA and local minimum MI and the extremely small local maximum MA and local minimum MI can be excluded. By using the predetermined range RT and the predetermined range RU, it is possible to extract only the local maximum MA and the local minimum MI suitable for pitch detection from all the local maximums MA and the local minimums MI in the frame. , Accurate pitch detection and all local maximums M in the frame
A, It is possible to detect the pitch with a much smaller amount of calculation than when pitch detection is performed using the local minimum MI.

【0026】さらに、データ分析回路7では、上述のよ
うにして求めた第1ローカルマキシマムMAG及び全て
の第2ローカルマキシマムMAR(MAR1,MAR
2,MAR3,・・・)を用いて、それら各ローカルマ
キシマム間の時間間隔(例えばサンプル数)を測定し、
同じく、第1ローカルミニマムMIG及び全ての第2ロ
ーカルミニマムMIR(MIR1,MIR2,MIR
3,・・・)を用いて、それら各ローカルミニマム間の
時間間隔(例えばサンプル数)を測定する。
Further, in the data analysis circuit 7, the first local maximum MAG and all the second local maximums MAR (MAR1, MAR) obtained as described above are obtained.
2, MAR3,...) To measure the time interval (for example, the number of samples) between the respective local maximums,
Similarly, the first local minimum MIG and all the second local minimums MIR (MIR1, MIR2, MIR)
3,...), The time interval (for example, the number of samples) between the local minimums is measured.

【0027】すなわち、このことを図5の例を用いて説
明すると、データ分析回路7では、第1ローカルマキシ
マムMAG及び第2ローカルマキシマムMARについて
の時間間隔として、第2ローカルマキシマムMAR1か
ら次の第1ローカルマキシマムMAGまでの時間間隔
(サンプル数)TD1、第2ローカルマキシマムMAR
1から第2ローカルマキシマムMAR2までの時間間隔
(サンプル数)TD2、第2ローカルマキシマムMAR
1から第2ローカルマキシマムMAR3までの時間間隔
(サンプル数)TD3、・・・のように、第2ローカル
マキシマムMAR1から他の各第2ローカルマキシマム
MAR又は第1ローカルマキシマムMAGについてそれ
ぞれの時間間隔を求めると共に、同様にして、第1ロー
カルマキシマムMAGから次の第2ローカルマキシマム
MAR2までの時間間隔、第1ローカルマキシマムMA
Gから第2ローカルマキシマムMAR3までの時間間
隔、第1ローカルマキシマムMAGから第2ローカルマ
キシマムMAR4までの時間間隔、・・・のように、第
1ローカルマキシマムMAGから他の各第2ローカルマ
キシマムMARについてそれぞれの時間間隔を求める。
第2ローカルマキシマムMAR2以降の各第2ローカル
マキシマムMAR3,MAR4,MAR5,・・・(M
AR6以降は図示を省略)についても同様にしてそれぞ
れの時間間隔を求める。
That is, this will be described with reference to the example shown in FIG. 5. In the data analysis circuit 7, the time interval between the first local maximum MAG and the second local maximum MAR is calculated from the second local maximum MAR1 to the next local maximum MAR. Time interval (number of samples) TD1 to 1st local maximum MAG, 2nd local maximum MAR
Time interval (number of samples) TD2 from 1 to the second local maximum MAR2, the second local maximum MAR
Like the time interval (number of samples) TD3 from 1 to the second local maximum MAR3, each time interval from the second local maximum MAR1 to each of the other second local maximum MARs or the first local maximum MAG is set. In the same manner, the time interval from the first local maximum MAG to the next second local maximum MAR2, the first local maximum MA
Time intervals from G to the second local maximum MAR3, time intervals from the first local maximum MAG to the second local maximum MAR4,..., From the first local maximum MAG to each other second local maximum MAR Find each time interval.
Each of the second local maximums MAR3, MAR4, MAR5,... (M
Similarly, the respective time intervals are obtained for AR6 and thereafter (not shown).

【0028】同様に、データ分析回路7では、第1ロー
カルミニマムMIG及び第2ローカルミニマムMIRに
ついての時間間隔として、第2ローカルミニマムMIR
1から次の第1ローカルマキシマムMIGまでの時間間
隔(サンプル数)AD1、第2ローカルミニマムMIR
1から第2ローカルミニマムMIR2までの時間間隔
(サンプル数)AD2、第2ローカルミニマムMIR1
から第2ローカルミニマムMIR3までの時間間隔(サ
ンプル数)、・・・のように、第2ローカルミニマムM
IR1から他の各第2ローカルミニマムMIR又は第1
ローカルミニマムMIGについてそれぞれの時間間隔を
求めると共に、同様にして、第1ローカルミニマムMI
Gから次の第2ローカルミニマムMIR2までの時間間
隔、第1ローカルミニマムMIGから第2ローカルミニ
マムMIR3までの時間間隔、・・・のように、第1ロ
ーカルミニマムMIGから他の各第2ローカルミニマム
についてそれぞれの時間間隔を求める。第2ローカルミ
ニマムMIR2以降の各第2ローカルミニマムMIR
3,MIR4(図示は省略),・・・についても同様に
してそれぞれの時間間隔を求める。
Similarly, the data analysis circuit 7 sets the second local minimum MIR as a time interval for the first local minimum MIG and the second local minimum MIR.
Time interval (number of samples) AD1 from 1 to the next first local maximum MIG, second local minimum MIR
Time interval (number of samples) AD2 from 1 to the second local minimum MIR2, second local minimum MIR1
From the second local minimum MIR3 to the second local minimum MIR3,...
From IR1 each other second local minimum MIR or first
The respective time intervals for the local minimum MIG are obtained, and similarly, the first local minimum MI
A time interval from G to the next second local minimum MIR2, a time interval from the first local minimum MIG to the second local minimum MIR3,..., Etc. from the first local minimum MIG to each other second local minimum. For each time interval. Each second local minimum MIR after the second local minimum MIR2
, MIR4 (not shown),.

【0029】その後、データ分析回路7では、第1ロー
カルマキシマムMAG及び第2ローカルマキシマムMA
Rを用いて求めた各時間間隔(サンプル数)と、第1ロ
ーカルミニマムMIG及び第2ローカルミニマムMIR
を用いて求めた時間間隔(サンプル数)の両方を用い
て、統計的な分析を行う。
Thereafter, in the data analysis circuit 7, the first local maximum MAG and the second local maximum MA
R, each time interval (the number of samples), the first local minimum MIG and the second local minimum MIR
Statistical analysis is performed using both time intervals (number of samples) determined using

【0030】具体的に言うと、該データ分析回路7で
は、第1ローカルマキシマムMAG及び第2ローカルマ
キシマムMARを用いて求めた各時間間隔(サンプル
数)と、第1ローカルミニマムMIG及び第2ローカル
ミニマムMIRを用いて求めた時間間隔(サンプル数)
の両方を用いて、ヒストグラムを作成し、当該ヒストグ
ラムの最瀕値を求める。
More specifically, in the data analysis circuit 7, each time interval (the number of samples) obtained by using the first local maximum MAG and the second local maximum MAR, and the first local minimum MIG and the second local maximum MIG are used. Time interval (sample number) obtained using the minimum MIR
, A histogram is created, and the closest value of the histogram is determined.

【0031】すなわち、例えば図6に示すように、第1
ローカルマキシマムMAG及び第2ローカルマキシマム
MARを用いて求めた各時間間隔(サンプル数)と、第
1ローカルミニマムMIG及び第2ローカルミニマムM
IRを用いて求めた時間間隔(サンプル数)のうち、最
も発生頻度が高い時間間隔(サンプル数)を求める。図
6の例では、それら両者の時間間隔として、81サンプ
ル分の時間間隔を有するものが2回、82サンプル分の
時間間隔を有するものが2回、83サンプル分の時間間
隔を有するものが3回、・・・、192サンプル分の時
間間隔を有するものが5回、193サンプル分の時間間
隔を有するものが11回、194サンプル分の時間間隔
を有するものが6回、・・・となり、ヒストグラムの最
瀕値としては、193サンプル分の時間間隔を有するも
のが11回であり、したがって、データ分析回路7は、
当該193サンプル分の時間間隔を統計分析結果として
出力する。
That is, for example, as shown in FIG.
Each time interval (the number of samples) obtained using the local maximum MAG and the second local maximum MAR, the first local minimum MIG and the second local minimum M
Among the time intervals (the number of samples) obtained using IR, the time interval (the number of samples) having the highest occurrence frequency is obtained. In the example of FIG. 6, the time interval between them is two times with a time interval of 81 samples, twice with a time interval of 82 samples, and 3 with a time interval of 83 samples. Times,..., 5 times with a time interval of 192 samples, 11 times with a time interval of 193 samples, 6 times with a time interval of 194 samples,. The most probable values of the histogram are 11 times having a time interval of 193 samples, and therefore, the data analysis circuit 7
The time interval of the 193 samples is output as a statistical analysis result.

【0032】データ分析回路7での統計分析により求め
られた時間間隔出力は、ピッチ決定回路8に送られる。
該ピッチ決定回路8では、データ分析回路7から供給さ
れた時間間隔出力に基づいて、入力音声信号のピッチを
決定する。すなわち、図6に示した統計分析結果を例に
挙げて説明すると、ピッチ決定回路8では、193サン
プル分の時間間隔を、入力端子1に供給された入力音声
信号のピッチ周期として決定する。
The time interval output obtained by the statistical analysis in the data analysis circuit 7 is sent to the pitch determination circuit 8.
The pitch determination circuit 8 determines the pitch of the input audio signal based on the time interval output supplied from the data analysis circuit 7. In other words, using the statistical analysis result shown in FIG. 6 as an example, the pitch determination circuit 8 determines the time interval of 193 samples as the pitch period of the input audio signal supplied to the input terminal 1.

【0033】該ピッチ決定回路8にて決定されたピッチ
周期は、出力端子9からピッチ検出結果として出力され
る。
The pitch cycle determined by the pitch determination circuit 8 is output from an output terminal 9 as a pitch detection result.

【0034】図1に示した第1の実施の形態のピッチ検
出装置におけるピッチ検出動作の流れをフローチャート
にて表すと、図7に示すようになる。
FIG. 7 is a flowchart showing the flow of the pitch detecting operation in the pitch detecting device according to the first embodiment shown in FIG.

【0035】この図7において、ステップS1では、入
力端子1に供給された音声信号を、アナログ/デジタル
変換器2にてデジタルデータに変換し、さらにフィルタ
回路3にて所望の周波数帯域のみを取り出す低域濾波を
行った後、バッファメモリ4にて単位時間(フレーム)
毎に切り出す。
In FIG. 7, in step S1, the audio signal supplied to the input terminal 1 is converted into digital data by the analog / digital converter 2, and only the desired frequency band is extracted by the filter circuit 3. After low-pass filtering, unit time (frame) in buffer memory 4
Cut out each time.

【0036】次のステップS2では、ピークサーチ回路
5にて、ローカルマキシマムMA(極大点)とローカル
ミニマムMI(極小点)を抽出し、さらに符号データ化
回路6にてローカルマキシマムMAに正(+)の符号を
付加し、ローカルミニマムMIに負(−)の符号を付加
する符号データ化を行う。
In the next step S 2, the local maximum MA (maximum point) and the local minimum MI (minimum point) are extracted by the peak search circuit 5, and the local maximum MA is positive (+) by the code data conversion circuit 6. ) Is added and the local minimum MI is added with a negative (−) sign to generate coded data.

【0037】ステップS3では、データ分析回路7にお
いて、正(+)の符号が付加された各ローカルマキシマ
ムMA(極大値)の振幅の絶対値と、符号データ化回路
6にて負(−)の符号が付加された各ローカルミニマム
MI(極小値)の振幅の絶対値とを、それぞれ求め、当
該フレーム内においてそれら振幅の絶対値が最も大きい
第1ローカルマキシマムMAGと第1ローカルミニマム
MIGを求める。
In step S3, the absolute value of the amplitude of each local maximum MA (maximum value) to which the positive (+) sign is added and the negative (-) The absolute value of the amplitude of each local minimum MI (minimum value) to which the sign is added is obtained, and the first local maximum MAG and the first local minimum MIG having the highest absolute value of the amplitude in the frame are obtained.

【0038】ステップS4では、データ分析回路7にお
いて、振幅の絶対値が最大の第1ローカルマキシマムM
AGに対応した所定範囲RT内に、その振幅値が入って
いる全ての第2ローカルマキシマムMARを求め、それ
らの第1ローカルマキシマムMAG及び第2ローカルマ
キシマムMARを用いて各時間間隔(サンプル数)を測
定し、その時間間隔からヒストグラムを作成する。
In step S4, in the data analysis circuit 7, the first local maximum M having the largest absolute value of the amplitude is set.
All second local maximum MARs whose amplitude values fall within a predetermined range RT corresponding to AG are obtained, and each time interval (the number of samples) is determined using the first local maximum MAG and the second local maximum MAR. Is measured, and a histogram is created from the time interval.

【0039】ステップS5では、データ分析回路7にお
いて、振幅の絶対値が最大の第1ローカルミニマムMI
Gに対応した所定範囲RU内に、その振幅値が入ってい
る全ての第2ローカルミニマムMIRを求め、それらの
第1ローカルミニマムMIG及び第2ローカルミニマム
MIRを用いて各時間間隔(サンプル数)を測定し、そ
の時間間隔を、ステップS4のヒストグラムに加える。
In step S5, in the data analysis circuit 7, the first local minimum MI having the maximum absolute value of the amplitude is obtained.
All second local minimum MIRs whose amplitude values fall within a predetermined range RU corresponding to G are obtained, and each time interval (the number of samples) is determined using the first local minimum MIG and the second local minimum MIR. Is measured, and the time interval is added to the histogram in step S4.

【0040】ステップS6では、データ分析回路7に
て、ヒストグラムの最瀕値を求め、その後、ピッチ決定
回路8において当該ヒストグラムの最瀕値からピッチ周
期を決定する。
In step S6, the data analysis circuit 7 finds the histogram's most probable value, and then the pitch determination circuit 8 determines the pitch period from the histogram's most probable value.

【0041】この第1の実施の形態によれば、音声信号
の相関を求めることなく、その波形の特徴から少ない演
算量で精度の高いピッチ検出が可能である。また、この
第1の実施の形態によれば、全てのローカルマキシマム
MA及びローカルミニマムMIを用いて時間間隔を測定
する場合よりも、少ない演算量でピッチ検出が可能とな
っている。
According to the first embodiment, the pitch can be detected with high accuracy with a small amount of calculation from the characteristics of the waveform without finding the correlation of the audio signal. Further, according to the first embodiment, pitch detection can be performed with a smaller amount of calculation than when measuring a time interval using all local maximums MA and local minimums MI.

【0042】次に、本発明の第2のピッチ検出装置が適
用される第2の実施の形態のピッチ検出装置について説
明する。
Next, a description will be given of a pitch detecting apparatus according to a second embodiment to which the second pitch detecting apparatus of the present invention is applied.

【0043】この第2の実施の形態のピッチ検出装置で
は、図8に示すように、フレーム内で振幅の絶対値が最
大の第1ローカルマキシマムMAGに対応した所定範囲
RTAよりも、その振幅値が大きいローカルマキシマム
MA(MAB)を求め、それらのローカルマキシマムM
A(MAB)を用いて時間間隔を計測してヒストグラム
を作成し、また、フレーム内で振幅の絶対値が最大の第
1ローカルミニマムMIGに対応した所定範囲RUIよ
りも、その振幅値が大きいローカルミニマムMI(MI
B)を求め、それらのローカルミニマムMI(MIB)
を用いて時間間隔を計測してヒストグラムに加えるよう
にする。
In the pitch detecting device according to the second embodiment, as shown in FIG. 8, the amplitude value is larger than the predetermined range RTA corresponding to the first local maximum MAG having the largest absolute value in the frame. Seeks a local maximum MA (MAB) with a large
A (MAB) is used to measure a time interval to create a histogram, and a local area having a larger amplitude value than a predetermined range RUI corresponding to a first local minimum MIG having the largest absolute value in the frame. Minimum MI (MI
B) and their local minimum MI (MIB)
Is used to measure the time interval and add it to the histogram.

【0044】さらに、第2の実施の形態のピッチ検出装
置では、振幅の絶対値が最大の第1ローカルマキシマム
MAGに対応した所定範囲RTAよりもその振幅値が小
さいローカルマキシマムMA(MAS)を求め、それら
のローカルマキシマムMA(MAS)を用いて時間間隔
を計測してヒストグラムを生成し、また、振幅の絶対値
が最大の第1ローカルミニマムMIGに対応した所定範
囲RUIよりもその振幅値が小さいローカルミニマムM
I(MIS)を求め、それらのローカルミニマムMI
(MIS)を用いて時間間隔を計測して先のヒストグラ
ムに加えるようにする。
Further, in the pitch detection device of the second embodiment, a local maximum MA (MAS) whose amplitude value is smaller than a predetermined range RTA corresponding to the first local maximum MAG having the largest absolute value is obtained. A time interval is measured using the local maximum MA (MAS) to generate a histogram, and the amplitude value is smaller than a predetermined range RUI corresponding to the first local minimum MIG having the largest absolute value of the amplitude. Local minimum M
I (MIS) and their local minimum MI
The time interval is measured using (MIS) and added to the previous histogram.

【0045】この第2の実施の形態のピッチ検出装置の
概略構成は図1と同様であるため、その図示は省略する
が、当該第2の実施の形態のピッチ検出装置のデータ分
析回路7では、以下のようなことを行っている。
The schematic configuration of the pitch detector of the second embodiment is the same as that of FIG. 1 and is not shown, but the data analysis circuit 7 of the pitch detector of the second embodiment is not shown. Do the following:

【0046】すなわち、第2の実施の形態のピッチ検出
装置のデータ分析回路7では、図8に示すように、先
ず、正(+)の符号が付加された各ローカルマキシマム
(極大値)MAの振幅の絶対値と、符号データ化回路6
にて負(−)の符号が付加された各ローカルミニマム
(極小値)MIの振幅の絶対値とを、それぞれ求め、当
該フレーム内においてそれら振幅の絶対値が最も大きい
第1ローカルマキシマムMAGと第1ローカルミニマム
MIGを求める。
That is, in the data analysis circuit 7 of the pitch detection device according to the second embodiment, as shown in FIG. 8, first, each local maximum (maximum value) MA to which a positive (+) sign is added Absolute value of amplitude and code data conversion circuit 6
, The absolute value of the amplitude of each local minimum (minimum value) MI to which a negative (-) sign is added, and the first local maximum MAG and the first local maximum MAG having the largest absolute value of the amplitude in the frame. 1. Find a local minimum MIG.

【0047】次いで、データ分析回路7は、第1ローカ
ルマキシマムMAGに対応して設定される所定範囲RT
Aよりも、その振幅の値が大きい全てのローカルマキシ
マムMAと、第1ローカルミニマムMIGに対応して設
定される所定範囲RUIよりも、その振幅の値が大きい
全てのローカルミニマムMIを求める。図8の例では、
第1ローカルマキシマムMAGに対応した所定範囲RT
Aよりも、その振幅値が大きいローカルマキシマムMA
を、特に第3ローカルマキシマムMAB(MAB1,M
AB2,・・・)として表し、第1ローカルミニマムM
IMに対応した所定範囲RUIよりも、その振幅値が大
きいローカルミニマムMIを、特に第3ローカルミニマ
ムMIB(MIB1,MIB2,・・・)として表して
いる。
Next, the data analysis circuit 7 sets a predetermined range RT corresponding to the first local maximum MAG.
All local maximums MA whose amplitude value is larger than A and all local minimums MI whose amplitude value is larger than a predetermined range RUI set corresponding to the first local minimum MIG are obtained. In the example of FIG.
A predetermined range RT corresponding to the first local maximum MAG
Local maximum MA whose amplitude value is larger than A
In particular, the third local maximum MAB (MAB1, M
AB2,...), And the first local minimum M
The local minimum MI whose amplitude value is larger than the predetermined range RUI corresponding to the IM is particularly represented as a third local minimum MIB (MIB1, MIB2,...).

【0048】同様に、データ分析回路7は、第1ローカ
ルマキシマムMAGに対応して設定される所定範囲RT
Aよりも、その振幅の値が小さい全てのローカルマキシ
マムMIと、第1ローカルミニマムMIGに対応して設
定される所定範囲RUIよりも、その振幅の値が小さい
全てのローカルミニマムMIを求める。図8の例では、
第1ローカルマキシマムMAGに対応した所定範囲RT
Aよりも、その振幅値が小さいローカルマキシマムMI
を、特に第4ローカルマキシマムMAS(MAS1,M
AS2,・・・)として表し、第1ローカルミニマムM
IMに対応した所定範囲RUIよりも、その振幅値が小
さいローカルミニマムを、特に第4ローカルミニマムM
IS(MIS1,MIS2,・・・)として表してい
る。
Similarly, data analysis circuit 7 has a predetermined range RT set corresponding to the first local maximum MAG.
All local maximums MI whose amplitudes are smaller than A and all local minimums MI whose amplitudes are smaller than a predetermined range RUI set corresponding to the first local minimum MIG are obtained. In the example of FIG.
A predetermined range RT corresponding to the first local maximum MAG
Local maximum MI whose amplitude value is smaller than A
In particular, the fourth local maximum MAS (MAS1, M
AS2,...), And the first local minimum M
A local minimum whose amplitude value is smaller than a predetermined range RUI corresponding to the IM, in particular, a fourth local minimum M
IS (MIS1, MIS2,...).

【0049】ここで、第1ローカルマキシマムMAGに
対応した所定範囲RTAは、第3ローカルマキシマムM
ABや第4のローカルマキシマムMASを複数個求める
ことができるような範囲であり、同じく、第1ローカル
ミニマムMIMに対応した所定範囲RUIは、第3ロー
カルミニマムMIBや第4のローカルミニマムMISを
複数個求めることができるような範囲である。すなわ
ち、データ分析回路7では、時間間隔の統計的分析を行
うようにしているので、該統計的分析の精度を高めるに
は、第3ローカルマキシマムMAB及び第3ローカルミ
ニマムMIBと第4ローカルマキシマムMAS及び第4
ローカルミニマムMISがそれぞれ複数個必要になるか
らである。
Here, the predetermined range RTA corresponding to the first local maximum MAG is the third local maximum M
AB and a plurality of fourth local maximum MAS can be obtained. Similarly, the predetermined range RUI corresponding to the first local minimum MIM is a plurality of third local minimum MIB and fourth local minimum MIS. This is the range that can be obtained. That is, since the data analysis circuit 7 performs the statistical analysis of the time interval, in order to improve the accuracy of the statistical analysis, the third local maximum MAB, the third local minimum MIB, and the fourth local maximum MAS And fourth
This is because a plurality of local minimum MISs are required.

【0050】なお、所定範囲RTAとしては、図8中の
振幅値0から第1のローカルマキシマムMAGの振幅値
までの間で任意の範囲に設定することができ、所定範囲
RUIとしては、図8中の振幅値0から第1のローカル
ミニマムMIGの振幅値までの間で任意の範囲に設定す
ることができる。前述した第1の実施の形態では、図5
の所定範囲RTと所定範囲RUの一具体例として、フレ
ーム内の全てのローカルマキシマムMA,ローカルミニ
マムMIのなかで音声信号のピッチを最も特徴的に表す
ローカルマキシマムMA,ローカルミニマムMIのみを
抜き出すことができるような範囲に設定する例を挙げた
が、この第2の実施の形態の図8に示す所定範囲RT
A,RUIの一具体例としては、例えばフレーム内で最
も多く発生するローカルマキシマムMA,ローカルミニ
マムMIを除外することができるような範囲とすること
が考えられる。すなわち、フレーム内で最も多く発生す
るローカルマキシマムMA,ローカルミニマムMIを使
用すればピッチ検出の精度を上げることはできるが、そ
の演算量は増大する。したがって、それらフレーム内で
最も多く発生するローカルマキシマムMA,ローカルミ
ニマムMIをピッチ検出の演算から除外すれば、ピッチ
検出の精度は多少低下するが演算量を減らすことができ
る。このような所定範囲RTA及び所定範囲RUIを用
いれば、フレーム内の全てのローカルマキシマムMA,
ローカルミニマムMIを用いる場合や、例えばフレーム
内で最も多く発生するローカルマキシマムMA,ローカ
ルミニマムMIを用いる場合よりも、遙かに少ない演算
量でピッチを検出することが可能になる。
The predetermined range RTA can be set to any range from the amplitude value 0 in FIG. 8 to the amplitude value of the first local maximum MAG, and the predetermined range RUI is as shown in FIG. An arbitrary range can be set between the middle amplitude value 0 and the amplitude value of the first local minimum MIG. In the first embodiment described above, FIG.
As a specific example of the predetermined range RT and the predetermined range RU, only the local maximum MA and the local minimum MI that most characteristically represent the pitch of the audio signal among all the local maximum MA and the local minimum MI in the frame are extracted. Although the example in which the range is set so as to be able to be performed has been described, the predetermined range RT shown in FIG.
As a specific example of A and RUI, for example, a range that can exclude the local maximum MA and the local minimum MI that occur most frequently in a frame can be considered. That is, if the local maximum MA and the local minimum MI that occur most frequently in a frame are used, the accuracy of pitch detection can be increased, but the amount of calculation increases. Therefore, if the local maximum MA and the local minimum MI that occur most frequently in those frames are excluded from the pitch detection calculation, the pitch detection accuracy is slightly reduced, but the calculation amount can be reduced. By using such a predetermined range RTA and a predetermined range RUI, all the local maximums MA,
The pitch can be detected with a much smaller calculation amount than when the local minimum MI is used, or when, for example, the local maximum MA and the local minimum MI occur most frequently in a frame.

【0051】さらに、データ分析回路7では、上述のよ
うにして求めた第1ローカルマキシマムMAG及び全て
の第3ローカルマキシマムMAB(MAB1,MAB
2,MAB3,・・・)を用いて、それら各ローカルマ
キシマム間の時間間隔を測定し、同じく、第1ローカル
ミニマムMIG及び全ての第3ローカルミニマムMIB
(MIB1,MIB2,MIB3,・・・)を用いて、
それら各ローカルミニマム間の時間間隔(例えばサンプ
ル数)を測定する。
Further, in the data analysis circuit 7, the first local maximum MAG and all the third local maximum MABs (MAB1, MAB) obtained as described above are obtained.
2, MAB3,...) To measure the time interval between the respective local maximums, and similarly, the first local minimum MIG and all the third local minimum MIBs
(MIB1, MIB2, MIB3,...)
The time interval (for example, the number of samples) between these local minimums is measured.

【0052】同様に、データ分析回路7は、第1ローカ
ルマキシマムMAG及び全ての第4ローカルマキシマム
MAS(MAS1,MAS2,MAS3,・・・)を用
いて、それら各ローカルマキシマム間の時間間隔を測定
し、同じく、第1ローカルミニマムMIG及び全ての第
4ローカルミニマムMIS(MIS1,MIS2,MI
S3,・・・)を用いて、それら各ローカルミニマム間
の時間間隔(例えばサンプル数)を測定する。
Similarly, the data analysis circuit 7 uses the first local maximum MAG and all the fourth local maximum MASs (MAS1, MAS2, MAS3,...) To measure the time interval between the respective local maximums. Similarly, the first local minimum MIG and all fourth local minimums MIS (MIS1, MIS2, MI
S3,...), The time interval (for example, the number of samples) between these local minimums is measured.

【0053】すなわち、図8の例を用いて説明すると、
この第2の実施の形態のピッチ検出装置のデータ分析回
路7では、第1ローカルマキシマムMAG及び第3ロー
カルマキシマムMABについての時間間隔として、第1
ローカルマキシマムMAGから次の第3ローカルマキシ
マムMAB1までの時間間隔(サンプル数)tdb1、
第1ローカルマキシマムMAGから第3ローカルマキシ
マムMAB2までの時間間隔(サンプル数)tdb2、
第1ローカルマキシマムMAGから第3ローカルマキシ
マムMAB3までの時間間隔(サンプル数)tdb3、
・・・のように、第1ローカルマキシマムMAGから他
の各第3ローカルマキシマムMABについてそれぞれの
時間間隔(サンプル数)を求めると共に、同様にして、
第3ローカルマキシマムMAB1から次の第3ローカル
マキシマムMAB2までの時間間隔(サンプル数)、第
3ローカルマキシマムMAB1から第3ローカルマキシ
マムMAB3までの時間間隔(サンプル数)・・・のよ
うに、第3ローカルマキシマムMAB1から他の各第3
ローカルマキシマムMABについてそれぞれの時間間隔
(サンプル数)を求める。第3ローカルマキシマムMA
B2以降の各第3ローカルマキシマムMAB3,MAB
4,MAB5,・・・(MAB4以降は図示を省略)に
ついても同様にしてそれぞれの時間間隔(サンプル数)
を求める。
That is, with reference to the example of FIG.
In the data analysis circuit 7 of the pitch detection device according to the second embodiment, the time interval for the first local maximum MAG and the third local maximum MAB is set to the first local maximum MAG and the third local maximum MAB.
A time interval (number of samples) tdb1 from the local maximum MAG to the next third local maximum MAB1,
A time interval (number of samples) tdb2 from the first local maximum MAG to the third local maximum MAB2,
Time interval (number of samples) tdb3 from the first local maximum MAG to the third local maximum MAB3,
.., The respective time intervals (the number of samples) are obtained from the first local maximum MAG for each of the other third local maximum MABs.
A third time interval (number of samples) from the third local maximum MAB1 to the next third local maximum MAB2, a time interval (number of samples) from the third local maximum MAB1 to the third local maximum MAB3, and so on. Local maximum MAB1 to each other third
The respective time intervals (the number of samples) are obtained for the local maximum MAB. 3rd Local Maximum MA
Each third local maximum MAB3, MAB after B2
, MAB5,... (Not shown after MAB4) in the same manner for each time interval (number of samples)
Ask for.

【0054】同様に、この第2の実施の形態のピッチ検
出装置のデータ分析回路7では、第1ローカルマキシマ
ムMAG及び第4ローカルマキシマムMASについての
時間間隔(サンプル数)として、第4ローカルマキシマ
ムMAS1から次の第1ローカルマキシマムMAGまで
の時間間隔(サンプル数)tds1、第4ローカルマキ
シマムMAS1から第4ローカルマキシマムMAS2ま
での時間間隔(サンプル数)tds2、第4ローカルマ
キシマムMAS1から第4ローカルマキシマムMAS3
(図示は省略)までの時間間隔(サンプル数)・・・の
ように、第4ローカルマキシマムMAS1から他の各第
1ローカルマキシマムMAG又は第4ローカルマキシマ
ムMASについてそれぞれの時間間隔を求めると共に、
第1ローカルマキシマムMAGから次の第4ローカルマ
キシマムMAS2までの時間間隔(サンプル数)、第1
ローカルマキシマムMAGから第4ローカルマキシマム
MAS(図示は省略)までの時間間隔(サンプル数)・
・・のように、第1ローカルマキシマムMAGから他の
各第4ローカルマキシマムMASについてそれぞれの時
間間隔(サンプル数)を求める。第4ローカルマキシマ
ムMAS2以降の各第4ローカルマキシマムMAS3,
MAS4,MAS5,・・・(MAB3以降は図示を省
略)についても同様にしてそれぞれの時間間隔(サンプ
ル数)を求める。
Similarly, in the data analysis circuit 7 of the pitch detection device according to the second embodiment, the fourth local maximum MAS1 is set as the time interval (the number of samples) for the first local maximum MAG and the fourth local maximum MAS. From the first local maximum MAG to the next first local maximum MAG (number of samples) tds1, the time interval from the fourth local maximum MAS1 to the fourth local maximum MAS2 (number of samples) tds2, the fourth local maximum MAS1 to the fourth local maximum MAS3
As shown in a time interval (number of samples) to (not shown), each time interval is obtained from the fourth local maximum MAS1 for each of the other first local maximum MAGs or the fourth local maximum MAS.
Time interval (number of samples) from the first local maximum MAG to the next fourth local maximum MAS2, the first
Time interval (number of samples) from the local maximum MAG to the fourth local maximum MAS (not shown)
.., The respective time intervals (the number of samples) are obtained from the first local maximum MAG for each of the other fourth local maximum MAS. Each fourth local maximum MAS3 after the fourth local maximum MAS2
The same applies to MAS4, MAS5,... (Not shown after MAB3).

【0055】また、この第2の実施の形態のピッチ検出
装置のデータ分析回路7では、第1ローカルミニマムM
IG及び第3ローカルミニマムMIBについての時間間
隔として、第1ローカルミニマムMIGから次の第3ロ
ーカルミニマムMIB1までの時間間隔adb1、第1
ローカルミニマムMIGから第3ローカルミニマムMI
B2までの時間間隔adb2、第1ローカルミニマムM
IGから第3ローカルミニマムMIB3(図示は省略)
までの時間間隔・・・のように、第1ローカルミニマム
MIGから他の各第3ローカルミニマムMIBについて
それぞれの時間間隔を求めると共に、同様にして、第3
ローカルミニマムMIB1から次の第3ローカルミニマ
ムMIB2までの時間間隔、第3ローカルミニマムMI
B1から第3ローカルミニマムMIB3(図示は省略)
までの時間間隔・・・のように、第3ローカルミニマム
MIB1から他の各第3ローカルミニマムMIBについ
てそれぞれの時間間隔を求める。第3ローカルミニマム
MIB2以降の各第3ローカルミニマムMIB3,MI
B4,MIB5,・・・(MIB3以降は図示を省略)
についても同様にしてそれぞれの時間間隔を求める。
In the data analysis circuit 7 of the pitch detection device according to the second embodiment, the first local minimum M
As the time interval for the IG and the third local minimum MIB, the time interval adb1 from the first local minimum MIG to the next third local minimum MIB1, the first
Local minimum MIG to 3rd local minimum MI
Time interval adb2 to B2, first local minimum M
IG to 3rd local minimum MIB3 (not shown)
The time interval for the other third local minimum MIB is obtained from the first local minimum MIG as in the time interval up to...
Time interval from the local minimum MIB1 to the next third local minimum MIB2, the third local minimum MI
B1 to third local minimum MIB3 (not shown)
The time interval from the third local minimum MIB 1 to each of the other third local minimum MIBs is obtained as in the time interval up to. Third local minimum MIB3, MI after the third local minimum MIB2
B4, MIB5, ... (illustration omitted after MIB3)
Similarly, the respective time intervals are obtained.

【0056】同様に、この第2の実施の形態のピッチ検
出装置のデータ分析回路7では、第1ローカルミニマム
MIG及び第4ローカルミニマムMISについての時間
間隔として、第4ローカルミニマムMIS1から次の第
1ローカルミニマムMIGまでの時間間隔ads1、第
4ローカルミニマムMIS1から第4ローカルミニマム
MIS2までの時間間隔ads2、第4ローカルミニマ
ムMIS1から第4ローカルミニマムMIS3までの時
間間隔ads3・・・のように、第4ローカルミニマム
MIS1から他の各第1ローカルミニマムMIG又は第
4ローカルミニマムMISについてそれぞれの時間間隔
を求めると共に、同様にして、第1ローカルミニマムM
IGから次の第4ローカルミニマムMIS2までの時間
間隔、第1ローカルミニマムMIGから第4ローカルミ
ニマムMIS3までの時間間隔・・・のように、第1ロ
ーカルミニマムMIGから他の各第4ローカルミニマム
MISについてそれぞれの時間間隔を求める。第4ロー
カルミニマムMIS2以降の各第4ローカルミニマムM
IS3,MIS4,MIS5,・・・(MIS4以降は
図示を省略)についても同様にしてそれぞれの時間間隔
を求める。
Similarly, in the data analysis circuit 7 of the pitch detecting device according to the second embodiment, the time interval between the first local minimum MIG and the fourth local minimum MIS is set to the next local minimum MIS1 to the next local minimum MIS1. A time interval ads1 from the first local minimum MIG, a time interval ads2 from the fourth local minimum MIS1 to the fourth local minimum MIS2, a time interval ads3 from the fourth local minimum MIS1 to the fourth local minimum MIS3, and so on. From the fourth local minimum MIS1, a time interval for each of the other first local minimums MIG or the fourth local minimum MIS is obtained, and similarly, the first local minimum M
A time interval from the IG to the next fourth local minimum MIS2, a time interval from the first local minimum MIG to the fourth local minimum MIS3, and so on, from the first local minimum MIG to each other fourth local minimum MIS. For each time interval. 4th local minimum M after 4th local minimum MIS2
Similarly, the time intervals of IS3, MIS4, MIS5,... (Illustration is omitted after MIS4) are obtained.

【0057】その後、第2の実施の形態のピッチ検出装
置のデータ分析回路7では、第1ローカルマキシマムM
AG,第3ローカルマキシマムMAB及び第4ローカル
マキシマムMASを用いて求めた各時間間隔と、第1ロ
ーカルミニマムMIG,第3ローカルミニマムMIB及
び第4ローカルミニマムMISを用いて求めた時間間隔
を用いて、統計的な分析を行う。
Thereafter, in the data analysis circuit 7 of the pitch detection device according to the second embodiment, the first local maximum M
AG, each time interval obtained using the third local maximum MAB and the fourth local maximum MAS, and a time interval obtained using the first local minimum MIG, the third local minimum MIB, and the fourth local minimum MIS. Perform statistical analysis.

【0058】具体的に言うと、当該第2の実施の形態の
データ分析回路7では、第1ローカルマキシマムMA
G,第3ローカルマキシマムMAB、及び第4ローカル
マキシマムMASを用いて求めた各時間間隔と、第1ロ
ーカルミニマムMIG,第3ローカルミニマムMIB及
び第4ローカルミニマムMISを用いて求めた時間間隔
のそれぞれを用いて、ヒストグラムを作成し、当該ヒス
トグラムの最瀕値を求める。
More specifically, in the data analysis circuit 7 of the second embodiment, the first local maximum MA
G, time intervals determined using the third local maximum MAB and the fourth local maximum MAS, and time intervals determined using the first local minimum MIG, the third local minimum MIB, and the fourth local minimum MIS, respectively. Is used to create a histogram, and the closest value of the histogram is determined.

【0059】すなわち、第1の実施の形態と同様に、第
1ローカルマキシマムMAG,第3ローカルマキシマム
MAB及び第4ローカルマキシマムMASを用いて求め
た各時間間隔と、第1ローカルミニマムMIG,第3ロ
ーカルミニマムMIB及び第4ローカルミニマムMIS
を用いて求めた時間間隔のうち、最も発生頻度が高い時
間間隔を求める。
That is, similarly to the first embodiment, each time interval obtained using the first local maximum MAG, the third local maximum MAB, and the fourth local maximum MAS, and the first local minimum MIG, Local minimum MIB and fourth local minimum MIS
Among the time intervals obtained by using, the time interval with the highest occurrence frequency is obtained.

【0060】第2の実施の形態のデータ分析回路7での
統計分析により求められた時間間隔出力は、同じく第2
の実施の形態のピッチ決定回路8に送られる。該ピッチ
決定回路8では、データ分析回路7から供給された時間
間隔出力に基づいて、入力音声信号のピッチを決定す
る。
The time interval output obtained by the statistical analysis in the data analysis circuit 7 of the second embodiment
Is sent to the pitch determination circuit 8 of the embodiment. The pitch determination circuit 8 determines the pitch of the input audio signal based on the time interval output supplied from the data analysis circuit 7.

【0061】該ピッチ決定回路8にて決定されたピッチ
周期は、出力端子9から第2の実施の形態のピッチ検出
装置のピッチ検出結果として出力される。
The pitch period determined by the pitch determination circuit 8 is output from an output terminal 9 as a pitch detection result of the pitch detection device of the second embodiment.

【0062】この第2の実施の形態のピッチ検出装置に
おけるピッチ検出動作の流れをフローチャートにて表す
と、図9に示すようになる。なお、この図9のステップ
S1からステップS3までの処理は、図7のフローチャ
ートのステップS1からステップS3までの処理と同じ
であり、その説明は省略する。
FIG. 9 is a flowchart showing the flow of the pitch detecting operation in the pitch detecting device according to the second embodiment. Note that the processing from step S1 to step S3 in FIG. 9 is the same as the processing from step S1 to step S3 in the flowchart in FIG. 7, and a description thereof will be omitted.

【0063】この図9において、ステップS14では、
データ分析回路7において、振幅の絶対値が最大の第1
ローカルマキシマムMAGに対応した所定範囲RTAよ
りも、その振幅値が大きい全ての第3ローカルマキシマ
ムMABを求め、それら第1ローカルマキシマムMAG
及び第3ローカルマキシマムMABを用いて各時間間隔
を測定し、その時間間隔からヒストグラムを作成する。
In FIG. 9, in step S14,
In the data analysis circuit 7, the first absolute value of the amplitude
All third local maximum MABs whose amplitude values are larger than a predetermined range RTA corresponding to the local maximum MAG are obtained, and the first local maximum MAGs are obtained.
Then, each time interval is measured using the third local maximum MAB, and a histogram is created from the time interval.

【0064】ステップS15では、データ分析回路7に
おいて、振幅の絶対値が最大の第1ローカルマキシマム
MAGに対応した所定範囲RUIよりも、その振幅値が
小さい全ての第4ローカルマキシマムMASを求め、そ
れら第1ローカルマキシマムMAG及び第4ローカルマ
キシマムMASを用いて各時間間隔を測定し、その時間
間隔をステップS14のヒストグラムに追加する。
In step S15, in the data analysis circuit 7, all the fourth local maximum MASs whose amplitude values are smaller than the predetermined range RUI corresponding to the first local maximum MAG having the maximum absolute value of the amplitude are obtained. Each time interval is measured using the first local maximum MAG and the fourth local maximum MAS, and the time interval is added to the histogram in step S14.

【0065】ステップS16では、データ分析回路7に
おいて、振幅の絶対値が最大の第1ローカルミニマムM
IGに対応した所定範囲よりも、その振幅値が大きい全
ての第3ローカルミニマムMIBを求め、それら第1ロ
ーカルミニマムMIG及び第3ローカルミニマムMIB
を用いて各時間間隔を測定し、その時間間隔からヒスト
グラムを作成する。
In step S16, in the data analysis circuit 7, the first local minimum M having the maximum absolute value of the amplitude is obtained.
All third local minimum MIBs whose amplitude values are larger than a predetermined range corresponding to IG are obtained, and the first local minimum MIG and the third local minimum MIB are obtained.
Is used to measure each time interval, and a histogram is created from the time intervals.

【0066】ステップS17では、データ分析回路7に
おいて、振幅の絶対値が最大の第1ローカルミニマムM
IGに対応した所定範囲よりも、その振幅値が小さい全
ての第4ローカルミニマムMISを求め、それら第1ロ
ーカルミニマムMIG及び第4ローカルミニマムMIS
を用いて各時間間隔を測定し、その時間間隔をステップ
S16のヒストグラムに追加する。
In step S17, in the data analysis circuit 7, the first local minimum M having the maximum absolute value of the amplitude is obtained.
All the fourth local minimums MIS whose amplitude values are smaller than the predetermined range corresponding to the IG are obtained, and the first local minimum MIG and the fourth local minimum MIS are obtained.
Is used to measure each time interval, and the time interval is added to the histogram in step S16.

【0067】ステップS18では、データ分析回路7に
て、ヒストグラムの最瀕値を求め、その後、ピッチ決定
回路8において当該ヒストグラムの最瀕値からピッチ周
期を決定する。
In step S18, the data analysis circuit 7 determines the closest value of the histogram, and then the pitch determination circuit 8 determines the pitch period from the closest value of the histogram.

【0068】この第2の実施の形態によれば、音声信号
の相関を求めることなく、その波形の特徴から少ない演
算量で精度の高いピッチ検出が可能である。また、この
第2の実施の形態によれば、全てのローカルマキシマム
MA及びローカルミニマムMIを用いて時間間隔を測定
する場合よりも、少ない演算量でピッチ検出が可能とな
っている。
According to the second embodiment, the pitch can be detected with high accuracy with a small amount of calculation from the characteristics of the waveform without finding the correlation of the audio signal. Further, according to the second embodiment, pitch detection can be performed with a smaller amount of calculation than when measuring time intervals using all local maximums MA and local minimums MI.

【0069】ところで、本発明の各実施の形態に示した
ピッチ検出装置は、例えばいわゆるカラオケ装置におい
て、歌唱者の声やコーラスの声のピッチを検出する際に
適用可能である。
The pitch detecting device described in each embodiment of the present invention can be applied to, for example, a so-called karaoke device for detecting the pitch of a singer's voice or a chorus voice.

【0070】すなわち、カラオケ装置においては、歌唱
者による歌の調及び各音の高さを本発明によって検出し
たピッチから求め、本来の楽曲の調及び音の高さからど
れだけ外れているかを、当該歌唱者に示すことができれ
ば、歌の練習にとって非常に有効であると考えられる。
That is, in the karaoke apparatus, the key of the song and the pitch of each sound by the singer are obtained from the pitch detected by the present invention, and the deviation from the key and the pitch of the original music is determined. If it can be shown to the singer, it is considered to be very effective for practicing the song.

【0071】以下、本発明の第3の実施の形態として、
カラオケ装置に適用可能であって、歌唱者やコーラスの
声のピッチを本発明(第1及び第2の実施の形態)のピ
ッチ検出装置にて検出し、その検出したピッチに基づい
て、歌唱者やコーラスの声の高さの良否を判定する判定
装置の主要部構成を、図10に示す。なお、一般的なカ
ラオケ装置における構成要素については周知であり、こ
の図10ではそれらの図示は省略し、本発明の判定装置
に係る部分のみを示している。また、図10において、
図1と同じ構成要素には同一の指示符号を付している。
Hereinafter, as a third embodiment of the present invention,
Applicable to a karaoke apparatus, the pitch of a singer or a chorus is detected by the pitch detection device of the present invention (first and second embodiments), and based on the detected pitch, the singer is selected. FIG. 10 shows a main configuration of a determining device for determining the quality of a voice of a chorus or a chorus. Note that components of a general karaoke apparatus are well-known, and FIG. 10 does not show them, and shows only a portion related to the determination apparatus of the present invention. Also, in FIG.
The same components as those in FIG. 1 are denoted by the same reference symbols.

【0072】図10において、入力端子1には、歌唱者
やコーラスの声をマイクロホンにて音響/電気変換した
アナログ音声信号が供給される。このアナログ音声信号
は、アナログ/デジタル変換器2にてデジタル信号に変
換され、フィルタ回路3にて低域濾波される。このフィ
ルタ回路3からの出力データが、ピッチ検出装置32に
送られる。
In FIG. 10, an input terminal 1 is supplied with an analog audio signal obtained by converting the voice of a singer or a chorus into sound / electricity by a microphone. This analog audio signal is converted into a digital signal by the analog / digital converter 2 and low-pass filtered by the filter circuit 3. Output data from the filter circuit 3 is sent to the pitch detection device 32.

【0073】このピッチ検出装置32は、第1及び第2
の実施の形態のいずれかのピッチ検出装置のバッファメ
モリ4以降の構成を有するものである。該ピッチ検出装
置32にて検出されたピッチは、比較回路33に供給さ
れる。
The pitch detecting device 32 includes first and second
It has a configuration after the buffer memory 4 of any of the pitch detection devices of the embodiments. The pitch detected by the pitch detection device 32 is supplied to a comparison circuit 33.

【0074】一方で、端子30には、当該カラオケ装置
のMIDI(Musical Instrument Digital Interface)
データが供給される。該MIDIデータは、MIDI基
準音抽出回路31に送られる。ここで、このMIDIデ
ータは、カラオケ装置にて再生している伴奏楽曲に関す
るデータであり、本来の楽曲(歌)の調及び音の高さの
データも含まれている。MIDI基準音抽出回路31で
は、供給されたMIDIデータから、本来の楽曲の調及
び音の高さのデータを基準音データ(以下、基準ピッチ
と呼ぶ)として抽出する。この基準ピッチは、比較回路
33に供給される。
On the other hand, the terminal 30 has a MIDI (Musical Instrument Digital Interface) of the karaoke apparatus.
Data is supplied. The MIDI data is sent to the MIDI reference sound extraction circuit 31. Here, the MIDI data is data relating to the accompaniment music being reproduced by the karaoke apparatus, and includes data of the key and pitch of the original music (song). The MIDI reference sound extraction circuit 31 extracts original tone and pitch data of the music as reference sound data (hereinafter referred to as reference pitch) from the supplied MIDI data. This reference pitch is supplied to the comparison circuit 33.

【0075】比較回路33では、ピッチ検出装置32か
ら供給される歌唱者の声のピッチと、MIDI基準音抽
出回路31から供給される基準ピッチとを比較し、その
比較結果を出力する。この比較により、歌唱者の調及び
音の高さが、本来の楽曲の調及び音の高さからどれだけ
外れているかを、知ることができる。
The comparison circuit 33 compares the pitch of the singer's voice supplied from the pitch detection device 32 with the reference pitch supplied from the MIDI reference sound extraction circuit 31, and outputs the comparison result. By this comparison, it is possible to know how much the key and pitch of the singer deviate from the key and pitch of the original music.

【0076】ここで、マイクロホンからの入力とMID
Iデータとから、歌唱者の調及び音の高さが、本来の楽
曲の調及び音の高さからどれだけ外れているかを示す一
例を、図11にて説明する。
Here, the input from the microphone and the MID
An example showing how the key and pitch of the singer deviates from the original key and pitch of the music based on the I data will be described with reference to FIG.

【0077】この図11において、MIDIデータは、
図11(a)にて示すように、データDT1,DT2,
DT3,・・・のように単位フレーム毎にデータが供給
され、MIDI基準音抽出回路31では、データDT
1,DT2,DT3,・・・の単位フレーム毎にMID
Iデータから基準ピッチを抽出する。
In FIG. 11, the MIDI data is
As shown in FIG. 11A, data DT1, DT2,
Data is supplied for each unit frame as shown in DT3,.
MID for each unit frame of 1, DT2, DT3, ...
The reference pitch is extracted from the I data.

【0078】また、ピッチ検出装置32では、図11
(b)のように約30m秒毎にマイクロホンからの入力
音声信号のピッチを検出する。
In the pitch detecting device 32, FIG.
As shown in (b), the pitch of the input audio signal from the microphone is detected about every 30 ms.

【0079】比較回路33では、ピッチ検出装置32が
約30m秒毎に検出した入力音声信号のピッチと、当該
ピッチ検出装置32にてピッチ検出が行われる30m秒
毎に対応した基準ピッチとを比較し、その比較結果とし
て、「高い」、「低い」、「正しい」のいずれかの比較
結果を出力する。なお、比較結果の「高い」は歌唱者の
声のピッチが基準ピッチよりも高いことを示し、比較結
果の「低い」は歌唱者の声のピッチが基準ピッチよりも
低いことを示し、比較結果の「正しい」歌唱者の声のピ
ッチが基準ピッチと合っていることを示す。
The comparison circuit 33 compares the pitch of the input audio signal detected by the pitch detection device 32 approximately every 30 msec with the reference pitch corresponding to every 30 msec at which pitch detection is performed by the pitch detection device 32. Then, as the comparison result, one of the comparison results of “high”, “low”, and “correct” is output. In addition, “high” in the comparison result indicates that the pitch of the singer's voice is higher than the reference pitch, and “low” in the comparison result indicates that the pitch of the singer's voice is lower than the reference pitch. Indicates that the pitch of the "correct"singer's voice matches the reference pitch.

【0080】この比較回路33からの比較結果は、画像
データ生成回路34に送られる。該画像データ生成回路
34は、カラオケ装置に通常備えられている、歌詞やイ
メージ映像を表示する為のモニタに、比較結果に応じた
表示を行わせるための画像データを生成するためのもの
である。
The comparison result from the comparison circuit 33 is sent to the image data generation circuit 34. The image data generation circuit 34 is for generating image data for causing a monitor for displaying lyrics and image video, which is usually provided in a karaoke apparatus, to perform display according to the comparison result. .

【0081】その比較結果に応じた表示用画像データの
一例としては、文字による「高い」、「低い」、「正し
い」を表示するための画像データや、「高い」、「低
い」、「正しい」に対応するキャラクタを表すための画
像データ等、或いは「高い」、「低い」、「正しい」に
対応するキャラクタの色や明るさを変更するための画像
データなどが考えられ、画像データ生成回路34では、
それらいずれかの画像データを生成する。
Examples of display image data according to the comparison result include image data for displaying “high”, “low”, and “correct” by characters, and “high”, “low”, and “correct”. Image data for representing a character corresponding to "", or image data for changing the color or brightness of a character corresponding to "high", "low" or "correct". 34,
One of the image data is generated.

【0082】この画像データ生成回路34が生成した画
像データは、例えば図12に示すモニタ画面40上の所
定の領域41上にインポーズ表示される。
The image data generated by the image data generation circuit 34 is imposed and displayed on a predetermined area 41 on a monitor screen 40 shown in FIG. 12, for example.

【0083】また、ここまでの説明では、比較回路33
が「高い」、「低い」、「正しい」の3種類の比較結果
を出力し、モニタ画面上のそれらに対応する表示を行う
例を述べたが、歌唱者の調及び音の高さが本来の楽曲の
調及び音の高さからどれだけ外れているかを、いわゆる
バーグラフにて表示することも可能である。
In the description so far, the comparison circuit 33
Described the example of outputting three types of comparison results of “high”, “low”, and “correct” and displaying corresponding results on the monitor screen. It is also possible to display by a so-called bar graph how much the key and the pitch of the music deviate.

【0084】この場合、比較回路33は、歌唱者の調及
び音の高さが本来の楽曲の調及び音の高さから外れてい
る量(レベル)を比較結果として出力し、画像データ生
成回路34ではその比較結果に応じてバーグラフ表示用
画像データを生成する。
In this case, the comparison circuit 33 outputs, as a comparison result, the amount (level) in which the singer's key and pitch deviates from the original key and pitch of the music, and outputs the image data generation circuit. At 34, bar graph display image data is generated according to the comparison result.

【0085】さらに、この第3の実施の形態では、比較
回路33の比較結果に応じた画像データを生成する例を
挙げているが、例えば図13に示すように、「高い」、
「低い」、「正しい」にそれぞれ対応する例えばLED
(発光ダイオード)ランプをモニタ画面40の下などに
設け、これらLEDランプを比較結果に応じて点灯或い
は消灯することで、比較結果に応じた表示を行わせるこ
とも可能である。
Further, in the third embodiment, an example is described in which image data is generated in accordance with the comparison result of the comparison circuit 33. For example, as shown in FIG.
For example, LED corresponding to "low" and "correct" respectively
(Light emitting diode) It is also possible to provide a lamp according to the comparison result by providing a lamp below the monitor screen 40 or the like and turning on or off the LED lamp according to the comparison result.

【0086】図14には、この第3の実施の形態の判定
装置における音声入力及びMIDIデータ入力から比較
結果の表示出力までの流れを示す。
FIG. 14 shows a flow from the voice input and the MIDI data input to the display output of the comparison result in the determination device of the third embodiment.

【0087】この図14において、ステップS41で
は、入力端子1から供給された歌唱者の声の入力音声信
号から、ピッチ検出装置32がピッチを検出する。
In FIG. 14, in step S41, the pitch detection device 32 detects the pitch from the input voice signal of the singer's voice supplied from the input terminal 1.

【0088】一方、ステップS42では、端子30から
入力されたMIDIデータから、MIDI基準音抽出回
路31が基準ピッチを抽出し、当該基準ピッチと歌唱者
の声から検出したピッチとを、比較回路33にて比較す
る。
On the other hand, in step S42, the MIDI reference sound extraction circuit 31 extracts the reference pitch from the MIDI data input from the terminal 30, and compares the reference pitch with the pitch detected from the singer's voice. Compare with.

【0089】ステップS43では、その比較回路33に
よる比較結果から、「高い」、「低い」、「正しい」の
いずれかを決定する。
In step S43, one of “high”, “low”, and “correct” is determined from the comparison result by the comparison circuit 33.

【0090】ステップS44では、その比較結果「高
い」、「低い」、「正しい」を歌唱者に知らせるための
表示出力を行う。
In step S44, a display output for notifying the singer of the result of the comparison, "high", "low", and "correct" is performed.

【0091】このように第3の実施の形態によれば、相
関を求めることなく、少ない演算量で、精度の高いピッ
チを求めることができ、さらに検出したピッチと基準ピ
ッチとを比較することで、歌唱者の声やコーラスの声の
高さを正しい高さに導くことができ、音声の性質変換が
可能である。
As described above, according to the third embodiment, a high-precision pitch can be obtained with a small amount of calculation without obtaining a correlation, and the detected pitch is compared with the reference pitch. The voice of the singer or the chorus can be guided to the correct pitch, and the voice property can be converted.

【0092】上述した第3の実施の形態では、第1,第
2の実施の形態のピッチ検出装置を使用して検出したピ
ッチと基準ピッチとを比較し、その比較結果に基づい
て、単に歌唱者の声のピッチが「高い」、「低い」、
「正しい」の何れかであることを、当該歌唱者等に知ら
せることのみ行っているが、本発明の第4の実施の形態
にかかるカラオケ装置においては、例えば伴奏音のピッ
チをシフトして歌唱者等の声のピッチに合わせるような
ことも可能となされている。
In the above-described third embodiment, the pitch detected using the pitch detection devices of the first and second embodiments is compared with a reference pitch, and based on the comparison result, the singing is simply performed. Voice pitch is "high", "low",
Although only the singer or the like is informed of any of "correct", the karaoke apparatus according to the fourth embodiment of the present invention shifts the pitch of the accompaniment sound and sings. It is also possible to match the pitch of the voice of the person or the like.

【0093】このようなピッチシフトを実現するために
は、マイクロホンから入力された音うち、ある区間(フ
レーム)の音が歌唱者等の声のうちの母音であるのか、
或いは、歌唱者等の声の子音や雑音若しくは無音である
のかを判別することが必要である。すなわち、歌唱者等
の声の母音であると判定されたとき、その母音のピッチ
に基づいて伴奏音のピッチシフトを行うことは有効であ
るが、子音や雑音若しくは無音であると判定されたとき
に、それらの音のピッチに基づいて伴奏音のピッチシフ
トを行うのは好ましくないからである。
In order to realize such a pitch shift, it is necessary to determine whether the sound of a certain section (frame) among the sounds input from the microphone is a vowel of the voice of a singer or the like.
Alternatively, it is necessary to determine whether the voice of a singer or the like is a consonant, noise, or silence. That is, when it is determined that the vowel is a vowel of a singer or the like, it is effective to perform the pitch shift of the accompaniment sound based on the pitch of the vowel, but when it is determined that the sound is a consonant, noise, or silence. This is because it is not preferable to perform the pitch shift of the accompaniment sound based on the pitch of those sounds.

【0094】この第4の実施の形態では、前述の第1,
第2の実施の形態のピッチ検出装置において作成したヒ
ストグラムを用いて、マイクロホンから入力された音
が、歌唱者等の声の母音であるのか、或いは、それ以外
の子音や雑音若しくは無音であるのかを判別し、この判
別結果に基づいて、ピッチシフトを行うか否かを決定し
ている。
In the fourth embodiment, the above-described first and second embodiments are described.
Whether the sound input from the microphone is a vowel of the voice of a singer or the like, or other consonants, noise, or silence using the histogram created by the pitch detection device of the second embodiment Is determined, and whether to perform the pitch shift is determined based on the determination result.

【0095】図15には、第4の実施の形態のカラオケ
装置の概略構成を示す。なお、この図15の構成は、第
1,第2の実施の形態が適用される第3の実施の形態
に、さらに母音等の判定機能とピッチシフト機能を付加
したものである。なお、図15において、図10と同じ
構成要素には同一の指示符号を付し、それらの説明は省
略する。
FIG. 15 shows a schematic configuration of a karaoke apparatus according to the fourth embodiment. The configuration shown in FIG. 15 is obtained by adding a vowel or the like determination function and a pitch shift function to the third embodiment to which the first and second embodiments are applied. In FIG. 15, the same components as those in FIG. 10 are denoted by the same reference numerals, and description thereof will be omitted.

【0096】この図15において、端子30から供給さ
れた当該カラオケ装置の伴奏曲のデータを含むMIDI
データは、ピッチシフト回路37に送られる。当該ピッ
チシフト回路37は、伴奏音のピッチをシフト可能なも
のであり、後述する判定制御回路36によってそのピッ
チシフトの有無及びピッチシフト量が制御されるもので
ある。
In FIG. 15, MIDI including accompaniment data of the karaoke apparatus supplied from terminal 30 is provided.
The data is sent to the pitch shift circuit 37. The pitch shift circuit 37 can shift the pitch of the accompaniment sound, and the presence / absence of the pitch shift and the pitch shift amount are controlled by a determination control circuit 36 described later.

【0097】判定制御回路36には、ピッチ検出回路3
2にて前述したように生成したヒストグラムのデータ
と、比較回路33から出力される比較結果のデータとが
供給される。当該判定制御回路36では、ヒストグラム
の最瀕値とその周辺の値とを比較し、最瀕値がその周辺
の値に対して、ある閾値以上に大きければ、その区間
(フレーム)は母音であると判断し、一方で、最瀕値が
その周辺の値に対して、ある閾値より小さければ、その
区間(フレーム)は子音若しくは雑音或いは無音である
と判断する。
The judgment control circuit 36 includes the pitch detection circuit 3
2, the data of the histogram generated as described above and the data of the comparison result output from the comparison circuit 33 are supplied. The judgment control circuit 36 compares the nearest value of the histogram with its peripheral value, and if the nearest value is larger than the peripheral value by a certain threshold or more, the section (frame) is a vowel. On the other hand, if the most probable value is smaller than a value around it by a certain threshold value, it is determined that the section (frame) is a consonant, noise, or silence.

【0098】また、この判定制御回路36では、母音又
はそれ以外の音の判定結果と、比較回路33からの比較
結果とに基づいて、ピッチシフト回路37におけるピッ
チシフトの有無及びピッチシフト量を制御する制御信号
を生成する。すなわち、当該判定制御回路36は、比較
回路33から供給された比較結果が「正しい」を示して
いるとき、又は、母音又はそれ以外の音の判定結果が子
音若しくは雑音或いは無音であることを示しているとき
にはピッチシフトを行わないようにピッチシフト回路3
7を制御し、一方、比較回路33からの比較結果が「高
い」若しくは「低い」を示しているときで且つ、母音又
はそれ以外の音の判定結果が母音であることを示してい
るときにはピッチシフトを行うようにピッチシフト回路
37を制御する。
Further, the determination control circuit 36 controls the presence or absence of the pitch shift and the pitch shift amount in the pitch shift circuit 37 based on the determination result of the vowel or other sounds and the comparison result from the comparison circuit 33. To generate a control signal. That is, the judgment control circuit 36 indicates that the comparison result supplied from the comparison circuit 33 indicates “correct” or that the judgment result of the vowel or other sound is a consonant, noise, or silence. Pitch shift circuit 3 so as not to perform pitch shift when
7 when the comparison result from the comparison circuit 33 indicates “high” or “low” and the judgment result of the vowel or the other sound indicates that it is a vowel. The pitch shift circuit 37 is controlled to perform a shift.

【0099】これにより、ピッチシフト回路37から
は、歌唱者等の声のピッチに合った伴奏音のデータが出
力され、この伴奏音のデータは図示しないアンプ等を介
し、端子38からスピーカ等に送られる。
As a result, the accompaniment sound data corresponding to the pitch of the voice of the singer or the like is output from the pitch shift circuit 37, and the accompaniment sound data is transmitted from the terminal 38 to a speaker or the like via an amplifier (not shown). Sent.

【0100】図16には、この図15のカラオケ装置の
判定制御回路36における処理のフローチャートを示
す。
FIG. 16 is a flowchart showing the processing in the judgment control circuit 36 of the karaoke apparatus shown in FIG.

【0101】図16において、ステップS21では、ヒ
ストグラムの最瀕値とその周辺の値を取り込む。
Referring to FIG. 16, in step S21, the closest value of the histogram and its peripheral values are fetched.

【0102】次のステップS22では、ヒストグラムの
最瀕値とその周辺の値を比較する。例えば前述の図6の
ヒストグラムを例に挙げて説明すると、最瀕値は193
サンプル分の時間間隔が11回であり、その周辺である
192サンプル分の時間間隔は5回、194サンプル分
の時間間隔は7回となっている。したがって、例えば閾
値が5回であれば最瀕値(11回)の周辺の値(5回及
び7回)は当該閾値以上に大きいことになり、当該フレ
ームは母音であると判断できる。逆に、閾値が例えば6
回や7回以上の値であれば、その区間(フレーム)は子
音、雑音或いは無音であると判断できる。
In the next step S22, the closest value of the histogram is compared with its peripheral values. For example, taking the histogram of FIG. 6 described above as an example, the most likely value is 193
The time interval for samples is 11 times, and the time interval for 192 samples around it is 5 times, and the time interval for 194 samples is 7 times. Therefore, for example, if the threshold value is 5, the values (5 times and 7 times) around the closest value (11 times) are larger than the threshold value, and the frame can be determined to be a vowel. Conversely, if the threshold is 6
If the value is times or seven or more times, it can be determined that the section (frame) is a consonant, noise, or silence.

【0103】ステップS22において、最瀕値の周辺の
値が閾値以上であると判断したときにはステップS23
の処理に進み、閾値より小さいと判断したときにはステ
ップS24の処理に進む。
In step S22, when it is determined that the value around the closest value is equal to or larger than the threshold value, step S23
When it is determined that the value is smaller than the threshold value, the process proceeds to step S24.

【0104】ステップS23では、その区間(フレー
ム)が母音であると判定する。
In step S23, it is determined that the section (frame) is a vowel.

【0105】一方、ステップS24では、その区間は子
音、雑音若しくは無音であると判定する。
On the other hand, in step S24, it is determined that the section is a consonant, noise, or silence.

【0106】ステップS23の処理後はステップS25
の処理に進み、ステップS24の処理後はステップS2
7の処理に進む。
After the processing in step S23, step S25 is performed.
After the processing in step S24, the process proceeds to step S2.
Proceed to step 7.

【0107】ステップS25では、比較回路33の比較
結果が「高い」又は「低い」を示しているか否かを判断
する。このステップS25において、比較結果が「高
い」又は「低い」を示しているときにはステップS26
に進み、「正しい」を示しているときにはステップS2
7に進む。
In the step S25, it is determined whether or not the comparison result of the comparison circuit 33 indicates "high" or "low". If the comparison result indicates “high” or “low” in step S25, step S26
To step S2 when it indicates "correct".
Go to 7.

【0108】ステップS26では、ピッチシフト回路3
7におけるピッチシフト処理を行うように制御し、ステ
ップS27では、ピッチシフト回路37におけるピッチ
シフト処理を行わないように制御する。
In step S26, the pitch shift circuit 3
7 so as to perform the pitch shift processing, and in step S27, control is performed so as not to perform the pitch shift processing in the pitch shift circuit 37.

【0109】その後、ステップS28では、次のフレー
ムの処理に移行する。
Thereafter, in step S28, the flow shifts to the processing for the next frame.

【0110】なお、この第4の実施の形態では、第1,
第2の実施の形態におけるヒストグラムを母音等の判定
の際に使用した例を挙げたが、例えばフレーム内の全て
のローカルマキシマムMA間及びローカルミニマムMI
間の時間間隔から生成したヒストグラムや、音声信号の
零交差(いわゆるゼロクロス)間の時間間隔から生成し
たヒストグラムを使用して母音等の判定を行うようにす
ることも可能である。
In the fourth embodiment, the first,
Although the example in which the histogram according to the second embodiment is used in determining a vowel or the like has been described, for example, the local minimum MI and the local minimum MI in a frame are used.
It is also possible to determine a vowel or the like by using a histogram generated from a time interval between them or a histogram generated from a time interval between zero crossings of audio signals (so-called zero crossings).

【0111】第3や第4の実施の形態では、専用のカラ
オケ装置を例に挙げたが、いわゆるパーソナルコンピュ
ータにて本発明のピッチ検出装置を実現することも可能
である。
In the third and fourth embodiments, a dedicated karaoke apparatus has been described as an example. However, the pitch detection apparatus of the present invention can be realized by a so-called personal computer.

【0112】パーソナルコンピュータに本発明を適用し
た第5の実施の形態の概略構成例を図17に示す。本実
施の形態のパーソナルコンピュータは、第1〜第4の実
施の形態の動作を実現するためのアプリケーションデー
タをインストールすることで、第1〜第4の実施の形態
にて説明した検出装置、カラオケ装置の何れの動作も可
能であるが、以下の説明ではその一例として、第3の実
施の形態で述べたような音のピッチの判定機能と第4の
実施の形態で述べたピッチシフトの機能を備えたカラオ
ケ装置をパーソナルコンピュータにて実現する例を挙げ
て説明する。
FIG. 17 shows a schematic configuration example of a fifth embodiment in which the present invention is applied to a personal computer. The personal computer of the present embodiment installs application data for realizing the operations of the first to fourth embodiments, thereby enabling the detection device described in the first to fourth embodiments, Although any operation of the device is possible, in the following description, as an example, the sound pitch determination function described in the third embodiment and the pitch shift function described in the fourth embodiment are described. The following describes an example in which a karaoke apparatus provided with a personal computer is realized by a personal computer.

【0113】この図17において、I/Oポート59
は、例えば外部通信回線と接続される外部端子であり、
このI/Oポート59及び通信回線を介して、後述する
外部のサーバやいわゆる通信カラオケ用放送センタ等に
接続可能となっている。I/Oポート59はI/F回路
60と接続されている。なお、通信カラオケとは、通信
カラオケ用放送センタに複数の楽曲のデータを蓄積して
おき、この放送センタに複数接続されている遠隔地の端
末装置に必要に応じて楽曲のデータを送信して、端末装
置で楽曲の演奏(再生)を可能とするシステムのことで
ある。したがって、この第5の実施の形態ではパーソナ
ルコンピュータを例に挙げたが、該通信カラオケにおけ
る端末装置であってもよい。
In FIG. 17, I / O port 59
Is, for example, an external terminal connected to an external communication line,
Via the I / O port 59 and the communication line, it is possible to connect to an external server described later or a so-called communication karaoke broadcasting center. The I / O port 59 is connected to the I / F circuit 60. Communication karaoke means that a plurality of music data are stored in a communication karaoke broadcasting center, and the music data is transmitted to remote terminal devices connected to the broadcasting center as needed. , A system that allows a terminal device to play (play) music. Therefore, in the fifth embodiment, a personal computer has been described as an example, but a terminal device for the communication karaoke may be used.

【0114】このI/F回路60は、I/Oポート59
を介した外部通信回線と、内部CPU(中央処理ユニッ
ト)54との間のインターフェイスである。
The I / F circuit 60 has an I / O port 59
Is an interface between an external communication line via the CPU and an internal CPU (central processing unit) 54.

【0115】ここで、本実施の形態のパーソナルコンピ
ュータにて、第3や第4の実施の形態のカラオケ装置の
動作を実現する場合、I/Oポート59には、該パーソ
ナルコンピュータからのデータ要求に応じて、カラオケ
用MIDIデータや第3,第4の実施の形態の動作を実
現するためのアプリケーションデータ(以下、カラオケ
用アプリケーションデータと呼ぶ)が通信回線を介して
供給される。なお、カラオケ用アプリケーションデータ
は、前述した各実施の形態のフィルタ3のデジタルフィ
ルタ係数設定用データや、ピークサーチ回路5における
ピーク検出動作制御用プログラムデータ(ゼロクロス検
出を行う場合にはそのゼロクロス検出動作制御用プログ
ラムデータ)、符号データ化回路6における符号データ
化制御用プログラムデータ、データ分析回路7における
データ分析制御用プログラムデータ、ピッチ決定回路8
におけるピッチ決定動作制御用プログラムデータ、MI
DI基準音抽出回路31における基準ピッチ検出動作用
プログラムデータ、比較回路33における比較制御用プ
ログラムデータ、判定制御回路36における判定制御用
プログラムデータ、ピッチシフト回路37におけるピッ
チシフト用プログラムデータ等を、少なくとも有するも
のである。
Here, when the operation of the karaoke apparatus of the third or fourth embodiment is realized by the personal computer of the present embodiment, a data request from the personal computer is transmitted to the I / O port 59. Accordingly, MIDI data for karaoke and application data for implementing the operations of the third and fourth embodiments (hereinafter, referred to as karaoke application data) are supplied via a communication line. Note that the karaoke application data includes the digital filter coefficient setting data of the filter 3 in each of the above-described embodiments and the program data for controlling the peak detection operation in the peak search circuit 5 (the zero-crossing detection operation when the zero-crossing detection is performed). Control program data), code data conversion control program data in code data conversion circuit 6, data analysis control program data in data analysis circuit 7, pitch determination circuit 8
Data for controlling pitch determination operation in the MI
The reference pitch detection operation program data in the DI reference sound extraction circuit 31, the comparison control program data in the comparison circuit 33, the judgment control program data in the judgment control circuit 36, the pitch shift program data in the pitch shift circuit 37, etc. Have

【0116】これらカラオケ用MIDIデータやカラオ
ケ用アプリケーションデータは、I/F回路60を介し
てCPU54に送られ、一旦、ハードディスクドライブ
(HDD)56内のハードディスクに記録される。
The MIDI data for karaoke and the application data for karaoke are sent to the CPU 54 via the I / F circuit 60 and are temporarily recorded on a hard disk in a hard disk drive (HDD) 56.

【0117】なお、カラオケ用MIDIデータやカラオ
ケ用アプリケーションデータは、通信回線ではなく、例
えばいわゆるCD−ROM等の光ディスクやフロッピィ
ディスクに記録された状態で本実施の形態のパーソナル
コンピュータに供給される場合もある。この場合は、該
光ディスクやフロッピィディスクがディスクドライブ6
1に装填され、このディスクドライブ61にて読み出さ
れてCPU54に送られる。もちろん、光ディスクやフ
ロッピィディスクから読み出されたカラオケ用MIDI
データやカラオケ用アプリケーションデータをハードデ
ィスクドライブ56に送って記録させることも可能であ
る。本実施の形態では、データ転送速度を考慮して、カ
ラオケ用MIDIデータやカラオケ用アプリケーション
データをハードディスクドライブ56に記録することと
する。
When the karaoke MIDI data and the karaoke application data are supplied to the personal computer of the present embodiment in a state of being recorded on an optical disk such as a so-called CD-ROM or a floppy disk, not on a communication line. There is also. In this case, the optical disk or floppy disk is
1 and read by the disk drive 61 and sent to the CPU 54. Of course, MIDI for karaoke read from optical disks and floppy disks
It is also possible to send data and karaoke application data to the hard disk drive 56 for recording. In the present embodiment, karaoke MIDI data and karaoke application data are recorded on the hard disk drive 56 in consideration of the data transfer speed.

【0118】CPU54は、例えばマウスやキーボード
からなる操作部55からの操作に応じて、パーソナルコ
ンピュータの全体の動作を制御するものであり、本実施
の形態のようにパーソナルコンピュータをカラオケ装置
として動作させる場合には、先ず、ハードディスクドラ
イブ56に記録(インストール)されたカラオケ用アプ
リケーションデータを読み出し、信号処理回路53に送
る。
The CPU 54 controls the overall operation of the personal computer in response to an operation from the operation unit 55 composed of, for example, a mouse and a keyboard, and operates the personal computer as a karaoke apparatus as in the present embodiment. In this case, first, the karaoke application data recorded (installed) in the hard disk drive 56 is read out and sent to the signal processing circuit 53.

【0119】一方、端子50はアナログ音声信号の外部
入力端子であり、この端子50を介して、歌唱者の声を
マイクロホンにて音響/電気変換したアナログ音声信号
が供給される。このアナログ音声信号は、アナログ/デ
ジタル変換器51にてデジタル信号に変換され、信号処
理回路53に送られる。
On the other hand, a terminal 50 is an external input terminal for an analog audio signal. Through this terminal 50, an analog audio signal obtained by acoustically / electrically converting a singer's voice by a microphone is supplied. This analog audio signal is converted into a digital signal by an analog / digital converter 51 and sent to a signal processing circuit 53.

【0120】信号処理回路53は、第1〜第4の実施の
形態にて説明した各種処理を、カラオケ用アプリケーシ
ョンデータに基づいてソフトウェア上で実現可能な高速
演算処理回路であり、したがって、本実施の形態のよう
にパーソナルコンピュータを第3や第4の実施の形態の
カラオケ装置として動作させた場合、当該信号処理回路
53は、図10のフィルタ回路3及びMIDI基準音抽
出回路31以降の各構成要素、図15の判定制御回路3
6やピッチシフト回路37の構成要素として動作する。
もちろん、信号処理回路53では、カラオケ装置として
通常備えている歌詞やイメージ映像を表示する為の画像
データを生成することも可能である。
The signal processing circuit 53 is a high-speed arithmetic processing circuit capable of realizing various processes described in the first to fourth embodiments on software based on karaoke application data. When the personal computer is operated as the karaoke apparatus according to the third or fourth embodiment as in the embodiment, the signal processing circuit 53 includes the filter circuit 3 and the MIDI reference sound extraction circuit 31 shown in FIG. Element, judgment control circuit 3 in FIG.
6 and a component of the pitch shift circuit 37.
Of course, the signal processing circuit 53 can also generate image data for displaying lyrics and image video usually provided as a karaoke apparatus.

【0121】メモリ52は、信号処理回路53での信号
処理に必要なデータや演算途中のデータ、生成した画像
データ等を一時的に蓄えるためのメモリであり、図1の
バッファメモリ4としての機能をも備える。
The memory 52 is a memory for temporarily storing data necessary for signal processing in the signal processing circuit 53, data in the middle of calculation, generated image data, and the like, and functions as the buffer memory 4 in FIG. Is also provided.

【0122】信号処理回路53にて第3,第4の実施の
形態の画像データ生成回路34のように生成された画像
データは端子62からモニタに送られ、また、端子50
を介して入力され、アナログ/デジタル変換器51にて
デジタル信号に変換された歌唱者の声や伴奏曲の音声信
号は、デジタル/アナログ(D/A)変換器57にてア
ナログ音声信号に戻され、音声出力端子58から出力さ
れ、スピーカ等に送られる。
The image data generated by the signal processing circuit 53 as in the image data generation circuits 34 of the third and fourth embodiments is sent from a terminal 62 to a monitor.
The audio signal of the singer's voice or accompaniment music which is input through the analog signal and converted by the analog / digital converter 51 into a digital signal is returned to an analog audio signal by the digital / analog (D / A) converter 57. The signal is output from the audio output terminal 58 and sent to a speaker or the like.

【0123】次に、図18には、第6の実施の形態とし
て、外部からの要求に応じてカラオケ用MIDIデータ
やカラオケ用アプリケーションデータを伝送するデータ
伝送装置の概略構成を示す。
Next, FIG. 18 shows, as a sixth embodiment, a schematic configuration of a data transmission apparatus for transmitting karaoke MIDI data and karaoke application data in response to an external request.

【0124】すなわち、第6の実施の形態の伝送装置
は、例えば第5の実施の形態のパーソナルコンピュータ
や通信カラオケ用端末装置に対して、カラオケ用MID
Iデータやカラオケ用アプリケーションデータを伝送す
る、サーバ或いは通信カラオケ用放送センタに適用可能
である。
That is, the transmission apparatus according to the sixth embodiment is provided with a karaoke MID for the personal computer and the communication karaoke terminal apparatus according to the fifth embodiment.
The present invention is applicable to a server or a communication karaoke broadcasting center that transmits I data and karaoke application data.

【0125】この図18において、MIDI格納部70
にはカラオケ用の複数の楽曲のMIDIデータが格納さ
れ、送信プログラム格納部71には予め作成されたカラ
オケ用アプリケーションデータが格納されており、それ
ぞれバスに接続されている。なお、ここではMIDIデ
ータ及びカラオケ用アプリケーションデータがMIDI
格納部70及び送信プログラム格納部71に格納された
例を挙げているが、これらMIDIデータ及びカラオケ
用アプリケーションデータはCD−ROM等の光ディス
クやフロッピィディスクに記録されていてもよく、この
場合の光ディスクやフロッピィディスクは、バスに接続
されたディスクドライブ74に装填される。
In FIG. 18, the MIDI storage unit 70
Stores MIDI data of a plurality of songs for karaoke, and a transmission program storage 71 stores application data for karaoke prepared in advance, each of which is connected to a bus. Here, MIDI data and karaoke application data are MIDI
The example in which the MIDI data and the karaoke application data are stored in the storage unit 70 and the transmission program storage unit 71 may be recorded on an optical disk such as a CD-ROM or a floppy disk. The floppy disk is loaded in a disk drive 74 connected to the bus.

【0126】ROM72及びRAM73、並びにハード
ディスクドライブ80は、バスを介してCPU79と接
続され、これらROM72、RAM73、ハードディス
クドライブ80は、CPU79が本実施の形態の伝送装
置を制御する際の各種データを格納或いは記憶するため
のものである。
The ROM 72, the RAM 73, and the hard disk drive 80 are connected to the CPU 79 via a bus. The ROM 72, the RAM 73, and the hard disk drive 80 store various data when the CPU 79 controls the transmission device of the present embodiment. Or it is for storing.

【0127】I/Oポート78は、外部通信回線と接続
される外部端子であり、このI/Oポート78及び通信
回線を介して、例えば第5の実施の形態のパーソナルコ
ンピュータや通信カラオケ端末装置に接続可能となって
いる。I/Oポート78はI/F回路77と接続されて
いる。
The I / O port 78 is an external terminal connected to an external communication line. The personal computer and the communication karaoke terminal of the fifth embodiment are connected via the I / O port 78 and the communication line. It can be connected to. The I / O port 78 is connected to the I / F circuit 77.

【0128】このI/F回路77は、I/Oポート78
を介した外部通信回線と、内部送受信データ処理回路7
6との間のインターフェイスである。
This I / F circuit 77 has an I / O port 78
External communication line through the internal communication data processing circuit 7
6 is an interface with the C.6.

【0129】以下、この図19のフローチャートを参照
しながら、図18の伝送装置がMIDIデータやカラオ
ケ用アプリケーションデータを通信回線に送信する流れ
を説明する。なお、図19のフローチャートでは、通常
のデータ通信にて行われる、接続管理やトラフィック管
理、さらに情報収集や料金徴収等については省略してい
る。
Hereinafter, the flow of transmitting the MIDI data and the karaoke application data to the communication line by the transmission device of FIG. 18 will be described with reference to the flowchart of FIG. In the flowchart of FIG. 19, connection management, traffic management, information collection, fee collection, and the like, which are performed in normal data communication, are omitted.

【0130】この図19のフローチャート及び図18の
伝送装置において、先ず、ステップS51では、外部通
信回線を介して、MIDIデータやカラオケ用アプリケ
ーションデータの送信要求を受信すると、その送信要求
は、送受信データ処理回路76を介してCPU79に送
られる。
In the transmission apparatus of FIG. 19 and the transmission apparatus of FIG. 18, first, in step S51, when a transmission request for MIDI data or karaoke application data is received via an external communication line, the transmission request is transmitted and received. The data is sent to the CPU 79 via the processing circuit 76.

【0131】CPU79は、送信要求を受け取ると、ス
テップS52にてカラオケ用アプリケーションデータを
送信プログラム格納部71から読み出し、次いでステッ
プS53にて該送信要求にて要求されている楽曲のMI
DIデータをMIDI格納部70から読み出す。
Upon receiving the transmission request, the CPU 79 reads out the karaoke application data from the transmission program storage section 71 in step S52, and then reads the MI of the music requested by the transmission request in step S53.
The DI data is read from the MIDI storage unit 70.

【0132】これら読み出されたMIDIデータ及びカ
ラオケ用アプリケーションデータは、送受信データ処理
回路76に転送される。この送受信データ処理回路76
では、MIDIデータ及びカラオケ用アプリケーション
データを例えばパケット化し、さらにクロック発振器7
5からの搬送波を変調して、I/F回路77に送る。
The read MIDI data and karaoke application data are transferred to the transmission / reception data processing circuit 76. This transmission / reception data processing circuit 76
Then, the MIDI data and the karaoke application data are packetized, for example,
5 is modulated and sent to the I / F circuit 77.

【0133】これにより、I/F回路77からは、ステ
ップS55にてパケット化されたMIDIデータ及びカ
ラオケ用アプリケーションデータが送信される。
Thus, the MIDI data and the karaoke application data packetized in step S55 are transmitted from the I / F circuit 77.

【0134】その後は、ステップS56にて送信完了の
確認を行う。
Thereafter, confirmation of transmission completion is made in step S56.

【0135】なお、この第6の実施の形態では、MID
I格納部70から読み出したMIDIデータと送信プロ
グラム格納部71から読み出したカラオケ用アプリケー
ションデータをパケット化して通信回線から送信した
が、これらMIDIデータとカラオケ用アプリケーショ
ンデータを、記録可能な光ディスクやフロッピィディス
クに記録し、それら記録可能な光デジタルやフロッピィ
ディスクを利用者に提供することも可能である。この場
合は、MIDI格納部70から読み出したMIDIデー
タと送信プログラム格納部71から読み出したカラオケ
用アプリケーションデータを、例えばディスクドライブ
74に送り、このディスクドライブ74にて記録可能な
光ディスクやフロッピィディスクに記録する。
In the sixth embodiment, the MID
The MIDI data read from the I storage unit 70 and the karaoke application data read from the transmission program storage unit 71 are packetized and transmitted from the communication line. The MIDI data and the karaoke application data can be recorded on an optical disk or a floppy disk. It is also possible to provide the user with an optical digital or floppy disk that can be recorded on a computer. In this case, the MIDI data read from the MIDI storage unit 70 and the karaoke application data read from the transmission program storage unit 71 are sent to, for example, a disk drive 74 and recorded on an optical disk or a floppy disk recordable by the disk drive 74. I do.

【0136】ここまでの説明では、本発明を例えばカラ
オケ装置等に適用する例を説明したが、その他、レコー
ディングスタジオにおいて、決められた編集時間内にそ
の編集時間よりも僅かに長い音楽や音声を入れ込む際に
も本発明を適用することが可能である。すなわち、該編
集作業時には、音声信号のピッチ周波数を変更する処理
を行うことになるが、このピッチ周波数の変更に先だっ
て音声信号のピッチ(ピッチ周波数)を検出することが
必要であり、当該ピッチ周波数検出に本発明を適用でき
る。
In the above description, an example in which the present invention is applied to, for example, a karaoke apparatus or the like has been described. However, in a recording studio, music or voice slightly longer than the editing time may be played within a predetermined editing time. The present invention can also be applied when inserting. That is, at the time of the editing operation, a process of changing the pitch frequency of the audio signal is performed, but it is necessary to detect the pitch (pitch frequency) of the audio signal prior to the change of the pitch frequency. The present invention can be applied to detection.

【0137】[0137]

【発明の効果】請求項1に記載の本発明に係るピッチ検
出装置は、音声信号波形から複数の極大点と極小点を検
出し、単位時間内の複数の極大点の中から振幅の絶対値
が最大となる極大点を求め、単位時間内の複数の極小点
の中から振幅の絶対値が最大となる極小点を求め、最大
の極大点に対して振幅が所定の範囲内に入る極大点を求
め、最大の極小点に対して振幅が所定の範囲内に入る極
小点を求め、所定の範囲内に入る各極大点間でそれぞれ
時間間隔を求め、所定の範囲内に入る各極小点間でそれ
ぞれ時間間隔を求め、時間間隔のヒストグラムを共通の
ものとして求め、ヒストグラムの最瀕値を音声信号のピ
ッチとして取り出すようにしているため、音声信号の相
関を求めることなく、その音声波形の特徴から少ない演
算量でピッチを検出可能である。
According to a first aspect of the present invention, there is provided a pitch detecting apparatus for detecting a plurality of maximum points and minimum points from an audio signal waveform, and detecting an absolute value of an amplitude from the plurality of maximum points in a unit time. The maximum point where the absolute value of the amplitude is maximum is found from among the multiple minimum points within a unit time, and the maximum point where the amplitude falls within a predetermined range with respect to the maximum maximum point Is determined, a minimum point where the amplitude falls within a predetermined range with respect to the maximum minimum point, a time interval is determined between each maximum point falling within the predetermined range, and a time interval is determined between the minimum points falling within the predetermined range. Since the time interval is obtained in each case, the histogram of the time interval is obtained as a common one, and the most prominent value of the histogram is extracted as the pitch of the audio signal, so that the characteristic of the audio waveform is obtained without obtaining the correlation of the audio signal. Pitch detection with a small amount of computation Possible it is.

【0138】請求項2に記載の本発明に係るピッチ検出
装置は、音声信号波形から複数の極大点と極小点を検出
し、単位時間内の複数の極大点の中から振幅の絶対値が
最大となる極大点を求め、単位時間内の複数の極小点の
中から振幅の絶対値が最大となる極小点を求め、最大の
極大点に対して振幅が所定の範囲よりも大きい極大点を
求め、最大の極大点に対して振幅が所定の範囲よりも小
さい極大点を求め、最大の極小点に対して振幅が所定の
範囲よりも大きい極小点を求め、最大の極小点に対して
振幅が所定の範囲よりも小さい極小点を求め、所定の範
囲よりも大きい各極大点間でそれぞれ時間間隔を求め、
所定の範囲よりも小さい各極大点間でそれぞれ時間間隔
を求め、所定の範囲よりも大きい各極小点間でそれぞれ
時間間隔を求め、所定の範囲よりも小さい各極小点間で
それぞれ時間間隔を求め、時間間隔のヒストグラムを共
通のものとして求め、ヒストグラムの最瀕値を前記音声
信号のピッチとして取り出すようにしているため、音声
信号の相関を求めることなく、その音声波形の特徴から
少ない演算量でピッチを検出可能である。
A pitch detecting apparatus according to the present invention detects a plurality of local maximum points and local minimum points from a voice signal waveform, and obtains a maximum absolute value of the amplitude from the plural local maximum points in a unit time. Find the maximum point where the absolute value of the amplitude is the largest from among a plurality of minimum points in a unit time, and find the maximum point whose amplitude is larger than the predetermined range for the maximum maximum point For the maximum local maximum point, find a local maximum point whose amplitude is smaller than a predetermined range, obtain the local minimum point whose amplitude is larger than a predetermined range for the maximum local minimum point, and determine the amplitude for the maximum local minimum point. Determine the minimum point smaller than the predetermined range, determine the time interval between each maximum point larger than the predetermined range,
A time interval is obtained between each local maximum point smaller than the predetermined range, a time interval is obtained between each local minimum point larger than the predetermined range, and a time interval is obtained between each local minimum point smaller than the predetermined range. Since the histogram of the time interval is obtained as a common one and the most prominent value of the histogram is taken out as the pitch of the audio signal, the correlation of the audio signal is not obtained, and a small amount of calculation is performed based on the characteristics of the audio waveform. The pitch can be detected.

【0139】請求項3に記載の本発明に係るピッチ検出
装置は、ヒストグラムの最瀕値とその周辺の値を比較
し、比較結果に基づいて音声の母音/非母音を判定する
ようにしているため、音声の母音/非母音の判定を小型
の装置及び簡単な処理にて実現できる。
The pitch detecting device according to the third aspect of the present invention compares the nearest value of the histogram with its peripheral values, and determines the vowel / non-vowel of the voice based on the comparison result. Therefore, the vowel / non-vowel determination of the voice can be realized by a small device and simple processing.

【0140】請求項4に記載の本発明に係る情報媒体
は、音声信号波形から複数の極大点と極小点を検出し、
単位時間内の複数の極大点の中から振幅の絶対値が最大
となる極大点を求め、単位時間内の複数の極小点の中か
ら振幅の絶対値が最大となる極小点を求め、最大の極大
点に対して振幅が所定の範囲内に入る極大点を求め、最
大の極小点に対して振幅が所定の範囲内に入る極小点を
求め、所定の範囲内に入る各極大点間でそれぞれ時間間
隔を求め、所定の範囲内に入る各極小点間でそれぞれ時
間間隔を求め、時間間隔のヒストグラムを共通のものと
して求め、ヒストグラムの最瀕値を音声信号のピッチと
して検出するためのプログラムデータを記録若しくは伝
送し、このプログラムデータを演算装置に供給可能とす
ることで、演算装置において、音声信号の相関を求める
ことなく、その音声波形の特徴から少ない演算量でピッ
チが検出可能となり、さらに歌唱者の声やコーラスの声
の高さを正しい高さに導くことができ、音声の性質変換
を可能とする。
An information medium according to a fourth aspect of the present invention detects a plurality of maximum points and minimum points from an audio signal waveform,
Find the maximum point where the absolute value of the amplitude is the maximum from among the multiple maximum points in the unit time, find the minimum point where the absolute value of the amplitude is the maximum from the multiple minimum points in the unit time, and The maximum point where the amplitude falls within a predetermined range with respect to the maximum point is found, the minimum point where the amplitude falls within a predetermined range with respect to the maximum minimum point is determined between each maximum point that falls within the predetermined range. Program data for obtaining a time interval, obtaining a time interval between each minimum point falling within a predetermined range, obtaining a histogram of the time interval as a common one, and detecting the most prominent value of the histogram as a pitch of the audio signal. Is recorded or transmitted, and the program data can be supplied to the arithmetic unit. In the arithmetic unit, the pitch can be detected with a small amount of calculation from the characteristics of the audio waveform without finding the correlation of the audio signal. , It is possible to further lead the height of the voice of the singer's voice and chorus at the correct height, to allow nature conversion of voice.

【0141】請求項5に記載の本発明に係る情報媒体
は、音声信号波形から複数の極大点と極小点を検出し、
単位時間内の複数の極大点の中から振幅の絶対値が最大
となる極大点を求め、単位時間内の複数の極小点の中か
ら振幅の絶対値が最大となる極小点を求め、最大の極大
点に対して振幅が所定の範囲よりも大きい極大点を求
め、最大の極大点に対して振幅が所定の範囲よりも小さ
い極大点を求め、最大の極小点に対して振幅が所定の範
囲よりも大きい極小点を求め、最大の極小点に対して振
幅が所定の範囲よりも小さい極小点を求め、所定の範囲
よりも大きい各極大点間でそれぞれ時間間隔を求め、所
定の範囲よりも小さい各極大点間でそれぞれ時間間隔を
求め、所定の範囲よりも大きい各極小点間でそれぞれ時
間間隔を求め、所定の範囲よりも小さい各極小点間でそ
れぞれ時間間隔を求め、時間間隔のヒストグラムを共通
のものとして求め、ヒストグラムの最瀕値を音声信号の
ピッチとして検出するためのプログラムデータを記録若
しくは伝送し、このプログラムデータを演算装置に供給
可能とすることで、演算装置において、音声信号の相関
を求めることなく、その音声波形の特徴から少ない演算
量でピッチが検出可能となり、さらに歌唱者の声やコー
ラスの声の高さを正しい高さに導くことができ、音声の
性質変換を可能とする。
The information medium according to the fifth aspect of the present invention detects a plurality of maximum points and minimum points from an audio signal waveform,
Find the maximum point where the absolute value of the amplitude is the maximum from among the multiple maximum points in the unit time, find the minimum point where the absolute value of the amplitude is the maximum from the multiple minimum points in the unit time, and A maximum point whose amplitude is larger than a predetermined range with respect to a maximum point is obtained, a maximum point whose amplitude is smaller than a predetermined range with respect to the maximum maximum point is obtained, and a range where the amplitude is specified with respect to the maximum minimum point is obtained. Find a minimum point larger than the maximum minimum point, find a minimum point whose amplitude is smaller than a predetermined range, obtain a time interval between each maximum point larger than the predetermined range, and determine a time interval between the maximum points. A time interval is obtained between each small maximum point, a time interval is obtained between each minimum point larger than a predetermined range, a time interval is obtained between each minimum point smaller than a predetermined range, and a histogram of the time interval As a common thing, By recording or transmitting the program data for detecting the most probable value of the stogram as the pitch of the audio signal, and by being able to supply this program data to the arithmetic device, the arithmetic device does not require the correlation of the audio signal. The pitch of the singer's voice or the chorus can be guided to the correct pitch with a small amount of calculation from the characteristics of the voice waveform, and the voice characteristics can be converted.

【0142】請求項6に記載の本発明に係る情報媒体
は、ヒストグラムの最瀕値とその周辺の値を比較し、比
較結果に基づいて音声の母音/非母音を判定するための
プログラムデータを記録若しくは伝送し、このプログラ
ムデータを演算装置に供給可能とすることで、演算装置
において、音声の母音/非母音の判定を小型の装置及び
簡単な処理にて実現できる。
An information medium according to the present invention is characterized in that the most probable value of a histogram is compared with the values around the histogram, and program data for judging a vowel / non-vowel of a voice is determined based on the comparison result. By recording or transmitting the program data and supplying the program data to the arithmetic device, the arithmetic device can determine the vowel / non-vowel of the voice with a small device and simple processing.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施の形態のピッチ検出装置の
概略構成を示すブロック図である。
FIG. 1 is a block diagram illustrating a schematic configuration of a pitch detection device according to a first embodiment of the present invention.

【図2】マイクロホンから入力される原音声信号の波形
を示す波形図である。
FIG. 2 is a waveform diagram showing a waveform of an original audio signal input from a microphone.

【図3】フィルタ回路の周波数特性を示す特性図であ
る。
FIG. 3 is a characteristic diagram illustrating frequency characteristics of a filter circuit.

【図4】フィルタ回路にて低域濾波された後の音声信号
波形と、第1の実施の形態にて音声信号から検出された
ローカルマキシマム及びローカルミニマムを示す波形図
である。
FIG. 4 is a waveform diagram showing an audio signal waveform after low-pass filtering by a filter circuit, and a local maximum and a local minimum detected from the audio signal in the first embodiment.

【図5】本発明の第1の実施の形態のピッチ検出装置に
て求めた極大点と極小点を用いた時間間隔の測定の説明
に用いる図である。
FIG. 5 is a diagram used to explain measurement of a time interval using a maximum point and a minimum point obtained by the pitch detection device according to the first embodiment of the present invention.

【図6】本発明の実施の形態にて求めたヒストグラムの
説明に用いる図である。
FIG. 6 is a diagram used for explaining a histogram obtained in the embodiment of the present invention.

【図7】本発明の第1の実施の形態のピッチ検出装置の
動作の流れを示すフローチャートである。
FIG. 7 is a flowchart showing a flow of an operation of the pitch detection device according to the first embodiment of the present invention.

【図8】本発明の第2の実施の形態のピッチ検出装置に
て求めた極大点と極小点を用いた時間間隔の測定の説明
に用いる図である。
FIG. 8 is a diagram used to explain measurement of a time interval using a maximum point and a minimum point obtained by the pitch detection device according to the second embodiment of the present invention.

【図9】本発明の第2の実施の形態のピッチ検出装置の
動作の流れを示すフローチャートである。
FIG. 9 is a flowchart illustrating an operation flow of the pitch detection device according to the second embodiment of the present invention.

【図10】本発明に係るピッチ検出装置が適用される第
3の実施の形態の判定装置の概略構成を示すブロック図
である。
FIG. 10 is a block diagram illustrating a schematic configuration of a determination device according to a third embodiment to which the pitch detection device according to the present invention is applied.

【図11】本発明の第3の実施の形態の判定装置の動作
説明に用いる図である。
FIG. 11 is a diagram used to explain the operation of the determination device according to the third embodiment of the present invention.

【図12】本発明の第3の実施の形態の判定装置が適用
されるカラオケ装置のモニタ画面の一例を示す図であ
る。
FIG. 12 is a diagram illustrating an example of a monitor screen of a karaoke device to which the determination device according to the third embodiment of the present invention is applied.

【図13】本発明の第3の実施の形態の判定装置が適用
されるカラオケ装置のモニタ画面の他の例を示す図であ
る。
FIG. 13 is a diagram illustrating another example of a monitor screen of a karaoke device to which the determination device according to the third embodiment of the present invention is applied.

【図14】本発明の第3の実施の形態の判定装置の動作
の流れを示すフローチャートである。
FIG. 14 is a flowchart illustrating a flow of an operation of the determination device according to the third exemplary embodiment of the present invention.

【図15】本発明に係るピッチ検出装置が適用される第
4の実施の形態の判定装置の概略構成を示すブロック図
である。
FIG. 15 is a block diagram illustrating a schematic configuration of a determination device according to a fourth embodiment to which the pitch detection device according to the present invention is applied.

【図16】本発明の第4の実施の形態の判定装置の動作
の流れを示すフローチャートである。
FIG. 16 is a flowchart illustrating an operation flow of a determination device according to a fourth embodiment of the present invention.

【図17】本発明に係るピッチ検出装置が適用される第
5の実施の形態のパーソナルコンピュータの概略構成を
示すブロック図である。
FIG. 17 is a block diagram illustrating a schematic configuration of a personal computer according to a fifth embodiment to which the pitch detection device according to the present invention is applied.

【図18】本発明に係るピッチ検出装置が適用される第
6の実施の形態の伝送装置の概略構成を示すブロック図
である。
FIG. 18 is a block diagram illustrating a schematic configuration of a transmission device according to a sixth embodiment to which the pitch detection device according to the present invention is applied.

【図19】本発明の第6の実施の形態の伝送装置の動作
の流れを示すフローチャートである。
FIG. 19 is a flowchart illustrating an operation flow of the transmission device according to the sixth embodiment of the present invention.

【符号の説明】[Explanation of symbols]

2…アナログ/デジタル変換器、3…フィルタ回路、4
…バッファメモリ、5…ピークサーチ回路、6…符号デ
ータ化回路、7…データ分析回路、8…ピッチ検出回
路、32…ピッチ検出装置、33…比較回路、31…M
IDI基準音抽出回路、34…画像データ生成回路、3
6…判定制御回路、37…ピッチシフト回路、51…ア
ナログ/デジタル変換器、52…メモリ、53…信号処
置回路、54…CPU、55…操作部、56…ハードデ
ィスクドライブ、57…デジタル/アナログ変換器、6
0…I/F回路、72…ROM、61…ディスクドライ
ブ、70…MIDI格納部、73…RAM、71…送信
プログラム格納部、74…ディスクドライブ、77…I
/F回路、75…クロック発振器、76…送受信データ
処理回路、80…ハードディスクドライブ
2 ... analog / digital converter, 3 ... filter circuit, 4
... Buffer memory, 5 ... Peak search circuit, 6 ... Code data conversion circuit, 7 ... Data analysis circuit, 8 ... Pitch detection circuit, 32 ... Pitch detection device, 33 ... Comparison circuit, 31 ... M
IDI reference sound extraction circuit, 34... Image data generation circuit, 3
Reference numeral 6: judgment control circuit, 37: pitch shift circuit, 51: analog / digital converter, 52: memory, 53: signal processing circuit, 54: CPU, 55: operation unit, 56: hard disk drive, 57: digital / analog conversion Bowl, 6
0 I / F circuit, 72 ROM, 61 disk drive, 70 MIDI storage unit, 73 RAM, 71 transmission program storage unit, 74 disk drive, 77 I
/ F circuit, 75 clock oscillator, 76 transmission / reception data processing circuit, 80 hard disk drive

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 デジタル入力された音声信号を所定の長
さの単位時間毎に切り出す単位時間化手段と、 前記音声信号から所望の周波数帯域のみを通過させる帯
域通過手段と、 前記所望の周波数帯域の音声信号波形から極大点と極小
点を検出する極大極小点検出手段と、 前記単位時間内の複数の極大点の中から振幅の絶対値が
最大となる極大点を求める第1の極大点検出手段と、 前記単位時間内の複数の極小点の中から振幅の絶対値が
最大となる極小点を求める第1の極小点検出手段と、 前記最大の極大点に対して振幅が所定の範囲内に入る極
大点を求める第2の極大点検出手段と、 前記最大の極小点に対して振幅が所定の範囲内に入る極
小点を求める第2の極小点検出手段と、 前記所定の範囲内に存在する各極大点間でそれぞれ時間
間隔を求める極大点間検出手段と、 前記所定の範囲内に存在する各極小点間でそれぞれ時間
間隔を求める極小点間検出手段と、 前記時間間隔のヒストグラムを共通のものとして求める
ヒストグラム演算手段と、 前記ヒストグラムの最瀕値を前記音声信号のピッチとし
て取り出すピッチ取り出し手段とを有することを特徴と
するピッチ検出装置。
1. A unit time generating means for cutting out a digitally input audio signal for each unit time of a predetermined length, a band-pass means for passing only a desired frequency band from the audio signal, and the desired frequency band A maximum and minimum point detecting means for detecting a maximum and a minimum point from the audio signal waveform, and a first maximum point detection for obtaining a maximum point having the maximum absolute value of the amplitude from the plurality of maximum points in the unit time. Means, first minimum point detecting means for obtaining a minimum point having the maximum absolute value of the amplitude from a plurality of minimum points in the unit time, and an amplitude within a predetermined range with respect to the maximum maximum point. A second maximum point detecting means for finding a maximum point that falls within; a second minimum point detecting means for finding a minimum point whose amplitude is within a predetermined range with respect to the maximum minimum point; Time interval between each existing maximum point A maximum point-to-maximum point detection unit to be obtained; a minimum point-to-minimum point detection unit to obtain a time interval between each of the minimum points existing within the predetermined range; a histogram calculation unit to obtain a histogram of the time interval as a common one; Pitch detecting means for extracting the most probable value of the histogram as the pitch of the audio signal.
【請求項2】 デジタル入力された音声信号を所定の長
さの単位時間毎に切り出す単位時間化手段と、 前記音声信号から所望の周波数帯域のみを通過させる帯
域通過手段と、 前記所望の周波数帯域の音声信号波形から極大点と極小
点を検出する極大極小点検出手段と、 前記単位時間内の複数の極大点の中から振幅の絶対値が
最大となる極大点を求める第1の極大点検出手段と、 前記単位時間内の複数の極小点の中から振幅の絶対値が
最大となる極小点を求める第1の極小点検出手段と、 前記最大の極大点に対して振幅が所定の範囲よりも大き
い極大点を求める第2の極大点検出手段と、 前記最大の極大点に対して振幅が所定の範囲よりも小さ
い極大点を求める第3の極大点検出手段と、 前記最大の極小点に対して振幅が所定の範囲よりも大き
い極小点を求める第2の極小点検出手段と、 前記最大の極小点に対して振幅が所定の範囲よりも小さ
い極小点を求める第3の極小点検出手段と、 前記所定の範囲よりも大きい各極大点間でそれぞれ時間
間隔を求める第1の極大点間検出手段と、 前記所定の範囲よりも小さい各極大点間でそれぞれ時間
間隔を求める第2の極大点間検出手段と、 前記所定の範囲よりも大きい各極小点間でそれぞれ時間
間隔を求める第1の極小点間検出手段と、 前記所定の範囲よりも小さい各極小点間でそれぞれ時間
間隔を求める第2の極小点間検出手段と、 前記時間間隔のヒストグラムを共通のものとして求める
ヒストグラム演算手段と、 前記ヒストグラムの最瀕値を前記音声信号のピッチとし
て取り出すピッチ取り出し手段とを有することを特徴と
するピッチ検出装置。
2. A unit time converting means for cutting out a digitally input audio signal for each unit time of a predetermined length; a band pass means for passing only a desired frequency band from the audio signal; A maximum and minimum point detecting means for detecting a maximum and a minimum point from the audio signal waveform, and a first maximum point detection for obtaining a maximum point having the maximum absolute value of the amplitude from the plurality of maximum points in the unit time. Means, first minimum point detecting means for obtaining a minimum point having the maximum absolute value of the amplitude from a plurality of minimum points in the unit time, and an amplitude for the maximum maximum point falling within a predetermined range. A second maximum point detecting means for obtaining a maximum maximum point, a third maximum point detecting means for obtaining a maximum point having an amplitude smaller than a predetermined range with respect to the maximum maximum point, and On the other hand, the amplitude is Second minimum point detecting means for obtaining a critical minimum point; third minimum point detecting means for obtaining a minimum point having an amplitude smaller than a predetermined range with respect to the maximum minimum point; and larger than the predetermined range. A first inter-maximal point detecting means for obtaining a time interval between each of the maximal points; a second inter-maximal point detecting means for obtaining a time interval between each of the maximal points smaller than the predetermined range; First minimum point detection means for obtaining a time interval between each minimum point larger than the range; second minimum point detection means for obtaining a time interval between each minimum point smaller than the predetermined range; A histogram calculating unit for obtaining a histogram of the time interval as a common one; and a pitch extracting unit for extracting a most probable value of the histogram as a pitch of the audio signal. Pitch detection device.
【請求項3】 前記ヒストグラムの最瀕値とその周辺の
値を比較する比較手段と、 前記比較結果に基づいて音声の母音/非母音を判定する
判定手段とを設けることを特徴とする請求項1または請
求項2記載のピッチ検出装置。
3. The apparatus according to claim 1, further comprising: comparing means for comparing the most probable value of the histogram with a value in the vicinity thereof; and determining means for determining a vowel / non-vowel of the voice based on the comparison result. The pitch detection device according to claim 1 or 2.
【請求項4】 デジタル入力された音声信号を所定の長
さの単位時間毎に切り出すステップと、 前記音声信号から所望の周波数帯域のみを通過させるス
テップと、 前記所望の周波数帯域の音声信号波形から複数の極大点
と極小点を検出するステップと、 前記単位時間内の複数の極大点の中から振幅の絶対値が
最大となる極大点を求めるステップと、 前記単位時間内の複数の極小点の中から振幅の絶対値が
最大となる極小点を求めるステップと、 前記最大の極大点に対して振幅が所定の範囲内に入る極
大点を求めるステップと、 前記最大の極小点に対して振幅が所定の範囲内に入る極
小点を求めるステップと、 前記所定の範囲内に存在する各極大点間でそれぞれ時間
間隔を求めるステップと、 前記所定の範囲内に存在する各極小点間でそれぞれ時間
間隔を求めるステップと、 前記時間間隔のヒストグラムを共通のものとして求める
ステップと、 前記ヒストグラムの最瀕値を前記音声信号のピッチとし
て取り出すステップとからなる演算処理を、演算装置に
対して実行させるプログラムデータを記録、若しくは伝
送することを特徴とする情報媒体。
4. A step of cutting out a digitally input audio signal for each unit time of a predetermined length; a step of passing only a desired frequency band from the audio signal; and a step of extracting an audio signal waveform of the desired frequency band. Detecting a plurality of local maximum points and local minimum points; and obtaining a local maximum point whose absolute value of the amplitude is maximum from the local maximum points in the unit time; and Obtaining a minimum point at which the absolute value of the amplitude becomes maximum from among; obtaining a maximum point whose amplitude falls within a predetermined range with respect to the maximum maximum point; and Obtaining a minimum point falling within a predetermined range; obtaining a time interval between each maximum point existing within the predetermined range; and obtaining a time interval between each minimum point existing within the predetermined range. Calculating the time interval, obtaining the histogram of the time interval as a common one, and extracting the most probable value of the histogram as the pitch of the audio signal, to the arithmetic device. An information medium for recording or transmitting program data to be transmitted.
【請求項5】 デジタル入力された音声信号を所定の長
さの単位時間毎に切り出すステップと、 前記音声信号から所望の周波数帯域のみを通過させるス
テップと、 前記所望の周波数帯域の音声信号波形から複数の極大点
と極小点を検出するステップと、 前記単位時間内の複数の極大点の中から振幅の絶対値が
最大となる極大点を求めるステップと、 前記単位時間内の複数の極小点の中から振幅の絶対値が
最大となる極小点を求めるステップと、 前記最大の極大点に対して振幅が所定の範囲よりも大き
い極大点を求めるステップと、 前記最大の極大点に対して振幅が所定の範囲よりも小さ
い極大点を求めるステップと、 前記最大の極小点に対して振幅が所定の範囲よりも大き
い極小点を求めるステップと、 前記最大の極小点に対して振幅が所定の範囲よりも小さ
い極小点を求めるステップと、 前記所定の範囲よりも大きい各極大点間でそれぞれ時間
間隔を求めるステップと、 前記所定の範囲よりも小さい各極大点間でそれぞれ時間
間隔を求めるステップと、 前記所定の範囲よりも大きい各極小点間でそれぞれ時間
間隔を求めるステップと、 前記所定の範囲よりも小さい各極小点間でそれぞれ時間
間隔を求めるステップと、 前記時間間隔のヒストグラムを共通のものとして求める
ステップと、 前記ヒストグラムの最瀕値を前記音声信号のピッチとし
て取り出すステップとからなる演算処理を、演算装置に
対して実行させるプログラムデータを記録、若しくは伝
送することを特徴とする情報媒体。
5. A step of cutting out a digitally input audio signal for each unit time of a predetermined length; a step of passing only a desired frequency band from the audio signal; and a step of extracting an audio signal waveform of the desired frequency band. Detecting a plurality of local maximum points and local minimum points; and obtaining a local maximum point whose absolute value of the amplitude is maximum from the local maximum points in the unit time; and Obtaining a minimum point at which the absolute value of the amplitude is maximum from the middle; obtaining the maximum point whose amplitude is larger than a predetermined range with respect to the maximum maximum point; and Obtaining a local maximum point smaller than a predetermined range; obtaining the local minimum point whose amplitude is larger than a predetermined range with respect to the maximum local point; Obtaining a minimum point smaller than a predetermined range; obtaining a time interval between each of the maximum points larger than the predetermined range; and obtaining a time interval between each of the maximum points smaller than the predetermined range. A step of obtaining a time interval between each minimum point larger than the predetermined range; a step of obtaining a time interval between each minimum point smaller than the predetermined range; and a histogram of the time interval. Recording, or transmitting program data for causing an arithmetic device to execute an arithmetic process including a step of obtaining the highest value of the histogram as a pitch of the audio signal, and a step of extracting the closest value of the histogram as the pitch of the audio signal. Medium.
【請求項6】 少なくとも基準音のピッチデータをも記
録してなり、 前記演算処理は、前記ヒストグラムの最瀕値とその周辺
の値を比較するステップと、前記比較結果に基づいて音
声の母音/非母音を判定するステップとを含むことを特
徴とする請求項4または請求項5記載の情報媒体。
6. At least pitch data of a reference sound is also recorded. The arithmetic processing includes a step of comparing the most probable value of the histogram with values around the histogram, and based on the comparison result, 6. The information medium according to claim 4, further comprising: determining a non-vowel.
JP10115659A 1998-04-24 1998-04-24 Pitch detecting device and information medium Pending JPH11305794A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10115659A JPH11305794A (en) 1998-04-24 1998-04-24 Pitch detecting device and information medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10115659A JPH11305794A (en) 1998-04-24 1998-04-24 Pitch detecting device and information medium

Publications (1)

Publication Number Publication Date
JPH11305794A true JPH11305794A (en) 1999-11-05

Family

ID=14668132

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10115659A Pending JPH11305794A (en) 1998-04-24 1998-04-24 Pitch detecting device and information medium

Country Status (1)

Country Link
JP (1) JPH11305794A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209123A (en) * 2005-01-28 2006-08-10 Honda Research Inst Europe Gmbh Method of finding fundamental frequency of higher harmonic signal
JP2007193294A (en) * 2005-12-20 2007-08-02 Nippon Telegr & Teleph Corp <Ntt> Prediction delay search method, apparatus using the method, program, and recording medium
JP2008197350A (en) * 2007-02-13 2008-08-28 Yamaha Corp Musical signal creating device and karaoke device
JP2009092736A (en) * 2007-10-04 2009-04-30 Yamaha Corp Pitch conversion device and program
US8378198B2 (en) 2010-01-08 2013-02-19 Samsung Electronics Co., Ltd. Method and apparatus for detecting pitch period of input signal

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209123A (en) * 2005-01-28 2006-08-10 Honda Research Inst Europe Gmbh Method of finding fundamental frequency of higher harmonic signal
JP2007193294A (en) * 2005-12-20 2007-08-02 Nippon Telegr & Teleph Corp <Ntt> Prediction delay search method, apparatus using the method, program, and recording medium
JP2008197350A (en) * 2007-02-13 2008-08-28 Yamaha Corp Musical signal creating device and karaoke device
JP2009092736A (en) * 2007-10-04 2009-04-30 Yamaha Corp Pitch conversion device and program
US8378198B2 (en) 2010-01-08 2013-02-19 Samsung Electronics Co., Ltd. Method and apparatus for detecting pitch period of input signal

Similar Documents

Publication Publication Date Title
US7582824B2 (en) Tempo detection apparatus, chord-name detection apparatus, and programs therefor
JP4767691B2 (en) Tempo detection device, code name detection device, and program
Goto A real-time music-scene-description system: Predominant-F0 estimation for detecting melody and bass lines in real-world audio signals
US5889223A (en) Karaoke apparatus converting gender of singing voice to match octave of song
US8847056B2 (en) Vocal processing with accompaniment music input
JP4640463B2 (en) Playback apparatus, display method, and display program
US5703311A (en) Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques
US5939654A (en) Harmony generating apparatus and method of use for karaoke
JP2011198348A (en) Sound recording device
JP2002116754A (en) Tempo extraction device, tempo extraction method, tempo extraction program and recording medium
WO2009104269A1 (en) Music discriminating device, music discriminating method, music discriminating program and recording medium
Marolt SONIC: Transcription of polyphonic piano music with neural networks
US8193436B2 (en) Segmenting a humming signal into musical notes
JP2010025972A (en) Code name-detecting device and code name-detecting program
JP3996565B2 (en) Karaoke equipment
JP2015082028A (en) Singing synthetic device and program
CN101093660A (en) A note segmentation method and device based on double peak detection
JPH11305794A (en) Pitch detecting device and information medium
JP3750533B2 (en) Waveform data recording device and recorded waveform data reproducing device
JP3645364B2 (en) Frequency detector
JPH11175097A (en) Method and device for detecting pitch, decision method and device, data transmission method and recording medium
JP4048249B2 (en) Karaoke equipment
JP2002287744A (en) Method and device for waveform data analysis and program
JP3494095B2 (en) Tone element extraction apparatus and method, and storage medium
JP3173310B2 (en) Harmony generator