JP5980149B2 - Speech analysis apparatus, method and program - Google Patents
Speech analysis apparatus, method and program Download PDFInfo
- Publication number
- JP5980149B2 JP5980149B2 JP2013052979A JP2013052979A JP5980149B2 JP 5980149 B2 JP5980149 B2 JP 5980149B2 JP 2013052979 A JP2013052979 A JP 2013052979A JP 2013052979 A JP2013052979 A JP 2013052979A JP 5980149 B2 JP5980149 B2 JP 5980149B2
- Authority
- JP
- Japan
- Prior art keywords
- periodogram
- periodic
- power ratio
- periodic component
- aperiodic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
本発明は、音声に含まれる周期成分と非周期成分を抽出する音声分析装置とその方法とプログラムに関する。 The present invention relates to a speech analysis apparatus, method and program for extracting periodic and non-periodic components contained in speech.
音声の高品質分析合成法としては、STRAIGHT分析合成法が知られている(非特許文献1)。STRAIGHT分析合成法では、時間・周波数空間上で様々な補間処理やフィルタ処理を順次行うことで周期成分と非周期成分の抽出を行う。 A STRIGHT analysis and synthesis method is known as a high quality analysis and synthesis method for speech (Non-patent Document 1). In the STRAIGHT analysis and synthesis method, periodic components and aperiodic components are extracted by sequentially performing various interpolation processes and filter processes in a time / frequency space.
また、従来の線形予測の改良に基づく分析合成方法も高品質な音声分析構成方式として有用であり、基本周波数の制御の自由度が高いことからテキスト音声合成の分野で利用されている(例えば非特許文献2)。 In addition, the conventional analysis / synthesis method based on the improvement of linear prediction is also useful as a high-quality speech analysis configuration method, and is used in the field of text-to-speech synthesis because it has a high degree of freedom in controlling the fundamental frequency (for example, non-speech). Patent Document 2).
従来のSTRAIGHT分析合成法での補間処理やフィルタ処理は、郡遅延の抽出や対数スペクトル領域でのフィルタ処理など複雑な処理の組み合わせにより実現されるために処理速度が極めて遅いという課題がある。また、従来の線形予測分析方法改良に基づく方法は、線形予測分析での予測誤差を非周期成分として仮定するため、その非周期成分には音声の周期性に起因する誤差が含まれる課題がある。また、一般的なピリオドグラム等に基づく分析法は、基本周波数の時間変動による影響を考慮していないため、スペクトルの推定時において基本周波数の変動の影響を受け、スペクトルの推定が安定せず、基本周波数が変わると得られるスペクトルも異なってくる課題がある。 Interpolation processing and filter processing in the conventional STRIGHT analysis and synthesis method are realized by a combination of complex processing such as extraction of group delays and filter processing in a logarithmic spectrum region, and thus there is a problem that processing speed is extremely slow. Further, since the method based on the improvement of the conventional linear prediction analysis method assumes the prediction error in the linear prediction analysis as an aperiodic component, the aperiodic component includes an error due to the periodicity of speech. . In addition, analysis methods based on general periodograms, etc. do not take into account the effects of temporal fluctuations of the fundamental frequency, so the spectrum estimation is not stable due to the influence of fluctuations of the fundamental frequency when estimating the spectrum, There is a problem that the spectrum obtained when the fundamental frequency changes is different.
本発明は、これらの課題に鑑みてなされたものであり、従来よりも高速かつ高精度に音声の周期成分と非周期成分とを抽出できる音声分析装置と、その方法とプログラムを提供することを目的とする。 The present invention has been made in view of these problems, and provides a speech analyzer capable of extracting speech periodic and aperiodic components at a higher speed and with higher accuracy than before, and a method and program thereof. Objective.
本発明の音声分析装置は、ピリオドグラム抽出部と、不偏ケプストラム分析部と、下側包絡推定部と、周期・非周期パワー比推定部と、周期・非周期成分パワー比調整部と、を具備する。ピリオドグラム抽出部は、音声データx(n)を入力として、当該音声データx(n)のある時間窓wp(n)に対するピリオドグラムPL(ω,t)を抽出する。不偏ケプストラム分析部は、ピリオドグラム抽出部で抽出したピリオドグラムを入力として、当該ピリオドグラムの対数スペクトルの推定値fL(ω,t)を求める。下側包絡推定部は、上記ピリオドグラムを入力として、当該ピリオドグラムの下側包絡fb(ω,t)を求める。周期・非周期パワー比推定部は、音声データx(n)を入力として、当該音声データx(n)の時間tにおける平均パワーρ(t)に含まれる周期成分パワーρp(t)と非周期成分パワーρa(t)を求め、その両パワーのパワー比PARtを求める。周期・非周期成分パワー比調整部は、周期・非周期パワー比推定部で求めたパワー比PARtと不偏ケプストラム分析部で求めた対数スペクトルの推定値fL(ω,t)と下側包絡推定部で求めた下側包絡fb(ω,t)を入力として、音声データx(n)の周期成分fp(ω,t)と非周期成分fa(ω,t)を求める。 The speech analysis apparatus of the present invention comprises a periodogram extraction unit, an unbiased cepstrum analysis unit, a lower envelope estimation unit, a period / aperiodic power ratio estimation unit, and a period / aperiodic component power ratio adjustment unit. To do. The periodogram extraction unit receives the voice data x (n) as an input and extracts a periodogram P L (ω, t) for a certain time window w p (n) of the voice data x (n). The unbiased cepstrum analysis unit receives the periodogram extracted by the periodgram extraction unit and obtains an estimated value f L (ω, t) of the logarithmic spectrum of the periodogram. The lower envelope estimation unit obtains the lower envelope f b (ω, t) of the periodgram using the periodogram as an input. The period / aperiodic power ratio estimator receives the voice data x (n) as input, and the periodic component power ρ p (t) included in the average power ρ (t) at time t of the voice data x (n) The periodic component power ρ a (t) is obtained, and the power ratio PAR t between the two powers is obtained. The periodic / non-periodic component power ratio adjustment unit is configured such that the power ratio PAR t obtained by the periodic / non-periodic power ratio estimation unit, the logarithmic spectrum estimation value f L (ω, t) obtained by the unbiased cepstrum analysis unit, and the lower envelope Using the lower envelope f b (ω, t) obtained by the estimation unit as an input, the periodic component f p (ω, t) and the non-periodic component f a (ω, t) of the speech data x (n) are obtained.
本発明の音声分析装置によれば、高精度で且つ処理量の少ないスペクトル推定法である不偏ケプストラム分析法で求める対数スペクトルの推定値fL(ω,t)は音声データx(n)の周期成分に相当し、下側包絡推定部でケプストラム法を改良した方法で求める下側包絡fb(ω,t)は音声データx(n)の非周期成分に相当する。これらの少ない処理量で求めた周期成分と非周期成分を、音声の周期性の判定に用いられる周期・非周期成分のパワー比の推定法を利用して求めたパワー比を用いて調整して出力する。したがって、音声データx(n)に含まれる周期成分と非周期成分を、少ない処理量で且つ高精度に求めることができる。 According to the speech analysis apparatus of the present invention, the logarithmic spectrum estimate f L (ω, t) obtained by the unbiased cepstrum analysis method, which is a highly accurate and low processing amount spectrum estimation method, is the period of the speech data x (n). The lower envelope f b (ω, t) obtained by a method obtained by improving the cepstrum method in the lower envelope estimation unit corresponds to an aperiodic component of the speech data x (n). The periodic and non-periodic components obtained with these small amounts of processing are adjusted using the power ratio obtained using the method for estimating the power ratio of the periodic / non-periodic components used to determine the periodicity of speech. Output. Therefore, the periodic component and the non-periodic component included in the audio data x (n) can be obtained with a small amount of processing and high accuracy.
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
〔発明の考え〕
実施例の説明の前にこの発明の新しい考え方を説明する。この発明は、音声データの周期成分を、高精度で且つ処理量の少ないスペクトル推定法である不偏ケプストラム推定法で抽出する。そして、非周期成分については、ケプストラムの上側包絡の推定に用いるケプストラム推定法を変形して下側包絡を推定するようにし、その下側包絡を非周期成分として抽出する考えである。
Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.
[Invention]
Prior to the description of the embodiments, a new concept of the present invention will be described. According to the present invention, periodic components of audio data are extracted by an unbiased cepstrum estimation method which is a spectrum estimation method with high accuracy and a small amount of processing. For the aperiodic component, the idea is to modify the cepstrum estimation method used for estimating the upper envelope of the cepstrum so as to estimate the lower envelope, and to extract the lower envelope as the aperiodic component.
図1に、時間領域の音声データx(n)の例を示す。横軸は時間[秒]、縦軸は振幅である。音声データx(n)は、例えば、サンプリング周波数16kHzで離散値化されたディジタル信号である。図1では連続波で示している。 FIG. 1 shows an example of time domain audio data x (n). The horizontal axis is time [second], and the vertical axis is amplitude. The audio data x (n) is, for example, a digital signal that has been digitized at a sampling frequency of 16 kHz. FIG. 1 shows a continuous wave.
音声データx(n)は、その観測上の都合で誤差を含んでいる。ある所定時間内の音声データx(n)に含まれる周期成分は、その離散値を、例えば、256点集めて1フレームとし、1/2オーバーラップ加算による周波数分析を行い、フレーム単位で8kHzまでの周波数範囲を128個の周波数スペクトルに変換して求めることができる。図1の例では、○の間隔で表される正しい基本周期t0の逆数にほぼ等しい調波構造を有するスペクトルとして得られる。 The audio data x (n) includes an error due to observational reasons. For the periodic component included in the audio data x (n) within a predetermined time, the discrete values are collected into, for example, 256 points to form one frame, and frequency analysis is performed by 1/2 overlap addition, up to 8 kHz per frame. Can be obtained by converting the frequency range into 128 frequency spectra. In the example of FIG. 1, the spectrum is obtained as a spectrum having a harmonic structure substantially equal to the reciprocal of the correct basic period t 0 represented by the interval of ○.
一方、音声データx(n)に含まれる非周期成分は、例えば周期成分に重畳する形で音声データx(n)の波形の全体を変動させるランダムな雑音信号として観測されるものと考えられる。図1に示す例では、*で示す全周波数帯域に概ね一様に含まれる雑音信号が、非周期成分である。 On the other hand, the non-periodic component included in the audio data x (n) is considered to be observed as a random noise signal that fluctuates the entire waveform of the audio data x (n), for example, in a form superimposed on the periodic component. In the example shown in FIG. 1, a noise signal that is substantially uniformly included in the entire frequency band indicated by * is an aperiodic component.
そこで、この発明では、音声データx(n)から、確率的な信号についてのFFTの平均値であるピリオドグラムを求め、そのピリオドグラムから対数スペクトルの推定値を凡その周期成分、そのピリオドグラムの下側包絡を凡その非周期成分として求める。そして、その概略的な周期成分と非周期成分の値を、音声の周期性の判定に用いられる周期・非周期成分のパワー比の推定法で求めたパワー比を利用して正確な値に調整するようにしたものである。 Therefore, in the present invention, a periodogram, which is the average value of the FFT for the stochastic signal, is obtained from the speech data x (n), and an estimated value of the logarithmic spectrum is obtained from the periodogram as an approximate periodic component and the periodogram. Find the lower envelope as an approximate non-periodic component. The rough periodic and aperiodic component values are adjusted to accurate values using the power ratio obtained by the period / aperiodic component power ratio estimation method used to determine the periodicity of speech. It is what you do.
図2に、対数スペクトルの推定値と下側包絡の波形例を示す。横軸は周波数[Hz]、縦軸は対数振幅である。ピリオドグラムから求めた対数スペクトルの推定値が音声データx(n)に含まれる周期成分、下側包絡が非周期成分を表す。 FIG. 2 shows an example of the waveform of the estimated value of the logarithmic spectrum and the lower envelope. The horizontal axis represents frequency [Hz], and the vertical axis represents logarithmic amplitude. The estimated value of the logarithmic spectrum obtained from the periodogram represents a periodic component included in the speech data x (n), and the lower envelope represents an aperiodic component.
凡その周期成分を求める不偏ケプストラム推定法、及び、下側包絡を求めるケプストラム推定法は、従来のSTRAIGHT分析合成法と比較して少ない処理量で済むので、高速且つ高精度に音声データの周期成分と非周期成分を分析することが可能になる。 The unbiased cepstrum estimation method for obtaining the periodic component and the cepstrum estimation method for obtaining the lower envelope require a smaller amount of processing than the conventional STRAIGHT analysis and synthesis method. It becomes possible to analyze non-periodic components.
図3に、この発明の音声分析装置100の機能構成例を示す。その動作フローを図4に示す。音声分析装置100は、ピリオドグラム抽出部110と、不偏ケプストラム分析部120と、下側包絡推定部130と、周期・非周期パワー比推定部140と、周期・非周期成分パワー比調整部150と、を具備する。音声分析装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
FIG. 3 shows a functional configuration example of the speech analysis apparatus 100 of the present invention. The operation flow is shown in FIG. The speech analysis apparatus 100 includes a
ピリオドグラム抽出部110は、音声データx(n)を入力として、当該音声データx(n)のある時間窓wpに対するピリオドグラムPL(ω,t)を抽出する(ステップS110)。時間窓wpは、ある窓長Nの時間窓wp(n):0≦n≦Nであり、実効窓長が基本周波数以上でサイドローブが十分に減衰している、例えばガウス窓やブラクマン窓等の時間窓である。
The
ピリオドグラムPL(ω,t)は、式(1)で表せる。 The periodogram P L (ω, t) can be expressed by equation (1).
不偏ケプストラム分析部120は、ピリオドグラム抽出部110で抽出したピリオドグラムPL(ω,t)を入力として、当該ピリオドグラムPL(ω,t)の対数スペクトルの推定値fL(ω,t)を求める(ステップS120)。対数ピリオドグラムを式(2)で表すとすると、ケプストラム差分成分Δαmと線形平滑化スペクトル差分成分ΔfL(ω,t)は、式(3)と(4)で求めることができる。
The unbiased
ただし、K>0,M>0である。対数スペクトルの初期値fL(ω,t)は、例えば対数ピリオドグラムPL(ω,t)の線形平滑化スペクトル(式(6))としても良い。 However, K> 0 and M> 0. The initial value f L (ω, t) of the logarithmic spectrum may be, for example, a linearly smoothed spectrum (equation (6)) of the logarithmic periodogram P L (ω, t).
これらの式(3)〜(6)の導出については、何れも周知であるのでその説明は省略する。ケプストラム差分成分Δαmと線形平滑化スペクトル差分成分ΔfL(ω,t)とが収束するまでf′L(ω,t)=fL(ω,t)+ΔfL(ω,t)と更新して対数スペクトルの推定値fL(ω,t)を求める。 Since derivation of these equations (3) to (6) is well known, the description thereof is omitted. F ′ L (ω, t) = f L (ω, t) + Δf L (ω, t) is updated until the cepstrum difference component Δα m and the linear smoothed spectral difference component Δf L (ω, t) converge. Thus, an estimated value f L (ω, t) of the logarithmic spectrum is obtained.
下側包絡推定部130は、ピリオドグラム推定部110で推定したピリオドグラムPL(ω,t)を入力として、当該ピリオドグラムの下側包絡fb(ω,t)を式(8)で求める(ステップS130)。
The lower
εは収束条件である。式(7)は、改良ケプストラム法の上側包絡fu(ω,t)を求める式のG(R)の定義を変更したものである。 ε is a convergence condition. Equation (7) is obtained by changing the definition of G (R) in the equation for obtaining the upper envelope f u (ω, t) of the improved cepstrum method.
周期・非周期パワー比推定部140は、音声データx(n)を入力として、当該音声データx(n)の時間tにおける平均パワーρ(t)に含まれる周期成分パワーρp(t)と非周期成分パワーρa(t)を求め、当該周期成分パワーρp(t)と非周期成分パワーρa(t)のパワー比PARtを求める(ステップS140)。
The period / aperiodic power
音声のスペクトルに含まれる周期成分と非周期成分に関する推定方法については、様々な方法が提案されている。時間tにおける平均パワーρ(t)に含まれる周期成分パワーρp(t)と非周期成分パワーρa(t)のパワー比PARtは、例えば次式で求める(参考文献1:Ishizuka, Nakatani “Study of Noise Robust Voice Activity Detection Based on Periodic Component to Aperiodic Component Ratio” ,Proc.SAPA, pp.65-70,2006.)。 Various methods have been proposed for estimating the periodic component and the aperiodic component included in the speech spectrum. The power ratio PAR t of the periodic component power ρ p (t) and the non-periodic component power ρ a (t) included in the average power ρ (t) at time t is obtained, for example, by the following equation (Reference 1: Ishizuka, Nakatani “Study of Noise Robust Voice Activity Detection Based on Periodic Component to Aperiodic Component Ratio”, Proc. SAPA, pp. 65-70, 2006.).
ここでρ(t)は時間tにおけるパワースペクトル密度、w(n)は窓関数、Dは次数、Hは調波数、hmはm番目の調波のビンである。また、上式におけるパワースペクトル密度ρ(t)は、次式に示すように窓掛けされた音声データx(n)の時間tにおけるパワースペクトル密度Stの平均値に基づいて定義することができる。 Here [rho (t) is the power spectral density at the time t, w (n) is the window function, D is the order, H is harmonic number, h m is a bottle of the m-th harmonic. The power spectral density in the above formula [rho (t) can be defined based on the average value of the power spectral density S t at time t of the audio data x that is windowed as shown in the following formula (n) .
周期・非周期成分パワー比調整部150は、周期・非周期パワー比推定部120で求めたパワー比PARtと、不偏ケプストラム分析部130で求めた対数スペクトルの推定値fL(ω,t)と、下側包絡推定部で求めた下側包絡fb(ω,t)と、を入力として音声データx(n)の周期成分fp(ω,t)と非周期成分fa(ω,t)を求める(ステップS150)。周期・非周期成分パワー比調整部150は、まず、対数スペクトルの推定値fL(ω,t)と下側包絡推定部で求めた下側包絡fb(ω,t)とから、平均パワー比PRtを次式で求める。
The periodic / non-periodic component power
この平均パワー比PRtを、パワー比PARtで正規化した値に下側包絡fb(ω,t)を乗じることで非周期成分fa(ω,t)を求める(式(15))。 A value obtained by normalizing the average power ratio PR t by the power ratio PAR t is multiplied by the lower envelope f b (ω, t) to obtain an aperiodic component f a (ω, t) (Expression (15)). .
ここでκは0以上の調整係数である。 Here, κ is an adjustment coefficient of 0 or more.
非周期成分fa(ω,t)にパワー比PARtを乗じることで周期成分fp(ω,t)を求めることができる(式(16))。 The periodic component f p (ω, t) can be obtained by multiplying the non-periodic component f a (ω, t) by the power ratio PAR t (equation (16)).
このように、凡その周期成分である対数スペクトルの推定値fL(ω,t)と、凡その非周期成分である下側包絡fb(ω,t)を、周期・非周期パワー比推定部120で求めたパワー比PARtの値を用いて正規化することで、周期成分fp(ω,t)と非周期成分fa(ω,t)の精度を高めることができる。
Thus, the estimated value f L (ω, t) of the logarithmic spectrum, which is an approximate periodic component, and the lower envelope f b (ω, t), which is an approximate aperiodic component, are used to estimate the periodic / nonperiodic power ratio. By normalizing using the value of the power ratio PAR t obtained by the
図5に、この発明の音声分析装置200の機能構成例を示す。その動作フローを図6に示す。音声分析装置200は、上記した音声分析装置100(図3)に対して、基本周期抽出部210とピリオドグラム抽出部220を備える点で異なる。
FIG. 5 shows a functional configuration example of the speech analysis apparatus 200 of the present invention. The operation flow is shown in FIG. The speech analysis apparatus 200 is different from the speech analysis apparatus 100 (FIG. 3) in that a fundamental period extraction unit 210 and a
ピリオドグラム抽出部220は、相補的時間窓wc(n)を用いることで基本周波数の時間変動の影響を取り除いたピリオドグラムP(ω、t)の推定を行うようにしたものである。相補的時間窓wc(n)は、ピリオドグラムを推定する時間区間における音声データx(n)の基本周期をt0とすると次式で定義される。
The
基本周期t0は、音声データx(n)を入力とする基本周期抽出部210で抽出する(ステップS210)。基本周期t0の抽出は、例えば、非特許文献1に記載された周知の方法で行う。 Fundamental period t 0 is extracted with fundamental period extraction unit 210 which receives the audio data x (n) (step S210). Extraction of the fundamental period t 0 is carried out, for example, in a known method described in Non-Patent Document 1.
時間軸方向での周期的変動の無いピリオドグラムP(ω、t)は、時間方向に伸張した時間窓wpで得られたピリオドグラムPL(ω,t)(式(1))と、その相補的なピリオドグラムPc(ω,t)(式(18))との加重和(式(19))として求める(参考文献2:河原英紀、勝瀬郁代、東山恵祐、「音声分析・変換・合成方法STRAIGHT-TEMPOにおける相補的な時間窓の利用について」信学技報TECHNICAL REPORT OF IEICE.SP97-32 1997-07.)。 A periodogram P (ω, t) having no periodic fluctuation in the time axis direction is a periodogram P L (ω, t) (formula (1)) obtained by the time window w p extended in the time direction, It is obtained as a weighted sum (formula (19)) with its complementary periodogram P c (ω, t) (formula (18)) (reference 2: Hideki Kawahara, Yayoyo Katsuse, Keisuke Higashiyama, “Speech Analysis / Conversion”・ About the use of complementary time windows in the synthesis method STRAIGHT-TEMPO ”, IEICE Tech. Technical Report of IEICE.SP97-32 1997-07.
ここでξは、ξ>0の混合係数である。 Here, ξ is a mixing coefficient of ξ> 0.
時間軸方向での周期的変動の無いピリオドグラムP(ω、t)を用いることで、位相干渉の影響を受けない音声の安定な短時間スペクトルを求めることができる。そのピリオドグラムP(ω、t)から求める周期成分fp(ω,t)と非周期成分fa(ω,t)は、音声分析装置100で求めた値よりも精度の良い値にすることができる。また、不偏ケプストラム推定部120と下側包絡推定部130での繰り返し演算における収束が早くなり、分析速度が高速化する効果も奏する。
〔変形例1〕
音声分析装置200は、より高い精度で周期成分fp(ω,t)と非周期成分fa(ω,t)の分析ができるように変形することが可能である。変形した音声分析装置200′を図5に示す。
By using the periodogram P (ω, t) having no periodic fluctuation in the time axis direction, a stable short-time spectrum of speech that is not affected by phase interference can be obtained. The periodic component f p (ω, t) and the non-periodic component f a (ω, t) obtained from the periodogram P (ω, t) should be values with higher accuracy than those obtained by the speech analyzer 100. Can do. In addition, convergence in the iterative calculation in the unbiased
[Modification 1]
The speech analysis apparatus 200 can be modified so that the periodic component f p (ω, t) and the non-periodic component f a (ω, t) can be analyzed with higher accuracy. A modified speech analyzer 200 'is shown in FIG.
音声分析装置200′は、音声分析装置200に対して、基本周期抽出部210′と周期・非周期成分パワー比調整部150′の構成が異なる。基本周期抽出部210′は、音声データx(n)の有声部と無声部を検出する検出機能を更に備え、有声/無声情報(V/UV)を周期・非周期成分パワー比調整部150′に出力する点で、基本周期抽出部210と異なる。
The speech analysis apparatus 200 ′ differs from the speech analysis apparatus 200 in the configuration of a basic period extraction unit 210 ′ and a period / non-periodic component power
また、周期・非周期成分パワー比調整部150′は、有声/無声情報に基づいて調整係数κ(式(15))を切り替えて周期成分fp(ω,t)と非周期成分fa(ω,t)を求める点で、周期・非周期成分パワー比調整部150と異なる。調整係数κは、有声部では例えばκ=0.4〜0.5、無声部では例えばκ=0.8〜0.9、として切り替えられる。
Further, the periodic / non-periodic component power
このように調整係数κを切り替えることで、無声音において不偏ケプストラム推定による周期成分を大きく見積もってしまう課題を防止することができる。また、有声音において下側包絡による非周期成分を過剰に推定してしまう課題を防止することができる。その結果、周期成分fp(ω,t)と非周期成分fa(ω,t)の精度をより高めることが可能である。なお、有声部と無声部の検出は、例えば非特許文献1に記載されている従来技術で実現することができる。 By switching the adjustment coefficient κ in this way, it is possible to prevent a problem that a period component due to unbiased cepstrum estimation is largely estimated in an unvoiced sound. In addition, it is possible to prevent a problem that a non-periodic component due to the lower envelope is excessively estimated in voiced sound. As a result, it is possible to further improve the accuracy of the periodic component f p (ω, t) and the non-periodic component f a (ω, t). In addition, the detection of a voiced part and a voiceless part is realizable with the prior art described in the nonpatent literature 1, for example.
以上説明したように、音声分析装置100は、音声データの周期成分については従来のSTRAIGHT分析合成法と比較して高精度且つ処理量の少ないスペクトル推定法である「不偏ケプストラム推定法」で抽出すると共に、非周期成分についてはスペクトルの上側包絡の推定に適した改良ケプストラム法を下側包絡の推定に適用して非周期成分として抽出するので、少ない処理量で周期成分と非周期成分の周波数特性の高精度な分析を可能にする。 As described above, the speech analysis apparatus 100 extracts the periodic component of speech data by the “unbiased cepstrum estimation method”, which is a spectrum estimation method with high accuracy and a small amount of processing compared to the conventional STRIGHT analysis and synthesis method. At the same time, since the improved cepstrum method suitable for the estimation of the upper envelope of the spectrum is applied to the estimation of the lower envelope for the non-periodic component, it is extracted as a non-periodic component. Enables highly accurate analysis.
また、この発明の音声分析装置200は、音声からある時間単位を切り出す窓関数としてその時間単位における音声基本周期に基づく相補的時間窓を用いることで基本周期の時間変動に伴う影響を除去した安定したピリオドグラムの推定が可能であり、そのピリオドグラムから求める周期成分と非周期成分の精度をより高めることができる。 In addition, the speech analysis apparatus 200 of the present invention uses a complementary time window based on the speech fundamental period in the time unit as a window function for extracting a certain time unit from the speech, thereby eliminating the influence caused by the time variation of the fundamental period. The periodogram can be estimated, and the accuracy of the periodic component and the non-periodic component obtained from the periodogram can be further increased.
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 When the processing means in the above apparatus is realized by a computer, the processing contents of the functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
Claims (7)
上記ピリオドグラム抽出部が出力するピリオドグラムを入力として、当該ピリオドグラムの対数スペクトルの推定値fL(ω,t)を求める不偏ケプストラム分析部と、
上記ピリオドグラム抽出部が出力するピリオドグラムを入力として、当該ピリオドグラムの下側包絡fb(ω,t)を求める下側包絡推定部と、
上記音声データx(n)を入力として、当該音声データx(n)の時間tにおける平均パワーρ(t)に含まれる周期成分パワーρp(t)と非周期成分パワーρa(t)を求め、当該周期成分パワーρp(t)と非周期成分パワーρa(t)のパワー比PARtを求める周期・非周期パワー比推定部と、
上記対数スペクトルの推定値fL(ω,t)と上記下側包絡fb(ω,t)と上記パワー比PARtを入力として、上記音声データx(n)の周期成分fp(ω,t)と非周期成分fa(ω,t)を求める周期・非周期成分パワー比調整部と、
を具備する音声分析装置。 A periodogram extraction unit that extracts the periodogram P L (ω, t) for a certain time window w p of the voice data x (n) with the voice data x (n) as an input;
An unbiased cepstrum analysis unit that obtains an estimated value f L (ω, t) of a logarithmic spectrum of the periodogram, using the periodogram output by the periodogram extraction unit as an input;
A lower envelope estimator that obtains a lower envelope f b (ω, t) of the periodgram, using the periodogram output by the periodogram extractor as an input;
Using the audio data x (n) as an input, the periodic component power ρ p (t) and the aperiodic component power ρ a (t) included in the average power ρ (t) at the time t of the audio data x (n). A period / aperiodic power ratio estimator for obtaining a power ratio PAR t between the periodic component power ρ p (t) and the aperiodic component power ρ a (t);
The logarithmic spectrum estimate f L (ω, t), the lower envelope f b (ω, t), and the power ratio PAR t are input, and the periodic component f p (ω, t) of the audio data x (n) is input. t) and a non-periodic component f a (ω, t) to obtain a period / non-periodic component power ratio adjustment unit;
A voice analysis apparatus comprising:
更に、上記音声データx(n)を入力として、当該音声データx(n)の基本周期t0を抽出する基本周期抽出部を備え、
上記ピリオドグラム抽出部は、次式で表される相補的時間窓wc(n)に基づくピリオドグラムPc(ω,t)を抽出し、
当該ピリオドグラムPc(ω,t)と上記ピリオドグラムPL(ω,t)との加重和を、次式で表せる時間軸方向での周期的変動の無いピリオドグラムP(ω、t)として出力するもの、
であることを特徴とする音声分析装置。 The speech analysis apparatus according to claim 1,
And a basic period extraction unit that extracts the basic period t 0 of the audio data x (n) using the audio data x (n) as an input;
The periodogram extraction unit extracts a periodogram P c (ω, t) based on a complementary time window w c (n) represented by the following equation:
A weighted sum of the periodogram P c (ω, t) and the periodogram P L (ω, t) is represented as a periodogram P (ω, t) having no periodic fluctuation in the time axis direction expressed by the following equation. What to output,
A speech analyzer characterized by being.
上記基本周期抽出部は、更に上記音声データx(n)の有声部と無声部を検出する検出機能を備え、有声/無声情報を上記周期・非周期成分パワー比調整部に出力し、
調整係数を上記周期・非周期成分パワー比調整部において周期成分f p (ω,t)と非周期成分f a (ω,t)を求める際に用いる0以上の数とし、
上記周期・非周期成分パワー比調整部は、上記有声/無声情報が上記音声データx(n)の無声部を示す場合に用いる調整係数が有声部を示す場合に用いる調整係数より大きい数となるよう調整係数を切り替えて周期成分fp(ω,t)と非周期成分fa(ω,t)を求めるもの、
であることを特徴とする音声分析装置。 The voice analysis apparatus according to claim 2,
The basic period extraction unit further includes a detection function for detecting a voiced part and a voiceless part of the voice data x (n), and outputs voiced / unvoiced information to the period / aperiodic component power ratio adjustment unit,
The adjustment coefficient is a number of 0 or more used when the periodic component f p (ω, t) and the non-periodic component f a (ω, t) are obtained in the periodic / non-periodic component power ratio adjusting unit .
The periodic / non-periodic component power ratio adjusting unit has an adjustment coefficient used when the voiced / unvoiced information indicates a voiceless part of the voice data x (n) larger than an adjustment coefficient used when a voiced part is indicated. A periodic component f p (ω, t) and an aperiodic component f a (ω, t) are obtained by switching the adjustment coefficient
A speech analyzer characterized by being.
不偏ケプストラム分析部が、上記ピリオドグラム抽出部が出力するピリオドグラムを入力として、当該ピリオドグラムの対数スペクトルの推定値fL(ω,t)を求める不偏ケプストラム分析過程と、
下側包絡推定部が、上記ピリオドグラム抽出部が出力するピリオドグラムを入力として、当該ピリオドグラムの下側包絡fb(ω,t)を求める下側包絡推定過程と、
周期・非周期パワー比推定部が、上記音声データx(n)を入力として、当該音声データx(n)の時間tにおける平均パワーρ(t)に含まれる周期成分パワーρp(t)と非周期成分パワーρa(t)を求め、当該周期成分パワーρp(t)と非周期成分パワーρa(t)のパワー比PARtを求める周期・非周期パワー比推定過程と、
周期・非周期成分パワー比調整部が、上記対数スペクトルの推定値fL(ω,t)と上記下側包絡fb(ω,t)と上記パワー比PARtを入力として、上記音声データx(n)の周期成分fp(ω,t)と非周期成分fa(ω,t)を求める周期・非周期成分パワー比調整過程と、
を備える音声分析方法。 A periodogram extraction process in which the periodogram extraction unit extracts the periodogram P L (ω, t) for a certain time window w p of the voice data x (n) by using the voice data x (n) as an input;
An unbiased cepstrum analysis unit that receives the periodogram output from the periodogram extraction unit as an input and obtains an estimated value f L (ω, t) of the logarithmic spectrum of the periodogram;
A lower envelope estimation unit which receives the periodogram output from the periodogram extraction unit as an input and obtains a lower envelope f b (ω, t) of the periodgram;
The period / aperiodic power ratio estimation unit receives the voice data x (n) as an input, and the periodic component power ρ p (t) included in the average power ρ (t) at the time t of the voice data x (n). A period / aperiodic power ratio estimation process for obtaining a non-periodic component power ρ a (t) and obtaining a power ratio PAR t between the periodic component power ρ p (t) and the aperiodic component power ρ a (t);
The periodic / non-periodic component power ratio adjustment unit receives the logarithmic spectrum estimation value f L (ω, t), the lower envelope f b (ω, t), and the power ratio PAR t as input, and the audio data x A periodic / non-periodic component power ratio adjustment process for obtaining a periodic component f p (ω, t) and an aperiodic component f a (ω, t) of (n);
A voice analysis method comprising:
更に、上記音声データx(n)を入力として、当該音声データx(n)の基本周期t0を抽出する基本周期抽出過程を備え、
上記ピリオドグラム抽出過程は、次式で表される相補的時間窓wc(n)に基づくピリオドグラムPc(ω,t)を抽出し、
当該ピリオドグラムPc(ω,t)と上記ピリオドグラムPL(ω,t)との加重和を、次式で表せる時間軸方向での周期的変動の無いピリオドグラムP(ω、t)として出力する過程、
であることを特徴とする音声分析方法。 The speech analysis method according to claim 4,
Furthermore, it comprises a basic period extraction process for extracting the basic period t 0 of the voice data x (n), using the voice data x (n) as an input,
The periodogram extraction process extracts a periodogram P c (ω, t) based on a complementary time window w c (n) represented by the following equation:
A weighted sum of the periodogram P c (ω, t) and the periodogram P L (ω, t) is represented as a periodogram P (ω, t) having no periodic fluctuation in the time axis direction expressed by the following equation. Output process,
A speech analysis method characterized by
上記基本周期抽出過程は、更に上記音声データx(n)の有声部と無声部を検出する検出機能を備え、有声/無声情報を上記周期・非周期成分パワー比調整過程に出力し、
調整係数を上記周期・非周期成分パワー比調整過程において周期成分f p (ω,t)と非周期成分f a (ω,t)を求める際に用いる0以上の数とし、
上記周期・非周期成分パワー比調整過程は、上記有声/無声情報が上記音声データx(n)の無声部を示す場合に用いる調整係数が有声部を示す場合に用いる調整係数より大きい数となるよう調整係数を切り替えて周期成分fp(ω,t)と非周期成分fa(ω,t)を求める過程、
であることを特徴とする音声分析方法。 The speech analysis method according to claim 5,
The basic period extraction process further includes a detection function for detecting voiced and unvoiced parts of the voice data x (n), and outputs voiced / unvoiced information to the period / aperiodic component power ratio adjustment process.
The adjustment coefficient is a number greater than or equal to 0 used when obtaining the periodic component f p (ω, t) and the aperiodic component f a (ω, t) in the period / aperiodic component power ratio adjustment process .
In the period / aperiodic component power ratio adjustment process, the adjustment coefficient used when the voiced / unvoiced information indicates the voiceless part of the voice data x (n) is larger than the adjustment coefficient used when the voiced part indicates the voiced part. A process of obtaining the periodic component f p (ω, t) and the non-periodic component f a (ω, t) by switching the adjustment coefficient,
A speech analysis method characterized by
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013052979A JP5980149B2 (en) | 2013-03-15 | 2013-03-15 | Speech analysis apparatus, method and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013052979A JP5980149B2 (en) | 2013-03-15 | 2013-03-15 | Speech analysis apparatus, method and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2014178534A JP2014178534A (en) | 2014-09-25 |
| JP5980149B2 true JP5980149B2 (en) | 2016-08-31 |
Family
ID=51698530
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013052979A Expired - Fee Related JP5980149B2 (en) | 2013-03-15 | 2013-03-15 | Speech analysis apparatus, method and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5980149B2 (en) |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4571871B2 (en) * | 2005-02-03 | 2010-10-27 | 日本電信電話株式会社 | Speech signal analysis method and apparatus for performing the analysis method, speech recognition apparatus using the speech signal analysis apparatus, program for executing the analysis method, and storage medium thereof |
| JP5275612B2 (en) * | 2007-07-18 | 2013-08-28 | 国立大学法人 和歌山大学 | Periodic signal processing method, periodic signal conversion method, periodic signal processing apparatus, and periodic signal analysis method |
| JP5294300B2 (en) * | 2008-03-05 | 2013-09-18 | 国立大学法人 東京大学 | Sound signal separation method |
-
2013
- 2013-03-15 JP JP2013052979A patent/JP5980149B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2014178534A (en) | 2014-09-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN102473412B (en) | Speech signal interval estimation device and method | |
| Drugman et al. | A comparative study of glottal source estimation techniques | |
| CN103067322B (en) | The method of the voice quality of the audio frame in assessment channel audio signal | |
| JP5275612B2 (en) | Periodic signal processing method, periodic signal conversion method, periodic signal processing apparatus, and periodic signal analysis method | |
| JP4516157B2 (en) | Speech analysis device, speech analysis / synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program | |
| JP6180553B2 (en) | Method and system for enhancing input noise mixed signal | |
| Mittal et al. | Study of characteristics of aperiodicity in Noh voices | |
| Miramont et al. | Voice jitter estimation using high-order synchrosqueezing operators | |
| JP4586577B2 (en) | Disturbance component suppression device, computer program, and speech recognition system | |
| JPWO2006070560A1 (en) | Noise suppression device, noise suppression method, noise suppression program, and computer-readable recording medium | |
| JP5377167B2 (en) | Scream detection device and scream detection method | |
| JP5980149B2 (en) | Speech analysis apparatus, method and program | |
| JP3849679B2 (en) | Noise removal method, noise removal apparatus, and program | |
| JPH08305396A (en) | Audio band expanding device and audio band expanding method | |
| Actlin Jeeva et al. | Discrete cosine transform‐derived spectrum‐based speech enhancement algorithm using temporal‐domain multiband filtering | |
| Huang et al. | Improved Codebook-Based Speech Enhancement Based on MBE Model. | |
| JP4630183B2 (en) | Audio signal analysis apparatus, audio signal analysis method, and audio signal analysis program | |
| Dunn et al. | Sinewave analysis/synthesis based on the Fan-Chirp tranform | |
| JP6213217B2 (en) | Speech synthesis apparatus and computer program for speech synthesis | |
| JP4690973B2 (en) | Signal section estimation apparatus, method, program, and recording medium thereof | |
| JP4958241B2 (en) | Signal processing apparatus, signal processing method, signal processing program, and recording medium | |
| Youcef et al. | A tutorial on speech synthesis models | |
| Raviv et al. | Low resources online single-microphone speech enhancement with harmonic emphasis | |
| McCallum et al. | Joint stochastic-deterministic wiener filtering with recursive Bayesian estimation of deterministic speech. | |
| CN116137154A (en) | Signal enhancement method, device, equipment and storage medium for voice signal |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150127 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160112 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160203 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160719 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160726 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5980149 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |