KR100784456B1 - Voice Enhancement System using GMM - Google Patents
Voice Enhancement System using GMM Download PDFInfo
- Publication number
- KR100784456B1 KR100784456B1 KR1020060066884A KR20060066884A KR100784456B1 KR 100784456 B1 KR100784456 B1 KR 100784456B1 KR 1020060066884 A KR1020060066884 A KR 1020060066884A KR 20060066884 A KR20060066884 A KR 20060066884A KR 100784456 B1 KR100784456 B1 KR 100784456B1
- Authority
- KR
- South Korea
- Prior art keywords
- noise
- sound quality
- dynamic
- frequency
- estimator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Noise Elimination (AREA)
Abstract
기존의 단일 채널 음질향상(single channel speech enhancement) 방법들은 최초 일정구간의 입력신호를 잡음구간으로 가정하여 이로부터 잡음 신호의 주파수 특성을 추정한다. 그런 다음 입력 음성 신호로부터 잡음 신호의 주파수 에너지 값을 차감함으로써 음질의 향상된 출력신호를 얻는다. 이러한 단일 채널 음질 향상 방법은 잡음의 주파수 특성이 시간에 따라 변하지 않는 정적 잡음(stationary noise) 환경에서는 그 성능이 우수하나 잡음의 주파수 특성이 시간에 따라 변하는 동적 잡음(dynamic noise) 환경에서는 그 성능이 우수하지 못한 단점을 가지고 있다. Conventional single channel speech enhancement methods assume the input signal of a certain period as the noise section and estimate the frequency characteristics of the noise signal from it. Then, by subtracting the frequency energy value of the noise signal from the input speech signal, an improved output signal of sound quality is obtained. This single channel sound quality improvement method is superior in stationary noise environment where the frequency characteristic of noise does not change with time, but its performance is improved in dynamic noise environment where the frequency characteristic of noise varies with time. It has a disadvantage that is not excellent.
본 발명의 음질향상 시스템은 Gaussian Mixture Model(GMM)을 이용하여 동적 잡음(dynamic noise)의 주파수 특성을 추정하여 단일채널 음질향상(single channel speech enhancement) 방법에 적용함으로써 동적 잡음 환경하에서 단일 채널 음질 향상 방법의 성능을 향상시킨다. The sound quality improvement system of the present invention estimates the frequency characteristics of dynamic noise using a Gaussian Mixture Model (GMM) and applies it to a single channel speech enhancement method to improve single channel sound quality in a dynamic noise environment. Improve the performance of the method.
동적 잡음 제거, 단일 채널 음질 향상 기법 Dynamic Noise Cancellation, Single Channel Sound Quality Enhancement
Description
도 1은 종래기술에 따른 단일채널 음질향상 시스템을 도시한 블록도.1 is a block diagram illustrating a single channel sound quality enhancement system according to the prior art.
도 2는 본 발명 일실시예에 따른 단일채널 음질향상 시스템을 도시한 블록도.Figure 2 is a block diagram showing a single channel sound quality improvement system according to an embodiment of the present invention.
* 도면의 주요부분에 대한 부호의 설명* Explanation of symbols for main parts of the drawings
210 : 주파수 스펙트럼 추정부 220 : 특징 추출부210: frequency spectrum estimation unit 220: feature extraction unit
230 : 정적 잡음 추정부 240 : 동적 잡음 추정부230: static noise estimator 240: dynamic noise estimator
250 : 잡음특성 추정부 260 : 필터 주파수특성 제어부250: noise characteristic estimation unit 260: filter frequency characteristic control unit
270 : 음질향상 필터부 280 : 동적 잡음 GMM 모델270: sound quality improvement filter unit 280: dynamic noise GMM model
290 : 음성 GMM 모델290: Voice GMM Model
본 발명은 입력 신호에 부가된 잡음을 제거하여 입력 신호의 음질을 향상시키는 단일채널 음질향상 시스템에 관한 것이다. The present invention relates to a single channel sound quality improvement system for removing noise added to an input signal to improve the sound quality of the input signal.
종래의 단일채널 음질향상 기법들은 입력신호의 최초 일정구간 동안을 부가잡음신호로 가정하여 부가잡음신호의 주파수 스펙트럼 특성을 추정하고 음성신호로부터 부가 잡음을 제거함으로써 음질이 향상된 음성신호를 얻는다. Conventional single channel sound quality enhancement techniques assume an additional noise signal during an initial predetermined period of an input signal, estimate a frequency spectrum characteristic of the additional noise signal, and remove the additional noise from the speech signal to obtain a voice signal with improved sound quality.
도 1에서 음성/비음성 구간 추정부(130)가 입력신호의 최초 일정구간 동안을 부가잡음신호로 규정하며, 시간 흐름에 따른 부가잡음신호의 특성의 추정을 위하여 음성/비음성 추정부(130)를 두고 비음성 구간의 경우, 현재 구간의 부가잡음의 주파수 특성을 일정비율로 더함으로써 시간의 흐름에 따른 부가 잡음의 주파수 특성을 추정하게 된다. 이후, 상기 추정된 부가 잡음의 주파수 특성을 이용하여 필터 주파수 특성 제어부(160)가 음질향상 필터부(170)의 필터링 특성을 제어하게 된다.
본 발명을 설명하기에 앞서, 도 1에 도시한 바와 같은 기존의 단일채널 음질향상 방법에서 잡음의 주파수 스펙트럼 추정 방법에 대해서 설명하겠다. 잡음과 음성의 주파수 성분이 통계적으로 컴플렉스 가우션(complex Gaussian) 분포를 가지고 잡음은 부가적이며 음성신호의 주파수 성분과 교차하지 않는(uncorrelated) 특성을 가진다고 가정한다면 하기 수학식 1 및 수학식 2와 같은 관계가 성립한다.
상기 수학식 1은 음성 신호가 존재하지 않을때 잡음 스팩트럼상 콤포넌트(Yk)의 확률을 나타내며, 상기 수학식 2는 음성 신호가 존재할 때 잡음 스팩트럼상 콤포넌트(Yk)의 확률을 나타낸다. 즉, 상기 두 수식은 각각 음성이 존재하지 않는 경우 혹은 존재하는 경우에 대한 입력 신호의 확률분포를 나타낸다.
k번째 스펙트럼빈(spectral bin)의 개연성비(likelihood ratio, LR)은 상기 두 수식의 확률분포들로부터 하기 수학식 3과 같이 정의 된다.
여기서, 와 는 a posteriori와 a prior를 각각 나타내며 하기 수학식 4 및 5와 같다.
n 번째 프레임의 a prior(SNR)는 다음과 같은 디시젼-다이렉티드(decision-directed, DD) 방법에 의해 구할 수 있다.
여기서 잡음이 부가되지 않은 음성신호의 주파수 크기()는 단기-진폭-평가기(the short-time amplitude estimator)의 최소 민-스퀘어 에러(the minimum mean square error, MSE) 방법에 의해 추정할 수 있다. 이렇게 구한 개연성비(LR)로부터 평탄화한 개연성비(smoothed likelihood ratio, SLR)를 다음 수학식 7과 같이 구할 수 있다.
이렇게 구한 SLR로부터 Bayes’rule을 이용하여 풀면 음성이 존재하지 않을 확률을 구할 수 있고 이는 다음 수학식 8과 같으며, 음성/비음성 구간 추정부(130)에 의해 수행된다..
이러한 과정을 통하여 구한 음성이 존재하지 않을 확률을 이용하여 다음 수학식 9와 같이 잡음의 주파수 파워를 추정할 수 있다.
위에서 예상되는 잡음 전력 스펙트럼은 다음 수학식 10과 같이 추정된다.
Prior to explaining the present invention, the frequency spectrum estimation method of noise in the conventional single channel sound quality enhancement method as shown in FIG. 1 will be described. Assuming that the frequency and noise components of noise and speech have a statistical complex Gaussian distribution, the noise is additive and does not intersect with the frequency components of the speech signal, the following equations (1) and (2) The same relationship holds.
Equation 1 represents the probability of the component on the noise spectrum (Yk) in the absence of the speech signal, Equation 2 represents the probability of the component on the noise spectrum (Yk) in the presence of the speech signal. In other words, the above two equations represent the probability distribution of the input signal when there is no voice or when there is a voice.
The likelihood ratio (LR) of the k th spectral bin is defined by Equation 3 below from the probability distributions of the two equations.
here, Wow Represents a posteriori and a prior, respectively, and are represented by Equations 4 and 5 below.
The a prior (SNR) of the nth frame can be obtained by the following decision-directed (DD) method.
Where the magnitude of the frequency of the speech signal ) Can be estimated by the minimum mean square error (MSE) method of the short-time amplitude estimator. The smoothed likelihood ratio (SLR) flattened from the probability probability ratio LR thus obtained can be obtained as in Equation 7 below.
Solving using Bayes'rule from the SLR thus obtained, it is possible to obtain the probability that there is no voice, which is expressed by Equation 8 below, and is performed by the voice / non-voice
The frequency power of the noise can be estimated using Equation 9 by using the probability that the speech obtained through this process does not exist.
The expected noise power spectrum is estimated as in Equation 10 below.
잡음특성 추정부(150)는 이러한 과정을 통하여 추정한 잡음의 주파수 파워와 입력 신호의 주파수 파워를 이용하여 MMSE 방식 혹은 Wiener 필터링 방법 등을 이용하여 잡음이 부가되지 않은 입력신호의 주파수 파워를 구한다. 이렇게 구한 잡음이 부가되지 않은 입력신호의 주파수 파워와 잡음의 주파수 파워를 이용하여 MMSE 혹은 Wiener 필터링 방법 등을 이용하여 음질향상 필터(170)의 주파수 특성을 구할 수 있다. 입력신호에 대하여 이러한 음질향상 필터(170)를 적용하면 음질이 향상된 음성신호를 구할 수 있게 된다.
이러한 부가잡음의 주파수 스펙트럼 추정은 부가잡음의 특성이 시간의 흐름에 따라 변하지 않는 정적 잡음에 대해서는 그 성능이 우수하나, 주파수 스펙트럼의 특성이 시간의 흐름에 따라 급격히 변하는 동적 잡음의 경우에는 동적 잡음의 주파수 스펙트럼 특성을 추적하지 못 하는 단점을 가지고 있다. The
The frequency spectrum estimation of additional noise is superior to the static noise where the characteristics of the additional noise do not change over time, but in the case of dynamic noise where the characteristics of the frequency spectrum change rapidly over time, It has the disadvantage of not being able to track frequency spectrum characteristics.
이와 같은 정적 잡음에는 냉장고 팬 소리, PC의 팬 소리, 노트북 팬 소리, 백색 잡음 등을 들 수 있으며 동적 잡음에는 라디오에서 흘러 나오는 음악, 뉴스, 전화벨소리, 초인종 멜로디 등을 들 수가 있으며 일상생활에서 쉽게 접할 수 있는 부가 잡음들이다. 입력신호에 부가되는 정적 잡음뿐만 아니라 동적 잡음도 입력신호의 음질을 저하시키는 원인으로 작용한다.Such static noise includes refrigerator fan sound, PC fan sound, laptop fan sound, white noise, etc. Dynamic noise includes music from the radio, news, phone ringing, doorbell melody, etc. Additional noises you may encounter. Dynamic noise as well as static noise added to the input signal act as a cause of degrading the sound quality of the input signal.
본 발명은 상기 문제점들을 해결하기 위하여 안출된 것으로서 입력신호의 음질을 저하시키는 원인으로 작용하는 동적 잡음을 제거할 수 있는 음질향상 시스템을 제공하는 것을 그 목적으로 한다.An object of the present invention is to provide a sound quality improvement system capable of removing dynamic noise, which has been devised to solve the above problems, and which acts as a cause of degrading sound quality of an input signal.
이를 위해 본 발명은 GMM(Gaussian Mixture Model)을 이용하여 동적 잡음의 유무를 추정하고 이러한 정보를 이용하여 동적 잡음의 주파수 스펙트럼 특성을 추정하여 입력신호로부터 이를 제거하여 음질이 향상시킬 수 있는 음질향상 시스템을 제공하는 것을 심화된 목적으로 한다.To this end, the present invention estimates the presence or absence of dynamic noise using a Gaussian Mixture Model (GMM), and uses this information to estimate the frequency spectrum characteristics of the dynamic noise to remove it from the input signal, thereby improving sound quality. To provide a further purpose.
상기 목적을 달성하기 위한 본 발명의 음질 향상 시스템은, 입력 신호의 음질을 향상시키기 위해 실시간적으로 필터링 특성이 조절되는 음질 향상 필터부; 입력 신호를 주파수 대역상에서 분석하기 위한 주파수 스펙트럼 추정부; 미리 설정된 정적 잡음의 주파수 특성에 따라 상기 주파수 스펙트럼 추정부의 출력 신호에서 정적 잡음의 정도를 계산하기 위한 정적 잡음 추정부; 동적 잡음 GMM 모델에 따라 상기 주파수 스펙트럼 추정부의 출력 신호에서 동적 잡음의 정도를 계산하기 위한 동적 잡음 추정부; 상기 정적 잡음 정도와 상기 동적 잡음 정도에 대한 정보로부터 입력 신호의 잡음 특성을 추정하기 위한 잡음 특성 추정부; 및 상기 잡음 특성에 따라 상기 음질 향상 필터부의 필터링 특성을 조절하는 필터 주파수 특성 제어부를 포함하는 것을 특징으로 한다. The sound quality improvement system of the present invention for achieving the above object, the sound quality enhancement filter unit for adjusting the filtering characteristics in real time to improve the sound quality of the input signal; A frequency spectrum estimator for analyzing an input signal on a frequency band; A static noise estimator for calculating a degree of static noise in an output signal of the frequency spectrum estimator according to a frequency characteristic of a preset static noise; A dynamic noise estimator for calculating a degree of dynamic noise in an output signal of the frequency spectrum estimator according to a dynamic noise GMM model; A noise characteristic estimator for estimating a noise characteristic of an input signal from information on the static noise level and the dynamic noise level; And a filter frequency characteristic control unit for adjusting the filtering characteristic of the sound quality enhancement filter unit according to the noise characteristic.
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
삭제delete
(실시예)(Example)
이러한 기존의 단일채널 음질향상 방법은 부가되는 잡음의 특성이 시간에 따라 변하지 않는 정적인 잡음에서는 잘 동작하나 부가되는 잡음의 특성이 시간에 따라 변화하는 동적 잡음의 경우에는 잡음제거 성능이 현저히 떨어지거나 동적 잡음을 제거하지 못하는 단점을 가지고 있다. 시간에 따라 그 특성이 변화하는 동적 잡음을 제거하기 위해서는 동적 잡음을 어떻게 추정하고 동적 잡음의 주파수 파워를 어떻게 추정할 것인지에 대한 방법론이 필요하다.The conventional single channel enhancement method works well for static noise where the characteristics of the added noise do not change with time, but in the case of dynamic noise where the characteristics of the added noise vary with time, It has the disadvantage of not eliminating dynamic noise. To remove dynamic noise whose characteristics change over time, we need a methodology on how to estimate the dynamic noise and how to estimate the frequency power of the dynamic noise.
이를 위한 본 실시예의 음질 향상 시스템은 도 2에 도시한 바와 같이, 입력 신호의 음질을 향상시키기 위해 실시간적으로 필터링 특성이 조절되는 음질 향상 필터부(270); 입력 신호를 주파수 대역상에서 분석하기 위한 주파수 스펙트럼 추정부(210); 미리 설정된 정적 잡음의 주파수 특성에 따라 상기 주파수 스펙트럼 추정부(210)의 출력 신호에서 정적 잡음의 정도를 계산하기 위한 정적 잡음 추정부(230); 동적 잡음 GMM 모델에 따라 상기 주파수 스펙트럼 추정부의 출력 신호에서 동적 잡음의 정도를 계산하기 위한 동적 잡음 추정부(240); 상기 정적 잡음 정도와 상기 동적 잡음 정도에 대한 정보로부터 입력 신호의 잡음 특성을 추정하기 위한 잡음 특성 추정부(250); 및 상기 잡음 특성에 따라 상기 음질 향상 필터(270)의 필터링 특성을 조절하는 필터 주파수 특성 제어부(260)를 포함한다. 도시한 각 구성요소는 하드웨어 모듈일 수도 있고, 소프트웨어 모듈일 수도 있다.As shown in FIG. 2, the sound quality enhancement system of the present embodiment includes a sound
상기 동적 잡음 추정부(240)의 동적 잡음 추정을 위해 동적 잡음 GMM 모델(280)을 더 구비할 수 있고, 보다 정확한 동적 잡음 추정을 위해 음성 GMM 모델을(290)을 상기 동적 잡음 GMM 모델(280)과 함께 구비할 수 있다. 또한, 상기 주파수 스펙트럼 추정부(210)에 의해 주파수축 신호로 변환된 신호에서 상기 동적 잡음 GMM 모델과 비교하기 위한 기준 특징들을 추출하기 위한 특징 추출부(220)를 더 구비할 수 있다. 상기 특징 추출부(220)는 일반적으로 음성인식에 사용되는 특징벡터들을 적용하여 특징을 추출할 수 있는데, 예컨대, 주파수 기울기 특징을 사용할 수 있다.The dynamic
우선, 각 구성 요소 및 신호들에 대하여 기술하겠다. 도면의 입력 신호는 단일채널 음질향상 방법의 입력이 되는 신호이며, 주파수 스펙트럼 추정부(210)는 푸리에 변환 파워(Fourier Transform Power)를 이용한 입력신호를 주파수축상의 신 호로 변환한다. 특징 추출부(220)는 주파수 스펙트럼 추정부(210)를 구성하는 멜 필터뱅크 출력간의 주파수 축 기울기를 검출한다. 여기서, 멜 필터뱅크는 선형 주파수 대역을 멜 주파수(mel-frequency) 대역으로 변형한 주파수 대역의 다수개의 필터로 이루어진 필터 뱅크를 말한다. First, each component and signals will be described. The input signal of the figure is a signal for inputting a single channel sound quality enhancement method, and the
본 실시예에서는 잡음 검출을 위해 사용하는 멜 필터뱅크의 출력으로 주파수 파워의 기울기를 사용하였지만, 이에 한정되지 않으며, 구현에 따라서는 멜 필터뱅크 켑스트럼(MFCC), LPC( Linear Prediction Coefficient) 켑스트럼, PLP(perceptually based linear prediction) 켑스트럼, RASTA PLP 켑스트럼, 멜 필터뱅크 에너지 등등의 다양한 특징벡터들과 그들의 delta 혹은 delta-delta 등 시간에 따른 변화를 나타내는 특징벡터들을 혼합하여 사용할 수 있다.In this embodiment, the slope of the frequency power is used as the output of the Mel filter bank used for noise detection. However, the present invention is not limited thereto. In some embodiments, the Mel filter bank 럼 strum (MFCC) and LPC (Linear Prediction Coefficient) Various feature vectors such as strum, perceptually based linear prediction (PLP) columns, RASTA PLP columns, mel filterbank energies, etc. and feature vectors representing changes over time, such as their delta or delta-delta, can be used. Can be.
동적 잡음 GMM 모델(280)에는 동적 잡음에 대한 GMM 모델들이 기록되며, 음성 GMM 모델(290)에는 잡음없는 일반적인 음성 신호에 대한 GMM 모델이 기록된다.Dynamic
정정 잡음 추정부(230)는 입력 신호로부터 음성 혹은 비음성 구간을 추정하며, 동적 잡음 추정부(240)는 음성의 GMM 모델과 동적 잡음의 GMM 모델을 이용하여 입력신호의 특성이 동적 잡음인지 아닌지를 추정하는데, 이때 하기에서 설명하는 로그 개연성비(log likelihood ration, LLR) 값을 이용한다.The corrected
잡음 특성 추정부(250)는 음성/비음성 구간 추정 정보와 동적 잡음구간 추정 정보 그리고 입력신호의 주파수 스펙트럼 정보를 이용하여 정적 혹은 동적 잡음신호의 스펙트럼 파워를 추정한다. 이때 동적 잡음신호의 스펙트럼 파워는 상기 정적 잡음 추정부(230)에 의한 음성/비음성 구간 추정 정보가 음성인 경우에 한하여 업데이트 되어지며, 그 추정 방법은 후술하겠다.The noise
필터 주파수특성 제어부(260)는 입력 신호의 주파수 스펙트럼 정보와 정적 잡음신호의 주파수 스펙트럼 그리고 동적 잡음신호의 주파수 스펙트럼을 이용하여 음질향상 필터의 주파수 특성을 조절한다.The filter frequency
음질향상 필터부(270)는 상기 필터 주파수특성 제어부(260)에서 결정한 주파수 특성을 이용하여 입력 신호를 필터링함으로써 음질이 향상된 출력신호를 생성한다.The sound quality
이하에서는 본 발명의 사상에 따른 특징인 입력 신호가 동적 잡음인지 여부를 판단하는 방법, 및 동적 잡음으로 판단한 경우 동적 잡음의 주파수 파워를 추정하는 방법에 대하여 상술하겠다. 2 방법 모두 도 2의 동적 잡음 추정부(240)에서 수행된다.Hereinafter, a method of determining whether an input signal, which is a feature according to the spirit of the present invention, is dynamic noise, and a method of estimating frequency power of dynamic noise when it is determined as dynamic noise will be described in detail. Both methods are performed by the
잡음이 부가된 음성신호의 관측벡터를 X라 하고 H0는 음성이 없는 경우 H1는 음성이 있는 경우를 나타낸다고 하면, 음성이 없는 경우 음성신호 관측벡터의 확률은 다음 수학식 11과 같다.Assuming that the observation vector of the speech signal with noise is X and H 0 is the absence of speech, H 1 represents the presence of speech, the probability of the speech signal observation vector in the absence of speech is expressed by Equation 11 below.
여기서, 각 변수값의 정의는 다음과 같다.Here, the definition of each variable value is as follows.
μ0,i : i번째 mixture의 평균(mean)μ 0, i : Mean of the i-th mixture
Σ0,i : i번째 mixture의 코베리언스(covariance)Σ 0, i : covariance of the i mixture
ωo,i : i번째 mixture의 웨이트(weight)ω o, i : weight of the ith mixture
N : 총 mixture의 개수N: total number of mixture
이와 반대로 음성이 존재하는 경우 음성신호의 관측벡터의 확률은 다음 수학식 12와 같다.On the contrary, in the presence of speech, the probability of the observation vector of the speech signal is expressed by Equation 12 below.
여기에서 사용되는 GMM 모델들은 훈련 코퍼스(training corpus)의 음성신호들의 관측벡터들과 잡음신호들의 관측벡터들로부터 훈련을 통하여 미리 얻어진다.The GMM models used herein are obtained in advance through training from observation vectors of speech signals of a training corpus and observation vectors of noise signals.
음성이 존재하는 경우의 관측벡터의 확률과 음성이 존재하지 않는 경우 관측 벡터의 확률 사이의 개연성비(likelihood ratio, LR) Λ는 다음 수학식 13과 같다.The likelihood ratio (LR) Λ between the probability of the observation vector in the presence of voice and the probability of the observation vector in the absence of voice is expressed by Equation 13.
상기 수학식에 따라 구해진 개연성비(Λ)값으로 바로 입력신호가 동적 잡음인지에 대한 판단을 수행하도록 구현할 수도 있지만, 너무 변화가 큰 개연성비(Λ) 값보다는 로그 개연성비를 이용하는 것이 바람직하다. 음성이 존재하는 경우의 관측벡터의 확률과 음성이 존재하지 않는 경우 관측 벡터의 확률 사이의 로그 개연성비(log likelihood ratio) LLR는 하기 수학식 14와 같다.Although it may be implemented to immediately determine whether the input signal is dynamic noise using the probability probability Λ value obtained according to the above equation, it is preferable to use the log probability probability rather than the probability probability Λ value that is too changeable. The log likelihood ratio LLR between the probability of the observation vector in the presence of speech and the probability of the observation vector in the absence of speech is expressed by Equation 14 below.
이렇게 구한 LLR값은 입력신호가 동적 잡음신호인지 아닌지에 대한 판단기준으로 이용된다. 즉 LLR값이 특정 임계치 보다 높은 낮은 경우, 입력신호가 동적 잡음신호라 판단하게 된다.The LLR value thus obtained is used as a criterion for determining whether or not the input signal is a dynamic noise signal. That is, when the LLR value is lower than the specific threshold, it is determined that the input signal is a dynamic noise signal.
상기 과정에 따라 동적 잡음으로 판단한 경우 동적 잡음의 주파수 파워를 추정하는 방법은 다음과 같다. 입력신호의 관측벡터 X가 관측된 경우 음성이 존재하지 않을 확률은 상기 구해진 개연성비(Λ)값으로 나타내면 하기 수학식 15와 같다.According to the above process, the method of estimating the frequency power of the dynamic noise when it is determined as the dynamic noise is as follows. When the observation vector X of the input signal is observed, the probability that the voice does not exist is expressed by Equation 15 below.
여기서, q는 하기 수학식 16으로부터 구할 수 있다.Here, q can be calculated | required from following formula (16).
여기서, p(H1)은 어떤 프레임이 다른 부가 조건이 없는 상태에서 음성일 확률을 나타내고, p(H0)는 음성이 아닐 확률을 나타낸다.Here, p (H 1 ) represents the probability that a frame is negative in the absence of other additional conditions, and p (H 0 ) represents the probability that it is not negative.
동적 잡음의 경우 음성이 존재하는 경우의 관측벡터의 확률과 음성이 존재하지 않는 경우 관측 벡터의 확률 사이의 개연성비(likelihood ratio, LR) 값이 너무 지나치게 빠르게 변화하는 특성을 가지지 않기 위해서는 평탄화(smoothing) 과정이 필요하다. 따라서 평탄화된 개연성비(smoothed likelihood ratio, SLR)를 다음 수학식 17과 같은 과정을 통하여 구한다.In the case of dynamic noise, the smoothing ratio of the likelihood ratio (LR) between the probability of the observation vector in the presence of speech and the probability of the observation vector in the absence of speech does not change too quickly. ) Process is required. Therefore, the smoothed likelihood ratio (SLR) is obtained by the following equation (17).
(k는 forgetting factor를 나타내고 0과 1사이의 값을 가질 수 있다.)(k represents a forgetting factor and can be a value between 0 and 1.)
여기서 구해진 SLR을 이용하여 구한 입력신호의 관측벡터 Χ가 관측된 경우 음성이 존재하지 않을 확률은 다음 수학식 18과 같다.When the observation vector Χ of the input signal obtained using the SLR obtained here is observed, the probability that the voice does not exist is expressed by Equation 18 below.
도 2의 동적 잡음 추정부(240)는, 상기 수학식 13의 개연성비(Λ)값에 따라 동적 잡음 여부를 판단한 정보와, 상기 수학식 17에 의해 Ψ(n) 값을 잡음 특성 추정부(250)로 전달한다. The
상기 잡음 특성 추정부(250)는 정적/동적의 잡음 종류와 무관하게 입력 신호에 포함된 잡음의 주파수상 전력 특성을 표시하는 잡음 전력의 주파수 스펙트럼을 추정하는 역할을 수행한다. The noise
상기 필터 주파수특성 제어부(260)는 상기 잡음 전력의 주파수 스펙트럼을 입력받아, 동적 잡음 억제 평가(auto-regressive dynamic noise estimation)를 수행하기 위한 잡음의 주파수 파워를 구한다.The filter frequency
정적 잡음의 경우, 앞서 살펴본 바와 같이 상기 수학식 10에 의해 잡음 전력 스펙트럼을 추정하고, 이를 적용받는 상기 수학식 9에 의해 잡음 주파수 파워를 추정한다. 반면, 본 발명에 따른 동적 잡음의 경우 하기 수학식 19에 의해 잡음 주파수 파워를 추정하는데, 이 수학식에 대입되는 잡음 전력 스펙트럼은 하기 수학식 20에 의해 추정된다.In the case of the static noise, as described above, the noise power spectrum is estimated by Equation 10, and the noise frequency power is estimated by Equation 9 applied thereto. On the other hand, in the case of dynamic noise according to the present invention, the noise frequency power is estimated by Equation 19, and the noise power spectrum substituted in this equation is estimated by Equation 20 below.
위에서 예상되는 잡음 전력 스펙트럼은 다음 수학식 20과 같이 추정된다.The expected noise power spectrum is estimated by the following equation (20).
잡음 특성 추정부(250)는 이러한 과정을 통하여 추정한 잡음의 주파수 파워와 입력 신호의 주파수 파워를 이용하여 MMSE 방식 혹은 Wiener 필터링 방법 등을 이용하여 잡음이 부가되지 않은 입력신호의 주파수 파워를 구한다. 이렇게 구한 잡음이 부가되지 않은 입력신호의 주파수 파워와 잡음의 주파수 파워를 이용하여 필터 주파수특성 제어부(260)에서 MMSE 혹은 Wiener 필터링 방법 등을 이용하여 음질향상 필터부(270)의 주파수 특성을 구할 수 있다. 입력신호에 대하여 이와 같이 주파수 특정이 조절된 음질향상 필터부(270)를 적용하면 음질이 향상된 음성신호를 구할 수 있게 된다. The noise
도 2에 도시한 바와 같이 상기 동적 잡음 추정부(240)가 동적 잡음 추정을 수행하는데, 동적 잡음 GMM 모델을 이용하는데, 다양한 동적 잡음들을 GMM을 이용하여 모델링 하는 방법을 크게 두 가지로 나눌 수 있다. 첫번째는 각각의 동적 잡음들을 여러 개의 GMM으로 각각 나누어 모델링 하는 방법이고, 두번째는 여러 가지 동적 잡음들을 하나의 GMM으로 모델링 하는 방법이다.As shown in FIG. 2, the
첫번째 방법으로 모델링한 경우에는 상기 수학식 19 및 20에 의한 잡음 전력 스펙트럼 추정, 잡음 주파수 파워 추정 및 동적 잡음 억제 평가가 이루어진다. 이는 특정 동적 잡음에 대하여 각각의 잡음 성분을 추정하는 방식을 사용하고 특정 동적 잡음이 발생한 경우 추정된 특정 동적 잡음 성분을 이용하는 것이다.In the case of modeling by the first method, noise power spectrum estimation, noise frequency power estimation, and dynamic noise suppression evaluation according to Equations 19 and 20 are performed. This uses a method of estimating each noise component for a specific dynamic noise and uses the estimated specific dynamic noise component when a specific dynamic noise occurs.
반면, 두번째 방법으로 모델링한 경우에는 하기 수학식 21에 나타낸 바와 같은 무빙 평균(moving average)을 이용하는 방법으로 동적 잡음 억제 평가가 이루어진다.On the other hand, in the case of modeling in the second method, dynamic noise suppression evaluation is performed by using a moving average as shown in Equation 21 below.
이때, 하기 수학식 22와 같이, 동적 잡음 구간이 아닌 프레임은 제외하여 무빙 평균(moving average)을 구하게 된다.At this time, as shown in Equation 22, a moving average is obtained by excluding frames that are not dynamic noise sections.
상기 수식은 β 코렉션 펙터(correction factor) 이다. 실험적인 방법으로 구하고 부가된 동적 잡음의 특성과도 관련이 있다. 2의 방법은 무빙 평균(moving average)을 이용하여 동적 잡음의 시간적 변화 특성을 추정하는 방식을 사용한다.The formula is β correction factor. It is also related to the characteristics of dynamic noise obtained and added experimentally. The method of 2 uses a method of estimating the temporal change characteristic of dynamic noise using a moving average.
이상, 본 발명을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당 분야에 서 통상의 지식을 가진 자에 의하여 여러가지 변형이 가능하다.The present invention has been described in detail with reference to preferred embodiments, but the present invention is not limited to the above embodiments, and various modifications may be made by those skilled in the art within the scope of the technical idea of the present invention. It is possible.
본 발명은 기존의 단일채널 음질향상 방법의 단점이었던 동적 잡음제거 성능을 크게 향상시킴으로써 정적 잡음 환경뿐만 아니라 동적 잡음 환경에서도 입력 음성신호의 음질을 크게 향상시킬 수 있는 효과가 있다.According to the present invention, the dynamic noise cancellation performance, which is a disadvantage of the conventional single channel sound quality enhancement method, is greatly improved, thereby improving the sound quality of the input voice signal in a dynamic noise environment as well as a static noise environment.
Claims (7)
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020050119529 | 2005-12-08 | ||
| KR20050119529 | 2005-12-08 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20070061216A KR20070061216A (en) | 2007-06-13 |
| KR100784456B1 true KR100784456B1 (en) | 2007-12-11 |
Family
ID=38357154
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020060066884A Expired - Fee Related KR100784456B1 (en) | 2005-12-08 | 2006-07-18 | Voice Enhancement System using GMM |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR100784456B1 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101239318B1 (en) | 2008-12-22 | 2013-03-05 | 한국전자통신연구원 | Speech improving apparatus and speech recognition system and method |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100853171B1 (en) * | 2007-02-28 | 2008-08-20 | 포항공과대학교 산학협력단 | Speech Emphasis Method for Clear Speech Reconstruction Using Constrained Sequential EM Algorithm |
| KR100933604B1 (en) * | 2007-11-08 | 2009-12-23 | 연세대학교 산학협력단 | Short channel sound quality improvement technology using flexible frequency band |
| KR101460059B1 (en) * | 2007-12-17 | 2014-11-12 | 삼성전자주식회사 | Noise detection method and apparatus |
| US8571231B2 (en) * | 2009-10-01 | 2013-10-29 | Qualcomm Incorporated | Suppressing noise in an audio signal |
| CN115312022A (en) * | 2022-07-29 | 2022-11-08 | 江苏徐工国重实验室科技有限公司 | A construction machinery active noise reduction system, method and construction vehicle |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5212764A (en) * | 1989-04-19 | 1993-05-18 | Ricoh Company, Ltd. | Noise eliminating apparatus and speech recognition apparatus using the same |
| JPH10257583A (en) | 1997-03-06 | 1998-09-25 | Asahi Chem Ind Co Ltd | Voice processing unit and its voice processing method |
| KR20010032390A (en) * | 1998-09-23 | 2001-04-16 | 윤종용 | Noise suppression for low bitrate speech coder |
| US7107210B2 (en) | 2002-05-20 | 2006-09-12 | Microsoft Corporation | Method of noise reduction based on dynamic aspects of speech |
-
2006
- 2006-07-18 KR KR1020060066884A patent/KR100784456B1/en not_active Expired - Fee Related
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5212764A (en) * | 1989-04-19 | 1993-05-18 | Ricoh Company, Ltd. | Noise eliminating apparatus and speech recognition apparatus using the same |
| JPH10257583A (en) | 1997-03-06 | 1998-09-25 | Asahi Chem Ind Co Ltd | Voice processing unit and its voice processing method |
| KR20010032390A (en) * | 1998-09-23 | 2001-04-16 | 윤종용 | Noise suppression for low bitrate speech coder |
| US7107210B2 (en) | 2002-05-20 | 2006-09-12 | Microsoft Corporation | Method of noise reduction based on dynamic aspects of speech |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101239318B1 (en) | 2008-12-22 | 2013-03-05 | 한국전자통신연구원 | Speech improving apparatus and speech recognition system and method |
| US8504362B2 (en) | 2008-12-22 | 2013-08-06 | Electronics And Telecommunications Research Institute | Noise reduction for speech recognition in a moving vehicle |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20070061216A (en) | 2007-06-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109643552B (en) | Robust noise estimation for speech enhancement in variable noise conditions | |
| JP5666444B2 (en) | Apparatus and method for processing an audio signal for speech enhancement using feature extraction | |
| EP0886263B1 (en) | Environmentally compensated speech processing | |
| KR101009854B1 (en) | Noise estimation method and apparatus using harmonics of speech signal | |
| Cohen et al. | Spectral enhancement methods | |
| JP2008534989A (en) | Voice activity detection apparatus and method | |
| KR20010075343A (en) | Noise suppression for low bitrate speech coder | |
| JP5752324B2 (en) | Single channel suppression of impulsive interference in noisy speech signals. | |
| KR101317813B1 (en) | Procedure for processing noisy speech signals, and apparatus and program therefor | |
| KR101260938B1 (en) | Procedure for processing noisy speech signals, and apparatus and program therefor | |
| KR100784456B1 (en) | Voice Enhancement System using GMM | |
| KR101335417B1 (en) | Procedure for processing noisy speech signals, and apparatus and program therefor | |
| KR101295727B1 (en) | Apparatus and method for adaptive noise estimation | |
| JP2007293059A (en) | Signal processing apparatus and method | |
| Rosenkranz et al. | Integrating recursive minimum tracking and codebook-based noise estimation for improved reduction of non-stationary noise | |
| Schmidt et al. | Reduction of non-stationary noise using a non-negative latent variable decomposition | |
| US9875755B2 (en) | Voice enhancement device and voice enhancement method | |
| KR20110061781A (en) | Speech processing apparatus and method for removing noise based on real-time noise estimation | |
| Tashev et al. | Unified framework for single channel speech enhancement | |
| Hirsch | HMM adaptation for applications in telecommunication | |
| Rehr et al. | Cepstral noise subtraction for robust automatic speech recognition | |
| Elshamy et al. | Two-stage speech enhancement with manipulation of the cepstral excitation | |
| Hizlisoy et al. | Noise robust speech recognition using parallel model compensation and voice activity detection methods | |
| Seyedin et al. | New features using robust MVDR spectrum of filtered autocorrelation sequence for robust speech recognition | |
| Sunnydayal et al. | Speech enhancement using sub-band wiener filter with pitch synchronous analysis |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A201 | Request for examination | ||
| PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
St.27 status event code: A-1-2-D10-D22-exm-PE0701 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
St.27 status event code: A-2-4-F10-F11-exm-PR0701 |
|
| PR1002 | Payment of registration fee |
St.27 status event code: A-2-2-U10-U11-oth-PR1002 Fee payment year number: 1 |
|
| PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R13-asn-PN2301 St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 4 |
|
| FPAY | Annual fee payment |
Payment date: 20111129 Year of fee payment: 5 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 5 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 6 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R14-asn-PN2301 |
|
| LAPS | Lapse due to unpaid annual fee | ||
| PC1903 | Unpaid annual fee |
St.27 status event code: A-4-4-U10-U13-oth-PC1903 Not in force date: 20121205 Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R13-asn-PN2301 St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
| PC1903 | Unpaid annual fee |
St.27 status event code: N-4-6-H10-H13-oth-PC1903 Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE Not in force date: 20121205 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-5-5-R10-R18-oth-X000 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R13-asn-PN2301 St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |