[go: up one dir, main page]

KR101233271B1 - 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템 - Google Patents

신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템 Download PDF

Info

Publication number
KR101233271B1
KR101233271B1 KR1020090111323A KR20090111323A KR101233271B1 KR 101233271 B1 KR101233271 B1 KR 101233271B1 KR 1020090111323 A KR1020090111323 A KR 1020090111323A KR 20090111323 A KR20090111323 A KR 20090111323A KR 101233271 B1 KR101233271 B1 KR 101233271B1
Authority
KR
South Korea
Prior art keywords
signal
sound source
source signal
bss
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020090111323A
Other languages
English (en)
Other versions
KR20100068188A (ko
Inventor
신호준
Original Assignee
신호준
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 신호준 filed Critical 신호준
Publication of KR20100068188A publication Critical patent/KR20100068188A/ko
Application granted granted Critical
Publication of KR101233271B1 publication Critical patent/KR101233271B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

신호 분리 방법, 통신 시스템, 및 음성인식시스템이 개시된다. 상기 신호 분리 방법은, 신호 분리 장치가 제1음원신호에 기초한 제1신호와 제2음원신호에 기초한 제2신호가 혼합된 혼합신호를 하나의 음성입력센서를 통해 수신하는 단계, 수신된 혼합신호에 기초하여 상기 제1음원신호와 상기 제2음원신호를 분리하기 위한 변형 BSS(Blind Source Separation) 알고리즘을 적용하는 단계, 및 적용된 상기 변형 BSS 알고리즘에 결과에 따라 상기 제1음원신호를 분리하는 단계를 포함한다.

Description

신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템{Method for signal separation, communication system and voice recognition system using the method}
본 발명은 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템에 관한 것으로, 보다 상세하게는 두 가지 음향신호 중 하나의 신호를 알고 있고, 모르는 신호에서 하나의 신호를 분리 및 제거하여 원하는 신호만을 얻을 수 있는 방법 및 시스템에 관한 것이다.
일상생활에는 다양한 소리들을 들을 수 있다. 아름다운 음악소리, 시끄러운 자동차소리 등, 아름다운 소리와 아름답지 못한 소리로도 소리를 구분할 수 있다. 하지만 아무리 아름다운 음악일 지라도 원하지 않는 상황에서는 단지 시끄러운 소음에 지나지 않을 수도 있다. 윗집의 아름다운 피아노 소리는 거의 항상 아름답지 못하고 화가 난다. 그리고 음악감상 중에 전화가 온다면 그 음악은 더 이상 감사용이 아니라 통화에 방해가 되는 소음일 수도 있다. 자동차에서 네비게이션에 음성명령을 하고 싶을 때 또한, 듣고 있던 음악은 더 이상 원하는 신호는 아니다.
이처럼, 대부분의 음성 관련 시스템도 사람처럼 원하는 신호만을 받기를 바 란다. 하지만 소음이나 잔향이 있는 환경에서 원하는 신호 외에도 다양한 신호들이 발생하고 있고, 원하는 신호를 받아들이는 마이크로폰으로 같이 수신된다. 소음이나 잔향들을 없애기 위해 다양한 기술들 -Microphone Array, Noise Reduction, Acoustic Echo Cancel, Blind Source Separation-이 연구 개발되었다.
원하는 신호만을 얻기 위해서는 모르는 소음과 알고 있는 소음, 잔향을 제거하여야만 한다. 하지만 실제로 상업용 모델에 사용되고 있는 기술들은 흔히 모르는 소음을 제거하는 기술들이 상용화되어 구현되어 있을 뿐, 알고 있는 소음과 잔향을 제거하는 기술은 연구단계이거나 상용화되지 못했거나, 되었다 하더라도 성능이 좋지 않은 편이다. 기존의 음성통신시스템(휴대전화 등)은 음향 에코(Acoustic Echo)가 발생하더라도, LMS(Least Mean Square)기법을 이용하여 제거하고, 반이중 통신형태로 시스템을 구성하여 이를 회피할 수 있었으나 그 성능이 열악하였으며 음성인식 시스템에 적용하기는 적절하지 않은 알고리즘이었다. 또한, 두 가지 음원을 분리하기 위한 BSS(Blind Source Separation)의 경우에도 그 계산의 복잡도가 너무 높아서 실시간으로 원하는 신호를 다른 신호와 분리하기에는 적합하지 않았다.
또한, 기존의 음성인식 시스템(예컨대, (IP)TV, HAS(Home automation system), 네비게이션, 로봇 등)의 경우, 상기 음성인식 시스템 자체에서 출력되는 음성신호가 사용자의 음성명령과 혼합되어 상기 음성인식 시스템으로 입력되므로, 기존의 음성인식 시스템에서는 음성명령을 인식하기 위해 대부분 자체에서 출력되는 음성신호의 소리를 줄이거나 음성명령을 인식하기 위한 별도의 모드로 진입 후 사용자로부터 음성명령을 수신하여야 하는 과정이 필요하였다.
따라서, 통신 시스템(예컨대, 음성통신 시스템 등)과 음성인식 시스템(예컨대, HAS(Home automation system), 네비게이션, 로봇 등)에 공통적으로 사용될 수 있으며, 실시간으로 원하는 신호만을 분리해낼 수 있는 신호 분리 방법 및 이를 이용한 시스템들이 절실히 요구된다.
따라서, 본 발명이 이루고자 하는 기술적인 과제는 서로 다른 두 개 이상의 신호가 혼합된 신호에서 원하는 신호를 효율적으로 분리할 수 있는 방법 및 시스템을 제공하는 것이다. 또한, 핸드폰이나 음성인식 시스템 등과 같이 실시간으로 원하는 신호를 분리해내야 하는 시스템에 적합한 효율적인 신호 분리 방법 및 이를 이용한 시스템을 제공하는 것이다.
또한, 종래의 BSS 알고리즘에서는 서로 다른 두 개 이상의 음원을 분리하기 위해서는 서로 다른 두 개 이상의 음성인식 센서(예컨대, 마이크로폰(microphone) 등)이 필요하였지만, 음원들의 개수보다 더 적은 수의 음성인식 센서를 이용해 음원들 중 원하는 신호를 분리할 수 있는 방법 및 시스템을 제공하는 것이다.
상기 기술적 과제를 해결하기 위한 본 발명의 실시 예에 따른 신호 분리 방법은, 신호 분리 장치가 제1음원신호에 기초한 제1신호와 제2음원신호에 기초한 제2신호가 혼합된 혼합신호를 하나의 음성입력센서를 통해 수신하는 단계, 수신된 혼합신호에 기초하여 상기 제1음원신호와 상기 제2음원신호를 분리하기 위한 변형 BSS(Blind Source Separation) 알고리즘을 적용하는 단계, 및 적용된 상기 변형 BSS 알고리즘에 결과에 따라 상기 제1음원신호를 분리하는 단계를 포함한다.
상기 제2음원신호는 상기 신호 분리 장치에 구비된 음성출력센서를 통해 출력될 신호인 것을 특징으로 할 수 있다.
상기 변형 BSS 알고리즘은 상기 제1음원신호와 상기 제2음원신호를 각각 제1BSS 음원신호 및 제2BSS 음원신호로 하고, 상기 음성입력센서를 통해 입력된 상기 혼합신호를 제1BSS 입력신호, 상기 음성출력센서를 통해 출력된 신호를 제2BSS 입력신호로 하여 BSS 알고리즘을 적용하는 것을 특징으로 할 수 있다.
상기 제1BSS 입력신호 및 상기 제2BSS 입력신호 각각은 다음식에 의해 표현될 수 있는 것을 특징으로 할 수 있다.
Figure 112009070714619-pat00001
또한, 상기 제1음원신호 및 상기 제2음원신호 각각은 다음식에 의해 표현될 수 있는 것을 특징으로 할 수 있다.
Figure 112009070714619-pat00002
또한, 함수 W는 다음식에 의해 표현될 수 있는 것을 특징으로 할 수 있다.
Figure 112009070714619-pat00003
상기 신호 분리 장치는 통신 시스템으로 구현되며, 상기 제1음원신호는 사용자의 음성신호이고, 상기 제2음원신호는 타통신 시스템으로부터 수신된 음성정보에 기초하여 음성출력센서로 출력될 신호일 수 있다.
상기 신호 분리 방법은 상기 신호 분리 장치가 상기 음성정보를 저장하는 단계를 더 포함할 수 있다.
상기 신호 분리 장치는 음성인식시스템으로 구현될 수 있으며, 상기 음성인식시스템은 상기 제1음원신호를 음성인식 명령으로 처리할 수 있다.
상기 음성입력센서는 마이크로폰(micro-phone)으로 구현되는 것을 특징으로 할 수 있다. 상기 신호 분리 방법은 프로그램을 기록한 컴퓨터 판독 가능한 기록매체에 저장될 수 있다.
상기 기술적 과제를 달성하기 위한 통신 시스템은 음성입력센서 및 제어모듈을 포함하며, 상기 통신 시스템은 제1음원신호에 기초한 제1신호와 제2음원신호에 기초한 제2신호가 혼합된 혼합신호를 상기 하나의 음성입력센서를 통해 수신하고, 상기 제어모듈은, 수신된 상기 혼합신호에 기초하여 상기 제1음원신호를 분리하기 위한 변형 BSS(Blind Source Separation) 알고리즘을 적용하며, 적용된 상기 변형 BSS 알고리즘에 결과에 따라 상기 제1음원신호를 분리한다.
상기 통신 시스템은 음성출력센서를 더 구비하며, 상기 제2음원신호는, 상기 음성출력센서를 통해 출력될 신호인 것을 특징으로 할 수 있다.
상기 통신 시스템은 네트워크 인터페이스 모듈을 더 구비하며, 상기 통신 시스템은, 상기 네트워크 인터페이스 모듈을 통하여 분리된 상기 제1음원신호를 타통 신 시스템으로 전송할 수 있다.
상기 변형 BSS 알고리즘은 상기 제1음원신호와 상기 제2음원신호를 각각 제1BSS 음원신호 및 제2BSS 음원신호로 하고, 상기 음성입력센서를 통해 입력된 상기 혼합신호를 제1BSS 입력신호, 상기 음성출력센서를 통해 출력된 신호를 제2BSS 입력신호로 하여 BSS 알고리즘을 적용하는 것을 특징으로 할 수 있다. 상기 통신 시스템은 유무선 전화, 모바일 폰, 컴퓨터, IPTV, IP 전화기, 블루투스 통신장치, 또는 컨퍼런스 콜 중 적어도 하나로 구현될 수 있다.
상기 기술적 과제를 달성하기 위한 음성인식시스템은, 음성입력센서, 음성출력센서, 및 제어모듈을 포함하며, 상기 음성인식시스템은 제1음원신호에 기초한 제1신호와 제2음원신호에 기초한 제2신호가 혼합된 혼합신호를 상기 음성입력센서를 통해 수신하고, 상기 제어모듈은 수신된 상기 혼합신호에 기초하여 상기 제1음원신호를 분리하기 위한 변형 BSS(Blind Source Separation) 알고리즘을 적용하며, 적용된 상기 변형 BSS 알고리즘에 결과에 따라 상기 제1음원신호를 분리한다.
상기 변형 BSS 알고리즘은 상기 제1음원신호와 상기 제2음원신호를 각각 제1BSS 음원신호 및 제2BSS 음원신호로 하고, 상기 음성입력센서를 통해 입력된 상기 혼합신호를 제1BSS 입력신호, 상기 음성출력센서를 통해 출력된 신호를 제2BSS 입력신호로 하여 BSS 알고리즘을 적용할 수 있다.
상기 음성인식시스템은 분리된 상기 제1음원신호를 음성명령으로 처리하여 상기 음성명령에 상응하는 동작을 수행할 수 있다.
상기 음성인식시스템은 네비게이션, TV, IPTV, 컨퍼런스 콜, 홈네트워크 시 스템, 로봇, 게임기, 전자사전, 또는 어학 학습기 중 적어도 하나로 구현될 수 있다.
본 발명의 실시 예에 따른 신호 분리 방법 및 이를 이용한 시스템은 서로 다른 두 개 이상의 음원들에 의한 혼합신호를 효율적으로 분리해낼 수 있는 효과가 있다.
또한, 상기 신호 분리 방법을 이용하는 통신 시스템의 경우 타통신 시스템으로부터 전송되어온 음성신호를 이용하여 에코 캔슬링(echo cancelling)을 수행하고 에코가 캔슬링 된 신호를 타통신 시스템으로 전송하므로, 더블토크(double-talk) 디텍션(detection)을 수행할 할 필요가 없는 효과가 있다.
또한, 신호 분리를 위한 계산 부하가 기존의 BSS 알고리즘에 비해 현저히 줄어들므로, 신호 분리를 위한 시간 및 자원의 소모가 적은 효과가 있다.
또한, 상기 신호 분리 방법을 이용한 음성인식 시스템의 경우에는 음성인식 시스템의 자체 신호를 줄이거나 음성인식을 위한 별도의 모드로 진입할 필요가 없어서 유저 친화적인 UI(User Interface) 환경을 제공할 수 있는 효과가 있다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시 예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이 터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다.
반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 일반적인 BSS(Blind Source Separation) 알고리즘의 포워드 모델(forward model)을 설명하기 위한 도면이다.
도 1을 참조하여 일반적인 BSS 알고리즘을 설명하면, 일반적인 BSS 알고리즘은 둘 이상의 음원들(S1, S2 등)에서 나오는 소리가 혼합되었을 때 입력된 신호들(x1,x2)로부터 원 음원들(S1, S2 등)의 신호들을 추정하는 것이 목적이다. n 개의 음원들로부터 출력된 신호들을 분리하기 위해서는 n 개 이상의 입력 신호(예컨대, x1, x2, …, xn, 등)가 필요하다. 가장 간단한 모델로 도 1에 도시된 바와 같이 2개의 음원(S1, S2)과 2개의 마이크로폰(미도시)으로부터 입력되는 입력신호들(x1, x2)이 존재하는 경우를 가정할 수 있다.
원 음원들(S1, S2)의 신호를
Figure 112009070714619-pat00004
라 하고 마이크로폰들 각각 으로부터 입력된 신호를
Figure 112009070714619-pat00005
라 하면 입력된 신호들 각각은 다음과 같은 수식으로 나타낼 수 있다.
Figure 112009070714619-pat00006
Figure 112009070714619-pat00007
여기서,
Figure 112009070714619-pat00008
는 각각 음원들과 마이크로폰들 사이의 거리에 따른 게인 팩터(gain factor)를 나타낼 수 있다.
또한, 수학식 1을 행렬로 표현하면 다음과 같이 나타낼 수 있다.
Figure 112009070714619-pat00009
여기서 행렬 A는 게인 행렬(gain matrix)을 나타낼 수 있다.
한편, 도 1에 도시된 음원들과 입력신호의 관계를 백워드 모델(backward model)로 표현하면 도 2에 도시되는 바와 같다.
도 2는 BSS 알고리즘의 백워드 모델을 설명하기 위한 도면이다.
도 2를 참조하면, 도 1에 도시된 포워드 모델에서의 원 음원신호와 입력신호의 관계를 나타내는 수식이 수학식 2라면, 도 2에 도시된 백워드 모델에서의 원 음원신호와 입력신호의 관계를 나타내는 수식은 수학식 3으로 표현될 수 있다.
Figure 112009070714619-pat00010
여기서 행렬 W는 A의 역행렬을 나타내며,
Figure 112009070714619-pat00011
는 원 음원 신호를 나타낸다.
수학식 3에서의 가정은 마이크로폰들 각각에 입력된 음원 간의 지연 시간과 기타 요소 등은 무시할 정도이고, 음원의 음압 크기만을 고려한 것이다. 또한 음원 간에 상관 관계가 없고 독립된 신호들로 구성되었다고 가정할 수 있다.
보다 일반적인 상황으로 m개의 음원들에서 나오는 신호를 m 개의 서로 다른 마이크로폰들을 통해 입력으로 받고, 이때의 입력신호들은 지연 시간을 고려한 여러 개의 경로로부터 들어오는 것으로 가정을 할 수 있다. 또한 배경 소음으로 n(t)를 고려할 수 있다. 그러면 상기 입력신호들은 다음과 같은 수식으로 표현될 수 있다.
Figure 112009070714619-pat00012
여기서, P는 컨벌루션 오더(convolution order)이고
Figure 112009070714619-pat00013
는 m x m 믹싱 행렬(mixing matrix)이다. 잔향의 영향이 적다는 가정하에서 각 마이크로폰들을 통해 입력되는 원 음원에서의 신호는 독립적이라고 가정할 수 있다. 배경 소음은 음원과의 상관 관계가 없다고 가정하고 컨볼루션을 통해 상쇄된다고 가정하면
Figure 112009070714619-pat00014
는 x(t)로부터 다음의 수식을 통해 추정할 수 있다.
Figure 112009070714619-pat00015
여기서 Q 는 필터의 길이이다. 계산의 편의를 위해 시간 영역(time-domain)에서의 컨볼루션 식을 길이가 T인 (T>>P, convolution order) STFF(Short Time Fourier Transform) 과정을 거친 후의 수식으로 표현하면 다음의 식으로 표현이 가능하다.
Figure 112009070714619-pat00016
여기서 ω는 주파수(frequency)를 나타낼 수 있다.
또한, 입력된 상기 입력신호와 원 음원의 교차상관관계(cross-correlation)는 다음의 수식을 통해 구할 수 있다.
Figure 112009070714619-pat00017
여기서
Figure 112009070714619-pat00018
는 원 음원에 대한 추정음원 행렬을 의미할 수 있다.
또한
Figure 112009070714619-pat00019
x(t) 의 관계에 의해
Figure 112009070714619-pat00020
를 정리하면 다음과 같이 표현될 수 있다.
Figure 112009070714619-pat00021
여기서,
Figure 112009070714619-pat00022
는 교차상관행렬(Cross-correlation function)을 의미할 수 있다.
또한, 추정한
Figure 112009070714619-pat00023
와 원음원
Figure 112009070714619-pat00024
의 차이를 E라 하면,
Figure 112009070714619-pat00025
로 표현될 수 있고, 최소 자승법 추정(Least Square Estimation)에 의해
Figure 112009070714619-pat00026
는 다음의 식으로부터 구할 수가 있다.
Figure 112009070714619-pat00027
여기서, Q는 필터의 길이로 주파수 퍼뮤테이션 문제(Frequency Permutation Problem)를 피하기 위해 T보다 작은 값을 택해야 한다.
위 식을 비용 함수(cost function) J로 하여
Figure 112009070714619-pat00028
에 대해 미분하면 다음의 결과를 얻을 수 있다.
Figure 112009070714619-pat00029
따라서, 수학식 11로부터 최종적으로
Figure 112009070714619-pat00030
를 구할 수가 있다.
상술한 바와 같은 BSS 문제에서는 두 신호를 모르는 상태로 가정했으나 한 신호를 알고 있고, 알고 있는 신호를 기준 신호(Reference Signal)로 가정하면 문제는 훨씬 간단해 진다. 다음과 같은 상황을 가정해 보자. 마이크로폰과 스피커가 결합된 모델로 TV, 전화기, 네비게이션, 영상통화 폰 등을 예로 들 수 있다. 스피커에서는 상시 소리가 나오고 있다. 이것은 라디오 등과 같은 사람의 음성일 수도 있고 음악과 같은 대역이 좀 더 넓은 소리일 수도 있다. 입력을 받는 음성인식 센서(예컨대, 마이크로폰 등)에는 통화를 하거나 음성 명령을 내리는 화자 즉, 원하는 음성신호 이외에도 음성출력 센서(예컨대, 스피커 등)에서 나오는 소리가 혼합된 혼합신호가 들어가게 된다. 상기 혼합신호로부터 필요로 하는 것은 상기 음성출력 센서를 통해 출력된 신호를 제외한 화자의 음성이다.
상기 신호 분리 장치는 통신 시스템(예컨대, 유무선 전화, 모바일 폰, 컨퍼 런스 콜(conference call), IPTV, IP 전화기, 블루투스 통신장치, 컴퓨터 등) 음성신호를 유무선 통신을 통해 주고 받을 수 있는 모든 시스템에 적용될 수 있다. 또한, 상기 신호 분리 장치는 음성인식 시스템(예컨대, TV, IPTV, 컨퍼런스 콜, 네비게이션, 영상통화 폰, 로봇, 게임기, 전자사전, 어학 학습기 등) 외부로부터 입력되는 음성을 인식하고, 인식된 정보에 따라 소정의 동작을 수행하는 모든 시스템에 적용될 수도 있다. 이처럼 상기 신호 분리 장치는 통신 시스템 및/또는 음성인식 시스템으로 구현되어 자신이 알고 있는 신호와 원하는 신호가 혼합된 혼합신호에서 상기 원하는 신호를 전술한 BSS 알고리즘을 응용하여 효율적으로 분리할 수 있다.
이러한 기술적 사상을 본 명세서에서는 변형 BSS 알고리즘으로 정의하도록 한다. 본 발명의 기술적 사상에 따른 변형 BSS 알고리즘은 전술한 바와 같은 종래의 BSS 알고리즘과는 달리 분리하려는 원 음원들의 개수보다도 음성인식 센서(예컨대, 마이크로폰 등)의 개수가 더 적은 경우에도 적용될 수 있으며, 연산의 부하가 작아서 실시간으로 신호를 분리할 수 있는 효과가 있다.
이하에서는 전술한 종래의 BSS 알고리즘을 응용하여 본 발명의 기술적 사상에 따른 변형 BSS 알고리즘을 설명하도록 한다.
도 3은 본 발명의 실시 예에 따른 변형 BSS 알고리즘의 포워드 모델을 개념적으로 나타내는 도면이다.
도 3을 참조하면, 제1음원(예컨대, 화자, S1)과 제2음원(예컨대, 스피커, S2)가 존재할 수 있다. 그러면, 제1음원(S1)의 음원신호를
Figure 112009070714619-pat00031
라 하고 제2음원 (S2)의 소리를
Figure 112009070714619-pat00032
라 할 수 있다. 하나의 음성인식 센서(예컨대, 마이크로폰 등)를 통해 입력되는 입력 신호(즉, 혼합신호)를
Figure 112009070714619-pat00033
라 할 수 있다. 도 3에 도시된 실시 예에서는 신호 분리 장치가 하나의 음성인식 센서만을 구비하는 경우로 가정하였으므로, 상기 제2음원(예컨대, 스피커, S2)를 통해 출력된 신호를 가상의 또 다른 입력으로 가정을 하여
Figure 112009070714619-pat00034
라 하면 전술한 수학식 1은 다음의 형태로 변형이 될 수 있다.
Figure 112009070714619-pat00035
도 4는 도 3에 도시된 변형 BSS 알고리즘의 포워드 모델을 백워드 모델로 나타내는데, 도 4에 도시된 백워드 모델에서의 원 음원 신호와 입력신호의 관계를 나타내는 수식은 다음과 같은 수식으로 표현될 수 있다.
Figure 112009070714619-pat00036
여기서, 상기 음성인식 센서로 들어오는 음성 신호의 게인(gain)을 1이라 가정하고, 또 제2음원(예컨대, 스피커)로부터 출력되는 신호는 상기 신호 분리 장치에 의해 출력되는 신호로 알고 있는 신호이므로 마찬가지로 게인을 1로 가정하면
Figure 112009070714619-pat00037
Figure 112009070714619-pat00038
는 1이 되고,
Figure 112009070714619-pat00039
은 0이므로 행렬 W는 미지수가 하나인 간단한 행렬로 만들 수가 있다.
즉,
Figure 112009070714619-pat00040
는 다음과 같은 수식으로 표현될 수 있다.
Figure 112009070714619-pat00041
또한, 원 음원의 교차상관 관계(cross-correlation)의 오차를 나타낸
Figure 112009070714619-pat00042
역시 2 x 2 행렬임을 알 수가 있다.
Figure 112009070714619-pat00043
의 원소 중 주목해야 할 것은 (1,2) 원소와 (2,1) 원소이다. 원 음원들 간에 상관 관계가 없다고 가정을 했으므로 (1,2) 원소와 (2,1) 원소의 값이 0에 가까워야 이상적인
Figure 112009070714619-pat00044
를 추정할 수가 있다.
따라서, 수학식 9 에 가정한 W 즉, 수학식 14를 대입하여 수학식 10을 통해 전개를 하면
Figure 112009070714619-pat00045
에 대한 적응 가중치 값(Adaptive Weighting Factor)를 구할 수가 있다.
구해진 결과를 이용하여 각 주파수별로 적용을 하면 혼합된 신호로부터 필요없는 신호를 감소시키고 필요로 하는 음향 신호만을 얻을 수 있다.
또한, 연산에 사용되는 행렬 W가 수학식 14에서 알 수 있듯이 대각의 원소가 1인 삼각행렬로 표현될 수 있으므로, 종래의 BSS 알고리즘에 비해 연산의 부하가 현저히 낮아지는 것을 알 수 있다.
도 5는 본 발명의 실시 예에 따른 통신 시스템의 개략적인 구성을 나타낸다.
도 5를 참조하면, 본 발명의 실시 예에 따른 통신 시스템(100)은 제어모듈(110) 및 음성입력 센서(120)를 포함한다. 상기 통신 시스템(100)은 음성출력 센서(130) 및/또는 네트워크 인터페이스(140)를 더 포함할 수 있다. 상기 통신 시스템(100)은 핸드폰, PDA 등의 모바일 단말기 또는 노트북이나 컴퓨터 등과 같이 원격지에 위치하는 시스템과 유무선통신을 통하여 음성정보를 주고 받을 수 있는 모든 데이터 프로세싱 장치를 포함하는 의미로 사용될 수 있다. 물론, 상기 통신 시스템(100)은 종래의 통신 시스템에 포함된 오디오 인코더 및 디코더(미도시) 또는 RTP 패킹/언패킹 모듈(미도시) 등을 더 구비할 수 있지만 본 발명의 요지를 명확히 하기 위해 상세한 설명은 생략하도록 한다.
상기 제어모듈(110)은 본 발명의 기술적 사상을 구현하기 위한 소프트웨어 및/또는 하드웨어의 결합에 의해 구현될 수 있으며, 후술하는 바와 같은 기능을 수행하는 논리적인 구성을 의미할 수 있다. 따라서, 상기 제어모듈(110)은 반드시 어느 하나의 물리적인 장치로 구현됨을 의미하는 것은 아닐 수 있다. 상기 제어모듈(110)은 본 발명의 기술적 사상에 따른 변형 BSS 알고리즘을 수행할 수 있다.
상기 음성입력 센서(120)는 외부로부터 수신되는 신호를 수신하는 구성으로써, 마이크로폰(microphone)으로 구현될 수 있지만 이에 한정되지는 않는다.
상기 통신 시스템(100)은 타통신 시스템(예컨대, 상대방 휴대폰 등)으로부터 음성정보를 수신할 수 있다. 수신된 상기 음성정보는 상기 음성출력센서(130)를 통해 출력될 수 있다. 이때 상기 통신 시스템(100)은 상기 음성정보를 임시로 저장할 수 있다.
그 후, 상기 통신 시스템(100)은 제1음원신호(예컨대, 화자의 음성)에 기초한 제1신호(예컨대, 게인 팩터(gain factor)가 고려된 화자의 음성)와 제2음원신호(예컨대, 스피커에서 출력될 신호)에 기초한 제2신호(예컨대, 게인 팩터가 고려된 제2음원 신호)가 혼합된 혼합신호를 상기 하나의 음성입력센서(120)를 통해 수신할 수 있다.
그러면, 상기 제어모듈(110)은 수신된 상기 혼합신호에 기초하여 상기 제1음원신호와 상기 제2음원신호를 분리하기 위한 변형 BSS 알고리즘을 적용할 수 있으며, 그 결과 상기 혼합신호에서 상기 제1음원신호를 분리할 수 있다. 물론, 상기 제1음원신호를 분리한다고 함은, 분리된 결과가 상기 제1음원신호와 완전히 동일함을 의미하지는 않으며 연산을 통해 추정되는 제1음원신호를 얻는 과정을 의미할 수 있다.
또한, 변형 BSS 알고리즘을 적용한다고 함은, 도 3 및 도 4에서 상술한 바와 같이 상기 제1음원신호와 상기 제2음원신호를 각각 제1BSS 음원 신호(s1(t)) 및 제2BSS 음원신호(s2(t))로 하고, 상기 음성입력센서(120)를 통해 입력된 상기 혼합신호를 제1BSS 입력신호(x1(t)), 상기 음성출력 센서(130)를 통해 출력된 신호를 제2BSS 입력신호(x2(t))로 하여 BSS 알고리즘을 통해 상기 제1음원신호를 구하는 일련의 과정을 의미할 수 있다. 상기 음성출력 센서(130)는 스피커로 구현될 수 있지만 이에 한정되지는 않으며, 상기 통신 시스템(100)에 구비되어 음성신호를 출력할 수 있는 모든 장치를 포함할 수 있다. 여기서 상기 제2BSS 음원신호(s2(t))는 타 통신시스템(예컨대, 상대방 휴대폰 등)으로부터 수신된 음성정보가 소정의 프로세 스(예컨대, 언패킹, 오디오 디코딩 등)를 통해 상기 음성출력 센서(130)로 출력되는 신호이므로 상기 통신 시스템(100)에서 알고 있는 신호이다.
이처럼, 상기 통신 시스템(100)은 상기 음성출력 센서(130)를 통해 출력된 음성이 다시 상기 음성입력 센서(120)를 통해 입력되어도, 실시간으로 상기 제1음원신호(예컨대, 화자의 음성)만을 분리해낼 수 있다. 따라서, 에코 캔슬링이 될 수 있으며, 분리된 상기 제1음원신호는 상기 통신 시스템(100)에 구비된 네트워크 인터페이스 모듈(140)을 통해 타통신 시스템(예컨대, 타핸드폰 등, 미도시)으로 전송될 수 있다. 따라서, 상기 타통신 시스템에서는 에코 캔슬링을 별도로 수행할 필요가 없으며, 더블토크 디텍션(double-talk detection)을 수행할 필요도 없게 된다. 또한, 전이중(full-duplex) 통신시스템을 구현할 수 있는 효과도 있다. 또한, 전술한 바와 같이 2 개의 신호가 혼합된 신호에서 변형 BSS 알고리즘을 이용하여 원하는 신호를 분리하는데 이 중 어느 하나의 신호는 이미 알고 있는 신호이므로, 반드시 2 개 이상의 음성입력 센서(예컨대, 마이크로 폰)를 구비할 필요가 없어서 물리적 자원소모를 줄일 수 있는 효과도 있다.
도 6은 본 발명의 실시 예에 따른 음성인식시스템의 개략적인 구성을 나타낸다.
도 6을 참조하면, 본 발명의 실시 예에 따른 음성인식시스템(200)은 제어모듈(210), 음성입력센서(220), 및 음성출력센서(230)를 포함할 수 있다. 또한, 상기 음성인식시스템(200)은 음성인식 모듈(240)을 더 포함할 수도 있다. 구현 예에 따라 상기 제어모듈(210)이 상기 음성인식 모듈(240)의 기능을 수행할 수도 있음은 물론이다.
상기 제어모듈(210)은 본 발명의 기술적 사상을 구현하기 위한 소프트웨어 및/또는 하드웨어의 결합에 의해 구현될 수 있으며, 후술하는 바와 같은 기능을 수행하는 논리적인 구성을 의미할 수 있다. 따라서, 상기 제어모듈(210)은 반드시 어느 하나의 물리적인 장치로 구현됨을 의미하는 것은 아닐 수 있다. 상기 제어모듈(210)은 본 발명의 기술적 사상에 따른 변형 BSS 알고리즘을 수행할 수 있다. 또한, 구현 예에 따라 상기 제어모듈(210)이 음성인식을 수행할 수도 있다. 이하에서는 설명의 편의를 위해 별도의 음성인식 모듈(240)이 음성인식 기능을 수행하는 경우를 일 예로 설명하지만 본 발명의 권리범위가 이에 한정되지는 않는다.
상기 음성인식시스템(200)은 제1음원신호(예컨대, 화자의 음성)에 기초한 제1신호(예컨대, 게인 팩터가 고려된 화자의 음성)와 제2음원신호(예컨대, 스피커 출력 소리)에 기초한 제2신호(예컨대, 게인 팩터가 고려된 스피커 출력 소리)가 혼합된 혼합신호를 상기 음성입력센서(220)를 통해 수신할 수 있다. 즉, 상기 음성인식시스템(200)은 자신이 출력하는 신호(예컨대, 방송 소리, 음악 소리 등, self-signal)를 음성명령과 함께 수신할 수 있다.
그러면, 상기 제어모듈(210)은 수신된 상기 혼합신호에 기초하여 상기 제1음원신호를 분리하기 위한 변형 BSS(Blind Source Separation) 알고리즘을 적용할 수 있다.
분리된 제1음원신호(예컨대, 화자의 음성명령)는 상기 음성인식 모듈(240)로 전송될 수 있으며, 상기 음성인식 모듈(240)은 분리된 상기 제1음원신호를 음성명 령으로 인식할 수 있다. 그러면 인식된 상기 음성명령이 어떠한 명령인지를 다시 상기 제어모듈(210)로 전송할 수 있으며, 전송된 정보에 기초하여 상기 제어모듈(210)은 인식된 상기 음성명령에 상응하는 동작을 수행할 수 있다.
이처럼 본 발명의 실시 예에 따른 음성인식시스템(200)은 자신이 출력하는 소리의 크기나 종류에 관계없이 음성인식 센서(220)를 통해 입력되는 혼합신호에서 제1음원신호를 분리해낼 수 있다. 따라서 종래의 음성인식시스템과 같이 음성인식을 수행하기 위해 자신이 출력하는 소리의 크기를 줄이거나 별도의 모드로 변환을 할 필요가 없이 간단히 음성인식을 수행할 수 있는 효과가 있다.
상기 음성인식시스템(200)은 네비게이션, TV, IPTV, 컨퍼런스 콜, 홈네트워크 시스템, 로봇, 게임기, 전자사전, 어학 학습기 중 적어도 하나로 구현될 수 있다.
도 7 내지 도 12는 본 발명의 실시 예에 따른 신호 분리 방법을 통해 신호 분리를 한 실험 결과를 설명하기 위한 도면이다.
본 발명의 실시 예에 따른 신호 분리 방법을 검증하기 위하여 매트랩(Matlab)을 통해 실험을 수행하였다. 크게 음성과 음악의 두 가지 종류의 음향 신호를 이용하여 주 음원이 되는 음성 신호에 혼합한 뒤 제거를 하는 실험을 먼저 하였다. 그리고 또한 음성 인식기 테스트에 널리 쓰이는 Aurora 2 DB를 이용하여 테스트 DB에 음성 및 음악 신호를 혼합한 뒤 본 발명의 실시 예에 따른 신호 분리 방법을 적용하기 전후의 음성인식기 성능을 테스트하였다.
목적이 되는 시스템이 음성 명령을 받아들이는 인식기이므로 음원에 대한 형 식 역시 음성에 주로 쓰이는 형태(Wave Format)를 이용하기로 하였다. 즉, 샘플링 주기(Sampling Rate)는 8kHz, 16 bit signed signal의 형식을 가진다. 마찬가지로 주 음원에 혼합되는 원치 않는 신호 역시 같은 형식을 가지며 클래식 음악의 음원과 TV 뉴스의 남자 앵커 목소리를 각각 사용하였다.
STFT(Short Time Fourier Transform)의 길이는 256개 샘플을 기준으로 정의하였다. 필터의 길이는 길이가 길수록 주파수 간의 해상도(Resolution)이 높아지므로 성능 향상에 영향을 미치나 그에 따른 연산의 복잡도가 높아지므로 연산량에 따른 시간을 고려하여야 한다. 또한 오버랩-애드 방법(Overlap-add Method)을 사용하여 50% 오버랩이 되도록 설계하였으며 윈도우 함수(Window Function)은 일반적으로 많이 사용되는 해닝 윈도우(Hanning Window)를 적용하였다.
한편, 전술한 바와 같이 음성 인식기 성능을 검증할 데이터베이스로 Aurora 2 DB를 이용하였다. Aurora는 ETSI Aurora Project에 의한 것으로 유럽 표준의 음성 인식 평가를 위해 설계 되었다. 그 구성은 음성 인식기의 트레이닝을 위한 클린 트레이닝(clean Training) DB및 멀티컨디션 트레이닝(Multicondition Training) DB와 테스트를 위한 테스트 DB로 이루어져 있다. Aurora DB의 목적은 실제로는 정적인 소음(stationary noise signal) 환경에서 소음 제거 필터를 테스트하는 것이다. 그러나 본 발명의 실시 예에 따른 신호 분리 방법은 정적 소음이 아닌 비정적 신호(non-stationary signal)를 제거하는 것이므로 테스트 DB를 따로 만들어 실험을 수행하였다. 따라서 깨끗한 테스트 DB(clean test DB)에 앞에서 선정한 음악과 음성을 혼합하여 테스트용 DB를 만들었다. 혼합할 신호의 에너지 비율은 Aurora에서 제안한 대로 각각 20dB, 15dB, 10dB, 5dB, 0dB, -5dB의 SNR(signal-to-noise ratio)을 가지도록 설계하였다. Aurora 2 DB 역시 실제로 소음 환경에서 녹음한 음원을 사용하지 않고 소음을 따로 혼합하기 때문에 본 발명의 실시 예에 따른 신호 분리 방법을 검증하기 위한 실험에서 사용한 방식 역시 표준에서 크게 벗어나지 않는다고 볼 수 있다. 또한 본 발명의 실시 예에 따른 신호 분리 방법 검증의 목적이 음성 인식기의 평가가 아니라 상기 신호 분리 방법 적용 전 후의 성능 변화를 보기 위한 것이므로 실험의 의미가 충분하다고 볼 수 있다.
먼저 주 음원이 되는 음성과 음악을 혼합하였을 때의 결과를 확인해 보았다. 음성과 음악의 에너지는 비율을 대략 3dB가 되도록 혼합하였다. 이는 주 음원인 음성과 음악의 에너지 비가 2:1이 되는 값이다. 테스트 결과의 그래프는 도 7에 도시된 바와 같다.
도 7에 도시된 혼합신호에서 본 발명의 실시 예에 따른 신호 분리 방법을 수행한 후의 결과 신호 그래프는 도 8에 도시된 바와 같다. 그리고, 도 9는 원래 주 음원의 신호 그래프를 나타낸다.
도 8 및 도 9를 비교하면 알 수 있듯이, 육안으로도 확인이 가능할 정도로 음악 신호가 감소하고 결과 신호는 주 음원의 신호와 거의 유사한 것을 알 수 있다. SNR을 측정해본 결과 약 16.3 dB로 13 dB 이상의 향상을 보였으며 신호의 상관 계수는 0.9883으로 98%이상의 유사성을 보이고 있다.
또한, 이렇게 얻은 결과를 이용해서 음성 인식 DB에 적용한 테스트 결과이다. 음성 인식 DB에 사용 된 음원은 1001가지의 음성 명령으로 실험 환경에서 설명 한 대로 깨끗한 음성 DB에 클래식 음악과 음성을 각각 혼합하여 인식 실험을 하였다. 실험결과는 도 10에 나타난 바와 같다. 또한, 상기 깨끗한 음성 DB에 뉴스와 음성을 각각 혼합하여 인식 실험을 한 결과는 도 11에 도시된 바와 같았다. 또한, 도 12는 평균 음성인식률 향상 결과를 나타내는데, 도 12에서 알 수 있듯이 평균적으로 44%이상의 음성 인식률 향상과 11 dB 이상의 성능 향상을 볼 수가 있었다. 인식률과 SNR 증가는 배경 신호가 많이 섞일수록, 즉 혼합된 신호의 SNR이 낮을수록 더욱 크게 증가하는 것을 알 수가 있다. 이를 통해 적절한 환경에서 본 발명의 실시 예에 따른 신호 분리 방법을 사용하면 혼합되는 신호의 정도와 무관하게 음성 인식률의 성능을 안정적으로 유지할 수 있음을 알 수 있다.
본 발명의 실시 예에 따른 신호 분리 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
본 발명은 도면에 도시된 일 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 일반적인 BSS(Blind Source Separation) 알고리즘의 포워드 모델(forward model)을 설명하기 위한 도면이다.
도 2는 BSS 알고리즘의 백워드 모델을 설명하기 위한 도면이다.
도 3은 본 발명의 실시 예에 따른 변형 BSS 알고리즘의 포워드 모델을 개념적으로 나타내는 도면이다.
도 4는 도 3에 도시된 변형 BSS 알고리즘의 포워드 모델을 백워드 모델로 나타낸다.
도 5는 본 발명의 실시 예에 따른 통신 시스템의 개략적인 구성을 나타낸다.
도 6은 본 발명의 실시 예에 따른 음성인식시스템의 개략적인 구성을 나타낸다.
도 7 내지 도 12는 본 발명의 실시 예에 따른 신호 분리 방법을 통해 신호 분리를 한 실험 결과를 설명하기 위한 도면이다.

Claims (20)

  1. 신호 분리 장치가 제1음원신호에 기초한 제1신호와 제2음원신호에 기초한 제2신호가 혼합된 혼합신호를 하나의 음성입력센서를 통해 수신하는 단계;
    수신된 혼합신호에 기초하여 상기 제1음원신호와 상기 제2음원신호를 분리하기 위한 변형 BSS(Blind Source Separation) 알고리즘을 적용하는 단계; 및
    적용된 상기 변형 BSS 알고리즘에 결과에 따라 상기 제1음원신호를 분리하는 단계를 포함하며,
    상기 제2음원신호는,
    상기 신호 분리 장치에 구비된 음성출력센서를 통해 출력될 신호이고,
    상기 변형 BSS 알고리즘을 적용하는 단계는,
    상기 제1음원신호와 상기 제2음원신호를 각각 제1BSS 음원신호 및 제2BSS 음원신호로 하고, 상기 음성입력센서를 통해 입력된 상기 혼합신호를 제1BSS 입력신호, 상기 음성출력센서를 통해 출력된 신호를 가상의 입력신호로 가정한 제2BSS 입력신호로 하여 BSS 알고리즘을 적용하는 단계를 포함하며,
    상기 제1BSS 입력신호 및 상기 제2BSS 입력신호 각각은 수학식 15에 의해 표현될 수 있고,
    상기 제1음원신호 및 상기 제2음원신호 각각은 수학식 16에 의해 표현될 수 있으며,
    상기 변형 BSS 알고리즘을 적용하는 단계는,
    게인 행렬의 역행렬 W를 수학식 17과 같이 미지수가 하나인 삼각행렬로 설정하여,
    상기 역행렬 W에 포함된 원소 w12의 적응 가중치 값을 연산하는 단계를 포함하는 것을 특징으로 하는 신호 분리 방법.
    Figure 112012024323089-pat00046
    여기서,
    Figure 112012024323089-pat00061
    는 제1음원신호,
    Figure 112012024323089-pat00062
    는 제2음원신호, a11, a12, a22 게인행렬에 포함된 각각의 원소를 나타낸다.
    Figure 112012024323089-pat00047
    여기서, w11, w12, w22는 상기 게인행렬의 역행렬 W에 포함된 각각의 원소를 나타낸다.
    Figure 112012024323089-pat00048
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 제 1항에 있어서, 상기 신호 분리 장치는,
    통신 시스템으로 구현되며,
    상기 제1음원신호는 사용자의 음성신호이고, 상기 제2음원신호는 타통신 시스템으로부터 수신된 음성정보에 기초하여 음성출력센서로 출력될 신호인 신호 분리 방법.
  8. 제 7항에 있어서, 상기 신호 분리 방법은,
    상기 신호 분리 장치가 상기 음성정보를 저장하는 단계를 더 포함하는 신호 분리 방법.
  9. 제 1항에 있어서, 상기 신호 분리 장치는,
    음성인식시스템으로 구현될 수 있으며,
    상기 음성인식시스템은 상기 제1음원신호를 음성인식 명령으로 처리하는 신호 분리 방법.
  10. 제 1항에 있어서, 상기 음성입력센서는,
    마이크로폰(micro-phone)으로 구현되는 것을 특징으로 하는 신호 분리 방법.
  11. 제 1항에 기재된 방법을 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
  12. 음성입력센서; 및
    제어모듈을 포함하는 통신 시스템에 있어서,
    상기 통신 시스템은,
    제1음원신호에 기초한 제1신호와 제2음원신호에 기초한 제2신호가 혼합된 혼합신호를 상기 하나의 음성입력센서를 통해 수신하고,
    상기 제어모듈은,
    수신된 상기 혼합신호에 기초하여 상기 제1음원신호를 분리하기 위한 변형 BSS(Blind Source Separation) 알고리즘을 적용하며,
    적용된 상기 변형 BSS 알고리즘에 결과에 따라 상기 제1음원신호를 분리하는 것을 특징으로 하고,
    상기 제어모듈은 상기 변형 BSS 알고리즘을 적용하기 위해,
    상기 통신 시스템에 구비된 음성출력센서를 통해 출력될 신호를 제2음원신호로 설정하고,
    상기 제1음원신호와 상기 제2음원신호를 각각 제1BSS 음원신호 및 제2BSS 음원신호로 하고, 상기 음성입력센서를 통해 입력된 상기 혼합신호를 제1BSS 입력신호, 상기 음성출력센서를 통해 출력된 신호를 가상의 입력신호로 가정한 제2BSS 입력신호로 하여 BSS 알고리즘을 적용하며,
    상기 제1BSS 입력신호 및 상기 제2BSS 입력신호 각각은 수학식 18에 의해 표현될 수 있고,
    상기 제1음원신호 및 상기 제2음원신호 각각은 수학식 19에 의해 표현될 수 있으며,
    상기 변형 BSS 알고리즘을 적용하는 단계는,
    게인 행렬의 역행렬 W를 수학식 20과 같이 미지수가 하나인 삼각행렬로 설정하여,
    상기 역행렬 W에 포함된 원소 w12의 적응 가중치 값을 연산하는 것을 특징으로 하는 통신 시스템.
    Figure 112012024323089-pat00063
    여기서,
    Figure 112012024323089-pat00064
    는 제1음원신호,
    Figure 112012024323089-pat00065
    는 제2음원신호, a11, a12, a22 게인행렬에 포함된 각각의 원소를 나타낸다.
    Figure 112012024323089-pat00066
    여기서, w11, w12, w22는 상기 게인행렬의 역행렬 W에 포함된 각각의 원소를 나타낸다.
    Figure 112012024323089-pat00067
  13. 삭제
  14. 제 12항에 있어서, 상기 통신 시스템은,
    네트워크 인터페이스 모듈을 더 구비하며,
    상기 통신 시스템은,
    상기 네트워크 인터페이스 모듈을 통하여 분리된 상기 제1음원신호를 타통신 시스템으로 전송하는 통신 시스템.
  15. 삭제
  16. 제 12항에 있어서, 상기 통신 시스템은,
    유무선 전화, 모바일 폰, 컴퓨터, IPTV, IP 전화기, 블루투스 통신장치, 또는 컨퍼런스 콜 중 적어도 하나로 구현되는 통신 시스템.
  17. 음성입력센서;
    음성출력센서; 및
    제어모듈을 포함하는 음성인식시스템에 있어서,
    상기 음성인식시스템은,
    제1음원신호에 기초한 제1신호와 제2음원신호에 기초한 제2신호가 혼합된 혼합신호를 상기 음성입력센서를 통해 수신하고,
    상기 제어모듈은,
    수신된 상기 혼합신호에 기초하여 상기 제1음원신호를 분리하기 위한 변형 BSS(Blind Source Separation) 알고리즘을 적용하며,
    적용된 상기 변형 BSS 알고리즘에 결과에 따라 상기 제1음원신호를 분리하는 것을 특징으로 하며,
    상기 제어모듈은 상기 변형 BSS 알고리즘을 적용하기 위해,
    상기 음성출력센서를 통해 출력될 신호를 제2음원신호로 설정하고,
    상기 제1음원신호와 상기 제2음원신호를 각각 제1BSS 음원신호 및 제2BSS 음원신호로 하고, 상기 음성입력센서를 통해 입력된 상기 혼합신호를 제1BSS 입력신호, 상기 음성출력센서를 통해 출력된 신호를 가상의 입력신호로 가정한 제2BSS 입력신호로 하여 BSS 알고리즘을 적용하며,
    상기 제1BSS 입력신호 및 상기 제2BSS 입력신호 각각은 수학식 21에 의해 표현될 수 있고,
    상기 제1음원신호 및 상기 제2음원신호 각각은 수학식 22에 의해 표현될 수 있으며,
    상기 변형 BSS 알고리즘을 적용하는 과정은,
    게인 행렬의 역행렬 W를 수학식 23로 설정하여,
    상기 역행렬 W에 포함된 원소 w12의 적응 가중치 값을 연산하는 것을 특징으로 하는 음성인식시스템.
    Figure 112012055533176-pat00068
    여기서,
    Figure 112012055533176-pat00069
    는 제1음원신호,
    Figure 112012055533176-pat00070
    는 제2음원신호, a11, a12, a22 게인행렬에 포함된 각각의 원소를 나타낸다.
    Figure 112012055533176-pat00071
    여기서, w11, w12, w22는 상기 게인행렬의 역행렬 W에 포함된 각각의 원소를 나타낸다.
    Figure 112012055533176-pat00072
  18. 삭제
  19. 제 17항에 있어서, 상기 음성인식시스템은,
    분리된 상기 제1음원신호를 음성명령으로 처리하여 상기 음성명령에 상응하는 동작을 수행하는 것을 특징으로 하는 음성인식시스템.
  20. 제 17항에 있어서, 상기 음성인식시스템은,
    네비게이션, TV, IPTV, 컨퍼런스 콜, 홈네트워크 시스템, 로봇, 게임기, 전자사전, 또는 어학 학습기 중 적어도 하나로 구현되는 음성인식시스템.
KR1020090111323A 2008-12-12 2009-11-18 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템 Active KR101233271B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12220408P 2008-12-12 2008-12-12
US61/122,204 2008-12-12

Publications (2)

Publication Number Publication Date
KR20100068188A KR20100068188A (ko) 2010-06-22
KR101233271B1 true KR101233271B1 (ko) 2013-02-14

Family

ID=42243166

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090111323A Active KR101233271B1 (ko) 2008-12-12 2009-11-18 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템

Country Status (3)

Country Link
US (1) US20110246193A1 (ko)
KR (1) KR101233271B1 (ko)
WO (1) WO2010067976A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101612745B1 (ko) * 2015-08-05 2016-04-26 주식회사 미래산업 현관 보안 시스템 및 그 제어방법

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101248971B1 (ko) 2011-05-26 2013-04-09 주식회사 마이티웍스 방향성 마이크 어레이를 이용한 신호 분리시스템 및 그 제공방법
JP2013235050A (ja) * 2012-05-07 2013-11-21 Sony Corp 情報処理装置及び方法、並びにプログラム
CN103117083B (zh) * 2012-11-05 2016-05-25 贵阳海信电子有限公司 一种音频信息采集装置及方法
KR20150022476A (ko) * 2013-08-23 2015-03-04 삼성전자주식회사 디스플레이장치 및 그 제어방법
US9177567B2 (en) * 2013-10-17 2015-11-03 Globalfoundries Inc. Selective voice transmission during telephone calls
US9407989B1 (en) 2015-06-30 2016-08-02 Arthur Woodrow Closed audio circuit
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器
US20180166073A1 (en) * 2016-12-13 2018-06-14 Ford Global Technologies, Llc Speech Recognition Without Interrupting The Playback Audio
KR102372327B1 (ko) * 2017-08-09 2022-03-08 에스케이텔레콤 주식회사 음성 인식 방법 및 이에 사용되는 장치
CN107943757B (zh) * 2017-12-01 2020-10-20 大连理工大学 一种基于稀疏分量分析模态识别中的阶数确定方法
CN116259330B (zh) * 2023-03-02 2025-09-23 招联消费金融股份有限公司 一种语音分离方法及装置
CN118094210B (zh) * 2024-04-17 2024-07-02 国网上海市电力公司 一种基于欠定盲源分离的储能系统充放电行为识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030010432A (ko) * 2001-07-28 2003-02-05 주식회사 엑스텔테크놀러지 잡음환경에서의 음성인식장치
KR20070121271A (ko) * 2006-06-21 2007-12-27 삼성전자주식회사 음성신호에 포함된 반향신호의 제거방법 및 장치

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6526148B1 (en) * 1999-05-18 2003-02-25 Siemens Corporate Research, Inc. Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals
US6430528B1 (en) * 1999-08-20 2002-08-06 Siemens Corporate Research, Inc. Method and apparatus for demixing of degenerate mixtures
JP4496379B2 (ja) * 2003-09-17 2010-07-07 財団法人北九州産業学術推進機構 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法
EP1932102A2 (en) * 2005-09-01 2008-06-18 University College Dublin, National University of Ireland Dublin A method and apparatus for blind source separation
US8874439B2 (en) * 2006-03-01 2014-10-28 The Regents Of The University Of California Systems and methods for blind source signal separation
US7970564B2 (en) * 2006-05-02 2011-06-28 Qualcomm Incorporated Enhancement techniques for blind source separation (BSS)
US8189765B2 (en) * 2006-07-06 2012-05-29 Panasonic Corporation Multichannel echo canceller
US8369532B2 (en) * 2006-08-10 2013-02-05 Koninklijke Philips Electronics N.V. Device for and a method of processing an audio signal
JP2008064892A (ja) * 2006-09-05 2008-03-21 National Institute Of Advanced Industrial & Technology 音声認識方法およびそれを用いた音声認識装置
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
WO2008106474A1 (en) * 2007-02-26 2008-09-04 Qualcomm Incorporated Systems, methods, and apparatus for signal separation
JP4897519B2 (ja) * 2007-03-05 2012-03-14 株式会社神戸製鋼所 音源分離装置,音源分離プログラム及び音源分離方法
US8223988B2 (en) * 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
US8144896B2 (en) * 2008-02-22 2012-03-27 Microsoft Corporation Speech separation with microphone arrays

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030010432A (ko) * 2001-07-28 2003-02-05 주식회사 엑스텔테크놀러지 잡음환경에서의 음성인식장치
KR20070121271A (ko) * 2006-06-21 2007-12-27 삼성전자주식회사 음성신호에 포함된 반향신호의 제거방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101612745B1 (ko) * 2015-08-05 2016-04-26 주식회사 미래산업 현관 보안 시스템 및 그 제어방법

Also Published As

Publication number Publication date
US20110246193A1 (en) 2011-10-06
WO2010067976A3 (ko) 2010-08-12
WO2010067976A2 (ko) 2010-06-17
KR20100068188A (ko) 2010-06-22

Similar Documents

Publication Publication Date Title
KR101233271B1 (ko) 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템
JP5587396B2 (ja) 信号分離のためのシステム、方法、および装置
KR101444100B1 (ko) 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
KR100750440B1 (ko) 잔향 추정 및 억제 시스템
CN102947878B (zh) 用于音频均衡的系统、方法、装置和设备
JP5007442B2 (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
KR101185761B1 (ko) 전화 대화에 대한 잡음 소거
KR101726737B1 (ko) 다채널 음원 분리 장치 및 그 방법
US8972251B2 (en) Generating a masking signal on an electronic device
US20090238373A1 (en) System and method for envelope-based acoustic echo cancellation
KR101475864B1 (ko) 잡음 제거 장치 및 잡음 제거 방법
EP4394761A1 (en) Audio signal processing method and apparatus, electronic device, and storage medium
JPH10282993A (ja) 機器の音声作動式遠隔制御システム
Park et al. Acoustic interference cancellation for a voice-driven interface in smart TVs
US20140365212A1 (en) Receiver Intelligibility Enhancement System
CN106033673B (zh) 一种近端语音信号检测方法及装置
EP1913591B1 (en) Enhancement of speech intelligibility in a mobile communication device by controlling the operation of a vibrator in dependance of the background noise
KR101587844B1 (ko) 마이크로폰의 신호 보상 장치 및 그 방법
US8868418B2 (en) Receiver intelligibility enhancement system
CN104078049B (zh) 信号处理设备和信号处理方法
KR101151746B1 (ko) 오디오 신호용 잡음제거 방법 및 장치
Heitkaemper et al. Bone Conducted Signal Guided Speech Enhancement For Voice Assistant on Earbuds
Miyoshi et al. Calculating inverse filters for speech dereverberation
CN120526788A (zh) 一种全景声场景下回声消除和降噪的方法、装置和设备

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20091118

PA0201 Request for examination
PG1501 Laying open of application
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20110212

Patent event code: PE09021S01D

AMND Amendment
E601 Decision to refuse application
PE0601 Decision on rejection of patent

Patent event date: 20120228

Comment text: Decision to Refuse Application

Patent event code: PE06012S01D

Patent event date: 20110212

Comment text: Notification of reason for refusal

Patent event code: PE06011S01I

X091 Application refused [patent]
AMND Amendment
PX0901 Re-examination

Patent event code: PX09011S01I

Patent event date: 20120228

Comment text: Decision to Refuse Application

Patent event code: PX09012R01I

Patent event date: 20110811

Comment text: Amendment to Specification, etc.

AMND Amendment
PX0701 Decision of registration after re-examination

Patent event date: 20121120

Comment text: Decision to Grant Registration

Patent event code: PX07013S01D

Patent event date: 20120711

Comment text: Amendment to Specification, etc.

Patent event code: PX07012R01I

Patent event date: 20120327

Comment text: Amendment to Specification, etc.

Patent event code: PX07012R01I

Patent event date: 20120228

Comment text: Decision to Refuse Application

Patent event code: PX07011S01I

Patent event date: 20110811

Comment text: Amendment to Specification, etc.

Patent event code: PX07012R01I

X701 Decision to grant (after re-examination)
GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20130207

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20130207

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
FPAY Annual fee payment

Payment date: 20160318

Year of fee payment: 4

PR1001 Payment of annual fee

Payment date: 20160318

Start annual number: 4

End annual number: 4

FPAY Annual fee payment

Payment date: 20170317

Year of fee payment: 5

PR1001 Payment of annual fee

Payment date: 20170317

Start annual number: 5

End annual number: 5

FPAY Annual fee payment

Payment date: 20180207

Year of fee payment: 6

PR1001 Payment of annual fee

Payment date: 20180207

Start annual number: 6

End annual number: 6

FPAY Annual fee payment

Payment date: 20190207

Year of fee payment: 7

PR1001 Payment of annual fee

Payment date: 20190207

Start annual number: 7

End annual number: 7

FPAY Annual fee payment

Payment date: 20200121

Year of fee payment: 10

PR1001 Payment of annual fee

Payment date: 20200121

Start annual number: 8

End annual number: 10

PR1001 Payment of annual fee

Payment date: 20230112

Start annual number: 11

End annual number: 11

PR1001 Payment of annual fee

Payment date: 20231130

Start annual number: 12

End annual number: 12

PR1001 Payment of annual fee

Payment date: 20241203

Start annual number: 13

End annual number: 13