KR102060208B1

KR102060208B1 - 적응적 음성 명료도 처리기

Info

Publication number: KR102060208B1
Application number: KR1020147004922A
Authority: KR
Inventors: 대경 노; 싱 헤; 제임스 트레시
Original assignee: 디티에스 엘엘씨
Priority date: 2011-07-29
Filing date: 2012-07-26
Publication date: 2019-12-27
Anticipated expiration: 2032-07-26
Also published as: TWI579834B; KR20140079363A; US9117455B2; US20130030800A1; TW201308316A; PL2737479T3; JP6147744B2; CN103827965A; CN103827965B; HK1197111A1; JP2014524593A; WO2013019562A2; EP2737479A2; EP2737479B1; WO2013019562A3

Abstract

음성 명료도를 향상시키기 위해 음성을 적응적으로 처리하는 시스템 및 방법이 기술된다. 이들 시스템 및 방법은 포먼트 위치를 적응적으로 식별 및 추적할 수 있고, 그로써 포먼트가 변할 때 포먼트가 강조될 수 있게 해준다. 그 결과로서, 이들 시스템 및 방법은, 심지어 잡음이 많은 환경에서, 근단 명료도(near-end intelligibility)를 향상시킬 수 있다. 이 시스템 및 방법은 VoIP(Voice-over IP) 응용, 전화 및/또는 화상 회의 응용(셀룰러 폰, 스마트폰 등을 포함함), 랩톱 및 태블릿 통신 등에서 구현될 수 있다. 이 시스템 및 방법은 또한 과도 음성과 같은, 성도(voice track)를 사용하지 않고 발생된 음성을 포함할 수 있는 무성음 음성(non-voiced speech)을 향상시킬 수 있다.

Description

적응적 음성 명료도 처리기{ADAPTIVE VOICE INTELLIGIBILITY PROCESSOR}

관련 출원

이 출원은 미국 특허법 제119조 (e) 하에서 2011년 7월 29일자로 출원된, 발명의 명칭이 "적응적 음성 명료도 처리기(Adaptive Voice Intelligibility Processor)"인 미국 가특허 출원 제61/513,298호(그 개시 내용이 참조 문헌으로서 그 전체가 본 명세서에 포함됨)를 기초로 우선권을 주장한다.

휴대폰이 종종 높은 배경 잡음을 포함하는 영역에서 사용된다. 이 잡음은 종종 휴대폰 화자로부터의 음성 통신의 명료도가 크게 열화되는 레벨을 가진다. 많은 경우에, 발신자의 음성이 청취자에 의해 들릴 때, 높은 주변 잡음 레벨이 발신자의 음성을 마스킹하거나 왜곡하기 때문에, 어떤 통신이 상실되거나 적어도 부분적으로 상실된다.

높은 배경 잡음의 존재 시에 명료도의 상실을 최소화하려는 시도는 등화기, 클리핑 회로의 사용, 또는 휴대폰의 볼륨을 증가시키는 것을 포함한다. 등화기 및 클리핑 회로 자체는 배경 잡음을 증가시킬 수 있고, 따라서 이 문제점을 해결하지 못한다. 휴대폰의 음 또는 스피커 볼륨의 전체 레벨을 증가시키는 것은 종종 명료도를 그다지 개선시키지 못하고, 피드백 및 청취자 불쾌 등의 다른 문제를 야기할 수 있다.

본 개시 내용을 요약하기 위해, 본 발명의 특정의 측면들, 이점들 및 새로운 특징들이 본 명세서에 기술되어 있다. 이러한 이점들 모두가 본 명세서에 개시되어 있는 본 발명의 임의의 특정의 실시예에 따라 반드시 달성될 수 있는 것은 아님을 잘 알 것이다. 이와 같이, 본 명세서에 개시되어 있는 본 발명은, 본 명세서에 개시되거나 제안되어 있을 수 있는 다른 이점들을 꼭 달성할 필요 없이, 본 명세서에 개시된 하나의 이점 또는 일군의 이점들을 달성하거나 최적화하는 방식으로 구현되거나 수행될 수 있다.

특정의 실시예에서, 음성 명료도 향상(voice intelligibility enhancement)을 조절하는 방법은 입력 음성 신호를 수신하는 단계 및 선형 예측 코딩(linear predictive coding, LPC) 프로세스에 의해 입력 음성 신호의 스펙트럼 표현을 획득하는 단계를 포함한다. 스펙트럼 표현은 하나 이상의 포먼트 주파수(formant frequency)를 포함할 수 있다. 이 방법은 하나 이상의 포먼트 주파수를 강조하도록 구성되어 있는 향상 필터(enhancement filter)를 생성하기 위해 하나 이상의 프로세서에 의해 입력 음성 신호의 스펙트럼 표현을 조절하는 단계를 추가로 포함할 수 있다. 그에 부가하여, 이 방법은 향상된 포먼트 주파수를 갖는 수정된 음성 신호를 생성하기 위해 입력 음성 신호의 표현에 향상 필터를 적용하는 단계, 입력 음성 신호에 기초하여 엔벨로프를 검출하는 단계, 및 하나 이상의 시간 향상 파라미터를 결정하기 위해 수정된 음성 신호의 엔벨로프를 분석하는 단계를 포함할 수 있다. 더욱이, 이 방법은 출력 음성 신호를 생성하기 위해 수정된 음성 신호에 하나 이상의 시간 향상 파라미터를 적용하는 단계를 포함할 수 있다. 적어도 하나 이상의 시간 향상 파라미터를 적용하는 단계는 하나 이상의 프로세서에 의해 수행될 수 있다.

특정의 실시예들에서, 이전의 단락의 방법은 다음과 같은 특징들의 임의의 조합을 포함할 수 있다: 수정된 음성 신호에 하나 이상의 시간 향상 파라미터를 적용하는 단계는 수정된 음성 신호에서의 선택된 자음을 강조하기 위해 상기 수정된 음성 신호의 하나 이상의 엔벨로프에서의 피크를 예리하게 하는 단계를 포함함; 엔벨로프를 검출하는 단계는 입력 음성 신호 및 수정된 음성 신호 중 하나 이상의 신호의 엔벨로프를 검출하는 단계를 포함함; 및 여기 신호(excitation signal)를 생성하기 위해 입력 음성 신호에 역필터(inverse filter)를 적용하는 단계를 추가로 포함하고, 따라서 향상 필터를 입력 음성 신호의 표현에 적용하는 단계는 향상 필터를 여기 신호에 적용하는 단계를 포함함.

어떤 실시예들에서, 음성 명료도 향상을 조절하는 시스템은 입력 음성 신호의 적어도 일부분의 스펙트럼 표현을 획득할 수 있는 분석 모듈을 포함한다. 스펙트럼 표현은 하나 이상의 포먼트 주파수를 포함할 수 있다. 이 시스템은 또한 하나 이상의 포먼트 주파수를 강조할 수 있는 향상 필터를 발생할 수 있는 포먼트 향상 모듈(formant enhancement module)을 포함할 수 있다. 향상 필터는 수정된 음성 신호를 생성하기 위해 하나 이상의 프로세서에 의해 입력 음성 신호의 표현에 적용될 수 있다. 게다가, 이 시스템은 또한 수정된 음성 신호의 하나 이상의 엔벨로프에 적어도 부분적으로 기초하여 수정된 음성 신호에 시간 향상을 적용하도록 구성되어 있는 시간 엔벨로프 정형기(temporal enveloper shaper)를 포함할 수 있다.

특정의 실시예에서, 이전의 단락의 시스템은 다음과 같은 특징들의 임의의 조합을 포함할 수 있다: 분석 모듈은 또한 스펙트럼 표현에 대응하는 계수들을 발생하도록 구성되어 있는 선형 예측 코딩 기법을 사용하여 입력 음성 신호의 스펙트럼 표현을 획득하도록 구성되어 있음; 계수들을 선 스펙트럼 쌍(line spectral pair)에 매핑하도록 구성되어 있는 매핑 모듈을 추가로 포함함; 포먼트 주파수에 대응하는 스펙트럼 표현에서 이득을 증가시키기 위해 선 스펙트럼 쌍을 수정하는 것을 추가로 포함함; 향상 필터는 또한 입력 음성 신호 및 입력 음성 신호로부터 도출되는 여기 신호 중 하나 이상의 신호에 적용되도록 구성되어 있음; 시간 엔벨로프 정형기는 또한 수정된 음성 신호를 복수의 대역으로 세분하도록 구성되어 있고, 하나 이상의 엔벨로프는 복수의 대역 중 적어도 일부에 대한 엔벨로프에 대응함; 입력 마이크 신호에서 검출된 환경 잡음의 양에 적어도 부분적으로 기초하여 향상 필터의 이득을 조절하도록 구성되어 있을 수 있는 음성 향상 제어기(voice enhancement controller)를 추가로 포함함; 입력 마이크 신호에서 음성을 검출하고 검출된 음성에 응답하여 음성 향상 제어기를 제어하도록 구성되어 있는 음성 활동 검출기(voice activity detector)를 추가로 포함함; 음성 활동 검출기는 또한 음성 향상 제어기로 하여금, 입력 마이크 신호에서 음성을 검출한 것에 응답하여, 이전의 잡음 입력에 기초하여 향상 필터의 이득을 조절하게 하도록 구성되어 있음; 및 입력 마이크 신호를 수신하도록 구성되어 있는 마이크의 이득을 설정하도록 구성되어 있는 마이크 교정 모듈을 추가로 포함하고, 마이크 교정 모듈은 또한 기준 신호 및 기록된 잡음 신호에 적어도 부분적으로 기초하여 상기 이득을 설정하도록 구성되어 있음.

어떤 실시예들에서, 음성 명료도 향상을 조절하는 시스템은 입력 음성 신호의 스펙트럼에 대응하는 선형 예측 코딩(LPC) 계수들을 획득하기 위해 LPC 기법을 적용할 수 있는 선형 예측 코딩 분석 모듈(linear predictive coding analysis module) - 스펙트럼은 하나 이상의 포먼트 주파수를 포함하고 있음 - 을 포함한다. 이 시스템은 또한 LPC 계수들을 선 스펙트럼 쌍에 매핑할 수 있는 매핑 모듈을 포함할 수 있다. 이 시스템은 또한 하나 이상의 프로세서를 포함하는 포먼트 향상 모듈을 포함할 수 있고, 포먼트 향상 모듈은, 입력 음성 신호의 스펙트럼을 조절하여 상기 하나 이상의 포먼트 주파수를 강조할 수 있는 향상 필터를 생성하기 위해, 선 스펙트럼 쌍을 수정할 수 있다. 향상 필터는 수정된 음성 신호를 생성하기 위해 입력 음성 신호의 표현에 적용될 수 있다.

다양한 실시예에서, 이전의 단락의 시스템은 다음과 같은 특징들의 임의의 조합을 포함할 수 있다: 입력 마이크 신호에서 음성을 검출하고, 입력 마이크 신호에서 음성을 검출한 것에 응답하여, 향상 필터의 이득이 조절되게 할 수 있는 음성 활동 검출기를 추가로 포함함; 입력 마이크 신호를 수신할 수 있는 마이크의 이득을 설정할 수 있는 마이크 교정 모듈을 추가로 포함하고, 마이크 교정 모듈은 또한 기준 신호 및 기록된 잡음 신호에 적어도 부분적으로 기초하여 상기 이득을 설정하도록 구성되어 있음; 향상 필터는 또한 입력 음성 신호 및 입력 음성 신호로부터 도출되는 여기 신호 중 하나 이상의 신호에 적용되도록 구성되어 있음; 수정된 음성 신호의 하나 이상의 엔벨로프에 적어도 부분적으로 기초하여 수정된 음성 신호에 시간 향상을 적용할 수 있는 시간 엔벨로프 정형기를 추가로 포함함; 및 시간 엔벨로프 정형기는 또한 수정된 음성 신호에서의 선택된 부분을 강조하기 위해 수정된 음성 신호의 하나 이상의 엔벨로프에서의 피크를 예리하게 하도록 구성되어 있음.

도면들 전체에 걸쳐, 참조된 요소들 간의 대응 관계를 나타내기 위해 참조 번호들이 재사용될 수 있다. 본 명세서에 기술되어 있는 본 발명의 범위를 제한하기 위해서가 아니라 본 발명의 실시예들을 예시하기 위해 도면들이 제공된다.
도 1은 음성 향상 시스템(voice enhancement system)을 구현할 수 있는 휴대폰 환경의 일 실시예를 나타낸 도면.
도 2는 음성 향상 시스템의 보다 상세한 실시예를 나타낸 도면.
도 3은 적응적 음성 향상 모듈(adaptive voice enhancement module)의 일 실시예를 나타낸 도면.
도 4는 음성 스펙트럼의 예시적인 플롯을 나타낸 도면.
도 5는 적응적 음성 향상 모듈의 다른 실시예를 나타낸 도면.
도 6은 시간 엔벨로프 정형기(temporal envelope shaper)의 일 실시예를 나타낸 도면.
도 7은 시간 영역 음성 엔벨로프의 예시적인 플롯을 나타낸 도면.
도 8은 어택(attack) 및 디케이(decay) 엔벨로프의 예시적인 플롯을 나타낸 도면.
도 9는 음성 검출 프로세스의 일 실시예를 나타낸 도면.
도 10은 마이크 교정 프로세스의 일 실시예를 나타낸 도면.

I. 서론

기존의 음성 명료도(voice intelligibility) 시스템은, 특정의 모음 및 공명 자음(sonorant consonant)에 대응하는 화자의 성대에 의해 발생되는 공진 주파수를 포함할 수 있는, 음성에서의 포먼트(formant)를 강조하려고 시도한다. 이들 기존의 시스템은 통상적으로 포먼트가 나타날 것으로 예상되는 상이한 고정 주파수 대역에서 포먼트를 강조하는 대역 통과 필터를 가지는 필터 뱅크를 이용한다. 이 방식에서의 문제점은 포먼트 위치가 상이한 사람에 대해 상이할 수 있다는 것이다. 게다가, 주어진 사람의 포먼트 위치가 또한 시간의 경과에 따라 변할 수 있다. 따라서, 고정된 대역 통과 필터는 주어진 사람의 포먼트 주파수와 상이한 주파수를 강조할 수 있고, 그 결과 손상된 음성 명료도가 얻어진다.

본 개시 내용은, 특징들 중에서도 특히, 음성 명료도를 향상시키기 위해 음성을 적응적으로 처리하는 시스템 및 방법을 기술하고 있다. 특정의 실시예들에서, 이들 시스템 및 방법은 포먼트 위치를 적응적으로 식별 및 추적할 수 있고, 그로써 포먼트가 변할 때 포먼트가 강조될 수 있게 해준다. 그 결과로서, 이들 시스템 및 방법은, 심지어 잡음이 많은 환경에서, 근단 명료도(near-end intelligibility)를 향상시킬 수 있다. 이 시스템 및 방법은 또한 과도 음성과 같은, 성도(vocal tract)를 사용하지 않고 발생된 음성을 포함할 수 있는 무성음 음성(non-voiced speech)을 향상시킬 수 있다. 향상될 수 있는 무성음 음성의 어떤 예는 파열음(plosive), 마찰음(fricative) 및 파찰음(affricate) 등의 폐쇄성 자음(obstruent consonant)을 포함한다.

포먼트 위치를 적응적으로 추적하기 위해 많은 기법들이 사용될 수 있다. 적응적 필터링이 한가지 이러한 기법이다. 어떤 실시예들에서, 선형 예측 코딩(linear predictive coding, LPC)과 관련하여 이용되는 적응적 필터링이 포먼트를 추적하는 데 사용될 수 있다. 편의상, 본 명세서의 나머지는 LPC와 관련하여 적응적 포먼트 추적을 기술할 것이다. 그렇지만, 특정의 실시예들에서, 포먼트 위치를 추적하기 위해 LPC 대신에 많은 다른 적응적 처리 기법들이 사용될 수 있다는 것을 잘 알 것이다. LPC 대신에 또는 그에 부가하여 본 명세서에서 사용될 수 있는 기법들 중 어떤 예는 다중 대역 에너지 복조(multiband energy demodulation), 극 상호작용(pole interaction), 파라미터에 의존하지 않는(parameter-free) 비선형 예측, 및 상황 의존적 음소 정보를 포함한다.

II. 시스템 개요

도 1은 음성 향상 시스템(110)을 구현할 수 있는 휴대폰 환경(100)의 일 실시예를 나타낸 것이다. 음성 향상 시스템(110)은 음성 입력 신호(102)의 명료도를 향상시키는 하드웨어 및/또는 소프트웨어를 포함할 수 있다. 음성 향상 시스템(110)은, 예를 들어, 포먼트 등의 유성음(vocal sound)의 특징적인 특성은 물론 무성음(non-vocal sound)(예컨대, 파열음 및 마찰음을 비롯한 자음)도 강조하는 음성 향상으로 음성 입력 신호(102)를 처리할 수 있다.

예시적인 휴대폰 환경(100)에서, 발신자 전화(104) 및 수신자 전화(108)가 도시되어 있다. 이 예에서, 음성 향상 시스템(110)이 수신자 전화(108)에 설치되어 있지만, 다른 실시예들에서, 이들 전화 둘 다가 음성 향상 시스템을 가질 수 있다. 발신자 전화(104) 및 수신자 전화(108)는 휴대폰, VoIP(voice over Internet protocol) 전화, 스마트폰, 일반 전화(landline phone), 전화 및/또는 화상 회의 전화, 다른 컴퓨팅 장치(랩톱 또는 태블릿 등) 등일 수 있다. 발신자 전화(104)는 휴대폰 환경(100)의 원단에 있는 것으로 간주될 수 있고, 수신자 전화는 휴대폰 환경(100)의 근단에 있는 것으로 간주될 수 있다. 수신자 전화(108)의 사용자가 말하고 있을 때, 근단 및 원단이 반대로 될 수 있다.

도시된 실시예에서, 발신자에 의해 음성 입력(102)이 발신자 전화(104)에 제공된다. 발신자 전화(104) 내의 송신기(106)는 음성 입력 신호(102)를 수신자 전화(108)로 전송한다. 송신기(106)는 음성 입력 신호(102)를 무선으로 또는 지상통신선을 통해 또는 이 둘의 조합으로 전송할 수 있다. 수신자 전화(108) 내의 음성 향상 시스템(110)은 음성 명료도를 증가시키기 위해 음성 입력 신호(102)를 향상시킬 수 있다.

음성 향상 시스템(110)은 음성 입력 신호(102)에 나타내어져 있는 음성의 포먼트 또는 다른 특징적 부분을 동적으로 식별할 수 있다. 그 결과로서, 음성 향상 시스템(110)은, 포먼트가 시간에 따라 변하거나 상이한 화자에 대해 상이하더라도, 음성의 포먼트 또는 다른 특징적 부분을 동적으로 향상시킬 수 있다. 음성 향상 시스템(110)은 또한 수신자 전화(108)의 마이크를 사용하여 검출되는 마이크 입력 신호(112)에서의 환경 잡음에 적어도 부분적으로 기초하여 음성 입력 신호(102)에 음성 향상이 적용되는 정도를 조정할 수 있다. 환경 잡음 또는 내용은 배경 잡음 또는 주변 잡음을 포함할 수 있다. 환경 잡음이 증가하면, 음성 향상 시스템(110)은 적용되는 음성 향상의 양을 증가시킬 수 있고, 그 반대도 마찬가지이다. 따라서, 음성 향상은 검출된 환경 잡음의 양을 적어도 부분적으로 추적할 수 있다. 이와 유사하게, 음성 향상 시스템(110)은 또한 환경 잡음의 양에 적어도 부분적으로 기초하여 음성 입력 신호(102)에 적용되는 전체 이득을 증가시킬 수 있다.

그렇지만, 보다 적은 환경 잡음이 존재하는 경우, 음성 향상 시스템(110)은 적용되는 음성 향상 및/또는 이득 증가의 양을 감소시킬 수 있다. 이 감소는 청취자에게 유익할 수 있는데, 그 이유는 낮은 레벨의 환경 잡음이 있을 때 음성 향상 및/또는 볼륨 증가(volume increase)가 거슬리게 또는 불쾌하게 들릴 수 있기 때문이다. 예를 들어, 환경 잡음이 없을 시에 음성이 거슬리게 들리게 하는 것을 피하기 위해, 환경 잡음이 임계량을 초과하면, 음성 향상 시스템(110)은 음성 입력 신호(102)에 음성 향상을 적용하기 시작할 수 있다.

이와 같이, 특정의 실시예들에서, 음성 향상 시스템(110)은 음성 입력 신호를, 변하는 레벨의 환경 잡음의 존재 시에 청취자에게 보다 명료할 수 있는 향상된 출력 신호(114)로 변환한다. 어떤 실시예들에서, 음성 향상 시스템(110)이 또한 발신자 전화(104)에 포함되어 있을 수 있다. 음성 향상 시스템(110)은 발신자 전화(104)에 의해 검출되는 환경 잡음의 양에 적어도 부분적으로 기초하여 음성 입력 신호(102)에 향상을 적용할 수 있다. 따라서, 음성 향상 시스템(110)은 발신자 전화(104), 수신자 전화(108), 또는 둘 다에서 사용될 수 있다.

음성 향상 시스템(110)이 전화(108)의 일부인 것으로 도시되어 있지만, 음성 향상 시스템(110)이 그 대신에 임의의 통신 장치에 구현될 수 있을 것이다. 예를 들어, 음성 향상 시스템(110)은 컴퓨터, 라우터, 아날로그 전화 어댑터, 딕터폰(dictaphone) 등에 구현될 수 있을 것이다. 음성 향상 시스템(110)은 또한 확성(Public Address, "PA") 장비[인터넷 프로토콜을 통한 PA(PA over Internet Protocol)를 포함함], 무선 송수신기, 청각 보조 장치(예컨대, 보청기), 스피커폰에서 및 다른 음성 시스템에서 사용될 수 있을 것이다. 더욱이, 음성 향상 시스템(110)은 하나 이상의 스피커에 음성 출력을 제공하는 임의의 프로세서 기반 시스템에서 구현될 수 있다.

도 2는 음성 향상 시스템(110)의 보다 상세한 실시예를 나타낸 것이다. 음성 향상 시스템(210)은 음성 향상 시스템(110)의 특징들 중 일부 또는 전부를 구현할 수 있고, 하드웨어 및/또는 소프트웨어로 구현될 수 있다. 음성 향상 시스템(210)은 앞서 언급한 장치들 중 임의의 것을 포함하는 휴대폰, 셀폰, 스마트폰, 또는 다른 컴퓨팅 장치에서 구현될 수 있다. 음성 향상 시스템(210)은 음성 신호의 포먼트 및/또는 다른 부분을 적응적으로 추적할 수 있고, 검출된 환경 잡음의 양 및/또는 입력 음성 신호의 레벨에 적어도 부분적으로 기초하여 향상 처리를 조절할 수 있다.

음성 향상 시스템(210)은 적응적 음성 향상 모듈(220)을 포함하고 있다. 적응적 음성 향상 모듈(220)은 (예컨대, 발신자 전화로부터 수신된, 보청기 또는 기타 장치에서의) 음성 입력 신호(202)에 음성 향상을 적응적으로 적용하는 하드웨어 및/또는 소프트웨어를 포함할 수 있다. 음성 향상은 유성음 및/또는 무성음을 포함하는 음성 입력 신호(202)에서의 성음(vocal sound)의 특징적인 특성을 강조할 수 있다.

유리하게도, 특정의 실시예들에서, 적응적 음성 향상 모듈(220)은 상이한 화자(예컨대, 사람)에 대해 또는 시간에 따라 변하는 포먼트를 갖는 동일한 화자에 대해 적절한 포먼트 주파수를 향상시키기 위해 포먼트를 적응적으로 추적한다. 적응적 음성 향상 모듈(220)은 또한 성대 이외의 성도의 일부분에 의해 생성되는 특정의 자음 또는 다른 음을 포함하는 음성의 무성음 부분을 향상시킬 수 있다. 일 실시예에서, 적응적 음성 향상 모듈(220)은 음성 입력 신호를 시간적으로 정형함으로써 무성음 음성을 향상시킨다. 이들 특징은 이하에서 도 3과 관련하여 보다 상세히 기술되어 있다.

음성 향상 모듈(220)에 의해 제공되는 음성 향상의 레벨을 제어할 수 있는 음성 향상 제어기(222)가 제공된다. 음성 향상 제어기(222)는 적용되는 음성 향상의 레벨을 증가 또는 감소시키는 향상 레벨 제어 신호 또는 값을 적응적 음성 향상 모듈(220)에 제공할 수 있다. 제어 신호가 환경 잡음 증가 및 감소를 포함하는 마이크 입력 신호(204)로서 블록별로 또는 샘플별로 조정될 수 있다.

특정의 실시예들에서, 음성 향상 제어기(222)는 마이크 입력 신호(204)에서의 환경 잡음의 임계량의 에너지가 검출된 후에 음성 향상의 레벨을 조정한다. 임계값을 초과하면, 음성 향상 제어기(222)는 음성 향상의 레벨이 마이크 입력 신호(204)에서의 환경 잡음의 양을 추적하거나 실질적으로 추적하게 할 수 있다. 일 실시예에서, 예를 들어, 잡음 임계값을 초과하여 제공되는 음성 향상의 레벨은 임계값에 대한 잡음의 에너지(또는 전력)의 비에 비례한다. 대안의 실시예들에서, 임계값을 사용하는 일 없이 음성 향상의 레벨이 조정된다. 음성 향상 제어기(222)에 의해 적용되는 음성 향상의 조정의 레벨은 환경 잡음의 증가에 따라 지수적으로 또는 선형적으로 증가한다.

음성 향상 제어기(222)가 음성 향상 시스템(210)을 포함하는 각각의 장치에 대해 거의 동일한 레벨로 음성 향상의 레벨을 조정하기 위해 또는 조정하려고 시도하기 위해, 마이크 교정 모듈(234)이 제공된다. 마이크 교정 모듈(234)은, 마이크의 전체 이득이 장치들 중 일부 또는 전부에 대해 동일하거나 거의 동일하도록 하기 위해, 마이크 입력 신호(204)에 적용되는 이득을 조절하는 하나 이상의 교정 파라미터를 계산하고 저장할 수 있다. 마이크 교정 모듈(234)의 기능은 도 10과 관련하여 이하에 보다 상세히 기술되어 있다.

수신측 전화(108)의 마이크가 전화(108)의 스피커 출력으로부터 음성 신호를 픽업할 때 불쾌한 효과가 나타날 수 있다. 이 스피커 피드백은 음성 향상 제어기(222)에 의해 환경 잡음으로서 해석될 수 있고, 이는 스피커 피드백에 의한 음성 향상의 자체 활성화(self-activation) 그리고 따라서 음성 향상의 변조를 야기할 수 있다. 얻어진 변조된 출력 신호는 청취자에게 불쾌할 수 있다. 수신자 전화(108)가 발신자 전화(104)로부터 수신되는 음성 신호를 출력하고 있는 것과 동시에 청취자가 수신자 전화(108)에 말하거나, 기침하거나, 또는 다른 방식으로 소리를 낼 때 유사한 문제점이 일어날 수 있다. 화자와 청취자 둘 다가 동시에 말을 하는(또는 소리를 내는) 이러한 동시 통화(double talk) 시나리오에서, 적응적 음성 향상 모듈(220)은 동시 통화에 기초하여 원격 음성 입력(202)을 변조할 수 있다. 이 변조된 출력 신호는 청취자에게 불쾌할 수 있다.

이 효과를 방지하기 위해, 도시된 실시예에서 음성 활동 검출기(voice activity detector)(212)가 제공된다. 음성 활동 검출기(212)는 마이크 입력 신호(204)에서 음성 또는 스피커로부터 나오는 다른 음을 검출할 수 있고, 음성과 환경 잡음을 구분할 수 있다. 마이크 입력 신호(204)가 환경 잡음을 포함할 때, 음성 활동 검출기(212)는 음성 향상 제어기(222)가 현재의 측정된 환경 잡음에 기초하여 적응적 음성 향상 모듈(220)에 의해 제공되는 음성 향상의 양을 조절할 수 있게 해줄 수 있다. 그렇지만, 음성 활동 검출기(212)가 마이크 입력 신호(204)에서 음성을 검출할 때, 음성 활동 검출기(212)는 음성 향상을 조절하기 위해 환경 잡음의 이전의 측정치를 사용할 수 있다.

음성 향상 시스템(210)의 도시된 실시예는 음성 향상 제어기(222)에 의해 제공되는 제어의 양을 추가로 조절하기 위해 추가의 향상 제어(226)를 포함하고 있다. 추가의 향상 제어(226)는 향상 레벨이 그 이하로 내려가서는 안되는 값으로서 사용될 수 있는 추가의 향상 제어 신호를 음성 향상 제어기(222)에 제공할 수 있다. 추가의 향상 제어(226)는 사용자 인터페이스를 통해 사용자에게 노출될 수 있다. 이 제어(226)는 또한 사용자가 음성 향상 제어기(222)에 의해 결정된 것을 넘어 향상 레벨을 증가시킬 수 있게 해줄 수 있다. 일 실시예에서, 음성 향상 제어기(222)는 음성 향상 제어기(222)에 의해 결정된 향상 레벨에 추가의 향상 제어(226)로부터의 추가의 향상을 부가할 수 있다. 추가의 향상 제어(226)는 보다 많은 음성 향상 처리를 원하거나 음성 향상 처리가 빈번히 적용되기를 원하는 청각 장애인에 특히 유용할 수 있다.

적응적 음성 향상 모듈(220)은 출력 음성 신호를 출력 이득 제어기(230)에 제공할 수 있고, 출력 이득 제어기(230)는 음성 향상 모듈(220)의 출력 신호에 적용되는 전체 이득의 양을 제어할 수 있다. 출력 이득 제어기(230)는 하드웨어 및/또는 소프트웨어로 구현될 수 있다. 출력 이득 제어기(230)는 잡음 입력(204)의 레벨에 그리고 음성 입력(202)의 레벨에 적어도 부분적으로 기초하여 출력 신호에 적용되는 이득을 조절할 수 있다. 전화의 볼륨 제어 등의 임의의 사용자 설정 이득에 부가하여, 이 이득이 적용될 수 있다. 유리하게도, 마이크 입력 신호(204)에서의 환경 잡음 및/또는 음성 입력(202) 레벨에 기초하여 음성 신호의 이득을 조정하는 것은 청취자가 음성 입력 신호(202)를 더 잘 인지하는 데 도움을 줄 수 있다.

출력 이득 제어기(230)에 의해 제공되는 이득의 양을 추가로 조절할 수 있는 적응적 레벨 제어(232)가 또한 도시된 실시예에 나타내어져 있다. 사용자 인터페이스는 또한 적응적 레벨 제어(232)를 사용자에게 노출시킬 수 있을 것이다. 이 제어(232)를 증가시키는 것은, 들어오는 음성 입력(202) 레벨이 감소함에 따라 또는 잡음 입력(204)이 증가함에 따라, 제어기(230)의 이득을 보다 많이 증가시킬 수 있다. 이 제어(232)를 감소시키는 것은, 들어오는 음성 입력 신호(202) 레벨이 감소함에 따라 또는 잡음 입력(204)이 감소함에 따라, 제어기(230)의 이득을 보다 적게 증가시킬 수 있다.

어떤 경우에, 음성 향상 모듈(220), 음성 향상 제어기(222), 및/또는 출력 이득 제어기(230)에 의해 적용되는 이득들은 음성 신호를 클리핑하거나 포화시킬 수 있다. 포화의 결과, 청취자에게 불쾌한 고조파 왜곡이 발생할 수 있다. 이와 같이, 특정의 실시예들에서, 왜곡 제어 모듈(140)이 또한 제공된다. 왜곡 제어 모듈(140)은 출력 이득 제어기(230)의 이득 조절된 음성 신호를 수신할 수 있다. 왜곡 제어 모듈(140)은 음성 향상 모듈(220), 음성 향상 제어기(222) 및/또는 출력 이득 제어기(230)에 의해 제공되는 신호 에너지를 적어도 부분적으로 보존하거나 심지어 증가시키면서도 왜곡을 제어하는 하드웨어 및/또는 소프트웨어를 포함할 수 있다. 왜곡 제어 모듈(140)에 제공되는 신호에 클리핑이 존재하지 않더라도, 어떤 실시예들에서, 왜곡 제어 모듈(140)은 신호의 라우드니스(loudness) 및 명료도를 추가로 증가시키기 위해 적어도 부분적인 포화 또는 클리핑을 유발할 수 있다.

특정의 실시예들에서, 왜곡 제어 모듈(140)은 음성 신호의 하나 이상의 샘플을 완전히 포화된 신호보다 적은 고조파를 가지는 출력 신호에 매핑함으로써 음성 신호에서의 왜곡을 제어한다. 이 매핑은 포화되지 않은 샘플에 대해 선형적으로 또는 거의 선형적으로 음성 신호를 추적할 수 있다. 포화되어 있는 샘플에 대해, 이 매핑은 제어된 왜곡을 적용하는 비선형 변환일 수 있다. 그 결과로서, 특정의 실시예에서, 왜곡 제어 모듈(140)은 음성 신호가 완전히 포화된 신호보다 더 적은 왜곡으로 더 크게 들리게 할 수 있다. 이와 같이, 특정의 실시예들에서, 왜곡 제어 모듈(140)은 한 물리적 음성 신호를 나타내는 데이터를 제어된 왜곡을 갖는 다른 물리적 음성 신호를 나타내는 데이터로 변환한다.

음성 향상 시스템(110 및 210)의 다양한 특징들은 2009년 9월 14일자로 출원된, 발명의 명칭이 "적응적 음성 명료도 처리 시스템(Systems for Adaptive Voice Intelligibility Processing)"인 미국 특허 제8,204,742호(그 개시 내용이 참조 문헌으로서 그 전체가 본 명세서에 포함됨)에 기술되어 있는 동일하거나 유사한 구성요소의 대응하는 기능을 포함할 수 있다. 그에 부가하여, 음성 향상 시스템(110 또는 210)은 1993년 6월 23일자로 출원된, 발명의 명칭이 "확성 명료도 시스템(Public Address Intelligibility System)"인 미국 특허 제5,459,813호("'813 특허"라고 함)(그 개시 내용이 참조 문헌으로서 그 전체가 본 명세서에 포함됨)에 기술되어 있는 특징들 중 임의의 것을 포함할 수 있다. 예를 들어, 음성 향상 시스템(110 또는 210)의 어떤 실시예들은, 본 명세서에 기술되어 있는 다른 특징들[무성음 음성의 시간 향상(temporal enhancement), 음성 활동 검출, 마이크 교정, 이들의 조합, 기타 등등] 중 일부 또는 전부를 구현하면서, '813 특허에 기술되어 있는 고정된 포먼트 추적 특징을 구현할 수 있다. 이와 유사하게, 음성 향상 시스템(110 또는 210)의 다른 실시예들은, 본 명세서에 기술되어 있는 다른 특징들 중 일부 또는 전부를 구현하지 않고, 본 명세서에 기술되어 있는 적응적 포먼트 추적 특징을 구현할 수 있다.

III. 적응적 포먼트 추적 실시예

도 3을 참조하면, 적응적 음성 향상 모듈(320)의 일 실시예가 도시되어 있다. 적응적 음성 향상 모듈(320)은 도 2의 적응적 음성 향상 모듈(220)의 보다 상세한 실시예이다. 이와 같이, 적응적 음성 향상 모듈(320)은 음성 향상 시스템(110 또는 210)에 의해 구현될 수 있다. 그에 따라, 적응적 음성 향상 모듈(320)은 소프트웨어 및/또는 하드웨어로 구현될 수 있다. 적응적 음성 향상 모듈(320)은 유리하게도 포먼트 등의 유성음 음성을 적응적으로 추적할 수 있고, 또한 무성음 음성을 시간적으로 향상시킬 수 있다.

적응적 음성 향상 모듈(320)에서, 입력 음성이 프리필터(pre-filter)(310)에 제공된다. 이 입력 음성은 앞서 기술된 음성 입력 신호(202)에 대응한다. 프리필터(310)는 특정의 베이스 주파수(bass frequency)를 감쇠시키는 고역 통과 필터 등일 수 있다. 예를 들어, 일 실시예에서, 프리필터(310)는 약 750 Hz 미만의 주파수를 감쇠시키지만, 다른 차단 주파수가 선택될 수 있다. 750 Hz 미만의 주파수 등의 낮은 주파수에서의 스펙트럼 에너지를 감쇠시킴으로써, 프리필터(310)는 차후의 처리를 위한 보다 많은 헤드룸(headroom)을 생성할 수 있고, 더 나은 LPC 분석 및 향상을 가능하게 해준다. 이와 유사하게, 다른 실시예들에서, 프리필터(310)는, 고역 통과 필터 대신에 또는 그에 부가하여, 높은 주파수를 감쇠시키고 그에 의해 이득 처리를 위한 부가의 헤드룸을 제공하는 저역 통과 필터를 포함할 수 있다. 프리필터(310)가 또한 어떤 구현예들에서 생략될 수 있다.

도시된 실시예에서, 프리필터(310)의 출력은 LPC 분석 모듈(312)에 제공된다. LPC 분석 모듈(312)은 주파수 스펙트럼에서 포먼트 위치를 스펙트럼적으로 분석하고 식별하기 위해 선형 예측 기법을 적용할 수 있다. 포먼트 위치를 식별하는 것으로서 본 명세서에 기술되어 있지만, 보다 일반적으로, LPC 분석 모듈(312)은 입력 음성의 주파수 또는 전력 스펙트럼 표현을 나타낼 수 있는 계수를 발생할 수 있다. 이 스펙트럼 표현은 입력 음성에서의 포먼트에 대응하는 피크를 포함할 수 있다. 식별된 포먼트는 단지 피크 자체보다는 주파수 대역에 대응할 수 있다. 예를 들어, 800 Hz에 위치되어 있는 것으로 말해지는 포먼트는 실제로 800 Hz 부근의 스펙트럼 대역을 포함할 수 있다. 이 스펙트럼 표현을 가지는 이들 계수를 생성함으로써, LPC 분석 모듈(312)은 포먼트 위치가 입력 음성에서 시간에 따라 변할 때 포먼트 위치를 적응적으로 식별할 수 있다. 따라서, 적응적 음성 향상 모듈(320)의 후속 구성요소들은 이들 포먼트를 적응적으로 향상시킬 수 있다.

일 실시예에서, LPC 분석 모듈(312)은 전극점 필터(all-pole filter)의 계수를 발생하기 위해 예측 알고리즘을 사용하는데, 그 이유는 전극점 필터 모델이 음성에서의 포먼트 위치를 정확하게 모델링할 수 있기 때문이다. 일 실시예에서, 전극점 필터에 대한 계수를 획득하기 위해 자기 상관 방법이 사용된다. 그 중에서도 특히, 이 분석을 수행하는 데 사용될 수 있는 한 특정의 알고리즘은 Levinson-Durbin 알고리즘이다. Levinson-Durbin 알고리즘은 격자형 필터(lattice filter)의 계수를 발생하지만, 직접형 계수(direct form coefficient)가 또한 발생될 수 있다. 처리 효율을 향상시키기 위해 각각의 샘플에 대해서보다는 샘플들의 블록에 대해 계수가 발생될 수 있다.

LPC 분석에 의해 발생되는 계수는 양자화 잡음에 민감한 경향이 있다. 계수에서의 아주 작은 오차는 전체 스펙트럼을 왜곡시키거나 필터를 불안정하게 만들 수 있다. 전극점 필터에 대한 양자화 잡음의 영향을 감소시키기 위해, LPC 계수로부터 선 스펙트럼 쌍[line spectral pair, LSP; 또한 선 스펙트럼 주파수(line spectral frequency, LSF)라고도 함]으로의 매핑 또는 변환이 매핑 모듈(314)에 의해 수행될 수 있다. 매핑 모듈(314)은 각각의 LPC 계수에 대한 한 쌍의 계수를 생성할 수 있다. 유리하게도, 특정의 실시예들에서, 이 매핑은 (Z-변환 영역에서) 단위 원(unit circle) 상에 있는 LSP를 생성할 수 있고, 전극점 필터의 안전성을 향상시킨다. 다른 대안으로서, 또는 LSP에 부가하여, 잡음에 대한 계수 민감성(coefficient sensitivity)을 해결하기 위해, 계수가 LAR(Log Area Ratio, 로그 면적 비) 또는 다른 기법을 사용하여 표현될 수 있다.

특정의 실시예들에서, 포먼트 향상 모듈(316)은 LSP를 수신하고 향상된 전극점 필터(326)를 생성하기 위해 부가의 처리를 수행한다. 향상된 전극점 필터(326)는 보다 명료한 음성 신호를 생성하기 위해 입력 음성 신호의 표현에 적용될 수 있는 향상 필터의 한 예이다. 일 실시예에서, 포먼트 향상 모듈(316)은 포먼트 주파수에서의 스펙트럼 피크를 강조하는 방식으로 LSP를 조절한다. 도 4를 참조하면, 피크(414 및 416)에 의해 식별되는 포먼트 위치를 가지는 주파수 크기 스펙트럼(412)(실선)을 포함하는 예시적인 플롯(400)이 도시되어 있다. 포먼트 향상 모듈(316)은 동일하거나 실질적으로 동일한 포먼트 위치에 있지만 더 높은 이득을 갖는 피크(424, 426)를 가지는 새로운 스펙트럼(422)(파선으로 근사화됨)을 생성하기 위해 이들 피크(414, 416)를 조절할 수 있다. 일 실시예에서, 포먼트 향상 모듈(316)은, 수직 막대(418)로 나타낸 바와 같이, 선 스펙트럼 쌍 간의 거리를 감소시킴으로써 피크의 이득을 증가시킨다.

특정의 실시예들에서, 서로 더 가까운 주파수를 표현하기 위해 포먼트 주파수에 대응하는 선 스펙트럼 쌍이 조절되고, 그에 의해 각각의 피크의 이득을 증가시킨다. 선형 예측 다항식이 단위 원 내의 어디에서라도 복소수 근(complex root)을 갖지만, 어떤 실시예들에서, 선 스펙트럼 다항식은 단위 원 상에서만 근을 가진다. 이와 같이, 선 스펙트럼 쌍은 LPC의 직접 양자화(direct quantization)에 대해 우수한 몇가지 특성을 가질 수 있다. 어떤 구현예들에서, 근들이 인터리빙되어 있기 때문에, 근들이 단조적으로 증가하는 경우, 필터의 안정성이 달성될 수 있다. LPC 계수와 달리, LSP는 양자화 잡음에 지나치게 민감하지 않을 수 있고, 따라서, 안정성이 달성될 수 있다. 2개의 근이 가까울수록, 필터는 대응하는 주파수에서 더욱 공진할 수 있다. 이와 같이, LPC 스펙트럼 피크에 대응하는 2개의 근(하나의 선 스펙트럼 쌍) 사이의 거리를 감소시키는 것은 유리하게도 그 포먼트 위치에서의 필터 이득을 증가시킬 수 있다.

포먼트 향상 모듈(316)은, 일 실시예에서,

와 곱하는 것 등의 위상 변화 연산(phase-change operation)을 사용하여 각각의 근에 변조 인자 δ를 적용함으로써, 피크들 사이의 거리를 감소시킬 수 있다. 양(quantity)의 값을 변경하는 것은 단위 원을 따라 서로 더 가깝게 또는 더 멀어지게 근을 이동시킬 수 있다. 이와 같이, 한 쌍의 LSP 근에 대해, 제1 근은 플러스 값의 변조 인자 δ를 적용함으로써 제2 근에 더 가깝게 이동될 수 있고, 제2 근은 마이너스 값의 δ를 적용함으로써 제1 근에 더 가깝게 이동될 수 있다. 어떤 실시예들에서, 약 10%, 또는 약 25%, 또는 약 30%, 또는 약 50%, 또는 어떤 다른 값의 거리 감소 등의 원하는 향상을 달성하기 위해 근들 사이의 거리가 특정의 양만큼 감소될 수 있다.

근의 조절은 또한 음성 향상 제어기(222)에 의해 제어될 수 있다. 도 2와 관련하여 앞서 기술한 바와 같이, 음성 향상 모듈(222)은 마이크 입력 신호(204)의 잡음 레벨에 기초하여 적용되는 음성 명료도 향상의 양을 조절할 수 있다. 일 실시예에서, 음성 향상 제어기(222)는 LSP 근에 적용되는 포먼트 향상의 양을 조절하기 위해 포먼트 향상 모듈(316)이 사용할 수 있는 제어 신호를 적응적 음성 향상 제어기(220)에 출력한다. 일 실시예에서, 포먼트 향상 모듈(316)은 제어 신호에 기초하여 변조 인자 δ를 조절한다. 이와 같이, (예컨대, 보다 많은 잡음으로 인해) 보다 많은 향상이 적용되어야만 한다는 것을 나타내는 제어 신호는 포먼트 향상 모듈(316)로 하여금 근을 서로 더 가깝게 그리고 그 반대로 하기 위해 변조 인자 δ를 변경하게 할 수 있다.

다시 도 3을 참조하면, 포먼트 향상 모듈(316)은, 향상된 전극점 필터(326)를 생성하기 위해, 조절된 LSP를 다시 LPC 계수(격자형 또는 직접형)에 매핑할 수 있다. 그렇지만, 어떤 구현예들에서, 이 매핑이 수행될 필요는 없고, 오히려 향상된 전극점 필터(326)가 LSP를 계수로 사용하여 구현될 수 있다.

입력 음성을 향상시키기 위해, 특정의 실시예들에서, 향상된 전극점 필터(326)가 입력 음성 신호로부터 합성되는 여기 신호(excitation signal)(324)에 대해 동작한다. 이 합성은, 특정의 실시예들에서, 여기 신호(324)를 생성하기 위해 입력 음성에 전영점 필터(all-zero filter)(322)를 적용하는 것으로써 수행된다. 전영점 필터(322)는 LPC 분석 모듈(312)에 의해 생성되고, LPC 분석 모듈(312)에 의해 생성된 전극점 필터의 역인 역필터(inverse filter)일 수 있다. 일 실시예에서, 전영점 필터(322)는 또한 LPC 분석 모듈(312)에 의해 계산된 LSP로 구현된다. 전극점 필터의 역을 입력 음성에 적용하고 이어서 향상된 전극점 필터(326)를 반전된 음성 신호(inverted speech signal)[여기 신호(324)]에 적용함으로써, 원래의 입력 음성 신호가 (적어도 대략적으로) 복원되고 향상될 수 있다. 전영점 필터(322) 및 향상된 전극점 필터(326)에 대한 계수들이 블록마다(또는 심지어 샘플마다) 변할 수 있기 때문에, 입력 음성에서의 포먼트가 적응적으로 추적되고 향상될 수 있으며, 그에 의해 잡음이 많은 환경에서도 음성 명료도를 향상시킨다. 이와 같이, 특정의 실시예들에서, 분석-합성 기법을 사용하여, 향상된 음성이 발생된다.

도 5는 도 3의 적응적 음성 향상 모듈(320)의 모든 특징들 및 부가의 특징들을 포함하는 적응적 음성 향상 모듈(520)의 다른 실시예를 나타낸 것이다. 상세하게는, 도시된 실시예에서, 도 3의 향상된 전극점 필터(326)는 2번 - 여기 신호(324)에 대해 한번(526a) 그리고 입력 음성에 대해 한번(526b) - 적용된다. 향상된 전극점 필터(526b)를 입력 음성에 적용하는 것은 입력 음성의 스펙트럼의 대략 제곱인 스펙트럼을 가지는 신호를 생성할 수 있다. 이 대략 스펙트럼 제곱된 신호는 결합기(628)에 의해 출력되는 향상된 여기 신호와 가산되어 향상된 음성 출력을 생성한다. 적용되는 스펙트럼 제곱된 신호의 양을 조절하기 위해, 선택적인 이득 블록(510)이 제공될 수 있다. [스펙트럼 제곱된 신호에 적용되는 것으로 도시되어 있지만, 이득이 그 대신에 향상된 전극점 필터(526a)의 출력에 또는 양 필터(526a, 526b)의 출력에 적용될 수 있을 것이다.] 적응적 음성 향상 모듈(320)을 포함하는 장치의 제조업체 또는 그 장치의 최종 사용자 등의 사용자가 이득(510)을 조절할 수 있게 해주기 위해 사용자 인터페이스 제어가 제공될 수 있다. 스펙트럼 제곱된 신호에 적용되는 보다 많은 이득은 신호의 거슬림을 증가시킬 수 있고, 이는 특히 잡음이 많은 환경에서는 명료도를 증가시킬 수 있지만 잡음이 보다 적은 환경에서는 너무 거슬리게 들릴 수 있다. 이와 같이, 사용자 제어를 제공하는 것은 향상된 음성 신호의 인지된 거슬림의 조절을 가능하게 해줄 수 있다. 이 이득(510)은 또한, 어떤 실시예들에서, 환경 잡음 입력에 기초하여 음성 향상 제어기(222)에 의해 자동으로 제어될 수 있다.

특정의 실시예들에서, 적응적 음성 향상 모듈(320 또는 520)에 도시되어 있는 블록들 전부보다 적은 수의 블록들이 구현될 수 있다. 다른 실시예들에서, 적응적 음성 향상 모듈(320 또는 520)에 부가의 블록들 또는 필터들이 또한 부가될 수 있다.

IV. 시간 엔벨로프 정형 실시예

어떤 실시예들에서, 도 3의 향상된 전극점 필터(326)에 의해 수정되거나 도 5의 결합기(528)에 의해 출력되는 음성 신호가 시간 엔벨로프 정형기(332)에 제공될 수 있다. 시간 엔벨로프 정형기(332)는 시간 영역에서의 시간 엔벨로프 정형을 통해 무성음 음성(과도 음성을 포함함)을 향상시킬 수 있다. 일 실시예에서, 시간 엔벨로프 정형기(332)는 약 3 kHz 미만의(그리고 선택적으로 베이스 주파수 초과의) 주파수를 포함하는 중간 범위 주파수를 향상시킨다. 시간 엔벨로프 정형기(332)는 중간 범위 주파수 이외의 주파수도 향상시킬 수 있다.

특정의 실시예에서, 시간 엔벨로프 정형기(332)는, 먼저 향상된 전극점 필터(326)의 출력 신호로부터 엔벨로프를 검출함으로써, 시간 영역에서의 시간 주파수를 향상시킬 수 있다. 시간 엔벨로프 정형기(332)는 각종의 방법들 중 임의의 것을 사용하여 엔벨로프를 검출할 수 있다. 한 예시적인 방식은 최대 값 추적(maximum value tracking)이고, 여기서 시간 엔벨로프 정형기(332)는 신호를 윈도우 섹션들(windowed sections)로 분할하고 이어서 윈도우 섹션들 각각으로부터 최대 또는 피크 값을 선택할 수 있다. 시간 엔벨로프 정형기(332)는 엔벨로프를 형성하기 위해 최대 값들을 각각의 값 사이의 선 또는 곡선으로 서로 연결할 수 있다. 어떤 실시예들에서, 음성 명료도를 증가시키기 위해, 시간 엔벨로프 정형기(332)는 신호를 적절한 수의 주파수 대역으로 분할하고 각각의 대역에 대해 상이한 정형을 수행할 수 있다.

예시적인 윈도우 크기는 64, 128, 256, 또는 512 샘플을 포함할 수 있지만, 다른 윈도우 크기(2의 멱수가 아닌 윈도우 크기를 포함함)도 선택될 수 있다. 일반적으로, 보다 큰 윈도우 크기는 향상될 시간 주파수를 보다 낮은 주파수로 확장시킬 수 있다. 게다가, 신호의 엔벨로프를 검출하기 위해 힐버트 변환(Hilbert Transform) 관련 기법 및 자기 복조(self-demodulating) 기법(예컨대, 신호를 제곱하고 저역 통과 필터링하는 것) 등의 다른 기법들이 사용될 수 있다.

엔벨로프가 검출되었으면, 시간 엔벨로프 정형기(332)는 엔벨로프의 측면들을 선택적으로 예리하게 하거나 매끄럽게 하기 위해 엔벨로프의 형상을 조절할 수 있다. 제1 스테이지에서, 시간 엔벨로프 정형기(332)는 엔벨로프의 특성에 기초하여 이득을 계산할 수 있다. 제2 스테이지에서, 시간 엔벨로프 정형기(332)는 원하는 효과를 달성하기 위해 실제 신호에서의 샘플에 이득을 적용할 수 있다. 일 실시예에서, 원하는 효과는 무성음 음성(non-vocalized speech)("s" 및 "t"와 같은 특정의 자음 등)을 강조하고 그에 의해 음성 명료도를 증가시키기 위해 음성의 과도 부분을 예리하게 하는 것이다. 다른 응용들에서, 음성을 부드럽게 하기 위해 음성을 매끄럽게 하는 것이 유용할 수 있다.

도 6은 도 3의 시간 엔벨로프 정형기(332)의 특징들을 구현할 수 있는 시간 엔벨로프 정형기(632)의 보다 상세한 실시예를 나타낸 것이다. 시간 엔벨로프 정형기(632)는 또한, 앞서 기술한 적응적 음성 향상 모듈에 관계없이, 상이한 응용에 대해서도 사용될 수 있다.

시간 엔벨로프 정형기(632)는 [예컨대, 필터(326) 또는 결합기(528)로부터] 입력 신호(602)를 수신한다. 시간 엔벨로프 정형기(632)는 이어서 입력 신호(602)를 대역 통과 필터(610) 등을 사용하여 복수의 대역으로 세분한다. 임의의 수의 대역이 선택될 수 있다. 한 예로서, 시간 엔벨로프 정형기(632)는 입력 신호(602)를 4개의 대역 - 약 50 Hz부터 약 200 Hz까지의 제1 대역, 약 200 Hz부터 약 4 kHz까지의 제2 대역, 약 4 kHz부터 약 10 kHz까지의 제3 대역, 및 약 10 kHz부터 약 20 kHz까지의 제4 대역 - 으로 분할할 수 있다. 다른 실시예들에서, 시간 엔벨로프 정형기(332)는 신호를 대역들로 분할하지 않고 신호 전체에 대해 동작한다.

가장 낮은 대역은 서브 대역 통과 필터(610a)를 사용하여 획득되는 베이스(bass) 또는 서브대역일 수 있다. 서브대역은 전형적으로 서브우퍼에서 재생되는 주파수에 대응할 수 있다. 상기 예에서, 가장 낮은 대역은 약 50 Hz부터 약 200 Hz까지이다. 이 서브 대역 통과 필터(610a)의 출력은 서브대역에서의 신호에 이득을 적용하는 서브 보상 이득 블록(sub compensation gain block)(612)에 제공된다. 이하에서 상세히 기술할 것인 바와 같이, 입력 신호(602)의 측면들을 예리하게 하거나 강조하기 위해, 이득이 다른 대역에 적용될 수 있다. 그렇지만, 이러한 이득을 적용하는 것은 서브대역(610a) 이외의 대역들(610b)에서의 에너지를 증가시킬 수 있고, 그 결과 베이스 출력(bass output)이 감소될 가능성이 있다. 이 감소된 베이스 효과를 보상하기 위해, 서브 보상 이득 블록(612)은, 다른 대역들(610b)에 적용된 이득의 양에 기초하여, 서브대역(610a)에 이득을 적용할 수 있다. 서브 보상 이득은 원래의 입력 신호(602)(또는 그의 엔벨로프)와 예리하게 된 입력 신호 사이의 에너지의 차와 같거나 거의 같은 값을 가질 수 있다. 서브 보상 이득은 다른 대역들(610b)에 적용되는 부가된 에너지 또는 이득을 합산, 평균 또는 다른 방식으로 결합함으로써 이득 블록(612)에 의해 계산될 수 있다. 서브 보상 이득은 또한 이득 블록(612)이 대역들(610b) 중 하나의 대역에 적용되는 피크 이득을 선택하고 서브 보상 이득에 대해 이 값 등을 사용함으로써 계산될 수 있다. 그렇지만, 다른 실시예에서, 서브 보상 이득은 고정된 이득 값이다. 서브 보상 이득 블록(612)의 출력은 결합기(630)에 제공된다.

각각의 다른 대역 통과 필터(610b)의 출력은 앞서 기술한 엔벨로프 검출 알고리즘들 중 임의의 것을 구현하는 엔벨로프 검출기(622)에 제공될 수 있다. 예를 들어, 엔벨로프 검출기(622)는 최대 값 추적 등을 수행할 수 있다. 엔벨로프 검출기(622)의 출력은 엔벨로프의 측면들을 선택적으로 예리하게 하거나 매끄럽게 하기 위해 엔벨로프의 형상을 조절할 수 있는 엔벨로프 정형기(624)에 제공될 수 있다. 각각의 엔벨로프 정형기(624)는 각각의 엔벨로프 정형기(624) 및 서브 보상 이득 블록(612)의 출력을 결합시켜 출력 신호(634)를 제공하는 결합기(630)에 출력 신호를 제공한다.

엔벨로프 정형기(624)에 의해 제공되는 예리하게 하는 효과는, 도 7 및 도 8에 도시되어 있는 바와 같이, 각각의 대역(또는 세분되지 않은 경우, 신호 전체)에서의 엔벨로프의 기울기를 조작함으로써 달성될 수 있다. 도 7을 참조하면, 시간 영역 엔벨로프(701)의 일부분을 나타내는 예시적인 플롯(700)이 도시되어 있다. 플롯(700)에서, 시간 영역 엔벨로프(701)는 2개의 부분 - 제1 부분(702) 및 제2 부분(704) - 을 포함하고 있다. 제1 부분(702)은 플러스 기울기를 갖고, 제2 부분(704)은 마이너스 기울기를 가진다. 이와 같이, 2개의 부분(702, 704)은 피크(708)를 형성한다. 엔벨로프 상의 지점들(706, 708 및 710)은 앞서 기술한 최대 값 엔벨로프 검출기에 의해 윈도우 또는 프레임으로부터 검출되는 피크 값들을 나타낸다. 부분(702, 704)은 피크 지점들(706, 708, 710)을 연결하여 엔벨로프(701)를 형성하는 데 사용되는 선을 나타낸다. 이 엔벨로프(701)에서 피크(708)가 도시되어 있지만, 엔벨로프(701)의 다른 부분들(도시 생략)이 그 대신에 변곡점(inflection point) 또는 0 기울기를 가질 수 있다. 엔벨로프(701)의 예시적인 부분과 관련하여 기술된 분석이 또한 엔벨로프(701)의 이러한 다른 부분들에 대해서도 구현될 수 있다.

엔벨로프(701)의 제1 부분(702)은 수평선과 각도 θ를 형성한다. 이 각도의 가파름(steepness)은 엔벨로프(701) 부분(702, 704)이 음성 신호의 과도 부분을 나타내는지를 반영할 수 있으며, 보다 가파른 각도는 과도 현상을 보다 많이 나타낸다. 이와 유사하게, 엔벨로프(701)의 제2 부분(702)은 수평선과 각도 φ를 형성한다. 이 각도도 역시 과도 현상이 존재할 가능성을 반영하고, 보다 높은 각도는 과도 현상을 보다 많이 나타낸다. 이와 같이, 각도 θ, φ 중 하나 또는 둘 다를 증가시키는 것은 사실상 과도 현상을 예리하게 하거나 강조할 수 있고, 상세하게는, φ를 증가시키는 것에 의해 보다 건조한 음(drier sound)[예컨대, 보다 적은 반향(reverb)을 갖는 음]이 얻어질 수 있는데, 그 이유는 음의 반사가 감소될 수 있기 때문이다.

보다 가파른 또는 예리하게 된 부분들(712, 714)을 가지는 새로운 엔벨로프를 생성하기 위해 부분들(702, 704)에 의해 형성되는 각각의 라인의 기울기를 조절함으로써 각도가 증가될 수 있다. 제1 부분(702)의 기울기는, 도면에 도시된 바와 같이, dy/dx1으로 표현될 수 있는 반면, 제2 부분(704)의 기울기는, 도시되어 있는 바와 같이, dy/dx2로 표현될 수 있다. 각각의 기울기의 절대값을 증가시키기 위해(예컨대, dy/dx1에 대한 플러스 증가 및 dy/dx2에 대한 마이너스 증가) 이득이 적용될 수 있다. 이 이득은 각각의 각도 θ, φ의 값에 의존할 수 있다. 과도 현상을 예리하게 하기 위해, 특정의 실시예들에서, 이득 값이 플러스 기울기에서는 증가되고 마이너스 기울기에서는 감소된다. 엔벨로프의 제1 부분(702)에 제공되는 이득 조절의 양은 제2 부분(704)에 적용되는 것과 동일할 수 있지만, 꼭 그럴 필요는 없다. 일 실시예에서, 제2 부분(704)에 대한 이득이 제1 부분(702)에 적용되는 이득보다 절대값이 더 크고, 그에 의해 음을 추가로 예리하게 만든다. 플러스 이득으로부터 마이너스 이득으로의 급격한 과도 현상으로 인한 아티팩트를 감소시키기 위해 피크에서의 샘플에 대해 이득이 매끄럽게 될 수 있다. 특정의 실시예들에서, 앞서 기술한 각도가 임계값 미만일 때마다 엔벨로프에 이득이 적용된다. 다른 실시예들에서, 각도가 임계값 초과일 때마다 이득이 적용된다. 계산된 이득(또는 다수의 샘플 및/또는 다수의 대역에 대한 이득)은 신호에서의 피크를 예리하게 만들고 그에 의해 음성 신호의 선택된 자음 또는 다른 부분을 향상시키는 시간 향상 파라미터를 구성할 수 있다.

이들 특징을 구현할 수 있는 평탄화를 갖는 예시적인 이득 방정식은 다음과 같다: 이득 = exp(gFactor*delta*(i-mBand- >prev_maxXL/dx) *(mBand->mGainoffset+Offsetdelta*(i-mBand->prev_maxXL)) 이 예시적인 식에서, 이득이 각도의 변화의 지수 함수인데, 그 이유는 엔벨로프 및 각도가 로그 스케일(logarithmic scale)로 계산되기 때문이다. 양 gFactor는 어택 또는 디케이의 속도를 제어한다. 양 (i-mBand- >prev_maxXL/dx)는 엔벨로프의 기울기를 나타내는 반면, 이득 방정식의 이하의 부분은 이전의 이득으로부터 시작하고 현재의 이득으로 끝나는 평활 함수(smoothing function)를 나타낸다: (mBand- >mGainoffset+Offsetdelta*(i-mBand->prev_maxXL)). 사람의 청각 시스템이 로그 스케일에 기초하기 때문에, 지수 함수는 청취자가 과도음(transient sound)을 더 잘 구분하는 데 도움을 줄 수 있다.

양 gFactor의 어택/디케이 함수는 도 8에 추가로 예시되어 있으며, 여기서 증가하는 어택 기울기(812)의 상이한 레벨들이 제1 플롯(810)에 나타내어져 있고, 감소하는 디케이 기울기(822)의 상이한 레벨들이 제2 플롯(820)에 나타내어져 있다. 어택 기울기(812)는 도 7의 보다 가파른 제1 부분(712)에 대응하는 과도음을 강조하기 위해 앞서 기술한 바와 같이 기울기가 증가될 수 있다. 마찬가지로, 디케이 기울기(822)도 도 7의 보다 가파른 제1 부분(714)에 대응하는 과도음을 추가로 강조하기 위해 앞서 기술한 바와 같이 기울기가 감소될 수 있다.

V. 예시적인 음성 검출 프로세스

도 9는 음성 검출 프로세스(900)의 일 실시예를 나타낸 것이다. 음성 검출 프로세스(900)는 앞서 기술한 음성 향상 시스템(110, 210) 중 어느 하나에 의해 구현될 수 있다. 일 실시예에서, 음성 검출 프로세스(900)는 음성 활동 검출기(212)에 의해 구현된다.

음성 검출 프로세스(900)는 마이크 입력 신호(204) 등의 입력 신호에서 음성을 검출한다. 입력 신호가 음성보다는 잡음을 포함하는 경우, 음성 검출 프로세스(900)는, 현재의 측정된 환경 잡음에 기초하여, 음성 향상의 양이 조절될 수 있게 해준다. 그렇지만, 입력 신호가 음성을 포함할 때, 음성 검출 프로세스(900)는 환경 잡음의 이전의 측정치가 음성 향상을 조절하는 데 사용되게 할 수 있다. 잡음의 이전의 측정치를 사용하는 것은 유리하게도 음성 입력에 기초하여 음성 향상을 조절하는 것을 피할 수 있으면서 여전히 음성 향상이 환경 잡음 조건에 적응할 수 있게 해준다.

프로세스(900)의 블록(902)에서, 음성 활동 검출기(212)는 입력 마이크 신호를 수신한다. 블록(904)에서, 음성 활동 검출기(212)는 마이크 신호의 음성 활동 분석을 수행한다. 음성 활동 검출기(212)는 음성 활동을 검출하기 위해 각종의 기법들 중 임의의 것을 사용할 수 있다. 일 실시예에서, 음성 활동 검출기(212)는 음성보다는 잡음 활동(noise activity)을 검출하고, 비잡음 활동의 기간이 음성에 대응하는 것으로 추론한다. 음성 활동 검출기(212)는 음성 및/또는 잡음을 검출하기 위해 이하의 기법들 등의 임의의 조합을 사용할 수 있다: 신호의 통계 분석(예컨대, 표준 편차, 분산 등을 사용함), 높은 대역 에너지에 대한 낮은 대역 에너지의 비, 영 교차율(zero crossing rate), 스펙트럼 플럭스(spectral flux) 또는 다른 주파수 영역 방식들, 또는 자기 상관. 게다가, 어떤 실시예들에서, 음성 활동 검출기(212)는 2006년 4월 21일자로 출원된, 발명의 명칭이 "음성 잡음을 감소시키는 시스템 및 방법(Systems and Methods for Reducing Audio Noise)"인 미국 특허 제7,912,231호(그 개시 내용이 참조 문헌으로서 그 전체가 본 명세서에 포함됨)에 기술되어 있는 잡음 검출 기법들 중 일부 또는 전부를 사용하여 잡음을 검출한다.

결정 블록(906)에서 판정되는 바와 같이, 신호가 음성을 포함하는 경우, 음성 활동 검출기(212)는 음성 향상 제어기(222)로 하여금 적응적 음성 향상 모듈(220)의 음성 향상을 제어하기 위해 이전의 잡음 버퍼(noise buffer)를 사용하게 한다. 잡음 버퍼는 음성 활동 검출기(212) 또는 음성 향상 제어기(222)에 의해 저장되는 마이크 입력 신호(204)의 하나 이상의 잡음 샘플 블록을 포함할 수 있다. 이전의 잡음 샘플이 잡음 버퍼에 저장된 이후로 환경 잡음이 그다지 변하지 않았다는 가정 하에서, 입력 신호(204)의 이전의 부분으로부터 저장되는 이전의 잡음 버퍼가 사용될 수 있다. 대화의 일시 중지가 빈번히 일어나기 때문에, 이 가정은 많은 경우에 정확할 수 있다.

한편, 신호가 음성을 포함하지 않는 경우, 음성 활동 검출기(212)는 음성 향상 제어기(222)로 하여금 적응적 음성 향상 모듈(220)의 음성 향상을 제어하기 위해 현재의 잡음 버퍼를 사용하게 한다. 현재의 잡음 버퍼는 하나 이상의 가장 최근에 수신된 잡음 샘플 블록을 나타낼 수 있다. 음성 활동 검출기(212)는 블록(914)에서 부가의 신호가 수신되었는지를 판정한다. 그러한 경우, 프로세스(900)는 블록(904)으로 루프백한다. 그렇지 않은 경우, 프로세스(900)는 종료한다.

이와 같이, 특정의 실시예들에서, 음성 검출 프로세스(900)는 원격 음성 신호에 적용되는 음성 명료도 향상의 레벨을 음성 입력 변조(voice input modulating)하거나 다른 방식으로 자체 활성화(self-activating)하는 것의 바람직하지 않은 효과를 완화시킬 수 있다.

VI. 예시적인 마이크 교정 프로세스

도 10은 마이크 교정 프로세스(1000)의 일 실시예를 나타낸 것이다. 마이크 교정 프로세스(1000)는 적어도 부분적으로 앞서 기술한 음성 향상 시스템(110, 210) 중 어느 하나에 의해 구현될 수 있다. 일 실시예에서, 마이크 교정 프로세스(1000)는 적어도 부분적으로 마이크 교정 모듈(234)에 의해 구현된다. 도시된 바와 같이, 프로세스(1000)의 일부분은 실험실 또는 설계 설비에서 구현될 수 있는 반면, 프로세스(1000)의 나머지는 음성 향상 시스템(110 또는 210)을 포함하는 장치의 제조업체의 설비 등의 현장에서 구현될 수 있다.

앞서 기술된 바와 같이, 마이크 교정 모듈(234)은, 마이크의 전체 이득이 장치들 중 일부 또는 전부에 대해 동일하거나 거의 동일하도록 하기 위해, 마이크 입력 신호(204)에 적용되는 이득을 조절하는 하나 이상의 교정 파라미터를 계산하고 저장할 수 있다. 이와 달리, 장치들에 걸쳐 마이크 이득을 고르게 하는 기존의 방식들은 일관성이 없는 경향이 있으며, 그 결과 상이한 장치에서 상이한 잡음 레벨이 음성 향상을 활성화시킨다. 현재의 마이크 교정 방식들에서, 현장 엔지니어(에컨대, 장치 제조업체 설비에 있거나 다른 곳에 있음)는 전화 또는 다른 장치에 있는 마이크에 의해 픽업될 잡음을 발생하기 위해 테스트 장치에 있는 재생 스피커를 활성화시킴으로써 시행오차 방식을 적용한다. 현장 엔지니어는 이어서, 마이크 신호가 음성 향상 제어기(222)가 잡음 임계값에 도달한 것으로 해석하는 레벨을 갖도록, 마이크를 교정하려고 시도하며, 그에 의해 음성 향상 제어기(222)로 하여금 음성 향상을 트리거 또는 인에이블시키게 한다. 모든 현장 엔지니어가 음성 향상을 트리거하는 임계값에 도달하기 위해 마이크가 픽업해야 하는 잡음의 레벨에 대해 상이한 느낌을 가지기 때문에 일관성 없음이 발생한다. 게다가, 많은 마이크가 넓은 이득 범위(예컨대, -40 dB 내지 +40 dB)를 가지며, 따라서 마이크를 튜닝할 때 사용할 정확한 이득 숫자(gain number)를 찾는 것이 어려울 수 있다.

마이크 교정 프로세스(1000)는 현재의 현장 엔지니어 시행착오 방식보다 더 일관성이 있을 수 있는 각각의 마이크에 대한 이득 값을 계산할 수 있다. 블록(1002)에서, 실험실에서 시작하여, 적당한 스피커를 갖거나 그와 결합되어 있는 임의의 컴퓨팅 장치일 수 있는 테스트 장치에서 잡음 신호가 출력된다. 블록(1004)에서, 이 잡음 신호가 기준 신호로서 기록되고, 블록(1006)에서, 표준의 기준 신호로부터 평활화된 에너지가 계산된다. 이 평활화된 에너지(RefPwr로 표시됨)는 현장에서 자동 마이크 교정을 위해 사용되는 황금 참조 값(golden reference value)일 수 있다.

현장에서, 황금 참조 값 RefPwr을 사용하여 자동 교정이 행해질 수 있다. 블록(1008)에서, 기준 신호가, 예를 들어, 현장 엔지니어에 의해 테스트 장치에서 표준 볼륨으로 재생된다. 기준 신호가 블록(1002)에서 잡음 신호가 실험실에서 재생된 것과 동일한 볼륨으로 재생될 수 있다. 블록(1010)에서, 마이크 교정 모듈(234)은 테스트 중인 마이크로부터 수신된 음을 기록할 수 있다. 마이크 교정 모듈(234)은 이어서 블록(1012)에서 기록된 신호의 평활화된 에너지(CaliPwr로 표시됨)를 계산한다. 블록(1014)에서, 마이크 교정 모듈(234)은, 예를 들어, 다음과 같이 기준 신호 및 기록된 신호의 에너지에 기초하여 마이크 오프셋을 계산할 수 있다: MicOffset = RefPwr/CaliPwr.

블록(1016)에서, 마이크 교정 모듈(234)은 마이크 오프셋을 마이크에 대한 이득으로서 설정한다. 마이크 입력 신호(204)가 수신될 때, 이 마이크 오프셋이 교정 이득으로서 마이크 입력 신호(204)에 적용될 수 있다. 그 결과로서, 음성 향상 제어기(222)로 하여금 동일한 임계 레벨에 대한 음성 향상을 트리거하게 하는 잡음의 레벨이 장치들에 걸쳐 동일하거나 거의 동일할 수 있다.

VII. 용어

본 명세서에 기술되어 있는 것 이외의 많은 다른 변형례들이 본 개시 내용으로부터 명백할 것이다. 예를 들어, 실시예에 따라, 본 명세서에 기술되어 있는 알고리즘들 중 임의의 것의 특정의 동작, 이벤트 또는 기능이 다른 순서로 수행될 수 있거나, 부가, 병합 또는 완전히 배제될 수 있다(예컨대, 기술된 동작 또는 이벤트 모두가 알고리즘의 실시에 필요한 것은 아님). 더욱이, 특정의 실시예들에서, 동작 또는 이벤트가 순차적이 아니라 동시에, 예컨대, 멀티 쓰레드 처리, 인터럽트 처리, 또는 다중 프로세서 또는 프로세서 코어를 통해 또는 다른 병렬 아키텍처 상에서 수행될 수 있다. 그에 부가하여, 상이한 작업 또는 프로세스가 함께 기능할 수 있는 상이한 기계 및/또는 컴퓨팅 시스템에 의해 수행될 수 있다.

본 명세서에 개시되어 있는 실시예들과 관련하여 기술되어 있는 다양한 예시적인 논리 블록, 모듈 및 알고리즘 단계는 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들의 조합으로서 구현될 수 있다. 이와 같이 하드웨어 및 소프트웨어를 바꾸어 사용할 수 있다는 것을 명백하게 나타내기 위해, 다양한 예시적인 구성요소, 블록, 모듈 및 단계가 일반적으로 그의 기능 면에서 기술되어 있다. 이러한 기능이 하드웨어로서 구현되는지 소프트웨어로서 구현되는지는 전체 시스템에 부과되는 특정의 응용 및 설계 제약조건에 의존한다. 예를 들어, 차량 관리 시스템(110 또는 210)은 하나 이상의 컴퓨터 시스템에 의해 또는 하나 이상의 프로세서를 포함하는 컴퓨터 시스템에 의해 구현될 수 있다. 기술된 기능은 각각의 특정의 응용에 대해 다양한 방식으로 구현될 수 있지만, 이러한 구현 결정이 본 개시 내용의 범위를 벗어나게 하는 것으로 해석되어서는 안된다.

본 명세서에 개시되어 있는 실시예들과 관련하여 기술되어 있는 다양한 예시적인 논리 블록 및 모듈은 본 명세서에 기술되어 있는 기능들을 수행하도록 설계되어 있는, 범용 프로세서, DSP(digital signal processor), ASIC(application specific integrated circuit), FPGA(field programmable gate array), 또는 다른 프로그램가능 논리 장치, 이산 게이트 또는 트랜지스터 논리, 이산 하드웨어 구성요소, 또는 이들의 임의의 조합 등의 기계에 의해 구현되거나 수행될 수 있다. 범용 프로세서는 마이크로프로세서일 수 있지만, 대안에서, 프로세서는 제어기, 마이크로컨트롤러, 또는 상태 기계, 이들의 조합 등일 수 있다. 프로세서는 또한 컴퓨팅 장치들의 조합, 예컨대, DSP와 마이크로프로세서의 조합, 복수의 마이크로프로세서, DSP 코어와 결합된 하나 이상의 마이크로프로세서, 또는 임의의 다른 이러한 구성으로서 구현될 수 있다. 컴퓨팅 환경은, 몇가지 예를 들면, 마이크로프로세서에 기초한 컴퓨터 시스템, 메인프레임 컴퓨터, 디지털 신호 처리기, 휴대용 컴퓨팅 장치, 개인 오거나이저(personal organizer), 장치 제어기, 및 가전제품 내의 계산 엔진(이들로 제한되지 않음)을 포함하는 임의의 유형의 컴퓨터 시스템을 포함할 수 있다.

본 명세서에 개시되어 있는 실시예들과 관련하여 기술된 방법, 프로세스 또는 알고리즘의 단계들은 직접 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이 둘의 조합으로 구현될 수 있다. 소프트웨어 모듈은 기술 분야에 공지되어 있는 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 이동식 디스크, CD-ROM, 또는 임의의 다른 형태의 비일시적 컴퓨터 판독가능 저장 매체, 매체들 또는 물리적 컴퓨터 저장 장치에 존재할 수 있다. 예시적인 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독하고 그에 정보를 기입할 수 있도록, 프로세서에 결합되어 있을 수 있다. 대안에서, 저장 매체는 프로세서와 일체로 되어 있을 수 있다. 프로세서 및 저장 매체가 ASIC에 존재할 수 있다. ASIC는 사용자 단말에 존재할 수 있다. 대안에서, 프로세서 및 저장 매체가 사용자 단말에 개별 구성요소로서 존재할 수 있다.

본 명세서에서 사용되는 조건적 표현(그 중에서도 특히, "~할 수 있다", "~일지도 모른다", "~일 수 있다", "예컨대" 등)은, 달리 구체적으로 언급하지 않는 한 또는 사용되는 문맥 내에서 달리 이해되지 않는 한, 일반적으로 특정의 실시예가 특정의 특징, 요소 및/또는 상태를 포함하는 반면 다른 실시예들은 포함하지 않는다는 것을 전달하기 위한 것이다. 이와 같이, 이러한 조건적 표현은 일반적으로 특징, 요소 및/또는 상태가 하나 이상의 실시예에 어떻게든 필요하다는 것 또는 하나 이상의 실시예가, 조작자 입력 또는 프롬프트를 사용하여 또는 그를 사용함이 없이, 이들 특징, 요소 및/또는 상태가 임의의 특정의 실시예에서 포함되거나 수행되어야 하는지를 결정하는 논리를 꼭 포함한다는 것을 암시하기 위한 것이 아니다. 용어 "포함하는", "구비하는", "가지는" 등은 동의어이고, 내포적으로 개방형 방식(open-ended fashion)으로 사용되며, 부가의 요소, 특징, 동작, 작용 등을 배제하지 않는다. 또한, 용어 "또는"은, 예를 들어, 일련의 요소들을 연결시키기 위해 사용될 때, 용어 "또는"이 일련의 요소들 중 하나, 일부 또는 전부를 의미하도록 (그의 배타적 의미가 아니라) 그의 내포적 의미로 사용된다. 게다가, 용어 "각각"은, 본 명세서에서 사용되는 바와 같이, 그의 통상적인 의미를 갖는 것에 부가하여, 용어 "각각"이 적용되는 요소들의 집합의 임의의 부분집합을 의미할 수 있다.

이상의 상세한 설명이 다양한 실시예들에 적용되는 새로운 특징을 나타내고 설명하며 언급하고 있지만, 예시되어 있는 장치들 또는 알고리즘들의 형태 및 상세에서 다양한 생략, 치환 및 변경이 본 개시 내용의 사상을 벗어나지 않고 행해질 수 있다는 것을 잘 알 것이다. 잘 알 것인 바와 같이, 본 명세서에 기술되어 있는 본 발명의 특정의 실시예들이 본 명세서에 기재되어 있는 특징들 및 이점들 전부를 제공하지 않는 형태 내에서 구현될 수 있는데, 그 이유는 어떤 특징들이 다른 특징들과 별개로 사용되거나 실시될 수 있기 때문이다.

102: 음성 입력 104: 발신자 전화
106: 송신기 108: 수신자 전화
110: 음성 향상 시스템 112: 마이크 입력
114: 출력 202: 음성 입력 신호
204: 마이크 입력(음성 및/또는 잡음) 212: 음성 활동 검출기
220: 적응적 음성 향상 모듈 222: 음성 향상 제어기
226: 추가의 향상 제어 230: 출력 이득 제어기
232: 레벨 제어 234: 마이크 교정 모듈
240: 클리핑 감소 모듈 250: 출력
310: 프리필터 312: LPC 분석 모듈
314: LPC-LSF 매핑 모듈 316: 포먼트 향상 모듈
322: 전영점 필터 324: 여기 신호
326: 향상된 전극점 필터 332: 시간 엔벨로프 정형기
526a: 향상된 전극점 필터 526b: 향상된 전극점 필터
602: 입력 610a: 서브대역
610b: 대역 1 610b: 대역 N
612: 서브 보상 이득 622: 엔벨로프 검출기
624: 엔벨로프 정형기 634: 출력

Claims

음성 명료도(voice intelligibility) 향상을 조절하는 방법에 있어서,
입력 음성 신호를 수신하는 단계;
선형 예측 코딩(linear predictive coding; LPC) 프로세스에 의해 상기 입력 음성 신호의 스펙트럼 표현 - 상기 스펙트럼 표현은 하나 이상의 포먼트 주파수(formant frequency)를 포함함 - 을 획득하는 단계;
상기 하나 이상의 포먼트 주파수를 강조하도록 구성되는 향상 필터(enhancement filter)를 생성하기 위해 하나 이상의 프로세서에 의해 상기 입력 음성 신호의 상기 스펙트럼 표현을 조절하는 단계;
여기 신호(excitation signal)를 획득하기 위해 상기 입력 음성 신호에 역필터(inverse filter)를 적용하는 단계;
향상된 포먼트 주파수를 갖는 제1 수정된 음성 신호를 생성하기 위해 상기 여기 신호에 상기 향상 필터를 적용하는 단계;
제2 수정된 음성 신호를 생성하기 위해 상기 입력 음성 신호에 상기 향상 필터를 적용하는 단계;
결합된 수정된 음성 신호를 생성하기 위해 상기 제1 수정된 음성 신호의 적어도 일부를 상기 제2 수정된 음성 신호의 적어도 일부와 결합하는 단계;
상기 결합된 수정된 음성 신호에 기초하여 시간 엔벨로프(temporal envelope)를 검출하는 단계;
하나 이상의 시간 향상 파라미터를 결정하기 위해 상기 결합된 수정된 음성 신호의 엔벨로프를 분석하는 단계; 및
출력 음성 신호를 생성하기 위해 상기 결합된 수정된 음성 신호에 상기 하나 이상의 시간 향상 파라미터를 적용하는 단계
를 포함하고,
적어도 상기 하나 이상의 시간 향상 파라미터를 적용하는 단계는 하나 이상의 프로세서에 의해 수행되는 것인, 음성 명료도 향상을 조절하는 방법.
제1항에 있어서, 상기 결합된 수정된 음성 신호에 상기 하나 이상의 시간 향상 파라미터를 적용하는 단계는, 상기 결합된 수정된 음성 신호에서의 선택된 자음을 강조하기 위해 상기 결합된 수정된 음성 신호의 하나 이상의 엔벨로프에서의 피크를 예리하게 하는 단계를 포함하는 것인, 음성 명료도 향상을 조절하는 방법.
삭제
삭제
음성 명료도 향상을 조절하는 시스템에 있어서,
입력 음성 신호의 적어도 일부의 스펙트럼 표현 - 상기 스펙트럼 표현은 하나 이상의 포먼트 주파수를 포함함 - 을 획득하도록 구성되는 분석 모듈;
여기 신호를 획득하기 위해 상기 입력 음성 신호에 적용되도록 구성되는 역필터;
상기 하나 이상의 포먼트 주파수를 강조하도록 구성되는 향상 필터를 생성하도록 구성되는 포먼트 향상 모듈(formant enhancement module);
제1 수정된 음성 신호를 생성하기 위해 하나 이상의 프로세서에 의해 상기 여기 신호에 적용되도록 구성되고, 또한 제2 수정된 음성 신호를 생성하기 위해 상기 하나 이상의 프로세서에 의해 상기 입력 음성 신호에 적용되도록 구성되는 상기 향상 필터;
결합된 수정된 음성 신호를 생성하기 위해 상기 제1 수정된 음성 신호의 적어도 일부를 상기 제2 수정된 음성 신호의 적어도 일부와 결합하도록 구성되는 결합기; 및
상기 결합된 수정된 음성 신호의 하나 이상의 엔벨로프에 적어도 부분적으로 기초하여 상기 결합된 수정된 음성 신호에 시간 향상을 적용하도록 구성되는 시간 엔벨로프 정형기(temporal enveloper shaper)
를 포함하는, 음성 명료도 향상을 조절하는 시스템.
제5항에 있어서, 상기 분석 모듈은 또한, 상기 스펙트럼 표현에 대응하는 계수들을 생성시키도록 구성되는 선형 예측 코딩 기법을 사용하여 상기 입력 음성 신호의 상기 스펙트럼 표현을 획득하도록 구성되는 것인, 음성 명료도 향상을 조절하는 시스템.
제6항에 있어서, 상기 계수들을 선 스펙트럼 쌍(line spectral pair)에 매핑하도록 구성되는 매핑 모듈을 더 포함하는, 음성 명료도 향상을 조절하는 시스템.
제7항에 있어서, 상기 포먼트 주파수에 대응하는 상기 스펙트럼 표현에서 이득을 증가시키기 위해 상기 선 스펙트럼 쌍을 수정하는 것을 더 포함하는, 음성 명료도 향상을 조절하는 시스템.
삭제
제5항에 있어서, 상기 시간 엔벨로프 정형기는 또한, 상기 결합된 수정된 음성 신호를 복수의 대역으로 세분하도록 구성되고, 상기 하나 이상의 엔벨로프는 상기 복수의 대역 중 적어도 일부에 대한 엔벨로프에 대응하는 것인, 음성 명료도 향상을 조절하는 시스템.
제5항에 있어서, 입력 마이크 신호에서 검출된 환경 잡음의 양에 적어도 부분적으로 기초하여 상기 향상 필터의 이득을 조절하도록 구성되는 음성 향상 제어기(voice enhancement controller)를 더 포함하는, 음성 명료도 향상을 조절하는 시스템.
제11항에 있어서, 상기 입력 마이크 신호에서 음성을 검출하고 상기 검출된 음성에 응답하여 상기 음성 향상 제어기를 제어하도록 구성되는 음성 활동 검출기(voice activity detector)를 더 포함하는, 음성 명료도 향상을 조절하는 시스템.
제12항에 있어서, 상기 음성 활동 검출기는 또한, 상기 음성 향상 제어기로 하여금, 상기 입력 마이크 신호에서 음성을 검출한 것에 응답하여, 이전의 잡음 입력에 기초하여 상기 향상 필터의 이득을 조절하게 하도록 구성되는 것인, 음성 명료도 향상을 조절하는 시스템.
제11항에 있어서, 상기 입력 마이크 신호를 수신하도록 구성되는 마이크의 이득을 설정하도록 구성되는 마이크 교정 모듈(microphone calibration module)을 더 포함하고, 상기 마이크 교정 모듈은 또한, 기준 신호 및 기록된 잡음 신호에 적어도 부분적으로 기초하여 상기 이득을 설정하도록 구성되는 것인, 음성 명료도 향상을 조절하는 시스템.
음성 명료도 향상을 조절하는 시스템에 있어서,
입력 음성 신호의 스펙트럼 - 상기 스펙트럼은 하나 이상의 포먼트 주파수를 포함함 - 에 대응하는 선형 예측 코딩(linear predictive coding; LPC) 계수들을 획득하기 위해 LPC 기법을 적용하도록 구성되는 선형 예측 코딩 분석 모듈;
상기 LPC 계수들을 선 스펙트럼 쌍에 매핑하도록 구성되는 매핑 모듈; 및
하나 이상의 프로세서를 포함하고, 상기 선 스펙트럼 쌍을 수정하여 상기 입력 음성 신호의 스펙트럼을 조절하고 상기 하나 이상의 포먼트 주파수를 강조하도록 구성되는 향상 필터를 생성하도록 구성되는 포먼트 향상 모듈(formant enhancement module);
제1 수정된 음성 신호를 생성하기 위해 상기 입력 음성 신호로부터 도출되는 여기 신호에 적용되도록 구성되고, 제2 수정된 음성 신호를 생성하기 위해 상기 입력 음성 신호에 적용되도록 구성되는 상기 향상 필터;
결합된 수정된 음성 신호를 생성하기 위해 상기 제1 수정된 음성 신호의 적어도 일부를 상기 제2 수정된 음성 신호의 적어도 일부와 결합하도록 구성되는 결합기; 및
상기 결합된 수정된 음성 신호에 기초하여 음성 신호를 출력하도록 구성되는 출력 모듈
을 포함하는, 음성 명료도 향상을 조절하는 시스템.
제15항에 있어서, 입력 마이크 신호에서 음성을 검출하고, 상기 입력 마이크 신호에서 음성을 검출한 것에 응답하여, 상기 향상 필터의 이득이 조절되게 하도록 구성되는 음성 활동 검출기를 더 포함하는, 음성 명료도 향상을 조절하는 시스템.
제16항에 있어서, 상기 입력 마이크 신호를 수신하도록 구성되는 마이크의 이득을 설정하도록 구성되는 마이크 교정 모듈을 더 포함하고, 상기 마이크 교정 모듈은 또한, 기준 신호 및 기록된 잡음 신호에 적어도 부분적으로 기초하여 상기 이득을 설정하도록 구성되는 것인, 음성 명료도 향상을 조절하는 시스템.
삭제
제15항에 있어서, 상기 결합된 수정된 음성 신호의 하나 이상의 엔벨로프에 적어도 부분적으로 기초하여 상기 결합된 수정된 음성 신호에 시간 향상을 적용하도록 구성되는 시간 엔벨로프 정형기를 더 포함하는, 음성 명료도 향상을 조절하는 시스템.
제19항에 있어서, 상기 시간 엔벨로프 정형기는 또한, 상기 결합된 수정된 음성 신호의 선택된 부분을 강조하기 위해 상기 결합된 수정된 음성 신호의 하나 이상의 엔벨로프에서의 피크를 예리하게 하도록 구성되는 것인, 음성 명료도 향상을 조절하는 시스템.