KR101096540B1

KR101096540B1 - 피치 검색을 위한 방법 및 장치

Info

Publication number: KR101096540B1
Application number: KR1020090133568A
Authority: KR
Inventors: 데준 장; 지안펭 수; 레이 미아오; 펭얀 키; 킹 장; 리숑 리; 푸웨이 마; 양 가오
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2008-12-30
Filing date: 2009-12-30
Publication date: 2011-12-20
Anticipated expiration: 2029-12-30
Also published as: KR20100080457A; JP2010156975A; CN101599272B; US20100169084A1; EP2204795B1; CN101599272A; EP2204795A1; JP2013068977A; JP5506032B2; JP5904469B2; EP2420999A3; ATE533146T1; EP2420999A2

Abstract

본 발명은 피치 검사를 위한 방법 및 장치에 관한 것이다. 하나의 방법은 입력 음성 신호로부터 LTP(Long-Term Prediction) 기여 신호(contribution signal)를 제거한 결과인 잔여 신호의 특성 함수값을 획득하는 단계; 및 상기 잔여 신호의 특성 함수값에 따라 피치를 획득하는 단계를 포함한다.

Description

피치 검색을 위한 방법 및 장치{METHOD AND APPARATUS FOR PITCH SEARCH}

본 발명은 음성 코딩 및 디코딩에 관한 것이며, 특히 피치 검색을 위한 방법 및 장치에 관한 것이다.

일반적으로, 음성 및 오디오 신호는 어느 정도 주기적이다. 음성 및 오디오 신호의 장기간 주기성(long-term periodicity)은 LTP(Long Term Prediction; LTP) 방식을 통해 제거될 수 있다. LTP 예측 이전에, 피치(pitch)가 먼저 검색되어야만 한다. 피치 검색에 대한 종래의 방법은 자동상관 기능을 기초로 수행된다. MPEG ALS(Moving Pictures Experts Group Audio Lossless Coding) 장치에서는, 버퍼 상의 이력 데이터(history data)를 여기 신호(excitation signals)로서 사용하여 현재 프레임의 신호를 예측한다. 개방형 루프 피치 분석을 일례로 취하여, 방법에 대해 후술한다.

먼저, 원음 신호를 지각 가중 필터(perceptual weighting filter)에 입력하여 가중된 음성 신호 S_w(n)를 획득한다. 지각 가중 필터 함수의 표현은

이고, 여기서

이고, β1 = 0.68이다. 각각의 서브프레임에 있어서, 서브프레임 길이(L)은 64이고, 가중된 음성 신호 S_w(n)은:

여기서, s(n)은 원음 신호이고; ai는 LP 계수이며;

는 지각 가중 요인이다.

4차 유한 임펄스 응답(FIR) 필터 H_decim2(z)는 가중된 음성 신호 상에서 다운-샘플링을 수행하여 S_wd(n)을 획득하고; 가중된 상관 함수는 다음과 같다:

획득된 피치는 C(d)를 최대화하는 피치 지연 d이고, 여기서 w(d)는 수학식(3)에 나타난 바와 같이, 저-지연 가중 함수 w_l(d) 및 이전-프레임 지연 가중 함수 w_n(d)를 포함하는 가중 함수이다:

w(d) = w_l(d)w_n(d)

저-지연 가중 함수 w_l(d)의 표현은 다음과 같다:

w_l(d) = cw(d)

여기서, cw(d)는 프로그램의 탭 파일(tab file)에 존재하고, 이전-프레임 지연 가중 함수 w_n(d)는 이전 프레임의 피치 지연에 의존하며, 이전-프레임 지연 가중 함수 w_n(d)의 표현은 다음과 같다:

여기서, T_old는 제1의 5 프레임에서 피치 지연의 평균이며, v는 적응 요인(adaptive factor)이다. 개방 루프 피치 이득(g)이 0.6보다 크면, 프레임은 유성음 프레임(voiced frame)으로서 간주되며, 다음 프레임에 대한 "v"는 1에 설정되고, v=0.9v이다. 개방 루프 피치 이득(g)

피치 지연은 C(d)를 최대화하는 것이다. 중간 값 필터는 유성음 프레임에서 갱신된다. 이전 프레임이 유성음 또는 무성음을 포함하는 경우, 가중 함수는 파라미터 "v"에 의해 감쇄된다.

전술한 바와 같이, 종래 기술에서는, 장기간 주기성을 해결하기 위해, 자동상관 함수가 하나의 프레임에서 입력 음성 신호에 대해 계산되어 피치를 얻는다.

본 발명의 일부의 실시예는 전체 프레임에서 입력 음성 신호의 상관 함수값을 계산하지 않고 피치 검색을 위한 방법 및 장치를 제공한다.

피치 검색 방법은,

입력 음성 신호로부터 LTP(Long-Term Prediction) 기여 신호(contribution signal)를 제거한 결과인 잔여 신호의 특성 함수값을 획득하는 단계; 및

상기 잔여 신호의 특성 함수값에 따라 피치를 획득하는 단계

를 포함한다.

다른 피치 검색 방법은,

입력 음성 신호에서 최대값을 갖는 펄스를 검색하는 단계;

상기 펄스의 위치에 따라 상기 입력 음성 신호의 타겟 윈도우를 설정하는 단계;

상기 타겟 윈도우를 슬라이딩시켜 복수의 슬라이딩 윈도우를 획득하고, 각각의 슬라이딩 윈도우 및 상기 타겟 윈도우에서의 상기 입력 음성 신호의 상관 계수를 계산하며, 상기 상관 계수들 중 최대값을 획득하는 단계; 및

상기 최대값에 따라 피치를 획득하는 단계

를 포함한다.

피치 검색 장치는,

잔여 신호의 특성 함수값을 획득하도록 구성된 특성값 획득 모듈로서, 상기 잔여 신호는 입력 음성 신호로부터 LTP 기여 신호를 제거한 결과인, 상기 특성값 획득 모듈; 및

상기 잔여 신호의 특성 함수값에 따라 피치를 획득하도록 구성된 피치 획득 모듈

을 포함한다.

다른 피치 검색 장치는,

상기 입력 음성 신호에서 최대 진폭을 갖는 펄스를 검색하도록 구성된 검색 모듈;

최대 진폭을 갖는 펄스의 위치에 따라 상기 입력 음성 신호에 대한 타겟 윈도우를 설정하도록 구성된 타겟 윈도우 모듈;

타겟 윈도우를 슬라이딩하고 각각의 슬라이딩 윈도우 및 상기 타겟 윈도우에서의 입력 음성 신호의 상관 계수를 계산하며, 상기 상관 계수들 중 최대값을 획득하도록 구성된 계산 모듈; 및

상기 최대값에 따라 피치를 획득하도록 구성된 피치 획득 모듈

을 포함한다.

본 발명의 실시예에서 피치 검색을 위한 방법 및 장치에 따르면, 잔여 신호의 특성 함수값이 획득되고, 피치는 잔연 신호의 특성 함수값에 따라 얻어지며, 전체 프레임에서 입력 음성 신호의 상관 함수값을 계산할 필요가 없다.

이하, 첨부된 도면 및 예시적 실시예를 참조하여 본 발명에 대해 설명한다.

도 1은 본 발명의 일실시예에 따른 피치 검색을 위한 방법에 대한 흐름도이다. 방법은 이하의 단계를 포함한다:

단계 101: 잔여 신호의 특성 함수값을 획득하며, 상기 잔여 신호는 입력 음성 신호로부터의 LTP 기여 신호(contribution signal)를 제거한 결과이다.

단계 102: 잔여 신호의 특성 함수값에 따라 피치를 획득한다.

본 실시예에 따른 방법에서는, 잔여 신호의 특성 함수값을 획득하고, 잔여 신호의 특성 함수값에 따라 피치를 획득하되, 전체 프레임에서 입력 음성의 상관 함수값을 계산하지 않는다.

도 2는 본 발명의 다른 실시예에 따른 피치 검색을 위한 방법에 대한 흐름도이다. 방법은 이하의 단계를 포함한다:

단계 201: 입력 음성 신호를 처리한다.

프로세스는 저대역 필터링 또는 다운-샘플링일 수 있거나, 또는 다운-샘플링 프로세스가 뒤이어지는 저대역 필터링 프로세스일 수 있다. 일실시예에서, 저대역 필터링은 평균값 필터링일 수 있다. PCM(Pulsed Coded Modulation) 신호를 일례로 하면, y(n)은 입력 음성 신호를 나타내고, 입력 음성 신호의 프레임 길이 L은 160이며(즉, 하나의 프레임은 160 샘플을 포함한다); y2(n)은 다운-샘플링된 것을 나타내며, 이하 다운-샘플링된 신호로서 언급한다. 본 실시예에서 2에 의한 다운-샘플링을 일례로 하면, 이하의 식이 적용된다:

여기서, M은 평균 필터의 차수이며, y2(n)의 샘플 범위(sample range)는 [0, 79]이다.

이 단계는 선택 사항이다. 프로세스는 단계 202가 수행되기 전에 생략될 수 있다.

단계 202: 최대 진폭을 갖는 펄스에 대한 입력 음선 신호를 검색한다.

펄스는 전체 프레임 내에서 검색될 수 있거나, 한 프레임의 세트 범위 내에서 검색될 수 있다. 한 프레임의 세트 범위 내에서 펄스에 대해 검색하는 것을 일례로 하면, 프로세스는 이하와 같다:

먼저, 입력 음성 신호 y(n)에 있어서, 그 피치 범위는 프레임 길이에 따라 사전 설정된다. 피치 범위는 프레임 길이를 참조하여 설정되고, 피치는 너무 높지 않아야 한다. 피치가 너무 높으면, 한 프레임의 신호에서의 극소수의 샘플이 LTP 계산에 포함되고, LTP 성능은 저하된다. 예를 들어, 프레임 길이 L이 160과 같다면, y(n)의 피치 범위는 [20, 83]에 설정될 수 있다. 일실시예에 따르면, 2에 의한 다운-샘플링이 단계 202에 적용된다. 다운-샘플링된 신호 y2(n)의 피치 범위는 [10, 41]이며, 즉 [PMIN, PMAX]이고, 여기서 PMIN=10이고, PMAX=41이다. 피치가 최대일 때 피치가 발견될 수 있도록 하기 위해, 검색되는 펄스의 샘플 범위를 [41, 79]로 설정할 수 있다.

그 후, 샘플 범위 [41, 79] 내에서, y2(n)에서의 최대 진폭을 갖는 펄스가 발견된다. p0가 최대 진폭에 대응하는 샘플(41≤p0≤79)인 것으로 가정하면, 이하의 부등식이 적용된다:

본 실시예에서, y2(n)의 진폭은 실수일 수 있으며, y2(n)의 진폭값이 y2(n)의 절대값이고, 비음수(non-negative number)이다.

단계 203: 입력 음성 신호의 최대 진폭을 갖는 펄스 p0의 위치에 대응하는 타겟 윈도우(target window)를 설정한다.

구체적으로, 타겟 윈도우는 펄스 p0의 근방에서 부가되어 신호의 일부를 선택하고, 이 타겟 윈도우는 펄스 p0를 커버한다. 타겟 윈도우의 범위는 [smin, smax]이고, 타겟 윈도우 길이는 len=smax-smin이다. "len"의 길이는 [1, L]이다. 즉, 타겟 윈도우는 프레임의 모든 신호를 커버할 수 있다.

예를 들어, smin=s_max(p0-d,41), smax=s_min(p0+d,79)이며, 여기서 d는 타겟 윈도우의 길이를 제한하는 데 사용된다. 본 실시예에서, d=15이다. s_max(p0-d,41)은 p0-3와 41 사이에서 더 큰 값을 획득하는 것을 말한다. s_min(p0-d,79)은 p0+d와 79 사이에서 더 작은 값을 획득하는 것을 말한다.

단계 204: 사전 설정된 피치 범위에서 각각의 피치에 대응하는 입력 음성 신호의 잔여 신호(즉, 본 실시예에서 다운-샘플링된 신호)를 계산하고, 잔여 신호는 입력 음성 신호에서 LTP 기여 신호를 제거하는 결과이고, LTP 기여 신호 x_k(i)는 LTP 여기 신호에 따라 결정되며, 피치 이득은 다음과 같다:

여기서, k는 피치를 나타내고, g는 피치 이득을 나타낸다. g는 고정된 경험값일 수 있거나, 사전 설정된 피치 범위 내의 피치에 따라 적응해서 결정된 값일 수 있다. 즉, 상이한 피치(k)는 동일한 g를 가질 수 있다. 대안으로, 피치 k와 피치 이득 g 사이의 맵핑의 테이블은 사전 설정될 수 있으며, 여기서 g는 k에 따라 변한다.

단계 205: 각각의 피치에 대응하는 잔여 신호의 에너지를 계산한다.

여기서, [k₁, k₂]는 피치 범위를 나타낸다. 일실시예에서, k₁=10; k₂=41이고, E_k(i)는 k에 대응하는 잔여 신호의 에너지를 나타낸다.

단계 206: 계산된 잔여 신호 에너지 값 중에서 최소값 E(P)를 선택하고, E(P)는 범위 [k₁, k₂] 내에서 피치 P에 대응하는 다운-샘플링된 신호 y2(n)의 최소 의 잔여 신호 에너지이다.

단계 207: y(n)에 대한 피치를 획득하고, 이 피치는 2P인데, 왜냐하면 y2(n)은 2에 의한 다운-샘플링을 통해 y(n)으로부터 획득되기 때문이다.

또한, 피치를 이중 피치로 오해하는 것을 피하기 위해, 본 실시예에 따른 방법은 피치 2P를 획득한 후 이하의 프로세스를 더 포함할 수 있다.

음성 신호 도메인에서, 그 획득된 피치에 대응하는 상관 함수를 계산하고, 이중 피치의 상관 함수를 계산한다.

이 단계에서는, 2P nor_cor[2P]의 상관 함수 및 2P의 상관 함수, 즉 nor_cor[P]가 다음 식에 따라 계산된다:

상관 함수의 그 계산된 최대값에 대응하는 피치는 최종 피치로서 간주된다. 즉, nor_cor[2P]의 값은 nor_cor[P]의 값과 비교된다. nor_cor[2P] > nor_cor[P]이면, 2P는 음성 신호의 최종 피치로서 사용된다. nor_cor[2P] ≤ nor_cor[P]이면, P는 음성 신호의 최종 피치로서 사용된다.

본 발명은 타겟 윈도우를 설정하고 하나의 프레임에서 잔여 신호의 에너지를 계산하되, 그 전체 프레임에서 신호들의 상관 함수값들을 계산하지 않으며, 이에 따라, 피치 검색을 크게 간략화할 수 있고, 또한, 본 실시예에서는, 피치의 상관 함수와 이중 피치의 상관 함수를 비교함으로써, 피치를 이중 피치로 오해하는 것을 피하고 피치 검색의 정확성을 보장한다.

도 3은 본 발명의 또 다른 실시예에 따른 피치 검색의 방법에 대한 흐름도이다. 본 실시예는, 제2 실시예에서의 단계 205 및 단계 206이 단계 305 및 단계 306으로 대치되어 있다는 점이 다르며, 후술되는 바와 같이, 본 실시예에서의 잔여 신호의 특성 함수값이 잔여 신호들의 절대값들의 합인 점이 다르다:

단계 305: 피치 범위 내에서 피치들에 대응하는 다운-샘플링된 신호들에 대한 잔여 신호들의 절대값들의 합을 계산한다:

여기서, E(k)는 k에 대응하는 잔연 신호들의 절대값들의 합이다.

단계 306: 잔여 신호들의 절대값들의 계산된 합들에서, 범위 [k₁, k₂] 내에서 피치 P에 대응하는 다운-샘플링된 신호들의 잔여 신호들의 절대값들 중 최소값 E(P)를 선택한다.

본 실시예는 하나의 프레임에서 신호들의 잔여 신호들의 절대값들의 합을 계산하기 위해 타겟 윈도우를 설정하고, 그 전체 프레임 내의 신호들의 상관 함수값을 계산하지 않으므로, 피치 검색을 크게 간략화할 수 있다.

제2 실시예 및 제3 실시예는, 하나의 프레임 내의 신호들의 이전 부분을 사 용하여 그 프레임 내의 신호들의 최종 부분을 예측하는 시나리오에 적용 가능하다. 본 발명은 이 시나리오에 제한되지 않으며, 이전 프레임의 신호들을 사용하여 현재 프레임의 신호들을 예측하는 시나리오에도 적용 가능하다. 이 시나리오에서는, 전체 프레임의 잔연 신호들의 특성 함수값이 먼저 획득될 수 있고, 그런 다음 그 전체 프레임의 잔여 신호들의 특성 함수값들에 따라 피치를 획득한다.

도 4는 본 발명의 또 다른 실시예에 따른 피치 검색을 위한 방법에 대한 흐름도이다. 방법은 이하의 단계를 포함한다:

단계 401: 상기 입력 음성 신호에서 최대 진폭을 갖는 펄스를 검색한다.

단계 402: 최대 진폭을 갖는 펄스의 위치에 따라 입력 음성 신호에 대한 타겟 윈도우를 설정한다.

단계 403: 타겟 윈도우를 슬라이딩하여 복수의 슬라이딩 윈도우를 획득하고, 각각의 슬라이딩 윈도우 및 상기 타겟 윈도우에서의 입력 음성 신호의 상관 계수를 계산하며, 상관 계수들 중 최대값을 획득한다.

단계 404: 상관 계수들의 최대값에 따라 피치를 획득한다.

본 실시예는 타겟 윈도우를 설정하고, 타겟 윈도우를 슬라이딩하며, 각각의 슬라이딩 윈도우 및 타겟 윈도우에서의 신호들의 상관 계수를 계산하고, 상관 계수들의 최대값을 획득하고, 상관 계수들의 최대값에 따라 피치를 획득하되, 그 전체 프레임 내에서 입력 음성 신호들의 상관 함수값들을 계산하지 않으며, 이에 따라 피치 검색을 크게 간략화할 수 있다.

도 5는 본 발명의 또 다른 실시예에 따른 피치 검색을 위한 방법에 대한 흐 름도이다. 방법은 이하의 단계를 포함한다:

단계 501: 입력 음성 신호를 처리한다.

또한, 프로세스는 저대역 필터링 또는 다운-샘플링일 수 있으며, 또는 다운-샘플링 프로세스가 뒤따르는 저대역 필터링 프로세스일 수 있다. 구체적으로, 저대역 필터링은 평균값 필터링일 수 있다. PCM 신호를 일례로 하면, y(n)은 입력 음성 신호를 나타내고, 입력 음성 신호의 프레임 길이 L은 160이며(즉, 하나의 프레임은 160 샘플을 포함한다); y2(n)은 다운-샘플링된 입력 음성 신호를 나타내며, 이하 다운-샘플링된 신호로서 언급한다. 본 실시예에서 2에 의한 다운-샘플링을 일례로 하면, 이하의 식이 적용된다:

여기서, M은 평균 필터의 차수이고, y2(n)의 샘플 범위(sample range)는 [0, 79]이다.

이 단계는 선택 사항이다. 프로세스는 단계 502가 수행되기 전에 생략될 수 있다.

단계 502: 최대 진폭을 갖는 펄스에 대한 입력 음선 신호를 검색한다.

펄스는 전체 프레임 내에서 검색될 수 있거나, 한 프레임의 세트 범위 내에서 검색될 수 있다. 한 프레임의 세트 범위 내에서 펄스를 검색하는 것을 일례로 하면, 프로세스는 이하와 같다:

먼저, 입력 음성 신호 y(n)에 있어서, 그 피치 범위는 프레임 길이에 따라 사전 설정된다. 피치 범위는 프레임 길이를 참조하여 설정되고, 피치는 너무 높지 않아야 한다. 피치가 너무 높으면, 한 프레임의 신호에서의 극소수의 샘플이 LTP 계산에 포함되고, LTP 성능은 저하된다. 예를 들어, 프레임 길이 L이 160과 같다면, y(n)의 피치 범위는 [20, 83]에 설정될 수 있다. 일실시예에 따르면, 2에 의한 다운-샘플링이 단계 502에 적용된다. 다운-샘플링된 신호 y2(n)의 피치 범위는 [10, 41]이며, 즉 [PMIN, PMAX]이고, 여기서 PMIN=10이고, PMAX=41이다. 피치가 최대일 때 피치가 발견될 수 있도록 하기 위해, 검색되는 펄스의 샘플 범위를 [41, 79]로 설정할 수 있다.

단계 503: 입력 음성 신호의 최대 진폭을 갖는 펄스 p0의 위치에 대응하는 입력 음성 신호에 대해 타겟 윈도우(target window)를 설정한다.

구체적으로, 타겟 윈도우는 펄스 p0의 근방에서 부가되어 신호의 일부를 선 택하고, 이 타겟 윈도우는 펄스 p0를 커버한다. 타겟 윈도우의 범위는 [smin, smax]이고, 타겟 윈도우 길이는 len=smax-smin이다. "len"의 길이는 [1, L]이다. 즉, 타겟 윈도우는 프레임의 모든 신호를 커버할 수 있다.

단계 504: 타겟 윈도우를 슬라이딩하여 복수의 슬라이딩 윈도우를 획득하고, 각각의 슬라이딩 윈도우 및 타겟 윈도우 내에서 신호들의 상관 계수를 계산한다.

여기서, k는 피치를 나타내고, [k₁, k₂]는 피치 범위를 나타낸다. 일실시예에서, k₁=10; k₂=41이고; corr[k]는 k에 대응하는 상관 계수를 나타낸다.

단계 505: 계산된 상관 계수 중에서 최대 상관 계수 corr[P]를 선택하고, corr[P]는 범위 [k₁, k₂] 내에서 피치 P에 대응하는 다운-샘플링된 신호의 최대 상관 계수이다.

단계 506: y(n)에 대한 피치를 획득하고, 이 피치는 2P인데, 왜냐하면 y2(n)은 2에 의한 다운-샘플링을 통해 y(n)으로부터 획득되기 때문이다.

음성 신호 도메인에서, 그 획득된 피치에 대응하는 상관 함수를 계산하고, 그 획득된 피치의 이중 주파수의 상관 함수를 계산한다. 이 단계에서는, 2P nor_cor[2P]의 상관 함수 및 2P의 이중 주파수 (P)의 상관 함수, 즉 nor_cor[P]가 다음 식에 따라 계산된다:

상관 함수의 그 계산된 최대값에 대응하는 피치는 최종 피치로서 사용된다. 즉, nor_cor[2P]의 값은 nor_cor[P]의 값과 비교된다. nor_cor[2P] > nor_cor[P]이면, 2P는 음성 신호의 최종 피치로서 사용된다. nor_cor[2P] ≤ nor_cor[P]이면, P는 음성 신호의 최종 피치로서 사용된다.

본 발명은 타겟 윈도우를 설정하고, 타겟 윈도우를 슬라이딩하며, 각각의 슬라이딩 윈도우 및 타겟 윈도우에서의 신호들의 상관 계수를 계산하며, 그 상관 계수들의 최대값에 따라 피치를 획득하되, 그 전체 프레임에서 신호들의 상관 함수값들을 계산하지 않으며, 이에 따라, 피치 검색을 크게 간략화할 수 있고, 또한, 본 실시예에서는, 피치의 상관 함수와 이중 피치의 상관 함수를 비교함으로써, 피치를 이중 피치로 오해하는 것을 피하고 피치 검색의 정확성을 보장한다.

도 6은 본 발명의 일실시예에 따른 피치 검색을 위한 장치에 대한 개략도를 도시한다. 장치는 잔여 신호의 특성 함수값을 획득하도록 구성된 특성값 획득 모듈(11)을 포함하고, 상기 잔여 신호는 입력 음성 신호로부터 LTP 기여 신호를 제거하는 결과이며, 장치는 또한 잔여 신호의 특성 함수값에 따라 피치를 획득하도록 구성된 피치 획득 모듈(12)을 포함한다.

구체적으로, 특성값 획득 모듈(11)은 전체 프레임의 잔여 신호들의 특성 함수값들을 계산할 수 있다. 특성 함수값 획득 모듈(11)은 타겟 윈도우 유닛(13) 및 특성값 획득 모듈(14)을 포함할 수 있다. 타겟 윈도우 유닛(13)은 입력 음성 신호들에 대한 타겟 윈도우를 설정하고, 특성값 획득 유닛(14)은 타겟 윈도우에서의 잔여 신호들의 특성값들을 획득한다.

또한, 본 실시예에 따른 장치는 검색 모듈(15)을 포함한다. 검색 모듈(15)은 상기 입력 음성 신호에서 최대 진폭을 갖는 펄스를 검색한다. 타겟 윈도우 유닛(13)은 입력 음성 신호에서 최대 진폭을 갖는 펄스의 위치에 따라 타겟 윈도우를 설정한다.

본 실시예에 따른 장치는 사전 처리 모듈(preprocessing module)(16)을 더 포함할 수 있다. 사전 처리 모듈(16)은 입력 음성 신호를 사전 처리한다. 구체적으로, 사전 처리 모듈(16)은 저대역 필터링 또는 다운-샘플링 처리를 수행하고, 그 사전 처리된 입력 음성 신호를 타겟 윈도우 유닛(13) 및 특성값 획득 유닛(14)에 전송한다.

특성값 획득 유닛(11)은 제1 계산 유닛 및 제2 계산 유닛을 더 포함할 수 있 다. 제1 계산 유닛은 사전 설정된 피치 범위 내에서 각각의 피치에 대응하는 잔여 신호를 계산한다. 제2 계산 유닛은 각각의 피치에 대응하는 잔여 신호의 특성 함수값을 계산하고, 특성 함수값의 최소값을 획득한다. 피치 획득 모듈(12)은 특성 함수값의 최소값에 대응하는 피치를 그 획득된 피치로서 사용한다.

본 실시예는 하나의 프레임에서의 신호의 잔여 신호의 특성 함수값을 계산하기 위해 타겟 윈도우를 설정하되, 전체 프레임에서의 신호의 상관 함수값을 계산하지 않으며, 이에 따라 피치 검색이 크게 간략화된다.

도 7은 본 발명의 다른 실시예에 따른 피치 검색을 위한 장치의 개략도를 도시한다. 장치는 검색 모듈(210, 타겟 윈도우 모듈(22), 계산 모듈(23), 및 피치 획득 모듈(240을 포함한다. 검색 모듈(21)은 상기 입력 음성 신호에서 최대 진폭을 갖는 펄스를 검색한다. 타겟 윈도우 모듈(22)은 최대 진폭을 갖는 펄스의 위치에 따라 입력 음성 신호에 대한 타겟 윈도우를 설정한다. 타겟 윈도우가 슬라이딩할 때, 계산 모듈(23)은 각각의 슬라이딩 윈도우 및 타겟 윈도우에서의 입력 음성 신호의 상관 계수를 계산하고 상관 계수의 최대값을 획득한다. 피치 획득 모듈(24)은 상관 계수의 최대값에 따라 피치를 획득한다.

일실시예에 따른 장치는 사전 처리 모듈(25)을 더 포함할 수 있다. 사전 처리 모듈(25)은 입력 신호를 사전 처리한다. 구체적으로, 사전 처리 모듈(25)은 저대역 필터링 또는 다운-샘플링 처리를 수행하고, 사전 처리된 입력 신호를 검색 모듈(21), 타겟 윈도우 모듈(22) 및 계산 모듈(23)에 전송한다.

본 실시예는 타겟 윈도우를 설정하고, 타겟 윈도우를 슬라이딩하고, 각각의 슬라이딩 윈도우 및 타겟 윈도우에서의 신호의 상관 계수를 계산하며, 상관 계수의 최대값을 획득하고, 그 상관 계수의 최대값에 따라 피치를 계산하되, 전체 프레임에서의 입력 음성 신호의 상관 함수값을 계산하지 않으며, 이에 따라 피치 검색은 크게 간략화된다.

전술한 방법의 실시예의 단계들 중 전부 또는 일부는 프로그램에 의해 명령되는 하드웨어에 의해 구현될 수 있다는 것을 당업자는 이해할 것이다. 프로그램은 컴퓨터가 판독 가능한 저장 매체에 저장될 수 있다. 실행될 때, 프로그램은 전술한 방법의 실시예의 단계들을 수행한다. 저장 매체는, 예를 들어 리드 온리 메모리(ROM), 랜덤 액세스 메모리(RAM), 자기 디스크, 또는 컴팩트 디스크와 같이, 프로그램 코드를 저장하는 데 적절한 어떠한 매체도 될 수 있다.

몇 개의 예시적 실시예를 통해 본 발명을 설명하였으나, 본 발명은 이러한 실시예에 제한되지 않는다. 본 발명의 정신 및 범주를 벗어남이 없이 당업자가 본 발명에 대한 변형 및 수정을 수행할 수 있다는 것은 자명하다. 본 발명은 이하의 청구의 범위 또는 그 등가물에 의해 정해진 보호 범위 내에 있는 변형 및 수정을 망라하도록 의도된다.

도 1은 본 발명의 일실시예에 따른 피치 검색을 위한 방법에 대한 흐름도이다.

도 2는 본 발명의 다른 실시예에 따른 피치 검색을 위한 방법에 대한 흐름도이다.

도 3은 본 발명의 또 다른 실시예에 따른 피치 검색을 위한 방법에 대한 흐름도이다.

도 4는 본 발명의 또 다른 실시예에 따른 피치 검색을 위한 방법에 대한 흐름도이다.

도 5는 본 발명의 또 다른 실시예에 따른 피치 검색을 위한 방법에 대한 흐름도이다.

도 6은 본 발명의 일실시예에 따른 피치 검색을 위한 장치에 대한 개략도이다.

도 7은 본 발명의 다른 실시예에 따른 피치를 검색하기 위한 장치에 대한 개략도이다.

Claims

피치 검색 방법에 있어서,

잔여 신호들의 특성 함수값들을 획득하는 단계로, 사전 설정된 피치 범위 내의 각각의 피치에 대응하며 입력 음성 신호로부터 LTP(Long-Term Prediction) 기여 신호(contribution signal)를 제거한 결과인 상기 잔여 신호들을 계산하는 단계; 및 사전 설정된 피치 범위 내의 각각의 피치에 대응하는 상기 잔여 신호들의 특성 함수값들을 계산하는 단계를 포함하는 잔여 신호들의 특성 함수값들을 획득하는 단계; 및

계산된 상기 잔여 신호들의 상기 특성 함수값들 중 최소값을 선택하고 상기 최소값에 대응하는 피치를 상기 피치로서 설정하는 단계

를 포함하는 피치 검색 방법.
제1항에 있어서,

상기 잔여 신호의 특성 함수값을 획득하는 단계는,

상기 입력 음성 신호에 대한 타겟 윈도우를 설정하는 단계, 및

상기 타겟 윈도우에 둘러싸인 잔여 신호들의 특성 함수값들을 획득하는 단계

를 포함하는, 피치 검색 방법.
제2항에 있어서,

상기 입력 음성 신호에 대한 타겟 윈도우를 설정하는 단계는,

상기 입력 음성 신호에서 최대 진폭을 갖는 펄스를 검색하는 단계; 및

상기 펄스의 위치에 따라 상기 타겟 윈도우를 설정하는 단계

를 포함하는, 피치 검색 방법.
제1항에 있어서,

상기 잔여 신호들의 특성 함수값들을 획득하는 단계는,

전체 프레임의 상기 잔여 신호들의 특성 함수값들을 계산하는 단계를 더 포함하는, 피치 검색 방법.
제4항에 있어서,

상기 잔여 신호들의 특성 함수값들은 상기 잔여 신호 에너지값들 또는 상기 잔여 신호들의 절대값들의 합인, 피치 검색 방법.
제1항에 있어서,

상기 잔여 신호의 특성 함수값을 획득하는 단계 이전에,

상기 입력 음성 신호를 저대역 필터링 또는 다운-샘플링하는 단계를 더 포함하는, 피치 검색 방법.
제1항에 있어서,

상기 LTP 기여 신호는 LTP 여기 신호 및 피치 이득에 기초하여 결정되며, 상기 피치 이득은 고정값이거나 또는 상기 사전 설정된 피치 범위 내의 피치에 따라 적응적으로 결정되는 값인, 피치 검색 방법.
피치 검색 장치에 있어서,

잔여 신호들의 특성 함수값들을 획득하도록 구성된 특성값 획득 모듈(11)로서, 상기 잔여 신호들은 입력 음성 신호로부터 LTP 기여 신호를 제거한 결과이고, 사전 설정된 피치 범위 내의 각각의 피치에 대응하는 상기 잔여 신호들을 계산하도록 구성된 제1 계산 유닛, 및 각각의 피치에 대응하는 상기 잔여 신호들의 특성 함수값들을 계산하고 상기 특성 함수값들 중 최소값을 획득하도록 구성된 제2 계산 유닛을 포함하는 상기 특성값 획득 모듈(11); 및

상기 특성 함수값들 중 상기 최소값에 대응하는 피치를 상기 획득된 피치로서 사용하도록 구성된 피치 획득 모듈(12)

을 포함하는 피치 검색 장치.
제8항에 있어서,

상기 특성값 획득 모듈(11)은,

상기 입력 음성 신호에 대한 타겟 윈도우를 설정하도록 구성된 타겟 윈도우 유닛(13), 및

상기 타겟 윈도우 내의 잔여 신호의 특성값을 획득하도록 구성된 특성값 획득 유닛(14)

을 포함하는, 피치 검색 장치.
제9항에 있어서,

상기 입력 음성 신호에서 최대 진폭을 갖는 펄스를 검색하도록 구성된 검색 모듈(15)을 더 포함하며,

상기 타겟 윈도우 유닛(13)은 또한, 상기 입력 음성 신호 내에서 최대 진폭을 갖는 펄스의 위치에 따라 상기 타겟 윈도우를 설정하도록 구성된, 피치 검색 장치.
제9항에 있어서,

상기 특성값 획득 모듈(11)은,

전체 프레임의 상기 잔여 신호들의 특성 함수값들을 계산하도록 구성된,

피치 검색 장치.
제9항에 있어서,

입력 음성 신호에 대해 저대역 필터링 또는 다운-샘플링 처리를 수행하도록 구성된 사전 처리 모듈(16)을 더 포함하는, 피치 검색 장치.
컴퓨터로 판독가능한 저장 매체로서,

컴퓨터 프로세서에 의해 실행되는 때에 상기 컴퓨터 프로세서가 제1항 내지 제7항 중 어느 한 항에 따르는 단계들을 실행하도록 하는 컴퓨터 프로그램 코드를 포함하는 컴퓨터로 판독가능한 저장 매체.
삭제
삭제
삭제