[go: up one dir, main page]

JPH02226300A - Phoneme section information generating device - Google Patents

Phoneme section information generating device

Info

Publication number
JPH02226300A
JPH02226300A JP1046969A JP4696989A JPH02226300A JP H02226300 A JPH02226300 A JP H02226300A JP 1046969 A JP1046969 A JP 1046969A JP 4696989 A JP4696989 A JP 4696989A JP H02226300 A JPH02226300 A JP H02226300A
Authority
JP
Japan
Prior art keywords
phoneme
formant
parameter
point
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1046969A
Other languages
Japanese (ja)
Inventor
Makoto Akaha
誠 赤羽
Makoto Akune
誠 阿久根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP1046969A priority Critical patent/JPH02226300A/en
Publication of JPH02226300A publication Critical patent/JPH02226300A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To improve segmentation accuracy and to accurately detect the transition section of a vowel from a low-frequency voice which has small power variation by using a formant as a parameter for a phoneme section, finding variation in its time direction and extracting the border between a stationary part and a transient part as a feature point. CONSTITUTION:The voice signal from a microphone 1 is inputted to an A/D converting circuit 4 through an amplifier 2 and a low-pass filter 3 and converted into, for example, an 12-bit digital signal of 12.5kHz in sampling frequency, which is supplied to an acoustic analyzing means 5. The means 5 consists of a transient part detection parameter generating means 51 which has a band-pass filter bank, a logarithmic power detecting means 52, a zero-cross rate arithmetic means 53, a PARCOR coefficient arithmetic means 54, a power spectrum gradient arithmetic means 55, a format detecting means 56 and a voice basic cycle detecting means 57. Thus, the parameter obtained by the means 5 is supplied to a phoneme recognizing means 8 and respective parameters of the means 51 - 56 are supplied to the feature point detecting means 61 of a 1st segmentation means 6.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、音韻区間情報形成装置、特に入力音声の音
韻区間を分割するための音韻区間情報を形成する音韻区
間情報形成装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a phoneme segment information forming device, and more particularly to a phoneme segment information forming device for forming phoneme segment information for dividing a phoneme segment of input speech.

〔発明の概要〕[Summary of the invention]

この発明は、音韻区間情報形成装置において、入力音声
の音響分析を行い、音韻区間用パラメータとして、ホル
マントの時間方向の変化を求める音響分析手段と、ホル
マントの時間方向の変化について、定常部と、過渡部と
の境界を特徴点として抽出する手段と、特徴点の情報を
用いて音韻区間情報を求める手段とから構成したことに
より、セグメンテーションの精度を、より一層高めるこ
とができるようにしたものである。
In a phoneme interval information forming device, the present invention includes an acoustic analysis means that performs acoustic analysis of input speech and obtains changes in formants in the time direction as parameters for phoneme intervals; By comprising a means for extracting the boundary with the transitional part as a feature point, and a means for obtaining phoneme interval information using the information on the feature points, it is possible to further improve the accuracy of segmentation. be.

〔従来の技術〕[Conventional technology]

連続音声、大語霊音声認識の場合には、音韻認識が基本
となる。この音韻認識に当たっては、認識対象となる入
力音声を音韻区間毎に分割する、いわゆるセグメンテー
ションを行う必要がある。
In the case of continuous speech and large word speech recognition, phonological recognition is the basis. In this phoneme recognition, it is necessary to perform so-called segmentation, which divides the input speech to be recognized into phoneme sections.

例えば、[ス(SU)Jという語を発音した時、音声波
形は、子音「S」と、母音「U」とに音韻分割できる。
For example, when pronouncing the word [SU(SU)J], the speech waveform can be phonetically divided into a consonant "S" and a vowel "U".

このセグメンテーションの方法としては、従来から音声
のパワー或いはゼロクロスレートをスレッシュホールド
値と比較して分割点(区間境界)を求める方法がある。
As a method for this segmentation, there has conventionally been a method of comparing the voice power or zero-crossing rate with a threshold value to find division points (section boundaries).

しかしながら、このような方法で音韻区間のセグメンテ
ーションを正確に行うことは、スレッシュホールド値の
設定の難しさと相俟って困難であった。
However, it has been difficult to accurately segment phoneme intervals using such a method due to the difficulty in setting a threshold value.

そこで、本願出願人は、音韻区間のセグメンテーション
を正確に行うための技術を特願昭62−323307号
明細書にて提案している。
Therefore, the applicant of the present application has proposed a technique for accurately performing segmentation of phonetic intervals in Japanese Patent Application No. 62-323307.

〔発明が解決しようとする課題〕[Problem to be solved by the invention]

ところで音声認識に於いてホルマントは一般的に有用な
パラメータであることが知られている。
By the way, formant is generally known to be a useful parameter in speech recognition.

しかしながら、上述の先願の技術ではセグメンテーショ
ンを行うための音韻区間用パラメータとしてホルマント
を用いていないため、セグメンテーションを高い精度で
行えない場合があるという問題点があり、その改善が望
まれていた。
However, since the technique of the above-mentioned prior application does not use formants as a phoneme interval parameter for performing segmentation, there is a problem that segmentation may not be performed with high accuracy, and an improvement has been desired.

従ってこの発明の目的は、ホルマントを音韻区間用パラ
メータに加えることで、より正確なセグメンテーション
を行える音韻区間情報形成装置を提供することにある。
Therefore, an object of the present invention is to provide a phoneme segment information forming device that can perform more accurate segmentation by adding formants to phoneme segment parameters.

〔課題を解決するための手段〕 この発明は、入力音声の音響分析を行い、音萌区間用パ
ラメータとして、ホルマントの時間方向の変化を求める
音響分析手段と、ホルマントの時間方向の変化について
、定常部と、過渡部との境界を特徴点として抽出する手
段と、特徴点の情報を用いて音韻区間情報を求める手段
とからなる構成としている。
[Means for Solving the Problems] The present invention provides an acoustic analysis means that performs acoustic analysis of input speech and obtains changes in the formant in the time direction as a parameter for the sound interval, and a stationary The device is configured to include means for extracting the boundary between the transition region and the transition region as a feature point, and means for obtaining phoneme interval information using the information on the feature point.

〔作用〕[Effect]

入力音声の音響分析でホルマントの時間方向の変化を求
める。
Obtain temporal changes in formants by acoustic analysis of input speech.

次いで、ホルマントの時間方向の変化について、定常部
と、過渡部との境界を特徴点として抽出する。ホルマン
トの変化点が、従来のパラメータから求められる音韻境
界候補と略同じ位置に検出された時は、従来の音韻境界
候補をそのまま採用する。もし、ホルマントの変化点が
、従来のパラメータで検出されていない位置に検出され
た場合には、ホルマントの変化点を新たな音韻境界候補
として採用し、音韻境界特徴を付する。
Next, regarding the change in the formant in the time direction, the boundary between the stationary part and the transient part is extracted as a feature point. When a formant change point is detected at approximately the same position as a phoneme boundary candidate determined from conventional parameters, the conventional phoneme boundary candidate is used as is. If a formant change point is detected at a position that is not detected using conventional parameters, the formant change point is adopted as a new phoneme boundary candidate and a phoneme boundary feature is attached to it.

このように、ホルマントを音韻区間用パラメータとして
用いることで、−層、正確なセグメンテーションを行う
ことが可能となる。
In this way, by using the formant as a phoneme interval parameter, it is possible to perform accurate segmentation.

〔実施例〕〔Example〕

以下、この発明の一実施例について第1図乃至第5図を
参照して説明する。
An embodiment of the present invention will be described below with reference to FIGS. 1 to 5.

第1図は、この発明に係る音声認識、装置の例を示す。FIG. 1 shows an example of a speech recognition device according to the present invention.

マイクロホン1からの音声信号が、アンプ2及びロー・
パスフィルタ3を介して、A/D変換回路4に供給され
る。上述の音声信号は、A/D変換回路4にて、例えば
、12.5 K11zのサンプリング周波数で12ビツ
トのデジタル音声信号に変換される。
The audio signal from microphone 1 is sent to amplifier 2 and low
The signal is supplied to an A/D conversion circuit 4 via a pass filter 3. The above-mentioned audio signal is converted into a 12-bit digital audio signal by the A/D conversion circuit 4 at a sampling frequency of, for example, 12.5 K11z.

このデジタル音声信号は、音響分析手段5に供給される
This digital audio signal is supplied to acoustic analysis means 5.

音響分析手段5は、バンドパスフィルタバンクを有する
過渡検出パラメータ生成手段51と、音声パワーを検出
する対数パワー検出手段52と、ゼロクロスレート演算
手段53と、隣接サンプルの相関関係をみるための1次
のパーコール係数の演算手段54と、パワースペクトル
の傾きの演算手段55と、図示せぬもののバンドパスフ
ィルタバンクを有しホルマントの時間方向の変化を求め
るホルマント検出手段56と、音声の基本周期の検出手
段57を備える。
The acoustic analysis means 5 includes a transient detection parameter generation means 51 having a bandpass filter bank, a logarithmic power detection means 52 for detecting audio power, a zero cross rate calculation means 53, and a primary a calculating means 54 for calculating the Percoll coefficient, a calculating means 55 for calculating the slope of the power spectrum, a formant detecting means 56 having a band-pass filter bank (not shown) for determining changes in the formant in the time direction, and detecting the fundamental period of the voice. Means 57 is provided.

まず過渡検出パラメータの生成を説明する。First, generation of transient detection parameters will be explained.

過渡検出パラメータは、入力音声の過渡性及び定常性を
検出するためのもので、この過渡検出パラメータは、音
声スペクトルの変化量を各チ十ンネル(周波数)の時間
方向のブロック内の分散の和として定義される。即ち、
音声スペクトル5t(n)を周波数方向の以下に示す平
均値S avg (n)でゲインを正規化する。
The transient detection parameter is used to detect the transient nature and stationarity of the input audio, and this transient detection parameter is used to calculate the amount of change in the audio spectrum by the sum of the variance within the block in the time direction of each channel (frequency). is defined as That is,
The gain of the audio spectrum 5t(n) is normalized using the average value S avg (n) shown below in the frequency direction.

ここで、iはチャンネル番号、qはチャンネル数(バン
ドパスフィルタ数)を示す。また、qチヤンネルの各チ
ャンネルの情報は時間方向にサンプリングされるが、同
一時点のqチャンネルの情報のブロックをフレームとい
い、nは認識に使用されるフレームの番号を示している
Here, i indicates a channel number, and q indicates the number of channels (number of bandpass filters). Furthermore, although the information of each channel of the q channel is sampled in the time direction, a block of information of the q channel at the same time is called a frame, and n indicates the number of the frame used for recognition.

ゲイン正規化の行われた音声スペクトルS i (n)
は、 S i (n) −S i (n) −S avg (
n)−−−−−−−(2)となる。
Gain normalized speech spectrum S i (n)
is S i (n) −S i (n) −S avg (
n)------(2).

過渡検出パラメータT (n)は、そのフレームの前後
のHフレームの合計(2M+1)である〔n−門、n+
河〕ブロック内の各チャンネルの時間方向の分散の和と
して定義される。
The transient detection parameter T (n) is the sum of H frames before and after that frame (2M+1) [n-gate, n+
[river] is defined as the sum of the temporal variance of each channel within the block.

ここで、 であり、各チャンネルのブロック内の時間方向の平均値
である。
Here, is the average value in the time direction within the block of each channel.

実際的には、(n−M+n+M )ブロック中心付近の
変化は、音の揺らぎ或いはノイズを拾い易いので、過渡
検出パラメータT (n)の計算から取り除くことよし
、第(3)式は次のように変形される。
In practice, changes near the center of the (n-M+n+M) block tend to pick up sound fluctuations or noise, so they can be removed from the calculation of the transient detection parameter T (n), and equation (3) is as follows: transformed into.

T (n) = 2q(M−m+1) そして、第(5)式において、a=1、H=28、m=
3、q−32として過渡検出パラメータT(n)が求め
られる。例えば、[あさ(asa) Jという入力音声
の場合、第2図Aのような過渡検出パラメータT (n
)が得られる。
T (n) = 2q(M-m+1) And in equation (5), a=1, H=28, m=
3. The transient detection parameter T(n) is determined as q-32. For example, in the case of the input voice [morning (asa) J], the transient detection parameter T (n
) is obtained.

他のパラメータ、例えば、第2図Bに示される対数パワ
ー、第2図Cに示されるゼロクロスレート、第2図りに
示される1次のパーコール係数、第2図已に示されるパ
ワースペクトルの傾きの検出、第2図Hに示される基本
周期の傾きの検出等のパラメータの演算も、過渡検出パ
ラメータT(n)と同様に、成る時点(フレーム)を中
心としてその前後に門フレーム分の時間幅を有するライ
・−一一一・(5) ンドーを考え、このウィンドーを順次、1サンプル点ず
つ時間方向に移動させ、各ウィンドー内で夫々演算を行
うことにより得られる。尚、第2図F及びJには入力音
声[あさ(asa) Jの音声波形、第2図1にはホル
マントの遷移、そして第2図G及びKには上述のパラメ
ータに基づいて得られた音韻境界候補の例を示す。第2
図中、F及びJ、G及びKは、他のパラメータとの比較
の便宜上、同一内容のものを重複して示している。
Other parameters, such as the logarithmic power shown in Figure 2B, the zero crossing rate shown in Figure 2C, the first-order Percoll coefficient shown in Figure 2, and the slope of the power spectrum shown in Figure 2 Similarly to the transient detection parameter T(n), calculation of parameters such as detection and detection of the slope of the fundamental period shown in Fig. It is obtained by considering a line having a line -111 (5), sequentially moving this window one sample point at a time in the time direction, and performing calculations within each window. In addition, Fig. 2 F and J show the speech waveform of the input voice [asa J], Fig. 2 1 shows the formant transition, and Fig. 2 G and K show the waveform of the input voice [asa J], and Fig. 2 G and K show the waveform of the input voice [asa J]. An example of a phonological boundary candidate is shown below. Second
In the figure, F and J, G and K have the same content and are shown redundantly for convenience of comparison with other parameters.

次いで、パラメータとしてのホルマントの時間方向にお
ける変化の検出について説明する。
Next, detection of a change in formant as a parameter in the time direction will be described.

第3図に示される母音/a/の周波数スペクトルからホ
ルマントF1、F2、F3が抽出され、第4図及び第5
図に示されるようにホルマントの時間方向の変化が検出
され、パラメータとして出力される。尚、第4図には母
音/a/から母音/i/へ変化する際のホルマントの遷
移が示され、第5図には母音/a/から子音/m/を経
て母音/a/へ変化する際のホルマントの遷移が示され
ている。
Formants F1, F2, and F3 are extracted from the frequency spectrum of the vowel /a/ shown in FIG.
As shown in the figure, changes in the formant in the time direction are detected and output as parameters. Furthermore, Figure 4 shows the formant transition when the vowel /a/ changes to the vowel /i/, and Figure 5 shows the change from the vowel /a/ to the vowel /a/ via the consonant /m/. The formant transitions are shown.

音響分析手段5から得られた各パラメータは認識処理用
パラメータとして、音韻認識手段8に供給される。また
、手段51〜56から出力される各パラメータは、セグ
メンテーション用パラメータとして第1セグメンテーシ
ョン手段6の特徴点抽出手段61に供給される。
Each parameter obtained from the acoustic analysis means 5 is supplied to the phoneme recognition means 8 as recognition processing parameters. Further, each parameter outputted from the means 51 to 56 is supplied to the feature point extraction means 61 of the first segmentation means 6 as a parameter for segmentation.

第1セグメンテーション手段6では、七゛グメンテーシ
ョン用パラメータから音韻境界候補を求めるために、−
船釣な特徴点を抽出する。この例では、特徴点として次
の7種を用いる。
In the first segmentation means 6, -
Extract the characteristic points of boat fishing. In this example, the following seven types of feature points are used.

■立上がり点−平坦な部分から増加方向に変化する点 ■立下がり点−減少方向に変化した後、平坦になる部分
の点 ■増加変化点−増加率が変化する点 ■減少変化点−減少率が変化する点 ■ピーク点−ピークの位置 ■正のゼロクロス点−増加方向で零レベルと交差する点 ■負のゼロクロス点−減少方向で零レベルと交差する点 特徴点抽出手段61では、特徴点情報記憶手段62から
の特徴点情報を参照して各パラメータ毎に特徴点を抽出
する。
■ Rising point - the point where the flat part changes to an increasing direction ■ Falling point - the point where it changes to a decreasing direction and then becomes flat ■ Increased change point - the point where the rate of increase changes ■ Decrease change point - the decreasing rate ■ Peak point - the position of the peak ■ Positive zero crossing point - the point that intersects the zero level in the increasing direction ■ Negative zero crossing point - the point that intersects the zero level in the decreasing direction The feature point extraction means 61 extracts the feature points. The feature points are extracted for each parameter by referring to the feature point information from the information storage means 62.

filN区間用パラメータとしてのホルマントの変化点
を特徴点として抽出する例を、第4図及び第5図を参照
して説明する。尚、ホルマントの遷移は、以下のように
表記される。
An example of extracting a change point of formant as a parameter for a filN interval as a feature point will be described with reference to FIGS. 4 and 5. Note that the formant transition is expressed as follows.

(1)母音性の区間でホルマントの変化点が検出された
時 vowel−vowel、t  (母音の定常部からホ
ルマント変化の始まる点、以下、l−V、Tと略す)v
owel、t−vowel  (ホルマント変化が終了
し、定常部の始まる点、以下、V、T−Vと略す)(2
)子音性の区間でホルマントの変化点が検出された時 consonant−consonant、t  (子
音の定常部からホルマント変化の始まる点、以下、C−
C0Tと略す) consonant、t−consonant  (ホ
ルマント変化が終了し、子音の定常部の始まる点、以下
、C,TCと略す) 第4図に於いて、時点tO〜t1の間ではホルマントF
l〜F3の周波数には殆ど変化がなく定常部と判断され
る。
(1) When a point of change in formant is detected in a vowel interval, vowel-vowel, t (point where formant change starts from the stationary part of the vowel, hereinafter abbreviated as l-V, T) v
owel, t-vowel (the point where the formant change ends and the stationary region begins, hereinafter abbreviated as V, T-V) (2
) When a point of change in formant is detected in a consonant interval, consonant-consonant, t (The point at which formant change starts from the stationary part of a consonant, hereinafter referred to as C-
(abbreviated as C0T) consonant, t-consonant (The point where the formant change ends and the constant part of the consonant begins, hereinafter abbreviated as C, TC) In Figure 4, between time tO and t1, formant F
There is almost no change in the frequencies 1 to F3, and the frequencies are determined to be in a steady state.

時点t1を経過すると、ホルマン)F2の周波数が上昇
し、ホルマン1−Flの周波数が下降する。
After time t1, the frequency of Holman F2 increases and the frequency of Holman 1-Fl decreases.

従って、時点t1に於けるホルマン1−F2、Flの周
波数が変化点PFIO,PP20と判断される。この変
化点PFIO1PF20は前述の表記に基づいてV−V
Therefore, the frequencies of Holman 1-F2 and Fl at time t1 are determined to be change points PFIO and PP20. This change point PFIO1PF20 is V-V based on the above notation.
.

Tと表記される。この状態は時点t1〜t2の間継続す
る。従って、時点t1〜t2の期間は、過渡部と判断さ
れる。
It is written as T. This state continues between time points t1 and t2. Therefore, the period from time t1 to t2 is determined to be a transition period.

時点t2を経過すると、ホルマントF2、Flの周波数
が安定する。従って、時点t2に於けるホルマントF2
、Flの周波数が変化点PFII、PP21と判断され
る。この変化点PFII、PP21は前述の表記に基づ
いてV、T−Vと表記される。この状態は時点t2以後
、継続する。従って、時点t2以後は定常部と判断され
る。
After time t2, the frequencies of formants F2 and Fl become stable. Therefore, formant F2 at time t2
, Fl is determined to be the changing point PFII, PP21. These change points PFII and PP21 are written as V and TV based on the above-mentioned notation. This state continues after time t2. Therefore, the period after time t2 is determined to be a steady portion.

次いで、第5図に於いて、時点10〜時点tlO間では
ホルマント、F 1、F2の周波数には変化が殆どなく
定常部と判断される。
Next, in FIG. 5, there is almost no change in the frequencies of the formants, F1, and F2 between time point 10 and time point tlO, and it is determined that this is a stationary region.

時点t1を経過すると、ホルマン)F2の周波数が上昇
し、ホルマン)Flの周波数が下降する。
After time t1, the frequency of Holman) F2 increases and the frequency of Holman) Fl decreases.

従って、時点t1′に於けるホルマントF2、Flの周
波数が変化点PFIO1PF20と判断される。この状
態は時点t1〜t2の間継続する。従って、時点tl〜
t2の間は過渡部と判断される。
Therefore, the frequencies of formants F2 and Fl at time t1' are determined to be the change point PFIO1PF20. This state continues between time points t1 and t2. Therefore, time tl~
The period t2 is determined to be a transition period.

時点t2を経過すると子音性の区間に入り、ホルマント
F1に対応する低域の周波数にパワーの集中する傾向が
見られ、子音/m/の定常部であることが判る。従って
、時点t2に於けるホルマントF2、Flの周波数が変
化点PFII、PP21と判断される。この変化点pp
i1、PP21は前述の表記に基づい、て、C,T−C
と表記される。この状態は時点t2〜t3まで継続する
。従って、時点t2〜L3の間は子音の定常部と判断さ
れる。
After time t2, it enters a consonant period, and there is a tendency for power to concentrate in the low frequency range corresponding to formant F1, indicating that this is the stationary part of the consonant /m/. Therefore, the frequencies of formants F2 and Fl at time t2 are determined to be change points PFII and PP21. This change point pp.
Based on the above notation, i1 and PP21 are C, T-C
It is written as This state continues from time t2 to time t3. Therefore, the period from time t2 to L3 is determined to be the constant part of the consonant.

時点t3を経過すると、ホルマン)F2の周波数が下降
し、ホルマン)Flの周波数が上昇する。
After time t3, the frequency of Holman) F2 decreases and the frequency of Holman) Fl increases.

従って、時点t3におけるホルマン)F2、Flの周波
数が変化点PF12、PP22と判断される。この状態
は時点t3〜t4の間継続する。従って、時点t3〜t
4の間は過渡部と判断される。この変化点PF12、P
P22は上述の表記に基づいて、C−C0Tと表記され
る。
Therefore, the frequencies of Holman's F2 and Fl at time t3 are determined to be change points PF12 and PP22. This state continues between time points t3 and t4. Therefore, time t3 to t
The period between 4 and 4 is determined to be a transition section. This change point PF12, P
P22 is written as C-COT based on the above-mentioned notation.

時点t4を経過すると、ホルマン)F2、Flの周波数
が安定する。従って、時点t4に於けるホルマントF2
、Flの周波数が変化点PF13、PP23と判断され
る。この状態は時点t4以後、継続する。
After time t4, the frequencies of Holman) F2 and Fl become stable. Therefore, formant F2 at time t4
, Fl are determined to be changing points PF13 and PP23. This state continues after time t4.

従って、時点t4以後は定常部と判断される。Therefore, the period after time t4 is determined to be a steady portion.

第2図1には、このようにして検出されるホルマントF
1〜F4の変化点が示されている。
FIG. 2 shows the formant F detected in this way.
Change points from 1 to F4 are shown.

このように、ホルマントを音韻区間用パラメータとし、
特徴点を抽出できるので、より精度の高いセグメンテー
ションが可能となる。
In this way, formant is used as a parameter for phoneme interval,
Since feature points can be extracted, more accurate segmentation is possible.

第2図A−B、Iの各パラメータ中、時間軸方向に縦線
で示す位置が各特徴点の位置である。
Among the parameters shown in FIGS. 2A-B and I, the positions indicated by vertical lines in the time axis direction are the positions of each feature point.

第1セグメンテーション手段6から得られ、特徴点の付
された各パラメータは、第2セグメンテーション手段7
に供給される。
Each parameter obtained from the first segmentation means 6 and to which feature points are attached is transmitted to the second segmentation means 7
is supplied to

第2セグメンテーション手段7は、特徴点統合処理手段
71と、音韻境界特徴検出手段72と、特徴点統合情報
記憶手段73と、音韻境界特徴情報記憶手段74とから
なる。
The second segmentation means 7 includes a feature point integration processing means 71, a phoneme boundary feature detection means 72, a feature point integration information storage means 73, and a phoneme boundary feature information storage means 74.

第1セグメンテーション手段6で求めた特徴点はパラメ
ータ毎に位置ズレ、未検出等があるので、特徴点統合処
理手段71にて、特徴点統合情報記憶手段73からの特
徴点統合情報を参照して各パラメータの特徴点をまとめ
音韻境界候補を決定する。尚、特徴点統合情報は、どの
パラメータの特徴点を優先するかについての情報である
Since the feature points obtained by the first segmentation means 6 have positional deviations, undetected points, etc. for each parameter, the feature point integration processing means 71 refers to the feature point integration information from the feature point integration information storage means 73. The feature points of each parameter are summarized to determine phoneme boundary candidates. Note that the feature point integration information is information about which parameter's feature point should be prioritized.

特徴点統合処理手段71では、ホルマントの検出で得ら
れた変化点PFが他のパラメータで得られた音韻境界候
補と略同じ位置に検出された時には、他のパラメータで
得られた音韻境界候補を採用する。一方、ホルマントの
検出で得られた変化点PFが、他のパラメータからは検
出されていない音韻境界候補である時は、ホルマントか
ら得られた変化点PFを新たな音韻境界候補として採用
し、セグメンテーションを行う。
When a change point PF obtained by formant detection is detected at approximately the same position as a phoneme boundary candidate obtained using other parameters, the feature point integration processing means 71 uses the phoneme boundary candidate obtained using other parameters. adopt. On the other hand, when the change point PF obtained by formant detection is a phonological boundary candidate that has not been detected from other parameters, the change point PF obtained from the formant is adopted as a new phonological boundary candidate, and segmentation I do.

音韻境界特徴検出手段74では、各音韻境界候補の音韻
境界特徴を求める。この例では音韻境界特徴として、次
の12種類が用いられている。
The phoneme boundary feature detection means 74 determines the phoneme boundary feature of each phoneme boundary candidate. In this example, the following 12 types of phoneme boundary features are used.

■無音からの立上がり(S−R) ■子音性→母音性(C−V) ■母音性→母音性(V−V) ■母音性→母音の過渡部(V−V、T)■母音の過渡部
→子音性(V、T−C)■子音性→母音の過渡部(C−
V、T)■母音の過渡部→母音性(V、T−V)■無音
への立下がり(F−3) [相]有音→無音(S−S) [相]子音性→子音性(C−C) ■子音性→子音の過渡部(C−C,T)@子音の過渡部
→子音性(C,T−C)音韻境界特徴情報記憶手段74
には、これら12種類の音韻境界特徴情報が記憶されて
おり、音韻境界特徴検出手段72では、音韻境界特徴情
報記憶手段74からの情報を参照して各音韻境界候補の
音韻境界特徴を検出する。この結果、第2図G、Kに示
されるように、上述の■〜■の9種類の音韻境界特徴が
、■〜■の順序にて音韻境界候補の縦線の近傍に示され
ている。
■ Rise from silence (S-R) ■ Consonantity → Vowelness (C-V) ■ Vowelness → Vowelness (V-V) ■ Vowelness → Vowel transition (V-V, T) ■ Vowelness Transitional part → Consonantity (V, T-C) ■ Consonantity → Vowel transitional part (C-
V, T) ■Transitional part of vowel → vowel character (V, T-V) ■Falling to silence (F-3) [Phase] Sound → Silence (S-S) [Phase] Consonant character → Consonant character (C-C) ■Consonantity → Consonant transition part (C-C, T) @ Consonant transition part → Consonantity (C, T-C) Phonological boundary feature information storage means 74
These 12 types of phoneme boundary feature information are stored in , and the phoneme boundary feature detection means 72 detects the phoneme boundary feature of each phoneme boundary candidate by referring to the information from the phoneme boundary feature information storage means 74. . As a result, as shown in FIGS. 2G and 2K, the above-mentioned nine types of phoneme boundary features (■ to ■) are shown in the order of ■ to ■ in the vicinity of the vertical line of the phoneme boundary candidate.

第2セグメンテーション手段7からは、音韻区間情報と
して、音韻境界候補情報と、その音韻境界特徴情報が得
られる。そして、この音韻区間情報が音韻認識手段8に
供給される。
The second segmentation means 7 obtains phoneme boundary candidate information and its phoneme boundary feature information as phoneme interval information. This phoneme segment information is then supplied to the phoneme recognition means 8.

音韻認識手段8では、音響分析手段5からの各パラメー
タを認識処理用パラメータとして、第2セグメンテーシ
ョン手段7からの音韻区間情報を参照しながら音韻認識
を実行する。これによって、例えば、第2図F、Jに示
されるように各音韻区間の音韻認識が行われ、その結果
が表示される。
The phoneme recognition means 8 uses the parameters from the acoustic analysis means 5 as parameters for recognition processing, and executes phoneme recognition while referring to the phoneme interval information from the second segmentation means 7. As a result, phoneme recognition for each phoneme section is performed, for example, as shown in FIGS. 2F and 2J, and the results are displayed.

この音韻区間の表記は以下のような意味とされる。The notation of this phonetic interval has the following meaning.

(1)−(a)母音/a/の定常部 (2)−(as)母音/a/の子音/s/への遷移部(
3)−(s)摩擦子音へ/の定常部 (4)−(sa)母音/a/の子音/s/からの遷移部
(5)−(a)母音/a/の定常部 そして、音韻認識手段8からは、認識された音韻記号が
得られ、これが後段の連続音声、大語案音声認識手段に
供給される。
(1) - (a) Constant part of vowel /a/ (2) - (as) Transition part of vowel /a/ to consonant /s/ (
3) - (s) Constant part of / to fricative consonant (4) - (sa) Transition part of vowel /a/ from consonant /s/ (5) - (a) Stationary part of vowel /a/ and phoneme Recognized phonetic symbols are obtained from the recognition means 8, and are supplied to continuous speech and large word speech recognition means at the subsequent stage.

このように、ホルマントを音韻区間用パラメータとし、
特徴点を抽出しているので、ホルマントの遷移から音韻
境界候補情報、音韻境界特徴情報を抽出でき、ホルマン
トがゆっくりと変化している半母音の音韻区間を正確に
検出でき、また、パワー変化の少ない母音から母音の遷
移区間を、正確に検出することができる。
In this way, formant is used as a parameter for phoneme interval,
Since feature points are extracted, phonological boundary candidate information and phonological boundary feature information can be extracted from formant transitions, and it is possible to accurately detect phonological intervals of semi-vowels where the formant changes slowly. It is possible to accurately detect vowel-to-vowel transition sections.

この実施例では、ハードウェアで構成する例について説
明しているが、第1、第2セグメンテーション手段6.
7、音響分析手段5の演算部分、音韻認識手段8等はコ
ンピュータにより実現してもよい。
In this embodiment, an example is explained in which the hardware is used, but the first and second segmentation means 6.
7. The calculation part of the acoustic analysis means 5, the phoneme recognition means 8, etc. may be realized by a computer.

〔発明の効果〕〔Effect of the invention〕

この発明によれば、音韻区間用パラメータとしてホルマ
ントを用い、ホルマントの時間方向の変化を求め、定常
部と過渡部の境界を特徴点として抽出しているので、セ
グメンテーションの精[−1より一層高くできるという
効果がある。また、ホルマントがゆっくりと変化してい
る半母音〔や、ゆ、よ、きゃ等〕の音韻区間を正確に検
出でき、音韻認識率を向上させることができるという効
果がある。更に、パワー変化の少ない母音から母音の遷
移区間を、正確に検出することができ、母音連鎖の認識
率を向上させることができるという効果がある。
According to this invention, the formant is used as a parameter for phoneme interval, the change in the formant in the time direction is obtained, and the boundary between the stationary part and the transient part is extracted as a feature point, so the segmentation accuracy is higher than [-1]. There is an effect that it can be done. Furthermore, it is possible to accurately detect phonetic intervals of semi-vowels (such as ya, yu, yo, kya, etc.) whose formants are slowly changing, thereby improving the phoneme recognition rate. Furthermore, it is possible to accurately detect a vowel-to-vowel transition section with little power change, and it is possible to improve the recognition rate of vowel chains.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図はこの発明の一実施例を示すブロック図、第2図
は夫々実施例を説明するための波形図、第3はホルマン
トを示す説明図、第4図及び第5図は夫々ホルマント遷
移を示す説明図である。 図面における主要な符号の説明 5:音響分析手段、56:ホルマント検出手段、6:第
1セグメンテーション手段、7:第2セグメンテーショ
ン手段。 属 堀クー− ¥− bノ 手続補正書(ヵ式、 平成 元年 6月 辺1 特許庁長官 吉 1)文 毅 殿 1、事件の表示 平成1年特許願第46969号 2、発明の名称 音韻区間情報形成装置 3、補正をする者 事件との関係  特許出願人 住所 東京部品用区北品用6丁目7番35号名称(21
8)ソ ニー株式会社 代表取締役  大 賀 典 雄 4、代理人 〒170 住所 東京都豊島区東池袋1丁目48番10号平成1年
5月30日(発送臼) 6、補正の対象 明細書の図面の簡単な説明の欄 7、補正の内容 明細書中箱19頁第11行目から第12行目にかけて、
「第3はホルマント」とあるを、[第3図はホルマント
」と補正する。
Fig. 1 is a block diagram showing an embodiment of the present invention, Fig. 2 is a waveform diagram for explaining each embodiment, Fig. 3 is an explanatory diagram showing formants, and Figs. 4 and 5 are formant transitions, respectively. FIG. Explanation of main symbols in the drawings 5: acoustic analysis means, 56: formant detection means, 6: first segmentation means, 7: second segmentation means. Procedural amendment written by Ku-yen-b (Ka-style, June 1989, 1) Commissioner of the Patent Office Yoshi 1) Takeshi Moon 1, Indication of the case 1999 Patent Application No. 46969 2, Name of the invention Phonology Section information forming device 3, relationship with the case of the person making the amendment Patent applicant address 6-7-35, Kitashina, Tokyo Parts Store Name (21
8) Sony Corporation Representative Director Norio Ohga 4, Agent 170 Address 1-48-10 Higashiikebukuro, Toshima-ku, Tokyo May 30, 1999 (Delivery) 6. Drawings of the specification subject to amendment From column 7 for a brief explanation of the amendment, from line 11 to line 12 on page 19 of the statement of contents of the amendment,
The phrase "The third figure is a formant" should be corrected to read "The third figure is a formant."

Claims (1)

【特許請求の範囲】 入力音声の音響分析を行い、音韻区間用パラメータとし
て、ホルマントの時間方向の変化を求める音響分析手段
と、 上記ホルマントの時間方向の変化について、定常部と、
過渡部との境界を特徴点として抽出する手段と、 上記特徴点の情報を用いて音韻区間情報を求める手段と
からなる音韻区間情報形成装置。
[Scope of Claims] Acoustic analysis means that performs acoustic analysis of input speech and obtains changes in formants in the time direction as parameters for phoneme intervals;
A phoneme interval information forming device comprising means for extracting a boundary with a transitional part as a feature point, and means for obtaining phoneme interval information using information on the feature point.
JP1046969A 1989-02-28 1989-02-28 Phoneme section information generating device Pending JPH02226300A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1046969A JPH02226300A (en) 1989-02-28 1989-02-28 Phoneme section information generating device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1046969A JPH02226300A (en) 1989-02-28 1989-02-28 Phoneme section information generating device

Publications (1)

Publication Number Publication Date
JPH02226300A true JPH02226300A (en) 1990-09-07

Family

ID=12762091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1046969A Pending JPH02226300A (en) 1989-02-28 1989-02-28 Phoneme section information generating device

Country Status (1)

Country Link
JP (1) JPH02226300A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002221977A (en) * 2001-01-24 2002-08-09 Honda Motor Co Ltd Signal analyzer
JP2003527632A (en) * 2000-03-15 2003-09-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Laguerre function for audio coding

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003527632A (en) * 2000-03-15 2003-09-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Laguerre function for audio coding
JP2002221977A (en) * 2001-01-24 2002-08-09 Honda Motor Co Ltd Signal analyzer

Similar Documents

Publication Publication Date Title
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
US20200160839A1 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
JPH08263097A (en) Method for recognition of word of speech and system for discrimination of word of speech
D’ALESSANDRO et al. Glottal closure instant and voice source analysis using time-scale lines of maximum amplitude
CN108682432B (en) Voice emotion recognition device
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
Lee et al. Variable time-scale modification of speech using transient information
Hoang et al. Blind phone segmentation based on spectral change detection using Legendre polynomial approximation
Cherif et al. Pitch detection and formant analysis of Arabic speech processing
CN113436649B (en) Voice emotion calibration auxiliary method and system
Jayasankar et al. Automatic continuous speech segmentation to improve Tamil text-to-speech synthesis
JPH02226300A (en) Phoneme section information generating device
Saratxaga et al. Using harmonic phase information to improve ASR rate.
Laskowski et al. A Snack Implementation and Tcl/Tk Interface to the Fundamental Frequency Variation Spectrum Algorithm.
JPS5972500A (en) Voice recognition system
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
Pawi et al. Pitch extraction using modified higher order moments
JP2664136B2 (en) Voice recognition device
Sharma Implementation of ZCR and STE techniques for the detection of the voiced and unvoiced signals in Continuous Punjabi Speech
Undhad et al. Exploiting speech source information for vowel landmark detection for low resource language
Zbancioc et al. Integrated system for prosodic features detection from speech
JP3049711B2 (en) Audio processing device
Reddy et al. Neutral to joyous happy emotion conversion
Wakita New methods of analysis in speech acoustics
Drugman et al. Speech polarity determination: A comparative evaluation