CN105096955A

CN105096955A - 一种基于模型生长聚类的说话人快速识别方法及系统

Info

Publication number: CN105096955A
Application number: CN201510563935.5A
Authority: CN
Inventors: 张晶; 陈晓梅; 郑党
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2015-09-06
Filing date: 2015-09-06
Publication date: 2015-11-25
Anticipated expiration: 2035-09-06
Also published as: CN105096955B

Abstract

本发明公开一种基于模型生长聚类的说话人快速识别方法及系统，所述方法包括模型训练和模型识别，模型训练包括采集包括说话人在内的多人的声纹信号；对各声纹信号进行预处理并提取声纹特征参数，形成多个模型；采用模型生长聚类算法对所有的模型进行自适应归类；模型识别包括采集说话人的语音信号进行预处理并提取声纹特征参数，计算待识别语音信号的特征参数到各类代表的似然度，以似然度最大原则选择所属的类，进而与选择的类中所有模型计算似然得分，得分最高的模型即为识别结果。本发明方法无需将待识别语音特征与所有模型进行匹配，因此匹配时间短、实时性好，能够很好地适应大规模的模型库。

Description

一种基于模型生长聚类的说话人快速识别方法及系统

技术领域

本发明涉及声纹识别领域，更具体地，涉及一种基于模型生长聚类的说话人快速识别方法及系统。

背景技术

在嵌入式操作系统中通过语音实现说话人身份的辨认，通常需要对输入的声纹进行预处理，将数据传输到服务器，进而生成声纹模型，模型匹配，最后输出并显示结果。其中，声纹模型引用了混合高斯模型(GMM)，该模型的训练采用了EM算法。一般可以用λ＝(ω,μ,Σ)三元组来简洁的表示一个混合高斯模型。混合高斯模型采用多个高斯模型的加权组合来描述一个说话人的语音模型，采用局部期望最大值算法EM来不断更新系统参数，从而得到语音的近似数学统计模型GMM。吴朝晖、杨莹春编著的《说话人识别模型与方法》一书对GMM和EM算法做了详尽的描述。传统的识别方法需要将待识别语音特征与模型库中所有模型进行匹配，一旦模型库规模变大，匹配所需时间就越来越长，从而导致识别缓慢甚至引发系统奔溃，系统的实时性无法得到保障。

发明内容

本发明旨在至少在一定程度上解决上述技术问题。

本发明的首要目的是克服上述现有技术所述的匹配时间长、实时性差的缺陷，提供一种匹配时间短、实时性好的基于模型生长聚类的说话人快速识别方法。

本发明的进一步目的是提供一种匹配时间短、实时性好的基于模型生长聚类的说话人快速识别系统。

为解决上述技术问题，本发明的技术方案如下：

一种基于模型生长聚类的说话人快速识别方法，包括模型训练和模型识别；

模型训练包括以下步骤：

S1：采集包括说话人在内的多人的声纹信号；

S2：对各声纹信号进行预处理，其预处理过程依次包括预加重、分帧、加窗和端点检测；

S3：对各声纹信号进行声纹特征参数提取，形成多个模型；

S4：采用模型生长聚类算法对所有的模型进行自适应归类，自适应归类过程包括初始化类代表、类代表审定、类代表推举；

模型识别包括以下步骤：

S5：采集说话人的语音信号，即为待识别的语音信号；

S6：对待识别的语音信号进行预处理并提取声纹特征参数；

S7：计算待识别语音信号的特征参数到各类代表的似然度，以似然度最大原则选择所属的类，进而与选择的类中所有模型计算似然得分，得分最高的模型即为识别结果。

在一种优选的方案中，步骤S2中，对各声纹信号进行预处理具体包括以下步骤：

S2.1：预加重，在预加重过程中，声纹信号通过滤波器搬移到合适的频段，

传递函数为：H(z)＝1-0.9375z^-1，

得到的信号为：

\tilde{S} (n) = S (n) - 0.9375 S (n - 1);

S2.2：分帧，以10～20ms为间隔将声纹信号分为若干帧，一帧为一个基本单位；声纹信号是瞬时变化的，但在10～20ms内是相对稳定的，所以可以把这段相对稳定时间内的声纹信号看作一个基本单位——帧。

S2.3：加窗，为了避免矩形窗化时对LPC系数(线性预测系数)在端点的误差，采用了汉明窗函数来进行窗化，即：其中：

w (n) = 0.54 - 0.46 (\frac{2 π n}{N - 1}), 0 \leq n \leq N - 1;

S2.4：端点检测，通过声纹信号的短时能量系数和短时过零率系数来检测端点，这两个系数的公式如下：

短时能量系数：

e (i) = Σ_{n = 1}^{N} | x_{i} (n) |,

短时过零率系数：

Z C R (i) = Σ_{n = 1}^{N - 1} | x_{i} (n) - x_{i} (n + 1) | .

端点检测目的是检测有无声纹信号的存在，即从包含声纹的一段信号中确定出声纹的起点和终止点。有效的端点检测不仅能使处理时间减到最小，而且能排除无声段的噪声干扰，从而使识别系统具有良好的识别性能。

在一种优选的方案中，步骤S3中，所述特征参数为MFCC(梅尔频率倒谱系数)特征参数，对各声纹信号进行声纹特征参数提取，具体包括以下步骤：

S3.1：对声纹信号进行快速傅里叶变换获取能量频谱；

S3.2：将能量频谱乘以一组N个三角带通滤波器，求得每一个滤波器输出的对数能量(LogEnergy)E_k，所述的N个三角带通滤波器在梅尔频率(MelFrequency)上是平均分布的，梅尔频率mel(f)和一般频率f的关系式为：

mel(f)＝2595*log10(1+f/700)；

S3.3：将得到的N个对数能量E_k带入离散余弦转换(DCT)，求出L阶的Mel-scaleCepstrum参数，得到L个倒频谱参数，L的值取12，离散余弦转换公式如下：

C_m＝Ncos[m*(k-0.5)*p/N]*E_k，m＝1,2,...,L；

S3.4：提取声纹信号一个帧的对数能量，一个帧的对数能量定义为一个帧内讯号的平方和，再取以10为底的对数值，再乘以10，一个帧的能量也是声纹的重要特征，因此再加上一个帧的对数能量，使得每一个帧基本的声纹特征就有13维，包含了1个对数能量和12个倒频谱参数；

S3.5：提取声纹信号的差量倒频谱参数(Deltacepstrum)，差量倒频谱参数表示倒频谱参数相对于时间的斜率，虽然已经求出13个特征参数，然而在实际应用于声纹辨识时，再加上差量倒频谱参数，以显示倒频谱参数对时间的变化，它的意义为倒频谱参数相对于时间的斜率，也就是代表倒频谱参数在时间上的动态变化，公式如下：

&dtri; C_{m} (t) = \frac{Σ_{τ = - M}^{M} τ \cdot C_{m} (t + τ)}{Σ_{τ = - M}^{M} τ^{2}} = \frac{Σ_{τ = 1}^{M} τ \cdot C_{m} (t + τ) - C_{m} (t - τ))}{2 \cdot Σ_{τ = 1}^{M} τ^{2}}, m = 1, 2, ... L

这里M的值取2或3，t代表帧的数目，C_m(t)指第t个帧的倒频谱参数。

在一种优选的方案中，步骤S4中，采用模型生长聚类算法对所有的模型进行自适应归类的具体方法包括以下步骤：

S4.1：初始化类代表：

从所有模型中随机选择一个模型作为第一个初始类代表R0；

依次计算剩余模型到R0的近似熵D，直至D>θ，则将该模型任命为第二个初始类代表R1，此时类代表集A0＝{R0,R1}，其中θ为预设的阈值；

分别计算其余模型到R0和R1的近似熵，若都大于θ则任命为第三个初始类代表R2，如此反复，直至获得k个类代表，k为预设的类的数目，即A0＝{R0,R1……Rk-1}，类代表初始化完成；

初始类代表的取值直接影响到聚类算法的效率，本发明的初始类代表满足以下两个条件：初始类代表由模型集合直接或间接产生，初始类代表两两之间的相似度需大于设定的阈值θ。

S4.2：类代表审定：

由于初始类代表的聚类结果往往无法满足类成员的限制，因此需要对类代表进行审定来取消类代表或产生新的类代表。

计算成员数γ大于γ_max的类ω中所有成员的模型密度值并按从大到小的顺序排列，密度值最大的成员直接任命为新的类代表，然后依照步骤S4.1中初始化类代表的方法生成γ_new个新的类代表,γ_new的取值范围由下式确定：

1 \leq γ_{n e w} \leq \frac{γ}{γ_{m a x}}

依次审定所有的类代表，并重新归类，直至无类代表更新；

S4.3：类代表推举：

聚类后所有模型分为k个类，此时将各类模型的特征重新训练得到类GMM(高斯混合模型)模型作为该类的类代表；该GMM由类中所有模型推举得到，具有更准确的代表性。

一种基于模型生长聚类的说话人快速识别系统，包括：客户端、网络连接模块和服务端，客户端和服务端通过网络连接模块连接；

客户端包括：

声纹采集模块：用于采集包括说话人在内的多人的声纹信号并输出到预处理模块；

服务端包括：

预处理模块：包括顺次连接的预加重单元、分帧处理单元、窗化处理单元和端点检测单元，用于依次对声纹信号进行预加重、分帧、加窗和端点检测，然后将声纹信号通过网络连接模块传输到服务器端；

声纹特征提取模块：对各声纹信号进行声纹特征参数提取，形成多个模型；

自适应归类模块：用于采用模型生长聚类算法对所有的模型进行自适应归类，自适应归类过程包括初始化类代表、类代表审定、类代表推举；

声纹识别模块：用于计算待识别语音信号的特征参数到各类代表的似然度，以似然度最大原则选择所属的类，进而与选择的类中所有模型计算似然得分，得分最高的模型即为识别结果。

在一种优选的方案中，服务器端同时接收多个客户端的识别请求，服务器端为每个识别请求新建1个线程，并通过无线网络对用户的识别请求作出应答。

在一种优选的方案中，所述客户端为Android客户端，

与现有技术相比，本发明技术方案的有益效果是：本发明公开一种基于模型生长聚类的说话人快速识别方法，模型训练包括采集包括说话人在内的多人的声纹信号；对各声纹信号进行预处理并提取声纹特征参数，形成多个模型；采用模型生长聚类算法对所有的模型进行自适应归类；模型识别包括采集说话人的语音信号进行预处理并提取声纹特征参数，计算待识别语音信号的特征参数到各类代表的似然度，以似然度最大原则选择所属的类，进而与选择的类中所有模型计算似然得分，得分最高的模型即为识别结果。本发明方法无需将待识别语音特征与所有模型进行匹配，因此匹配时间短、实时性好，能够很好地适应大规模的模型库。

本发明还公开一种基于模型生长聚类的说话人快速识别系统，所述系统是上述方法实现的硬件基础，所述方法与系统结合能够实现了快速、实时的说话人识别。

附图说明

图1为基于模型生长聚类的说话人快速识别方法的流程图。

图2为自适应归类的流程图。

图3为基于模型生长聚类的说话人快速识别系统的示意图。

图4为基于模型生长聚类的说话人快速识别系统的功能示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于模型生长聚类的说话人快速识别方法，包括模型训练和模型识别；

模型训练包括以下步骤：

S1：采集包括说话人在内的多人的声纹信号，即语音信号；

S2：对各声纹信号进行预处理和降噪处理，其预处理过程依次包括预加重、分帧、加窗和端点检测；

在具体实施过程中，步骤S2中，对各声纹信号进行预处理具体包括以下步骤：

传递函数为：H(z)＝1-0.9375z^-1，

得到的信号为：

\tilde{S} (n) = S (n) - 0.9375 S (n - 1);

S2.3：加窗，为了避免矩形窗化时对LPC系数在端点的误差，采用了汉明窗函数来进行窗化，即：其中：

w (n) = 0.54 - 0.46 (\frac{2 π n}{N - 1}), 0 \leq n \leq N - 1;

短时能量系数：

e (i) = Σ_{n = 1}^{N} | x_{i} (n) |,

短时过零率系数：

Z C R (i) = Σ_{n = 1}^{N - 1} | x_{i} (n) - x_{i} (n + 1) | .

S3：对各声纹信号进行声纹特征参数提取，形成多个模型；

在具体实施过程中，步骤S3中，所述特征参数为MFCC特征参数，对各声纹信号进行声纹特征参数提取，具体包括以下步骤：

S3.1：对声纹信号进行快速傅里叶变换获取能量频谱；

S3.2：将能量频谱乘以一组N个三角带通滤波器，求得每一个滤波器输出的对数能量E_k，所述的N个三角带通滤波器在梅尔频率上是平均分布的，梅尔频率mel(f)和一般频率f的关系式为：mel(f)＝2595*log10(1+f/700)；

S3.3：将得到的N个对数能量E_k带入离散余弦转换，求出L阶的Mel-scaleCepstrum参数，得到L个倒频谱参数，L的值取12，离散余弦转换公式如下：

C_m＝Ncos[m*(k-0.5)*p/N]*E_k，m＝1,2,...,L；

S3.5：提取声纹信号的差量倒频谱参数，差量倒频谱参数表示倒频谱参数相对于时间的斜率，虽然已经求出13个特征参数，然而在实际应用于声纹辨识时，再加上差量倒频谱参数，以显示倒频谱参数对时间的变化，它的意义为倒频谱参数相对于时间的斜率，也就是代表倒频谱参数在时间上的动态变化，公式如下：

&dtri; C_{m} (t) = \frac{Σ_{τ = - M}^{M} τ \cdot C_{m} (t + τ)}{Σ_{τ = - M}^{M} τ^{2}} = \frac{Σ_{τ = 1}^{M} τ \cdot C_{m} (t + τ) - C_{m} (t - τ))}{2 \cdot Σ_{τ = 1}^{M} τ^{2}}, m = 1, 2, ... L

如图2所示，在具体实施过程中，步骤S4中，采用模型生长聚类算法对所有的模型进行自适应归类的具体方法包括以下步骤：

S4.1：初始化类代表：

从模型库中的所有模型中随机选择一个模型作为第一个初始类代表R0；

分别计算其余模型到R0和R1的近似熵，若都大于θ则任命为第三个初始类代表R2，如此反复，直至获得k个类代表，k为预设的类的数目，即A0＝{R0,R1……Rk-1}，类代表初始化完成，然后对模型进行归类；

S4.2：类代表审定：

1 \leq γ_{n e w} \leq \frac{γ}{γ_{m a x}}

依次审定所有的类代表，并重新归类，直至无类代表更新；

S4.3：类代表推举：

聚类后所有模型分为k个类，此时将各类模型的特征重新训练得到类GMM模型作为该类的类代表，并保存到数据库；该GMM由类中所有模型推举得到，具有更准确的代表性。

模型识别包括以下步骤：

S5：采集说话人的语音信号，即为待识别的语音信号；

S6：对待识别的语音信号进行预处理、降噪处理并提取声纹特征参数；

S7：计算待识别语音信号的特征参数到各类代表的似然度，以似然度最大原则选择所属的类，进而与选择的类中所有模型计算似然得分，得分最高的模型即为识别结果，最后输出识别结果。

本实施例提供一种基于模型生长聚类的说话人快速识别方法，模型训练包括采集包括说话人在内的多人的声纹信号；对各声纹信号进行预处理并提取声纹特征参数，形成多个模型；采用模型生长聚类算法对所有的模型进行自适应归类；模型识别包括采集说话人的语音信号进行预处理并提取声纹特征参数，计算待识别语音信号的特征参数到各类代表的似然度，以似然度最大原则选择所属的类，进而与选择的类中所有模型计算似然得分，得分最高的模型即为识别结果。本发明方法无需将待识别语音特征与所有模型进行匹配，因此匹配时间短、实时性好，能够很好地适应大规模的模型库。

实施例2

如图3所示，一种基于模型生长聚类的说话人快速识别系统，包括：客户端、网络连接模块和服务端，客户端和服务端通过网络连接模块连接；

客户端包括：

服务端包括：

如图4所示，在具体实施过程中，服务器端同时接收多个客户端即用户的识别请求，服务器端为每个识别请求新建1个线程，并通过无线网络对用户的识别请求作出应答。

在具体实施过程中，所述客户端为Android客户端，语音采集模块通过Android系统的android.media.AudioRecord来实现的，获得语音的PCM数据。

本发明中，客户端采集语音信号，服务端做信号逻辑处理，两者数据传递通过Http协议完成。客户端不做数据逻辑处理，因此系统对客户端并无特殊的硬件要求；服务端的数据处理能力远高于客户端，因此模型的训练、归类、聚类、匹配等逻辑关系都由服务器处理，从而保证了客户端的流畅。

通过在客户端模块功能选择、设定参数后采集语音信息，并通过网络请求发送给服务器；网络连接模块选择网络传输协议，设定数据传输格式以及处理网络请求或应答超时；服务端接收请求后解析获得语音数据，进行预处理分析，然后根据不同的功能选择执行对应的操作，包括训练模型、模型聚类以及模型识别三大功能，最后将处理的结果返回客户端显示面板显示。

本实施例提供一种基于模型生长聚类的说话人快速识别系统，所述系统是上述方法实现的硬件基础，所述方法与系统结合能够实现了快速、实时的说话人识别。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于模型生长聚类的说话人快速识别方法，其特征在于，包括模型训练和模型识别；

模型训练包括以下步骤：

S1：采集包括说话人在内的多人的声纹信号；

S3：对各声纹信号进行声纹特征参数提取，形成多个模型；

模型识别包括以下步骤：

S5：采集说话人的语音信号；

S6：对待识别的语音信号进行预处理并提取声纹特征参数；

2.根据权利要求1所述的基于模型生长聚类的说话人快速识别方法，其特征在于，步骤S2中，对各声纹信号进行预处理具体包括以下步骤：

S2.1：预加重，在预加重过程中，

传递函数为：H(z)＝1-0.9375z^-1，

得到的信号为：

\tilde{S} (n) = S (n) - 0.9375 S (n - 1);

S2.2：分帧，以10～20ms为间隔将声纹信号分为若干帧，一帧为一个基本单位；

S2.3：加窗，采用了汉明窗函数来进行窗化，即：0≤n≤N-1，其中：

w (n) = 0.54 - 0.46 (\frac{2 π n}{N - 1}),

0≤n≤N-1；

短时能量系数：

e (i) = Σ_{n = 1}^{N} | x_{i} (n) |,

短时过零率系数：

Z C R (i) = Σ_{n = 1}^{N - 1} | x_{i} (n) - x_{i} (n + 1) | .

3.根据权利要求1所述的基于模型生长聚类的说话人快速识别方法，其特征在于，步骤S3中，所述特征参数为MFCC特征参数，对各声纹信号进行声纹特征参数提取，具体包括以下步骤：

S3.1：对声纹信号进行快速傅里叶变换获取能量频谱；

S3.3：将得到的N个对数能量E_k带入离散余弦转换，求出L阶的Mel-scaleCepstrum参数，得到L个倒频谱参数，离散余弦转换公式如下：

C_m＝Ncos[m*(k-0.5)*p/N]*E_k，m＝1,2,...,L；

S3.4：提取声纹信号一个帧的对数能量，一个帧的对数能量定义为一个帧内讯号的平方和，再取以10为底的对数值，再乘以10；

S3.5：提取声纹信号的差量倒频谱参数，差量倒频谱参数表示倒频谱参数相对于时间的斜率，公式如下：

&dtri; C_{m} (t) = \frac{Σ_{τ = - M}^{M} τ \cdot C_{m} (t + τ)}{Σ_{τ = - M}^{M} τ^{2}} = \frac{Σ_{τ = 1}^{M} τ \cdot C_{m} (t + τ) - C_{m} (t - τ))}{2 \cdot Σ_{τ = 1}^{M} τ^{2}}, m = 1, 2, ... L

4.根据权利要求1所述的基于模型生长聚类的说话人快速识别方法，其特征在于，步骤S4中，采用模型生长聚类算法对所有的模型进行自适应归类的具体方法包括以下步骤：

S4.1：初始化类代表：

从所有模型中随机选择一个模型作为第一个初始类代表R0；

S4.2：类代表审定：

1 \leq γ_{n e w} \leq \frac{γ}{γ_{m a x}}

依次审定所有的类代表，并重新归类，直至无类代表更新；

S4.3：类代表推举：

聚类后所有模型分为k个类，此时将各类模型的特征重新训练得到类GMM模型作为该类的类代表。

5.一种基于模型生长聚类的说话人快速识别系统，其特征在于，包括：客户端、网络连接模块和服务端，客户端和服务端通过网络连接模块连接；

客户端包括：

服务端包括：

6.根据权利要求5所述的基于模型生长聚类的说话人快速识别系统，其特征在于，服务器端同时接收多个客户端的识别请求，服务器端为每个识别请求新建1个线程，并通过无线网络对用户的识别请求作出应答。

7.根据权利要求5所述的基于模型生长聚类的说话人快速识别系统，其特征在于，所述客户端为Android客户端。