[go: up one dir, main page]

CN105096955A - 一种基于模型生长聚类的说话人快速识别方法及系统 - Google Patents

一种基于模型生长聚类的说话人快速识别方法及系统 Download PDF

Info

Publication number
CN105096955A
CN105096955A CN201510563935.5A CN201510563935A CN105096955A CN 105096955 A CN105096955 A CN 105096955A CN 201510563935 A CN201510563935 A CN 201510563935A CN 105096955 A CN105096955 A CN 105096955A
Authority
CN
China
Prior art keywords
class
model
voiceprint
models
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510563935.5A
Other languages
English (en)
Other versions
CN105096955B (zh
Inventor
张晶
陈晓梅
郑党
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Foreign Studies
Original Assignee
Guangdong University of Foreign Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Foreign Studies filed Critical Guangdong University of Foreign Studies
Priority to CN201510563935.5A priority Critical patent/CN105096955B/zh
Publication of CN105096955A publication Critical patent/CN105096955A/zh
Application granted granted Critical
Publication of CN105096955B publication Critical patent/CN105096955B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于模型生长聚类的说话人快速识别方法及系统,所述方法包括模型训练和模型识别,模型训练包括采集包括说话人在内的多人的声纹信号;对各声纹信号进行预处理并提取声纹特征参数,形成多个模型;采用模型生长聚类算法对所有的模型进行自适应归类;模型识别包括采集说话人的语音信号进行预处理并提取声纹特征参数,计算待识别语音信号的特征参数到各类代表的似然度,以似然度最大原则选择所属的类,进而与选择的类中所有模型计算似然得分,得分最高的模型即为识别结果。本发明方法无需将待识别语音特征与所有模型进行匹配,因此匹配时间短、实时性好,能够很好地适应大规模的模型库。

Description

一种基于模型生长聚类的说话人快速识别方法及系统
技术领域
本发明涉及声纹识别领域,更具体地,涉及一种基于模型生长聚类的说话人快速识别方法及系统。
背景技术
在嵌入式操作系统中通过语音实现说话人身份的辨认,通常需要对输入的声纹进行预处理,将数据传输到服务器,进而生成声纹模型,模型匹配,最后输出并显示结果。其中,声纹模型引用了混合高斯模型(GMM),该模型的训练采用了EM算法。一般可以用λ=(ω,μ,Σ)三元组来简洁的表示一个混合高斯模型。混合高斯模型采用多个高斯模型的加权组合来描述一个说话人的语音模型,采用局部期望最大值算法EM来不断更新系统参数,从而得到语音的近似数学统计模型GMM。吴朝晖、杨莹春编著的《说话人识别模型与方法》一书对GMM和EM算法做了详尽的描述。传统的识别方法需要将待识别语音特征与模型库中所有模型进行匹配,一旦模型库规模变大,匹配所需时间就越来越长,从而导致识别缓慢甚至引发系统奔溃,系统的实时性无法得到保障。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
本发明的首要目的是克服上述现有技术所述的匹配时间长、实时性差的缺陷,提供一种匹配时间短、实时性好的基于模型生长聚类的说话人快速识别方法。
本发明的进一步目的是提供一种匹配时间短、实时性好的基于模型生长聚类的说话人快速识别系统。
为解决上述技术问题,本发明的技术方案如下:
一种基于模型生长聚类的说话人快速识别方法,包括模型训练和模型识别;
模型训练包括以下步骤:
S1:采集包括说话人在内的多人的声纹信号;
S2:对各声纹信号进行预处理,其预处理过程依次包括预加重、分帧、加窗和端点检测;
S3:对各声纹信号进行声纹特征参数提取,形成多个模型;
S4:采用模型生长聚类算法对所有的模型进行自适应归类,自适应归类过程包括初始化类代表、类代表审定、类代表推举;
模型识别包括以下步骤:
S5:采集说话人的语音信号,即为待识别的语音信号;
S6:对待识别的语音信号进行预处理并提取声纹特征参数;
S7:计算待识别语音信号的特征参数到各类代表的似然度,以似然度最大原则选择所属的类,进而与选择的类中所有模型计算似然得分,得分最高的模型即为识别结果。
在一种优选的方案中,步骤S2中,对各声纹信号进行预处理具体包括以下步骤:
S2.1:预加重,在预加重过程中,声纹信号通过滤波器搬移到合适的频段,
传递函数为:H(z)=1-0.9375z-1
得到的信号为: S ~ ( n ) = S ( n ) - 0.9375 S ( n - 1 ) ;
S2.2:分帧,以10~20ms为间隔将声纹信号分为若干帧,一帧为一个基本单位;声纹信号是瞬时变化的,但在10~20ms内是相对稳定的,所以可以把这段相对稳定时间内的声纹信号看作一个基本单位——帧。
S2.3:加窗,为了避免矩形窗化时对LPC系数(线性预测系数)在端点的误差,采用了汉明窗函数来进行窗化,即:其中: w ( n ) = 0.54 - 0.46 ( 2 π n N - 1 ) , 0 ≤ n ≤ N - 1 ;
S2.4:端点检测,通过声纹信号的短时能量系数和短时过零率系数来检测端点,这两个系数的公式如下:
短时能量系数: e ( i ) = Σ n = 1 N | x i ( n ) | ,
短时过零率系数: Z C R ( i ) = Σ n = 1 N - 1 | x i ( n ) - x i ( n + 1 ) | .
端点检测目的是检测有无声纹信号的存在,即从包含声纹的一段信号中确定出声纹的起点和终止点。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能。
在一种优选的方案中,步骤S3中,所述特征参数为MFCC(梅尔频率倒谱系数)特征参数,对各声纹信号进行声纹特征参数提取,具体包括以下步骤:
S3.1:对声纹信号进行快速傅里叶变换获取能量频谱;
S3.2:将能量频谱乘以一组N个三角带通滤波器,求得每一个滤波器输出的对数能量(LogEnergy)Ek,所述的N个三角带通滤波器在梅尔频率(MelFrequency)上是平均分布的,梅尔频率mel(f)和一般频率f的关系式为:
mel(f)=2595*log10(1+f/700);
S3.3:将得到的N个对数能量Ek带入离散余弦转换(DCT),求出L阶的Mel-scaleCepstrum参数,得到L个倒频谱参数,L的值取12,离散余弦转换公式如下:
Cm=Ncos[m*(k-0.5)*p/N]*Ek,m=1,2,...,L;
S3.4:提取声纹信号一个帧的对数能量,一个帧的对数能量定义为一个帧内讯号的平方和,再取以10为底的对数值,再乘以10,一个帧的能量也是声纹的重要特征,因此再加上一个帧的对数能量,使得每一个帧基本的声纹特征就有13维,包含了1个对数能量和12个倒频谱参数;
S3.5:提取声纹信号的差量倒频谱参数(Deltacepstrum),差量倒频谱参数表示倒频谱参数相对于时间的斜率,虽然已经求出13个特征参数,然而在实际应用于声纹辨识时,再加上差量倒频谱参数,以显示倒频谱参数对时间的变化,它的意义为倒频谱参数相对于时间的斜率,也就是代表倒频谱参数在时间上的动态变化,公式如下:
▿ C m ( t ) = Σ τ = - M M τ · C m ( t + τ ) Σ τ = - M M τ 2 = Σ τ = 1 M τ · C m ( t + τ ) - C m ( t - τ ) ) 2 · Σ τ = 1 M τ 2 , m = 1 , 2 , ... L
这里M的值取2或3,t代表帧的数目,Cm(t)指第t个帧的倒频谱参数。
在一种优选的方案中,步骤S4中,采用模型生长聚类算法对所有的模型进行自适应归类的具体方法包括以下步骤:
S4.1:初始化类代表:
从所有模型中随机选择一个模型作为第一个初始类代表R0;
依次计算剩余模型到R0的近似熵D,直至D>θ,则将该模型任命为第二个初始类代表R1,此时类代表集A0={R0,R1},其中θ为预设的阈值;
分别计算其余模型到R0和R1的近似熵,若都大于θ则任命为第三个初始类代表R2,如此反复,直至获得k个类代表,k为预设的类的数目,即A0={R0,R1……Rk-1},类代表初始化完成;
初始类代表的取值直接影响到聚类算法的效率,本发明的初始类代表满足以下两个条件:初始类代表由模型集合直接或间接产生,初始类代表两两之间的相似度需大于设定的阈值θ。
S4.2:类代表审定:
由于初始类代表的聚类结果往往无法满足类成员的限制,因此需要对类代表进行审定来取消类代表或产生新的类代表。
计算成员数γ大于γmax的类ω中所有成员的模型密度值并按从大到小的顺序排列,密度值最大的成员直接任命为新的类代表,然后依照步骤S4.1中初始化类代表的方法生成γnew个新的类代表,γnew的取值范围由下式确定:
1 ≤ γ n e w ≤ γ γ m a x
依次审定所有的类代表,并重新归类,直至无类代表更新;
S4.3:类代表推举:
聚类后所有模型分为k个类,此时将各类模型的特征重新训练得到类GMM(高斯混合模型)模型作为该类的类代表;该GMM由类中所有模型推举得到,具有更准确的代表性。
一种基于模型生长聚类的说话人快速识别系统,包括:客户端、网络连接模块和服务端,客户端和服务端通过网络连接模块连接;
客户端包括:
声纹采集模块:用于采集包括说话人在内的多人的声纹信号并输出到预处理模块;
服务端包括:
预处理模块:包括顺次连接的预加重单元、分帧处理单元、窗化处理单元和端点检测单元,用于依次对声纹信号进行预加重、分帧、加窗和端点检测,然后将声纹信号通过网络连接模块传输到服务器端;
声纹特征提取模块:对各声纹信号进行声纹特征参数提取,形成多个模型;
自适应归类模块:用于采用模型生长聚类算法对所有的模型进行自适应归类,自适应归类过程包括初始化类代表、类代表审定、类代表推举;
声纹识别模块:用于计算待识别语音信号的特征参数到各类代表的似然度,以似然度最大原则选择所属的类,进而与选择的类中所有模型计算似然得分,得分最高的模型即为识别结果。
在一种优选的方案中,服务器端同时接收多个客户端的识别请求,服务器端为每个识别请求新建1个线程,并通过无线网络对用户的识别请求作出应答。
在一种优选的方案中,所述客户端为Android客户端,
与现有技术相比,本发明技术方案的有益效果是:本发明公开一种基于模型生长聚类的说话人快速识别方法,模型训练包括采集包括说话人在内的多人的声纹信号;对各声纹信号进行预处理并提取声纹特征参数,形成多个模型;采用模型生长聚类算法对所有的模型进行自适应归类;模型识别包括采集说话人的语音信号进行预处理并提取声纹特征参数,计算待识别语音信号的特征参数到各类代表的似然度,以似然度最大原则选择所属的类,进而与选择的类中所有模型计算似然得分,得分最高的模型即为识别结果。本发明方法无需将待识别语音特征与所有模型进行匹配,因此匹配时间短、实时性好,能够很好地适应大规模的模型库。
本发明还公开一种基于模型生长聚类的说话人快速识别系统,所述系统是上述方法实现的硬件基础,所述方法与系统结合能够实现了快速、实时的说话人识别。
附图说明
图1为基于模型生长聚类的说话人快速识别方法的流程图。
图2为自适应归类的流程图。
图3为基于模型生长聚类的说话人快速识别系统的示意图。
图4为基于模型生长聚类的说话人快速识别系统的功能示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于模型生长聚类的说话人快速识别方法,包括模型训练和模型识别;
模型训练包括以下步骤:
S1:采集包括说话人在内的多人的声纹信号,即语音信号;
S2:对各声纹信号进行预处理和降噪处理,其预处理过程依次包括预加重、分帧、加窗和端点检测;
在具体实施过程中,步骤S2中,对各声纹信号进行预处理具体包括以下步骤:
S2.1:预加重,在预加重过程中,声纹信号通过滤波器搬移到合适的频段,
传递函数为:H(z)=1-0.9375z-1
得到的信号为: S ~ ( n ) = S ( n ) - 0.9375 S ( n - 1 ) ;
S2.2:分帧,以10~20ms为间隔将声纹信号分为若干帧,一帧为一个基本单位;声纹信号是瞬时变化的,但在10~20ms内是相对稳定的,所以可以把这段相对稳定时间内的声纹信号看作一个基本单位——帧。
S2.3:加窗,为了避免矩形窗化时对LPC系数在端点的误差,采用了汉明窗函数来进行窗化,即:其中: w ( n ) = 0.54 - 0.46 ( 2 π n N - 1 ) , 0 ≤ n ≤ N - 1 ;
S2.4:端点检测,通过声纹信号的短时能量系数和短时过零率系数来检测端点,这两个系数的公式如下:
短时能量系数: e ( i ) = Σ n = 1 N | x i ( n ) | ,
短时过零率系数: Z C R ( i ) = Σ n = 1 N - 1 | x i ( n ) - x i ( n + 1 ) | .
端点检测目的是检测有无声纹信号的存在,即从包含声纹的一段信号中确定出声纹的起点和终止点。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能。
S3:对各声纹信号进行声纹特征参数提取,形成多个模型;
在具体实施过程中,步骤S3中,所述特征参数为MFCC特征参数,对各声纹信号进行声纹特征参数提取,具体包括以下步骤:
S3.1:对声纹信号进行快速傅里叶变换获取能量频谱;
S3.2:将能量频谱乘以一组N个三角带通滤波器,求得每一个滤波器输出的对数能量Ek,所述的N个三角带通滤波器在梅尔频率上是平均分布的,梅尔频率mel(f)和一般频率f的关系式为:mel(f)=2595*log10(1+f/700);
S3.3:将得到的N个对数能量Ek带入离散余弦转换,求出L阶的Mel-scaleCepstrum参数,得到L个倒频谱参数,L的值取12,离散余弦转换公式如下:
Cm=Ncos[m*(k-0.5)*p/N]*Ek,m=1,2,...,L;
S3.4:提取声纹信号一个帧的对数能量,一个帧的对数能量定义为一个帧内讯号的平方和,再取以10为底的对数值,再乘以10,一个帧的能量也是声纹的重要特征,因此再加上一个帧的对数能量,使得每一个帧基本的声纹特征就有13维,包含了1个对数能量和12个倒频谱参数;
S3.5:提取声纹信号的差量倒频谱参数,差量倒频谱参数表示倒频谱参数相对于时间的斜率,虽然已经求出13个特征参数,然而在实际应用于声纹辨识时,再加上差量倒频谱参数,以显示倒频谱参数对时间的变化,它的意义为倒频谱参数相对于时间的斜率,也就是代表倒频谱参数在时间上的动态变化,公式如下:
▿ C m ( t ) = Σ τ = - M M τ · C m ( t + τ ) Σ τ = - M M τ 2 = Σ τ = 1 M τ · C m ( t + τ ) - C m ( t - τ ) ) 2 · Σ τ = 1 M τ 2 , m = 1 , 2 , ... L
这里M的值取2或3,t代表帧的数目,Cm(t)指第t个帧的倒频谱参数。
S4:采用模型生长聚类算法对所有的模型进行自适应归类,自适应归类过程包括初始化类代表、类代表审定、类代表推举;
如图2所示,在具体实施过程中,步骤S4中,采用模型生长聚类算法对所有的模型进行自适应归类的具体方法包括以下步骤:
S4.1:初始化类代表:
从模型库中的所有模型中随机选择一个模型作为第一个初始类代表R0;
依次计算剩余模型到R0的近似熵D,直至D>θ,则将该模型任命为第二个初始类代表R1,此时类代表集A0={R0,R1},其中θ为预设的阈值;
分别计算其余模型到R0和R1的近似熵,若都大于θ则任命为第三个初始类代表R2,如此反复,直至获得k个类代表,k为预设的类的数目,即A0={R0,R1……Rk-1},类代表初始化完成,然后对模型进行归类;
初始类代表的取值直接影响到聚类算法的效率,本发明的初始类代表满足以下两个条件:初始类代表由模型集合直接或间接产生,初始类代表两两之间的相似度需大于设定的阈值θ。
S4.2:类代表审定:
由于初始类代表的聚类结果往往无法满足类成员的限制,因此需要对类代表进行审定来取消类代表或产生新的类代表。
计算成员数γ大于γmax的类ω中所有成员的模型密度值并按从大到小的顺序排列,密度值最大的成员直接任命为新的类代表,然后依照步骤S4.1中初始化类代表的方法生成γnew个新的类代表,γnew的取值范围由下式确定:
1 ≤ γ n e w ≤ γ γ m a x
依次审定所有的类代表,并重新归类,直至无类代表更新;
S4.3:类代表推举:
聚类后所有模型分为k个类,此时将各类模型的特征重新训练得到类GMM模型作为该类的类代表,并保存到数据库;该GMM由类中所有模型推举得到,具有更准确的代表性。
模型识别包括以下步骤:
S5:采集说话人的语音信号,即为待识别的语音信号;
S6:对待识别的语音信号进行预处理、降噪处理并提取声纹特征参数;
S7:计算待识别语音信号的特征参数到各类代表的似然度,以似然度最大原则选择所属的类,进而与选择的类中所有模型计算似然得分,得分最高的模型即为识别结果,最后输出识别结果。
本实施例提供一种基于模型生长聚类的说话人快速识别方法,模型训练包括采集包括说话人在内的多人的声纹信号;对各声纹信号进行预处理并提取声纹特征参数,形成多个模型;采用模型生长聚类算法对所有的模型进行自适应归类;模型识别包括采集说话人的语音信号进行预处理并提取声纹特征参数,计算待识别语音信号的特征参数到各类代表的似然度,以似然度最大原则选择所属的类,进而与选择的类中所有模型计算似然得分,得分最高的模型即为识别结果。本发明方法无需将待识别语音特征与所有模型进行匹配,因此匹配时间短、实时性好,能够很好地适应大规模的模型库。
实施例2
如图3所示,一种基于模型生长聚类的说话人快速识别系统,包括:客户端、网络连接模块和服务端,客户端和服务端通过网络连接模块连接;
客户端包括:
声纹采集模块:用于采集包括说话人在内的多人的声纹信号并输出到预处理模块;
服务端包括:
预处理模块:包括顺次连接的预加重单元、分帧处理单元、窗化处理单元和端点检测单元,用于依次对声纹信号进行预加重、分帧、加窗和端点检测,然后将声纹信号通过网络连接模块传输到服务器端;
声纹特征提取模块:对各声纹信号进行声纹特征参数提取,形成多个模型;
自适应归类模块:用于采用模型生长聚类算法对所有的模型进行自适应归类,自适应归类过程包括初始化类代表、类代表审定、类代表推举;
声纹识别模块:用于计算待识别语音信号的特征参数到各类代表的似然度,以似然度最大原则选择所属的类,进而与选择的类中所有模型计算似然得分,得分最高的模型即为识别结果。
如图4所示,在具体实施过程中,服务器端同时接收多个客户端即用户的识别请求,服务器端为每个识别请求新建1个线程,并通过无线网络对用户的识别请求作出应答。
在具体实施过程中,所述客户端为Android客户端,语音采集模块通过Android系统的android.media.AudioRecord来实现的,获得语音的PCM数据。
本发明中,客户端采集语音信号,服务端做信号逻辑处理,两者数据传递通过Http协议完成。客户端不做数据逻辑处理,因此系统对客户端并无特殊的硬件要求;服务端的数据处理能力远高于客户端,因此模型的训练、归类、聚类、匹配等逻辑关系都由服务器处理,从而保证了客户端的流畅。
通过在客户端模块功能选择、设定参数后采集语音信息,并通过网络请求发送给服务器;网络连接模块选择网络传输协议,设定数据传输格式以及处理网络请求或应答超时;服务端接收请求后解析获得语音数据,进行预处理分析,然后根据不同的功能选择执行对应的操作,包括训练模型、模型聚类以及模型识别三大功能,最后将处理的结果返回客户端显示面板显示。
本实施例提供一种基于模型生长聚类的说话人快速识别系统,所述系统是上述方法实现的硬件基础,所述方法与系统结合能够实现了快速、实时的说话人识别。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于模型生长聚类的说话人快速识别方法,其特征在于,包括模型训练和模型识别;
模型训练包括以下步骤:
S1:采集包括说话人在内的多人的声纹信号;
S2:对各声纹信号进行预处理,其预处理过程依次包括预加重、分帧、加窗和端点检测;
S3:对各声纹信号进行声纹特征参数提取,形成多个模型;
S4:采用模型生长聚类算法对所有的模型进行自适应归类,自适应归类过程包括初始化类代表、类代表审定、类代表推举;
模型识别包括以下步骤:
S5:采集说话人的语音信号;
S6:对待识别的语音信号进行预处理并提取声纹特征参数;
S7:计算待识别语音信号的特征参数到各类代表的似然度,以似然度最大原则选择所属的类,进而与选择的类中所有模型计算似然得分,得分最高的模型即为识别结果。
2.根据权利要求1所述的基于模型生长聚类的说话人快速识别方法,其特征在于,步骤S2中,对各声纹信号进行预处理具体包括以下步骤:
S2.1:预加重,在预加重过程中,
传递函数为:H(z)=1-0.9375z-1
得到的信号为: S ~ ( n ) = S ( n ) - 0.9375 S ( n - 1 ) ;
S2.2:分帧,以10~20ms为间隔将声纹信号分为若干帧,一帧为一个基本单位;
S2.3:加窗,采用了汉明窗函数来进行窗化,即:0≤n≤N-1,其中: w ( n ) = 0.54 - 0.46 ( 2 π n N - 1 ) , 0≤n≤N-1;
S2.4:端点检测,通过声纹信号的短时能量系数和短时过零率系数来检测端点,这两个系数的公式如下:
短时能量系数: e ( i ) = Σ n = 1 N | x i ( n ) | ,
短时过零率系数: Z C R ( i ) = Σ n = 1 N - 1 | x i ( n ) - x i ( n + 1 ) | .
3.根据权利要求1所述的基于模型生长聚类的说话人快速识别方法,其特征在于,步骤S3中,所述特征参数为MFCC特征参数,对各声纹信号进行声纹特征参数提取,具体包括以下步骤:
S3.1:对声纹信号进行快速傅里叶变换获取能量频谱;
S3.2:将能量频谱乘以一组N个三角带通滤波器,求得每一个滤波器输出的对数能量Ek,所述的N个三角带通滤波器在梅尔频率上是平均分布的,梅尔频率mel(f)和一般频率f的关系式为:mel(f)=2595*log10(1+f/700);
S3.3:将得到的N个对数能量Ek带入离散余弦转换,求出L阶的Mel-scaleCepstrum参数,得到L个倒频谱参数,离散余弦转换公式如下:
Cm=Ncos[m*(k-0.5)*p/N]*Ek,m=1,2,...,L;
S3.4:提取声纹信号一个帧的对数能量,一个帧的对数能量定义为一个帧内讯号的平方和,再取以10为底的对数值,再乘以10;
S3.5:提取声纹信号的差量倒频谱参数,差量倒频谱参数表示倒频谱参数相对于时间的斜率,公式如下:
▿ C m ( t ) = Σ τ = - M M τ · C m ( t + τ ) Σ τ = - M M τ 2 = Σ τ = 1 M τ · C m ( t + τ ) - C m ( t - τ ) ) 2 · Σ τ = 1 M τ 2 , m = 1 , 2 , ... L
这里M的值取2或3,t代表帧的数目,Cm(t)指第t个帧的倒频谱参数。
4.根据权利要求1所述的基于模型生长聚类的说话人快速识别方法,其特征在于,步骤S4中,采用模型生长聚类算法对所有的模型进行自适应归类的具体方法包括以下步骤:
S4.1:初始化类代表:
从所有模型中随机选择一个模型作为第一个初始类代表R0;
依次计算剩余模型到R0的近似熵D,直至D>θ,则将该模型任命为第二个初始类代表R1,此时类代表集A0={R0,R1},其中θ为预设的阈值;
分别计算其余模型到R0和R1的近似熵,若都大于θ则任命为第三个初始类代表R2,如此反复,直至获得k个类代表,k为预设的类的数目,即A0={R0,R1……Rk-1},类代表初始化完成;
S4.2:类代表审定:
计算成员数γ大于γmax的类ω中所有成员的模型密度值并按从大到小的顺序排列,密度值最大的成员直接任命为新的类代表,然后依照步骤S4.1中初始化类代表的方法生成γnew个新的类代表,γnew的取值范围由下式确定:
1 ≤ γ n e w ≤ γ γ m a x
依次审定所有的类代表,并重新归类,直至无类代表更新;
S4.3:类代表推举:
聚类后所有模型分为k个类,此时将各类模型的特征重新训练得到类GMM模型作为该类的类代表。
5.一种基于模型生长聚类的说话人快速识别系统,其特征在于,包括:客户端、网络连接模块和服务端,客户端和服务端通过网络连接模块连接;
客户端包括:
声纹采集模块:用于采集包括说话人在内的多人的声纹信号并输出到预处理模块;
服务端包括:
预处理模块:包括顺次连接的预加重单元、分帧处理单元、窗化处理单元和端点检测单元,用于依次对声纹信号进行预加重、分帧、加窗和端点检测,然后将声纹信号通过网络连接模块传输到服务器端;
声纹特征提取模块:对各声纹信号进行声纹特征参数提取,形成多个模型;
自适应归类模块:用于采用模型生长聚类算法对所有的模型进行自适应归类,自适应归类过程包括初始化类代表、类代表审定、类代表推举;
声纹识别模块:用于计算待识别语音信号的特征参数到各类代表的似然度,以似然度最大原则选择所属的类,进而与选择的类中所有模型计算似然得分,得分最高的模型即为识别结果。
6.根据权利要求5所述的基于模型生长聚类的说话人快速识别系统,其特征在于,服务器端同时接收多个客户端的识别请求,服务器端为每个识别请求新建1个线程,并通过无线网络对用户的识别请求作出应答。
7.根据权利要求5所述的基于模型生长聚类的说话人快速识别系统,其特征在于,所述客户端为Android客户端。
CN201510563935.5A 2015-09-06 2015-09-06 一种基于模型生长聚类的说话人快速识别方法及系统 Expired - Fee Related CN105096955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510563935.5A CN105096955B (zh) 2015-09-06 2015-09-06 一种基于模型生长聚类的说话人快速识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510563935.5A CN105096955B (zh) 2015-09-06 2015-09-06 一种基于模型生长聚类的说话人快速识别方法及系统

Publications (2)

Publication Number Publication Date
CN105096955A true CN105096955A (zh) 2015-11-25
CN105096955B CN105096955B (zh) 2019-02-01

Family

ID=54577238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510563935.5A Expired - Fee Related CN105096955B (zh) 2015-09-06 2015-09-06 一种基于模型生长聚类的说话人快速识别方法及系统

Country Status (1)

Country Link
CN (1) CN105096955B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971711A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种自适应的声纹识别方法及系统
CN107799114A (zh) * 2017-04-26 2018-03-13 珠海智牧互联科技有限公司 一种猪只咳嗽声音识别方法及系统
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
WO2018166187A1 (zh) * 2017-03-13 2018-09-20 平安科技(深圳)有限公司 服务器、身份验证方法、系统及计算机可读存储介质
CN108922538A (zh) * 2018-05-29 2018-11-30 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质
CN108922543A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质
CN108962229A (zh) * 2018-07-26 2018-12-07 汕头大学 一种基于单通道、无监督式的目标说话人语音提取方法
CN109461441A (zh) * 2018-09-30 2019-03-12 汕头大学 一种自适应、无监督式的课堂教学活动智能感知方法
CN109887496A (zh) * 2019-01-22 2019-06-14 浙江大学 一种黑盒场景下的定向对抗音频生成方法及系统
CN109961794A (zh) * 2019-01-14 2019-07-02 湘潭大学 一种基于模型聚类的分层说话人识别方法
CN110946554A (zh) * 2019-11-27 2020-04-03 深圳和而泰家居在线网络科技有限公司 咳嗽类型识别方法、装置及系统
CN113697321A (zh) * 2021-09-16 2021-11-26 安徽世绿环保科技有限公司 一种垃圾分类站用垃圾袋赋码系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5857169A (en) * 1995-08-28 1999-01-05 U.S. Philips Corporation Method and system for pattern recognition based on tree organized probability densities
CN1403953A (zh) * 2002-09-06 2003-03-19 浙江大学 掌上声纹验证系统
CN101226742A (zh) * 2007-12-05 2008-07-23 浙江大学 基于情感补偿的声纹识别方法
CN102194455A (zh) * 2010-03-17 2011-09-21 博石金(北京)信息技术有限公司 一种与说话内容无关的声纹鉴别认证方法
EP2808866A1 (en) * 2013-05-31 2014-12-03 Nuance Communications, Inc. Method and apparatus for automatic speaker-based speech clustering
CN104732972A (zh) * 2015-03-12 2015-06-24 广东外语外贸大学 一种基于分组统计的hmm声纹识别签到方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5857169A (en) * 1995-08-28 1999-01-05 U.S. Philips Corporation Method and system for pattern recognition based on tree organized probability densities
CN1403953A (zh) * 2002-09-06 2003-03-19 浙江大学 掌上声纹验证系统
CN101226742A (zh) * 2007-12-05 2008-07-23 浙江大学 基于情感补偿的声纹识别方法
CN102194455A (zh) * 2010-03-17 2011-09-21 博石金(北京)信息技术有限公司 一种与说话内容无关的声纹鉴别认证方法
EP2808866A1 (en) * 2013-05-31 2014-12-03 Nuance Communications, Inc. Method and apparatus for automatic speaker-based speech clustering
CN104732972A (zh) * 2015-03-12 2015-06-24 广东外语外贸大学 一种基于分组统计的hmm声纹识别签到方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
熊华乔: "基于模型聚类的说话人识别方法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971711A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种自适应的声纹识别方法及系统
WO2018166187A1 (zh) * 2017-03-13 2018-09-20 平安科技(深圳)有限公司 服务器、身份验证方法、系统及计算机可读存储介质
CN107799114A (zh) * 2017-04-26 2018-03-13 珠海智牧互联科技有限公司 一种猪只咳嗽声音识别方法及系统
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN108922538A (zh) * 2018-05-29 2018-11-30 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质
CN108922543B (zh) * 2018-06-11 2022-08-16 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质
CN108922543A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质
CN108962229A (zh) * 2018-07-26 2018-12-07 汕头大学 一种基于单通道、无监督式的目标说话人语音提取方法
CN108962229B (zh) * 2018-07-26 2020-11-13 汕头大学 一种基于单通道、无监督式的目标说话人语音提取方法
CN109461441B (zh) * 2018-09-30 2021-05-11 汕头大学 一种自适应、无监督式的课堂教学活动智能感知方法
CN109461441A (zh) * 2018-09-30 2019-03-12 汕头大学 一种自适应、无监督式的课堂教学活动智能感知方法
CN109961794A (zh) * 2019-01-14 2019-07-02 湘潭大学 一种基于模型聚类的分层说话人识别方法
CN109887496A (zh) * 2019-01-22 2019-06-14 浙江大学 一种黑盒场景下的定向对抗音频生成方法及系统
CN110946554A (zh) * 2019-11-27 2020-04-03 深圳和而泰家居在线网络科技有限公司 咳嗽类型识别方法、装置及系统
CN113697321A (zh) * 2021-09-16 2021-11-26 安徽世绿环保科技有限公司 一种垃圾分类站用垃圾袋赋码系统

Also Published As

Publication number Publication date
CN105096955B (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN105096955A (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
Jahangir et al. Text-independent speaker identification through feature fusion and deep neural network
CN104835498B (zh) 基于多类型组合特征参数的声纹识别方法
CN112634935B (zh) 语音分离方法、装置、电子设备和可读存储介质
CN108305616A (zh) 一种基于长短时特征提取的音频场景识别方法及装置
US20170154640A1 (en) Method and electronic device for voice recognition based on dynamic voice model selection
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
CN108986824B (zh) 一种回放语音检测方法
CN104900235A (zh) 基于基音周期混合特征参数的声纹识别方法
CN103646649A (zh) 一种高效的语音检测方法
CN104732972B (zh) 一种基于分组统计的hmm声纹识别签到方法及系统
CN104978507A (zh) 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN109961794A (zh) 一种基于模型聚类的分层说话人识别方法
CN105679312A (zh) 一种噪声环境下声纹识别的语音特征处理方法
Do et al. Speech source separation using variational autoencoder and bandpass filter
WO2021217979A1 (zh) 声纹识别方法、装置、设备及存储介质
CN118982989A (zh) 一种基于听觉调制机制和对比学习的单通道语音分离方法及装置
Perdana et al. Voice recognition system for user authentication using gaussian mixture model
CN107103913A (zh) 一种基于功率谱Gabor特征序列递归模型的语音识别方法
CN115373280A (zh) 一种远程语音控制方法、装置及系统
CN112259107A (zh) 一种会议场景小样本条件下的声纹识别方法
CN113299315B (zh) 一种无需原始数据存储的持续性学习生成语音特征的方法
CN114267361A (zh) 一种高识别度的说话人识别系统
Jahanirad et al. Blind source computer device identification from recorded VoIP calls for forensic investigation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190201

Termination date: 20190906

CF01 Termination of patent right due to non-payment of annual fee