CN1170239C

CN1170239C - 掌上声纹验证方法

Info

Publication number: CN1170239C
Application number: CNB021417687A
Authority: CN
Inventors: 吴朝晖; 杨莹春; 马志友
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2002-09-06
Filing date: 2002-09-06
Publication date: 2004-10-06
Anticipated expiration: 2022-09-06
Also published as: CN1403953A

Abstract

本发明是涉及一种用于掌上电脑的掌上声纹验证方法，利用人的声音来鉴定身份，根据说话人的声纹特征，通过高斯混合模型建立声纹模型；通过掌上电脑的麦克风录入语音；对声音进行预处理；对处理后的声音根据一定的声纹模型进行声纹特征提取；用声纹特征与声纹模型来识别说话人，进行声纹验证。所述的声音预处理，对语音数字滤波、端点检测、去零漂、预加重、加汉明窗等处理过程。通过计算说话人的声纹特征在高斯混合模型的匹配得分进行声纹验证。本发明有益的效果是：采用人们最常用的交流手段“语音”作为输入源的掌上声纹验证操作简单、应用灵活、实现方便、结果可靠准确，具有很大的发展潜力。

Description

掌上声纹验证方法

技术领域

本发明是利用声纹识别方法，针对掌上电脑平台实现的新型身份安全认证系统。声纹识别方法属于计算机语音处理技术领域，而掌上电脑是移动互联环境的重要设备，两者结合构成了一种安全可靠的用于掌上电脑的掌上声纹验证方法。

背景技术

信息时代的一大特征就是身份的数字化和隐性化，如何准确鉴定身份，保证信息安全呢？信用卡号、银行帐号、网络登录号，我们可能被生活中过多需要记忆的密码搅得心烦。如何不用记忆这些密码而又不用担心自己身份无法认定呢？已经兴起的生物认证技术正好可以解决上述问题。声纹识别是从说话人所发语音中提取出说话人是谁的信息的过程，为此，需从各个说话人的发音中找出说话人之间的个性差异，它涉及到说话人发音器官上的个性差异、发音声道之间的个性差异、发音习惯之间的个性差异等不同级别上的差异，因此，声纹识别是交叉运用运用心理学、声学、语音学、语言学、人工智能、数字信号处理、信息理论、模式识别理论、最优化理论、计算机科学等的综合性课题。随着数字信号处理理论和人工智能等学科的不断发展，近年来声纹识别研究得到了迅速的发展。

同样，随着电子商务的广泛推广，掌上电脑(PDA)日益成为人们必不可少的电子伙伴。掌上电脑上不仅保存着大量的个人或公司的重要资料，也是从事电子商务的必要手段。如何保证其自身安全以及保障开展电子商务的安全性，是一个亟待解决的问题。本掌上声纹验证方法的推出解决了这一燃眉之急，采用语音输入的身份认证方式对用户而言简单方便可靠，具有很大的发展潜力。

发明内容

本发明所要解决的技术问题是提供一种用于掌上电脑的掌上声纹验证方法。

本发明解决其技术问题所采用的技术方案。这种用于掌上电脑的掌上声纹验证方法，利用人的声音来鉴定身份，根据说话人的声纹特征，通过高斯混合模型建立声纹模型；通过掌上电脑的麦克风录入语音；对声音进行预处理；对处理后的声音根据一定的声纹模型进行声纹特征提取；用声纹特征与声纹模型来识别说话人，进行声纹验证。所述的声音预处理，对语音数字滤波、端点检测、去零漂、预加重、加汉明窗等处理过程；其中端点检测采用特有的自适应双门限检定法检测语音端点。对处理后的声音进行二次特征提取，是对声音按照一定声学模型建模的过程：采用MFCC与LPCC进行声学建模，并通过求取特征一阶微分、特征加权、特征维选择、特征组合等方式获取一致的声学特征。用声学特征与高斯混合模型进行声纹识别，计算说话人的声学特征在高斯混合模型的匹配得分；如果该得分大于设定的阀值，则验证通过，否则说明该用户是冒名的，拒绝该用户。

本发明解决其技术问题所采用的技术方案还可以进一步完善。所述的自适应双门限检定法检测语音端点，门限能量由静态能量阀值与动态能量阀值共同决定，有效的语音要有一个持续的高能量区。声纹模型管理，包括涉及到声纹模型的更新与存储。通过计算说话人的声纹特征在高斯混合模型的匹配得分进行声纹验证：如果该得分大于设定的阀值，则验证通过，否则说明该用户是冒名的，拒绝该用户。还可设有声纹模型管理，包括涉及到声纹模型的更新与存储。

本发明有益的效果是：首先，本发明运用于移动的掌上电脑；其次，本发明使用了自适应双门限检定法检测语音端点；再次，本发明适用二次特征提取方式进行声纹特征提取；最后，本发明采用可更新的声纹模型管理。采用人们最常用的交流手段“语音”作为输入源的掌上声纹验证操作简单、应用灵活、实现方便、结果可靠准确，具有很大的发展潜力。

附图说明

图1是本发明的掌上声纹验证方法框架图；

图2是本发明的声纹验证技术流程图；

图3是本发明的自适应双门限检定法框图；

图4是本发明的二次特征提取框图；

图5是本发明的声纹模型管理框图；

具体实施方式

下面结合实施例对本发明作进一步描述。这种用于掌上电脑的掌上声纹验证方法：

第一，掌上声纹验证方法(如图1，2所示)利用声纹验证技术在掌上电脑上实现实时身份认证。其基本工作原理如下：(1)用户通过掌上电脑的麦克风录入语音，系统对语音进行预处理并根据一定的声纹模型提取说话人的个性特征。(2)在用户注册过程，用户根据系统提示录入一些训练的语音，系统利用这些语料进行特征提取，再提取的声纹特征生成特定的声纹模型。(3)当用户登录时，用户同样需要说出一段话(注册与登录时说的话不必相同)，系统将新获取的声纹特征与原有的模型匹配比对。如果两者相似性较大(超过给定阀值)，则系统接纳该用户，否则拒绝。显然，对于声纹验证系统，用户登录时需要申明自己的身份，没有注册过的用户将为系统所拒绝。(4)对于被接纳的授权用户，系统允许其访问资源。对于企业用户，则通过无线网络(如蓝牙/红外)访问企业网络，电子商务用的业务应用系统等；对于个人用户，则系统允许察看一些个人信息，如个人计划，记事内容等。在这个意义上，掌上声纹验证方法是一个电子安全门户，是可以与应用系统相集成的支持COM调用的API，甚而作为开机口令保护。

第二，在声纹识别的信号预处理中，噪声是一个不可避免又令人十分头痛的问题。如图3为一段语音的能量-时间图，如何从一段带噪语音中检测出“干净的”语音区正是端点检测的重中之重。而由掌上电脑录取的声音中更是包含较多的噪声信号。如图中可见，语音的能量并非是一直超过平均水平的。清音与浊音之间，噪声的干扰，声音的忽高忽低使掌上声纹验证方法遇到了严峻挑战。本发明采用自适应双门限检定法检测语音端点，门限能量由静态能量阀值与动态能量阀值共同决定，有效的语音要有一个持续的高能量区。

E_{1} = \frac{1}{3} \cdot Σ_{i = 1}^{3 N} x_{i}^{2}

N为一帧语音的采样点数，E₁为邻近三帧的平均能量

E_TH＝a·(E₁+E₀)/2 E₀为预设静态能量，a为比例参数，E_TH为高阀值

E_TL＝b·(E₁+E₀)/2 b为比例参数，E_TL为低阀值

第三，采用声纹特征的二次提取有利于声纹验证的识别率。如图4所示，首先是对语音进行Mel倒谱(MFCC)与线性预测系数倒谱(LPCC)的特征提取。其次分别采用特征组合、特征维选取、特征取一阶微分以及特征加权等方法实现对声纹特征的二次提取。

MFCC通过一组带宽随滤波器频率呈对数增长的数字滤波器组来计算一帧语音信号功率谱；然后对数字滤波器组的输出值取对数，最后利用离散余弦变换从该对数功率谱求得表示语音信号谱包络的倒谱系数。数字滤波器组构成人类听觉系统初始传导阶段的粗糙模型。以下为MFCC的求取公式：

Mel = 2595 lo g_{10} (1 + \frac{f}{700})

{MFCC}_{i} = Σ_{k = 1}^{M} X_{k} \cos (i (k - \frac{1}{2}) \frac{π}{M})

i＝1，2…，P

特征加权是指用加权系数增强部分特征维权重。加权特征WFEATURE为：

WMFCC_i＝MFCC_i*a_i i＝1，2...，P；

其中α_i为加权系数，a_i＝0.5+sin(π*i/P)，i＝1，2，...，P

计算LPCC分两步，首先采用Durbin递推算法求解线性预测系数LPC，随后采用求倒谱公式求取LPCC。而LPCC的加权WLPCC则采用以下方式：

WLPCC_i＝LPCC_i*a_i i＝1，2…，Q；

其中a_i为加权系数，a_i＝0.25+0.5sin(π*i/Q)，i＝1，2，...，Q

特征一次微分指获取特征的动态变化。动态特征DynFEATURE为：

DynFEATURE(j)_i＝FEATURE(j)_i-FEATURE(j-1)_i

其中，i＝1，2…，I，表示第i维特征；DynFEATURE(j)表示第j帧特征。此处FEATURE分别为WMFCC或者WLPCC，所以对应的DynFEATURE分别是DMFCC与DLPCC。显然，DMFCC，DLPCC的阶数分别与WMFCC，WLPCC一致。

特征组合指的是将两种以上特征相结合而构成的新特征。特征组合ComFEATURE形式化表示为：

特征维选取是指从原有多维特征中选取部分维度的特征构成。特征维选取结果为SelFEATURE，方法如下：

SelFEATURE_i＝ComFEATURE_j i＝1，2…，I；j＝1，2，…2P+2Q；i≤j；

且当j≠k时，ComFEATURE(j)≠ComFEATURE(k)

由此完成特征的二次提取。

第四，声纹模型管理是一个关于说话人信息的数据库管理。如图5所示，包括声纹模型建模、模型保存、模型载入以及说话人资料管理。其中说话人建模过程采用新旧声纹特征实现声纹模型的更新。

至此，整个掌上声纹验证得以实现。

Claims

1、一种掌上声纹验证方法，其特征在于：

1)、利用人的声音来鉴定身份，根据说话人的声学特征，通过高斯混合模型建立声纹模型；通过掌上电脑的麦克风录入语音；对声音进行预处理；对处理后的声音根据一定的声学模型进行特征提取；用声纹特征与声纹模型来识别说话人，进行声纹验证；

2)、所述的声音预处理，对语音数字滤波、端点检测、去零漂、预加重、加汉明窗等处理过程；其中端点检测采用特有的自适应双门限检定法检测语音端点；

3)、对处理后的声音进行二次特征提取，是对声音按照一定声学模型建模的过程：采用MFCC与LPCC进行声学建模，并通过求取特征一阶微分、特征加权、特征维选择、特征组合等方式获取一致的声学特征；

4)、用声学特征与高斯混合模型进行声纹识别，计算说话人的声学特征在高斯混合模型的匹配得分；如果该得分大于设定的阀值，则验证通过，否则说明该用户是冒名的，拒绝该用户。

2、根据权利要求1所述的掌上声纹验证方法，其特征在于：所述的自适应双门限检定法检测语音端点，门限能量由静态能量阀值与动态能量阀值共同决定，有效的语音要有一个持续的高能量区：

E_{1} = \frac{1}{3} \cdot Σ_{i = 1}^{3 N} x_{i}^{2}

N为一帧语音的采样点数，E₁为邻近三帧的平均能量

E_TL＝b·(E₁+E₀)/2 b为比例参数，E_TL为低阀值。

3、根据权利要求1所述的掌上声纹验证方法，其特征在于：声纹模型管理，包括涉及到声纹模型的更新与存储。