[go: up one dir, main page]

CN114974259A - 一种声纹识别方法 - Google Patents

一种声纹识别方法 Download PDF

Info

Publication number
CN114974259A
CN114974259A CN202111595332.5A CN202111595332A CN114974259A CN 114974259 A CN114974259 A CN 114974259A CN 202111595332 A CN202111595332 A CN 202111595332A CN 114974259 A CN114974259 A CN 114974259A
Authority
CN
China
Prior art keywords
vector
voiceprint
voice
corrected
mfcc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111595332.5A
Other languages
English (en)
Other versions
CN114974259B (zh
Inventor
陈家俊
宋惕林
周颜云
曹思佳
李井峰
孙清源
赵峻毅
段巍巍
吴曾
张品品
李瑁
陈敏
潘琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Best Tone Information Service Corp Ltd
Original Assignee
Best Tone Information Service Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Best Tone Information Service Corp Ltd filed Critical Best Tone Information Service Corp Ltd
Priority to CN202111595332.5A priority Critical patent/CN114974259B/zh
Publication of CN114974259A publication Critical patent/CN114974259A/zh
Application granted granted Critical
Publication of CN114974259B publication Critical patent/CN114974259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06GANALOGUE COMPUTERS
    • G06G7/00Devices in which the computing operation is performed by varying electric or magnetic quantities
    • G06G7/12Arrangements for performing computing operations, e.g. operational amplifiers
    • G06G7/22Arrangements for performing computing operations, e.g. operational amplifiers for evaluating trigonometric functions; for conversion of co-ordinates; for computations involving vector quantities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)

Abstract

本申请涉及一种结合x‑vector与i‑vector的声纹识别方法,包括模型的训练方法和声纹的识别方法两个部分,模型的训练流程依次包括手机训练语料、数据预处理、声音特征提取、提取算法和储存计算结果;声纹的识别方法是对两个待识别语音分别进行数据预处理、声音特征提取,提取算法,再对两个待识别语音的出的算法结果进行对比,最后识别结果。本申请是基于x‑vector的Transformer声纹提取和i‑vector辅助修正的声纹识别方法,减少计算量、提高并行效率和精准度,适合推广应用。

Description

一种声纹识别方法
技术领域
本申请涉及通过人类的声纹信息对身份进行鉴别和确认的方法,尤其是 涉及一种结合x-vector与i-vector的声纹识别方法。
背景技术
声纹识别,即说话人识到,就是要根据人的声音中所蕴涵的说话人的生 物特征,识到出说某段语音的人是谁,即所谓“闻声知人”。声纹识别可以 在几乎所有需要身份鉴别或确认的安全性保护领域和个性化应用中使用。
目前声纹识别主要分为经典建模方法和深度学习建模方法两个大类,前 者包括诸如模板匹配、高斯混合模型(GMM)、基于高斯混合背景模型的 i-vector方法等。其中,基于高斯混合背景模型的i-vector方法是由kenny等学 者提出,由Joint Factor Analysis简化而来,表征了说话人相关的最重要信息, 目前i-vector在声纹相关算法中仍然有很广泛的应用,已经是说话人识别的 主流技术。虽然i-vector目前仍然是一个研究者热捧的一个方法,但是,不 可忽视的是,它的扩展性较差,在大数据背景下,i-vector的优势不能发挥 出来;此外,单一的i-vector方法能取得的效果也十分有限。
2014年,随着谷歌提出了一种基于嵌入向量的识别方法d-vector,深度 学习进行声纹识别也进入人们的视线。近年来,人们也更倾向于使用有监督 的深度学习技术来解决各种问题。在深度学习中的声纹识别包括特征工程 (feature learning)和端到端(endtoend)两个大方向。特征工程是指将神 经网络作为一个特征提取器,提取出声音的特征信息,接着对该特征信息进 行声音分类等。主要有d-vector、x-vector等。其中,x-vector是最主流的方 法之一,它以多类别交叉熵去对多个说话者进行比对,根据标签降熵,即使 某些说话者的语料存在时长、信道不匹配的问题,也能保证算法的鲁棒性。 也就是说,x-vector对噪声数据敏感度更低,此外,它还具有训练速度快; 训练集扩展性高,无需特定语种的训练集;识别率高等特点;端到端方法是 指:深度学习算法作为一个黑盒,直接获得结果,比如输入两段语音,直接 得到是否是同一个人的结果。其中值得一提的是是Transformer注意力模型, 因为具有复杂度较低,支持并行计算、结构简单的特点和优点,逐渐成为端 到端深度学习方法的重要组成。
公开号为CN 1447278A的中国发明专利公开了一种声纹识别方法,包 括模型的训练方法和声纹的识别方法两个部分,其特点为:每个说话人构建 声绞模型为M={μkk,wk|1≤k≤K}:待识别的特征矢量序列
Figure BDA0003430337470000021
与 说话人声纹模型M={μkk,wk|1≤k≤K}M的匹配得分(对数似然得分).本发 明可按不同的应用需求调整操作点阔值,使最终准确率达到最高或使错误率 降到最低。本发明可用于保安、财经、国防、公安司法等领域通过人类的声 纹信息对身份进行鉴别和确认。但是该技术方案采用的算法复杂,需要的条件苛刻,没有发挥大数据的优势。
综上,目前市场上亟需开发出一种在原有系统上有明显改进、顺应大数 据背景的声纹识别方法。
发明内容
本申请要解决的技术问题是目前在大数据背景下,声纹识别的算法中 i-vector的优势不能发挥出来;此外,单一的i-vector方法能取得的效果也十 分有限。
为解决上述技术问题,本申请提供一种结合x-vector与i-vector的声纹 识别方法,包括模型的训练方法和声纹的识别方法两个部分,模型的训练方 法的步骤包括:S1:获得由多名说话人的音频组成的训练语料,对纯净的训 练语料进行加噪处理,在训练语料中加入加噪语音,得到混合训练语料; S2:对混合训练语料进行分批训练,对每个批次的每段语音进行分帧,并提 取其梅尔频率倒谱系数(MFCC)特征;S3:将梅尔频率倒谱系数(MFCC)特征作为输入,输入到声纹向量提取模型中进行训练,形成第一声纹向量; S4:在训练好的模型中抽取混合训练语料的i-vector向量,获得第二声纹向 量;S5:将第一声纹向量、第二声纹向量输入修正器,修正后获得修正声纹 向量;S6:将修正声纹向量输入归一化指数函数(softmax),得到分类结果;S7:将分类结果输入损失函数计算损失,反向传播,对修正器的参数进行更 新;S8:重复上述步骤二至步骤七,直至算法收敛。声纹的识别方法为:S9:分别对第一待识别语音和第二待识别语音进行分帧,形成相应的第一梅尔频 率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征;S10: 分别将第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数 (MFCC)特征放入训练好的声纹提取模型中,分别获得第一抽取声纹向量 和第二抽取声纹向量;接着再将第一梅尔频率倒谱系数(MFCC)特征和第 二梅尔频率倒谱系数(MFCC)特征分别放入i-vector模型中,分别获得第 一修正声纹向量和第二修正声纹向量;S11:将第一抽取声纹向量和第一修 正声纹向量放入修正后的修正器中进行修正,得到第一待识别语音的修正声 纹向量;将第二抽取声纹向量和第二修正声纹向量放入修正后的修正器中进 行修正,得到第二待识别语音的修正声纹向量;S12:计算第一待识别语音 的修正声纹向量和第二待识别语音的修正声纹向量的余弦相似度,根据阈值 判断第一待识别语音和第二待识别语音是否属于同一个人。
根据本申请的实施例,步骤2提取梅尔频率倒谱系数(MFCC)特征的 方法为:对分批的训练语料的每个批次的语音依次经过预加重、分帧、加窗、 快速傅里叶变换(FFT)、梅尔滤波器组过滤、取对数、离散余弦变换(DCT) 这几个预处理步骤后,将数据集中的语音进行特征变换,得到关于一个批次 的训练语料的梅尔频率倒谱系数(MFCC)特征.
在预加重的步骤中,所述语音通过一个高通滤波器进行预加重,补偿语 音受到发音系统所抑制的高频部分,将变得平坦的频谱保持在低频到高频的 整个频带中;在分帧、加窗、快速傅里叶变换(FFT)的步骤中,分帧后,将一 个窗口函数应用于窗口随时间滑动(Slide)或跳跃(hop)的每个帧,然后对分帧 加窗后的各帧信号进行快速傅里叶变换FFT得到各帧的频谱,并对所述语音 的频谱取模平方,得到语音信号的功率;在梅尔滤波器组过滤、取对数预处理 步骤中,将各帧的频谱送入梅尔滤波器组进行滤波,将线性的自然频谱转换 为体现人类听觉特性的Mel频谱,在Mel频谱上面进行倒谱分析,取对数, 通过DCT离散余弦变换DCT做逆变换,然后取DCT后的第2个到第13个 系数作为语音特征梅尔倒谱系数MFC,再获得梅尔频率倒谱系数MFCC, 这个MFCC就是这帧语音的特征。
根据本申请的实施例,分帧步骤中对每个批次的每段语音进行分块、分 帧,每段语音取16个语音块,每一个语音块帧数为256,每一帧提取36维 的梅尔频率倒谱系数MFCC特征。
根据本申请的实施例,分帧步骤中每帧为32ms。
根据本申请的实施例,步骤3中声纹向量提取模型主要包括四个部分: 时延神经网络(TDNN)、pooling池化层、Transformer模型、两层全向连接层 和softmax输出层。时延神经网络(TDNN)用于接受步骤2中国梅尔频率 倒谱系数(MFCC)特征中的信息,输出向量;Pooling池化层用于对时延神 经网络(TDNN)输出向量进行平均;Transformer模型和两层全向连接层将 特征图映射成一个固定长度的特征向量;softmax输出层用于计算损失,输出步骤3的第一声纹向量。
根据本申请的实施例,Transformer模型为采用多头注意力机制的转移模 型,Transformer模型包括Multi-Head Attention层、Add&Norm层、Feed Forward 层和Add&Norm输出层,Add&Norm层会把Multi-Head Attention层的输入 和输出进行求和并归一化处理后,传递到FeedForward层,最后会再进行一 次Add&Norm处理,输出最终的词向量矩阵。
根据本申请的实施例,加噪处理包括对训练语料加入回响噪音、自然噪 音。
根据本申请的实施例,训练语料具体包括:收集N个男性和N个女性 的声音数据,并按声纹模型的训练方法分别训练出说话人的声纹模型,共2N 个,存入训练语料库。
Figure BDA0003430337470000041
其中n代表要输入的语音,k代表各个说话人,当是待识别人时,dnk为 1,否则为0,
Figure BDA0003430337470000042
是各个说话人的后验概率,所述损失函数是对所有 的语音结果的求和。
根据本申请的实施例,步骤9中所述第一待识别语音和第二待识别语音 的长度均大于等于10秒。
根据本申请的实施例,所述修正器包括i-vector向量的修正和x-vector 向量的修正,获得所述修正向量Mi:
Mi=Pi*Yi+(1-Pi)*Xi (2)
其中i代表维度,Pi代表修正器参数,yi代表i-vector向量,xi代表x-vector 向量。
与现有技术相比,本发明具有如下有益效果:
1.与传统的x-vector相比,本发明结合x-vector,首先是扩增训练数据, 解决了实际应用环境下可能存在噪声,影响识别结果的问题,增加算法的适 应度。
2.本发明利用Transformer多头注意力模型减少计算量和提高并行效率。 虽然局部连接、权重共享以及pooling等优化操作可以让神经网络变得简单 一些,有效缓解模型复杂度和表达能力之间的矛盾;但是,如循环神经网络 中的长距离以来问题,信息“记忆”能力并不高,引入注意力机制可以提高神 经网络处理信息的能力
3.本发明利用i-vector找到一个隐变量空间,增加算法向量对数据的描 述精准度。算法的并行性非常好,符合目前的硬件(主要指GPU)环境。基 于i-vector的方法是对全局差异进行建模,将其二者作为一个整体进行建模, 这样处理放宽了对训练语料的限制,并且计算简单,性能也相当。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例的附图作 简单地介绍,显而易见地,下面描述中的附图仅仅涉及本申请的一些实施例, 而非对本申请的限制。
图1为本发明一种结合x-vector与i-vector的声纹识别方法中模型的训 练流程;
图2为本发明一种结合x-vector与i-vector的声纹识别方法中声纹识别 流程;
图3为本发明一种结合x-vector与i-vector的声纹识别方法中声纹向量 提取模型中进行训练的流程图;
图4为本发明一种结合x-vector与i-vector的声纹识别方法中Transformer 模型的结构图;
图5为本发明一种结合x-vector与i-vector的声纹识别方法中修正器的 修正结构图。
附图标记说明如下:
1.训练语料,2.第一待识别语音,3.第二待识别语音。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申 请实施例的附图,对本申请实施例的技术方案进行清楚、完整地描述。显然, 所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于所描 述的本申请的实施例,本领域普通技术人员在无需创造性劳动的前提下所获 得的所有其它实施例,都属于本申请保护的范围。
除非另作定义,此处使用的技术术语或者科学术语应当为本申请所属领 域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权 利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量 或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类 似词语也不表示数量限制,而是表示存在至少一个。
如图1和图2所示,一种结合x-vector与i-vector的声纹识别方法,包 括模型的训练方法和声纹的识别方法两个部分。
模型的训练方法的步骤包括:
S1:获得由多名说话人的音频组成的训练语料,对纯净的训练语料进行 加噪处理,在训练语料中加入加噪语音,得到混合训练语料;
进一步地,加噪处理包括对训练语料加入回响噪音、自然噪音。
进一步地,训练语料具体包括:收集N个男性和N个女性的声音数据, 并按声纹模型的训练方法分别训练出说话人的声纹模型,共2N个,存入训 练语料库。
S2:对混合训练语料进行分批训练,对每个批次的每段语音进行分帧, 并提取其梅尔频率倒谱系数(MFCC)特征;
进一步地,根据本申请的实施例,步骤2提取梅尔频率倒谱系数(MFCC) 特征的方法为:对分批的训练语料的每个批次的语音依次经过预加重、分帧、 加窗、快速傅里叶变换(FFT)、梅尔滤波器组过滤、取对数、离散余弦变换(DCT) 这几个预处理步骤后,将数据集中的语音进行特征变换,得到关于一个批次 的训练语料的梅尔频率倒谱系数(MFCC)特征.
在预加重的步骤中,语音通过一个高通滤波器进行预加重,补偿语音受 到发音系统所抑制的高频部分,将变得平坦的频谱保持在低频到高频的整个 频带中;在分帧、加窗、快速傅里叶变换(FFT)的步骤中,分帧后,将一个窗 口函数应用于窗口随时间滑动(Slide)或跳跃(hop)的每个帧,然后对分帧加窗 后的各帧信号进行快速傅里叶变换FFT得到各帧的频谱,并对所述语音的频 谱取模平方,得到语音信号的功率;在梅尔滤波器组过滤、取对数预处理步骤 中,将各帧的频谱送入梅尔滤波器组进行滤波,将线性的自然频谱转换为体现人类听觉特性的Mel频谱,在Mel频谱上面进行倒谱分析,取对数,通过 DCT离散余弦变换DCT做逆变换,然后取DCT后的第2个到第13个系数 作为语音特征梅尔倒谱系数MFC,再获得梅尔频率倒谱系数MFCC,这个 MFCC就是这帧语音的特征。
进一步地,分帧步骤中对每个批次的每段语音进行分块、分帧,其中分 帧步骤中每帧为32ms,每段语音取16个语音块,每一个语音块帧数为256, 每一帧提取36维的梅尔频率倒谱系数MFCC特征。
S3:将梅尔频率倒谱系数(MFCC)特征作为输入,输入到声纹向量提 取模型中进行训练,形成第一声纹向量;
进一步地,如图3所示,步骤3中声纹向量提取模型主要包括四个部分: 时延神经网络(TDNN)、pooling池化层、Transformer模型、两层全向连接层 和softmax输出层。时延神经网络(TDNN)用于接受步骤2中国梅尔频率 倒谱系数(MFCC)特征中的信息,输出向量;Pooling池化层用于对时延神 经网络(TDNN)输出向量进行平均;Transformer模型和两层全向连接层将 特征图映射成一个固定长度的特征向量;softmax输出层用于计算损失,输出步骤3的第一声纹向量。
进一步地,TDNN的每一层仍然是DNN,只是其每层的输入由历史、 当前和未来的特征拼接而层,从而引入时序信息。
进一步地,如图4所示,Transformer模型为采用多头注意力机制的转移 模型,Transformer模型包括Multi-Head Attention层、Add&Norm层、Feed Forward层和Add&Norm输出层,Add&Norm层会把Multi-Head Attention 层的输入和输出进行求和并归一化处理后,传递到Feed Forward层,最后会 再进行一次Add&Norm处理,输出最终的词向量矩阵。
进一步地,多头注意力机制就是使用多个注意力机制进行单独计算,以 获取更多层面的语义信息,然后将各个注意力机制获取的结果进行拼接组 合,得到最终的结果。
S4:在训练好的模型中抽取混合训练语料的i-vector向量,获得第二声 纹向量;
S5:将第一声纹向量、第二声纹向量输入修正器,修正后获得修正声纹 向量;
进一步地,如图5所示,修正器包括i-vector向量的修正和x-vector向 量的修正,获得修正向量Mi:
Mi=Pi*Yi+(1-Pi)*Xi (2)
其中i代表维度,Pi代表修正器参数,yi代表i-vector向量,xi代表x-vector 向量。
S6:将修正声纹向量输入归一化指数函数(softmax),得到分类结果;
S7:将分类结果输入损失函数计算损失,反向传播,对修正器的参数进 行更新;
Figure BDA0003430337470000081
其中n代表要输入的语音,k代表各个说话人,当是待识别人时,dnk为 1,否则为0,
Figure BDA0003430337470000082
是各个说话人的后验概率,所述损失函数是对所有 的语音结果的求和。
进一步地,步骤9中第一待识别语音和第二待识别语音的长度均大于等 于10秒。
S8:重复上述步骤二至步骤七,直至算法收敛。
如图1所示,模型的训练的流程可概括为收集训练语料、数据预处理、 声音特征提取、提取算法、存储计算结果。
声纹的识别方法步骤包括:
S9:分别对第一待识别语音和第二待识别语音进行分帧,形成相应的第 一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特 征;
进一步地,步骤9中第一待识别语音和第二待识别语音的长度均大于等 于10秒。
S10:分别将第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒 谱系数(MFCC)特征放入训练好的声纹提取模型中,分别获得第一抽取声 纹向量和第二抽取声纹向量;接着再将第一梅尔频率倒谱系数(MFCC)特 征和第二梅尔频率倒谱系数(MFCC)特征分别放入i-vector模型中,分别 获得第一修正声纹向量和第二修正声纹向量;
S11:将第一抽取声纹向量和第一修正声纹向量放入修正后的修正器中 进行修正,得到第一待识别语音的修正声纹向量;将第二抽取声纹向量和第 二修正声纹向量放入修正后的修正器中进行修正,得到第二待识别语音的修 正声纹向量;
S12:计算第一待识别语音的修正声纹向量和第二待识别语音的修正声 纹向量的余弦相似度,根据阈值判断第一待识别语音和第二待识别语音是否 属于同一个人。
本申请的一个具体实施例如下:
1)获得由多名说话人音频组成的纯净训练语料,该语料训练集中包含 5000个说话人,其中男性和女性说话人的音频个数分别是2500个。语音内 容随机,音频样本中的说话内容不一定相同。对纯净的训练预料进行加噪处 理,在训练语料中加入回响噪音,自然噪音、等,得到混合训练语料;
2)对上述训练语料进行分批训练,16个为一组,一共400组。对每个 批次的每段语音进行分块、分帧,每个语音取16个语音块,每一块的帧数 为256,每一帧提取36维的MFCC特征,因此训练语料的维度是16*256*36;
3)将上一步的声音特征作为输入,输入到声纹向量提取模型中进行训 练,如图2所示,本声纹向量提取模型主要包括四个部分:一个TDNN时延 生成网络使用各帧信息,一个Pooling池化层对各帧的TDNN输出进行平均, 一个图4所示的Transformer多头注意力转移模型和两层全连接网络将特征图 映射成一个固定长度的特征向量。经过该层之后会得到一个1*200维的声纹 向量
Figure BDA0003430337470000091
4)根据训练好的模型抽取输入语料的i-vector向量,经过该层也会获得 一个1*200维的声纹向量
Figure BDA0003430337470000092
5)将步骤3)和步骤4)中的两个1*200维的声纹向量X0和X1作为输 入,进入图5所示的修正器中进行修正,修正后得到一个新的修正声纹 M=[m0,...,mi,...,m200],且
Figure BDA0003430337470000093
i∈(1,2,..,200)。修正器参数 P=[p1,p2,...,p200],一开始为随机生成值,后面根据前馈神经网络来更新参数, 训练修正器。
6)将得到的结果输入softmax层,得到分类结果,计算损失;损失函数 是交叉熵
Figure BDA0003430337470000101
其中n代表要输入的语音,k代表各个说话人,当是本说话人时,dnk为 1,否则为0,
Figure BDA0003430337470000102
是各个说话人的后验概率,该函数是对所有的语音 结果的求和。
7)反向传播,对参数进行更新;
8)重复上述步骤二至步骤七,直至算法收敛。
(一)识别过程:
假设有两段有效时长均大于等于10s语音voice0和voice1,需要识别出二者 是不是属于同一个人。
(1)首先分别对两段语音voice0和voice1进行分帧,每一帧为32ms,取 256帧,每一帧提取36维的MFCC特征,因此两段语料的输入
Figure BDA0003430337470000103
Figure BDA0003430337470000104
的维 度均为1*256*36;
(2)分别将
Figure BDA0003430337470000105
Figure BDA0003430337470000106
放入训练好的声纹提取器中,获得两段输入语料 的声纹向量
Figure BDA0003430337470000107
Figure BDA0003430337470000108
其中,这两个向量均为1*200维;接着再将
Figure BDA0003430337470000109
Figure BDA00034303374700001010
丢 进i-vector模型中,也获得两个1*200维的声纹向量
Figure BDA00034303374700001011
Figure BDA00034303374700001012
本步骤结 束之后,每段语料分别获得一个抽取声纹向量和一个修声纹向量;
(3)将两段声音的两个声纹向量
Figure BDA00034303374700001013
Figure BDA00034303374700001014
分 别放入修正器中进行修正,得到修正后的声纹向量
Figure BDA00034303374700001015
Figure BDA00034303374700001016
(4)计算两段声纹向量M0和M1的余弦相似度,根据阈值判断二个声音 片段是否属于同一个人。
综上所述,本发明具有以下有意效果:
1.与传统的x-vector相比,本发明结合x-vector,首先是扩增训练数据, 解决了实际应用环境下可能存在噪声,影响识别结果的问题,增加算法的适 应度。
2.本发明利用Transformer多头注意力模型减少计算量和提高并行效率。 虽然局部连接、权重共享以及pooling等优化操作可以让神经网络变得简单 一些,有效缓解模型复杂度和表达能力之间的矛盾;但是,如循环神经网络 中的长距离以来问题,信息“记忆”能力并不高,引入注意力机制可以提高神 经网络处理信息的能力
3.本发明利用i-vector找到一个隐变量空间,增加算法向量对数据的描 述精准度。算法的并行性非常好,符合目前的硬件(主要指GPU)环境。基 于i-vector的方法是对全局差异进行建模,将其二者作为一个整体进行建模, 这样处理放宽了对训练语料的限制,并且计算简单,性能也相当。
以上所述仅是本申请的示范性实施方式,而非用于限制本申请的保护范 围,本申请的保护范围由所附的权利要求确定。

Claims (10)

1.一种结合x-vector与i-vector的声纹识别方法,其特征在于,包括模型的训练方法和声纹的识别方法两个部分,
所述模型的训练方法的步骤包括:
S1:获得由多名说话人的音频组成的训练语料,对纯净的训练语料进行加噪处理,在训练语料中加入加噪语音,得到混合训练语料;
S2:对所述混合训练语料进行分批训练,对每个批次的每段语音进行分帧,并提取其梅尔频率倒谱系数(MFCC)特征;
S3:将所述梅尔频率倒谱系数(MFCC)特征作为输入,输入到声纹向量提取模型中进行训练,形成第一声纹向量;
S4:在训练好的模型中抽取所述混合训练语料的i-vector向量,获得第二声纹向量;
S5:将所述第一声纹向量、第二声纹向量输入修正器,修正后获得修正声纹向量;
S6:将所述修正声纹向量输入归一化指数函数(softmax),得到分类结果;
S7:将所述分类结果输入损失函数计算损失,反向传播,对所述修正器的参数进行更新;
S8:重复上述步骤二至步骤七,直至算法收敛;
所述声纹的识别方法为:
S9:分别对第一待识别语音和第二待识别语音进行分帧,形成相应的第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征;
S10:分别将所述第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征放入训练好的所述声纹提取模型中,分别获得第一抽取声纹向量和第二抽取声纹向量;接着再将所述第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征分别放入i-vector模型中,分别获得第一修正声纹向量和第二修正声纹向量;
S11:将所述第一抽取声纹向量和第一修正声纹向量放入修正后的所述修正器中进行修正,得到所述第一待识别语音的修正声纹向量;将所述第二抽取声纹向量和第二修正声纹向量放入修正后的所述修正器中进行修正,得到所述第二待识别语音的修正声纹向量;
S12:计算所述第一待识别语音的修正声纹向量和第二待识别语音的修正声纹向量的余弦相似度,根据阈值判断所述第一待识别语音和第二待识别语音是否属于同一个人。
2.根据权利要求1所述的声纹识别方法,其特征在于,步骤2提取所述梅尔频率倒谱系数特征的方法为:对分批的所述训练语料的每个批次的语音依次经过预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组过滤、取对数、离散余弦变换(DCT)这几个预处理步骤后,将数据集中的所述语音进行特征变换,得到关于一个批次的所述训练语料的梅尔频率倒谱系数特征;
在所述预加重的步骤中,所述语音通过一个高通滤波器进行预加重,补偿语音受到发音系统所抑制的高频部分,将变得平坦的频谱保持在低频到高频的整个频带中;
在所述分帧、加窗、快速傅里叶变换(FFT)的步骤中,分帧后,将一个窗口函数应用于窗口随时间滑动(Slide)或跳跃(hop)的每个帧,然后对分帧加窗后的各帧信号进行快速傅里叶变换FFT得到各帧的频谱,并对所述语音的频谱取模平方,得到语音信号的功率;
在所述梅尔滤波器组过滤、取对数预处理步骤中,将所述各帧的频谱送入所述梅尔滤波器组进行滤波,将线性的自然频谱转换为体现人类听觉特性的Mel频谱,在Mel频谱上面进行倒谱分析,取对数,通过DCT离散余弦变换DCT做逆变换,然后取DCT后的第2个到第13个系数作为语音特征梅尔倒谱系数MFC,再获得梅尔频率倒谱系数MFCC,这个MFCC就是这帧语音的特征。
3.根据权利要求2所述的声纹识别方法,其特征在于,所述分帧步骤中对所述每个批次的每段语音进行分块、分帧,所述每段语音取16个语音块,每一个所述语音块帧数为256,每一帧提取36维的梅尔频率倒谱系数MFCC特征。
4.根据权利要求2所述的声纹识别方法,其特征在于,所述分帧步骤中每帧为32ms。
5.根据权利要求1所述的声纹识别方法,其特征在于,步骤3中所述声纹向量提取模型主要包括四个部分:时延神经网络(TDNN)、pooling池化层、Transformer模型、两层全向连接层和softmax输出层,
所述时延神经网络(TDNN)用于接受步骤2中国所述梅尔频率倒谱系数(MFCC)特征中的信息,输出向量;
所述Pooling池化层用于对所述时延神经网络(TDNN)输出向量进行平均;
所述Transformer模型和两层全向连接层将特征图映射成一个固定长度的特征向量;
所述softmax输出层用于计算损失,输出步骤3所述的第一声纹向量。
6.根据权利要求4所述的声纹识别方法,其特征在于,所述Transformer模型为采用多头注意力机制的转移模型,所述Transformer模型包括Multi-Head Attention层、Add&Norm层、Feed Forward层和Add&Norm输出层,所述Add&Norm层会把所述Multi-Head Attention层的输入和输出进行求和并归一化处理后,传递到所述Feed Forward层,最后会再进行一次Add&Norm处理,输出最终的词向量矩阵。
7.根据权利要求1所述的声纹识别方法,其特征在于,所述加噪处理包括对所述训练语料加入回响噪音、自然噪音。
8.根据权利要求1所述的声纹识别方法,其特征在于,所述训练语料具体包括:收集N个男性和N个女性的声音数据,并按声纹模型的训练方法分别训练出说话人的声纹模型,共2N个,存入训练语料库。
9.根据权利要求1所述的声纹识别方法,其特征在于,步骤7中的所述损失函数是交叉熵:
Figure FDA0003430337460000031
其中,其中n代表要输入的语音,k代表各个说话人,当是待识别人时,dnk为1,否则为0,
Figure FDA0003430337460000032
是各个说话人的后验概率,所述损失函数是对所有的语音结果的求和。
10.根据权利要求1所述的声纹识别方法,其特征在于,所述修正器包括i-vector向量的修正和x-vector向量的修正,获得所述修正向量Mi:
Mi=Pi*Yi+(1-Pi)*Xi (2)
其中i代表维度,Pi代表修正器参数,yi代表i-vector向量,xi代表x-vector向量。
CN202111595332.5A 2021-12-23 2021-12-23 一种声纹识别方法 Active CN114974259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111595332.5A CN114974259B (zh) 2021-12-23 2021-12-23 一种声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111595332.5A CN114974259B (zh) 2021-12-23 2021-12-23 一种声纹识别方法

Publications (2)

Publication Number Publication Date
CN114974259A true CN114974259A (zh) 2022-08-30
CN114974259B CN114974259B (zh) 2024-07-12

Family

ID=82974857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111595332.5A Active CN114974259B (zh) 2021-12-23 2021-12-23 一种声纹识别方法

Country Status (1)

Country Link
CN (1) CN114974259B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20250078843A1 (en) * 2022-11-15 2025-03-06 Zju-hangzhou Global Scientific And Technological Innovation Center Method for designing interference noise of speech based on the human speech structure

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN110047504A (zh) * 2019-04-18 2019-07-23 东华大学 身份矢量x-vector线性变换下的说话人识别方法
CN110517663A (zh) * 2019-08-01 2019-11-29 北京语言大学 一种语种识别方法及识别系统
CN113470655A (zh) * 2021-07-02 2021-10-01 因诺微科技(天津)有限公司 一种基于音素对数似然比的时延神经网络的声纹识别方法
JP2021167850A (ja) * 2020-04-08 2021-10-21 日本電信電話株式会社 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN110047504A (zh) * 2019-04-18 2019-07-23 东华大学 身份矢量x-vector线性变换下的说话人识别方法
CN110517663A (zh) * 2019-08-01 2019-11-29 北京语言大学 一种语种识别方法及识别系统
JP2021167850A (ja) * 2020-04-08 2021-10-21 日本電信電話株式会社 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム
CN113470655A (zh) * 2021-07-02 2021-10-01 因诺微科技(天津)有限公司 一种基于音素对数似然比的时延神经网络的声纹识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20250078843A1 (en) * 2022-11-15 2025-03-06 Zju-hangzhou Global Scientific And Technological Innovation Center Method for designing interference noise of speech based on the human speech structure

Also Published As

Publication number Publication date
CN114974259B (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
Perero-Codosero et al. X-vector anonymization using autoencoders and adversarial training for preserving speech privacy
CN113763965B (zh) 一种多重注意力特征融合的说话人识别方法
CN109637545A (zh) 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
CN104217721B (zh) 基于说话人模型对齐的非对称语音库条件下的语音转换方法
Todkar et al. Speaker recognition techniques: A review
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
Tran et al. Fuzzy Gaussian mixture models for speaker recognition.
CN101123648A (zh) 电话语音识别中的自适应方法
CN114743545B (zh) 方言种类预测模型的训练方法、设备及存储介质
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
CN109036468A (zh) 基于深度信念网络和核非线性psvm的语音情感识别方法
Mun et al. The sound of my voice: Speaker representation loss for target voice separation
CN112116921A (zh) 一种基于整合优化器的单声道语音分离方法
CN112863521A (zh) 一种基于互信息估计的说话人识别方法
CN120183382A (zh) 基于知识蒸馏的海南方言语音识别优化系统
CN110265039B (zh) 一种基于字典学习和低秩矩阵分解的说话人识别方法
CN114974259B (zh) 一种声纹识别方法
Koolagudi et al. Speaker recognition in the case of emotional environment using transformation of speech features
Liu et al. Distilling multi-level x-vector knowledge for small-footprint speaker verification
CN117457005A (zh) 一种基于动量对比学习的声纹识别方法和设备
CN113948093B (zh) 一种基于无监督场景适应的说话人识别方法及系统
CN113223537B (zh) 一种基于阶段测试反馈的语音训练数据迭代更新方法
CN114898757A (zh) 声纹确认模型训练方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant