CN114974259A

CN114974259A - 一种声纹识别方法

Info

Publication number: CN114974259A
Application number: CN202111595332.5A
Authority: CN
Inventors: 陈家俊; 宋惕林; 周颜云; 曹思佳; 李井峰; 孙清源; 赵峻毅; 段巍巍; 吴曾; 张品品; 李瑁; 陈敏; 潘琳
Original assignee: Best Tone Information Service Corp Ltd
Current assignee: Best Tone Information Service Corp Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-08-30
Anticipated expiration: 2041-12-23
Also published as: CN114974259B

Abstract

本申请涉及一种结合x‑vector与i‑vector的声纹识别方法，包括模型的训练方法和声纹的识别方法两个部分，模型的训练流程依次包括手机训练语料、数据预处理、声音特征提取、提取算法和储存计算结果；声纹的识别方法是对两个待识别语音分别进行数据预处理、声音特征提取，提取算法，再对两个待识别语音的出的算法结果进行对比，最后识别结果。本申请是基于x‑vector的Transformer声纹提取和i‑vector辅助修正的声纹识别方法，减少计算量、提高并行效率和精准度，适合推广应用。

Description

一种声纹识别方法

技术领域

本申请涉及通过人类的声纹信息对身份进行鉴别和确认的方法，尤其是涉及一种结合x-vector与i-vector的声纹识别方法。

背景技术

声纹识别，即说话人识到，就是要根据人的声音中所蕴涵的说话人的生物特征，识到出说某段语音的人是谁，即所谓“闻声知人”。声纹识别可以在几乎所有需要身份鉴别或确认的安全性保护领域和个性化应用中使用。

目前声纹识别主要分为经典建模方法和深度学习建模方法两个大类，前者包括诸如模板匹配、高斯混合模型(GMM)、基于高斯混合背景模型的 i-vector方法等。其中，基于高斯混合背景模型的i-vector方法是由kenny等学者提出，由Joint Factor Analysis简化而来，表征了说话人相关的最重要信息，目前i-vector在声纹相关算法中仍然有很广泛的应用，已经是说话人识别的主流技术。虽然i-vector目前仍然是一个研究者热捧的一个方法，但是，不可忽视的是，它的扩展性较差，在大数据背景下，i-vector的优势不能发挥出来；此外，单一的i-vector方法能取得的效果也十分有限。

2014年，随着谷歌提出了一种基于嵌入向量的识别方法d-vector，深度学习进行声纹识别也进入人们的视线。近年来，人们也更倾向于使用有监督的深度学习技术来解决各种问题。在深度学习中的声纹识别包括特征工程 (feature learning)和端到端(endtoend)两个大方向。特征工程是指将神经网络作为一个特征提取器，提取出声音的特征信息，接着对该特征信息进行声音分类等。主要有d-vector、x-vector等。其中，x-vector是最主流的方法之一，它以多类别交叉熵去对多个说话者进行比对，根据标签降熵，即使某些说话者的语料存在时长、信道不匹配的问题，也能保证算法的鲁棒性。也就是说，x-vector对噪声数据敏感度更低，此外，它还具有训练速度快；训练集扩展性高，无需特定语种的训练集；识别率高等特点；端到端方法是指：深度学习算法作为一个黑盒，直接获得结果，比如输入两段语音，直接得到是否是同一个人的结果。其中值得一提的是是Transformer注意力模型，因为具有复杂度较低，支持并行计算、结构简单的特点和优点，逐渐成为端到端深度学习方法的重要组成。

公开号为CN 1447278A的中国发明专利公开了一种声纹识别方法，包括模型的训练方法和声纹的识别方法两个部分，其特点为：每个说话人构建声绞模型为M＝{μ_k,Σ_k,w_k|1≤k≤K}：待识别的特征矢量序列

与说话人声纹模型M＝{μ_k,Σ_k,w_k|1≤k≤K}M的匹配得分(对数似然得分).本发明可按不同的应用需求调整操作点阔值，使最终准确率达到最高或使错误率降到最低。本发明可用于保安、财经、国防、公安司法等领域通过人类的声纹信息对身份进行鉴别和确认。但是该技术方案采用的算法复杂，需要的条件苛刻，没有发挥大数据的优势。

综上，目前市场上亟需开发出一种在原有系统上有明显改进、顺应大数据背景的声纹识别方法。

发明内容

本申请要解决的技术问题是目前在大数据背景下，声纹识别的算法中 i-vector的优势不能发挥出来；此外，单一的i-vector方法能取得的效果也十分有限。

为解决上述技术问题，本申请提供一种结合x-vector与i-vector的声纹识别方法，包括模型的训练方法和声纹的识别方法两个部分，模型的训练方法的步骤包括：S1：获得由多名说话人的音频组成的训练语料，对纯净的训练语料进行加噪处理，在训练语料中加入加噪语音，得到混合训练语料； S2：对混合训练语料进行分批训练，对每个批次的每段语音进行分帧，并提取其梅尔频率倒谱系数(MFCC)特征；S3：将梅尔频率倒谱系数(MFCC)特征作为输入，输入到声纹向量提取模型中进行训练,形成第一声纹向量； S4：在训练好的模型中抽取混合训练语料的i-vector向量，获得第二声纹向量；S5：将第一声纹向量、第二声纹向量输入修正器，修正后获得修正声纹向量；S6：将修正声纹向量输入归一化指数函数(softmax)，得到分类结果；S7：将分类结果输入损失函数计算损失，反向传播，对修正器的参数进行更新；S8：重复上述步骤二至步骤七，直至算法收敛。声纹的识别方法为：S9：分别对第一待识别语音和第二待识别语音进行分帧，形成相应的第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征；S10：分别将第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数 (MFCC)特征放入训练好的声纹提取模型中，分别获得第一抽取声纹向量和第二抽取声纹向量；接着再将第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征分别放入i-vector模型中，分别获得第一修正声纹向量和第二修正声纹向量；S11：将第一抽取声纹向量和第一修正声纹向量放入修正后的修正器中进行修正，得到第一待识别语音的修正声纹向量；将第二抽取声纹向量和第二修正声纹向量放入修正后的修正器中进行修正，得到第二待识别语音的修正声纹向量；S12：计算第一待识别语音的修正声纹向量和第二待识别语音的修正声纹向量的余弦相似度，根据阈值判断第一待识别语音和第二待识别语音是否属于同一个人。

根据本申请的实施例，步骤2提取梅尔频率倒谱系数(MFCC)特征的方法为：对分批的训练语料的每个批次的语音依次经过预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组过滤、取对数、离散余弦变换(DCT) 这几个预处理步骤后，将数据集中的语音进行特征变换，得到关于一个批次的训练语料的梅尔频率倒谱系数(MFCC)特征.

在预加重的步骤中，所述语音通过一个高通滤波器进行预加重，补偿语音受到发音系统所抑制的高频部分，将变得平坦的频谱保持在低频到高频的整个频带中；在分帧、加窗、快速傅里叶变换(FFT)的步骤中，分帧后，将一个窗口函数应用于窗口随时间滑动(Slide)或跳跃(hop)的每个帧，然后对分帧加窗后的各帧信号进行快速傅里叶变换FFT得到各帧的频谱，并对所述语音的频谱取模平方，得到语音信号的功率；在梅尔滤波器组过滤、取对数预处理步骤中，将各帧的频谱送入梅尔滤波器组进行滤波，将线性的自然频谱转换为体现人类听觉特性的Mel频谱，在Mel频谱上面进行倒谱分析，取对数，通过DCT离散余弦变换DCT做逆变换，然后取DCT后的第2个到第13个系数作为语音特征梅尔倒谱系数MFC，再获得梅尔频率倒谱系数MFCC，这个MFCC就是这帧语音的特征。

根据本申请的实施例，分帧步骤中对每个批次的每段语音进行分块、分帧，每段语音取16个语音块，每一个语音块帧数为256，每一帧提取36维的梅尔频率倒谱系数MFCC特征。

根据本申请的实施例，分帧步骤中每帧为32ms。

根据本申请的实施例，步骤3中声纹向量提取模型主要包括四个部分：时延神经网络(TDNN)、pooling池化层、Transformer模型、两层全向连接层和softmax输出层。时延神经网络(TDNN)用于接受步骤2中国梅尔频率倒谱系数(MFCC)特征中的信息，输出向量；Pooling池化层用于对时延神经网络(TDNN)输出向量进行平均；Transformer模型和两层全向连接层将特征图映射成一个固定长度的特征向量；softmax输出层用于计算损失，输出步骤3的第一声纹向量。

根据本申请的实施例，Transformer模型为采用多头注意力机制的转移模型，Transformer模型包括Multi-Head Attention层、Add&Norm层、Feed Forward 层和Add&Norm输出层，Add&Norm层会把Multi-Head Attention层的输入和输出进行求和并归一化处理后，传递到FeedForward层，最后会再进行一次Add&Norm处理，输出最终的词向量矩阵。

根据本申请的实施例，加噪处理包括对训练语料加入回响噪音、自然噪音。

根据本申请的实施例，训练语料具体包括：收集N个男性和N个女性的声音数据，并按声纹模型的训练方法分别训练出说话人的声纹模型，共2N 个，存入训练语料库。

其中n代表要输入的语音，k代表各个说话人，当是待识别人时，d_nk为 1，否则为0，

是各个说话人的后验概率，所述损失函数是对所有的语音结果的求和。

根据本申请的实施例，步骤9中所述第一待识别语音和第二待识别语音的长度均大于等于10秒。

根据本申请的实施例，所述修正器包括i-vector向量的修正和x-vector 向量的修正，获得所述修正向量Mi:

M_i＝P_i*Y_i+(1-P_i)*X_i (2)

其中i代表维度，Pi代表修正器参数，yi代表i-vector向量，xi代表x-vector 向量。

与现有技术相比，本发明具有如下有益效果：

1.与传统的x-vector相比，本发明结合x-vector，首先是扩增训练数据，解决了实际应用环境下可能存在噪声，影响识别结果的问题，增加算法的适应度。

2.本发明利用Transformer多头注意力模型减少计算量和提高并行效率。虽然局部连接、权重共享以及pooling等优化操作可以让神经网络变得简单一些，有效缓解模型复杂度和表达能力之间的矛盾；但是，如循环神经网络中的长距离以来问题，信息“记忆”能力并不高，引入注意力机制可以提高神经网络处理信息的能力

3.本发明利用i-vector找到一个隐变量空间，增加算法向量对数据的描述精准度。算法的并行性非常好，符合目前的硬件(主要指GPU)环境。基于i-vector的方法是对全局差异进行建模，将其二者作为一个整体进行建模，这样处理放宽了对训练语料的限制，并且计算简单，性能也相当。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本申请的一些实施例，而非对本申请的限制。

图1为本发明一种结合x-vector与i-vector的声纹识别方法中模型的训练流程；

图2为本发明一种结合x-vector与i-vector的声纹识别方法中声纹识别流程；

图3为本发明一种结合x-vector与i-vector的声纹识别方法中声纹向量提取模型中进行训练的流程图；

图4为本发明一种结合x-vector与i-vector的声纹识别方法中Transformer 模型的结构图；

图5为本发明一种结合x-vector与i-vector的声纹识别方法中修正器的修正结构图。

附图标记说明如下：

1.训练语料，2.第一待识别语音，3.第二待识别语音。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例的附图，对本申请实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于所描述的本申请的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其它实施例，都属于本申请保护的范围。

除非另作定义，此处使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。

如图1和图2所示，一种结合x-vector与i-vector的声纹识别方法，包括模型的训练方法和声纹的识别方法两个部分。

模型的训练方法的步骤包括：

S1：获得由多名说话人的音频组成的训练语料，对纯净的训练语料进行加噪处理，在训练语料中加入加噪语音，得到混合训练语料；

进一步地，加噪处理包括对训练语料加入回响噪音、自然噪音。

进一步地，训练语料具体包括：收集N个男性和N个女性的声音数据，并按声纹模型的训练方法分别训练出说话人的声纹模型，共2N个，存入训练语料库。

S2：对混合训练语料进行分批训练，对每个批次的每段语音进行分帧，并提取其梅尔频率倒谱系数(MFCC)特征；

进一步地，根据本申请的实施例，步骤2提取梅尔频率倒谱系数(MFCC) 特征的方法为：对分批的训练语料的每个批次的语音依次经过预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组过滤、取对数、离散余弦变换(DCT) 这几个预处理步骤后，将数据集中的语音进行特征变换，得到关于一个批次的训练语料的梅尔频率倒谱系数(MFCC)特征.

在预加重的步骤中，语音通过一个高通滤波器进行预加重，补偿语音受到发音系统所抑制的高频部分，将变得平坦的频谱保持在低频到高频的整个频带中；在分帧、加窗、快速傅里叶变换(FFT)的步骤中，分帧后，将一个窗口函数应用于窗口随时间滑动(Slide)或跳跃(hop)的每个帧，然后对分帧加窗后的各帧信号进行快速傅里叶变换FFT得到各帧的频谱，并对所述语音的频谱取模平方，得到语音信号的功率；在梅尔滤波器组过滤、取对数预处理步骤中，将各帧的频谱送入梅尔滤波器组进行滤波，将线性的自然频谱转换为体现人类听觉特性的Mel频谱，在Mel频谱上面进行倒谱分析，取对数，通过 DCT离散余弦变换DCT做逆变换，然后取DCT后的第2个到第13个系数作为语音特征梅尔倒谱系数MFC，再获得梅尔频率倒谱系数MFCC，这个 MFCC就是这帧语音的特征。

进一步地，分帧步骤中对每个批次的每段语音进行分块、分帧，其中分帧步骤中每帧为32ms，每段语音取16个语音块，每一个语音块帧数为256，每一帧提取36维的梅尔频率倒谱系数MFCC特征。

S3：将梅尔频率倒谱系数(MFCC)特征作为输入，输入到声纹向量提取模型中进行训练,形成第一声纹向量；

进一步地，如图3所示，步骤3中声纹向量提取模型主要包括四个部分：时延神经网络(TDNN)、pooling池化层、Transformer模型、两层全向连接层和softmax输出层。时延神经网络(TDNN)用于接受步骤2中国梅尔频率倒谱系数(MFCC)特征中的信息，输出向量；Pooling池化层用于对时延神经网络(TDNN)输出向量进行平均；Transformer模型和两层全向连接层将特征图映射成一个固定长度的特征向量；softmax输出层用于计算损失，输出步骤3的第一声纹向量。

进一步地，TDNN的每一层仍然是DNN，只是其每层的输入由历史、当前和未来的特征拼接而层，从而引入时序信息。

进一步地，如图4所示，Transformer模型为采用多头注意力机制的转移模型，Transformer模型包括Multi-Head Attention层、Add&Norm层、Feed Forward层和Add&Norm输出层，Add&Norm层会把Multi-Head Attention 层的输入和输出进行求和并归一化处理后，传递到Feed Forward层，最后会再进行一次Add&Norm处理，输出最终的词向量矩阵。

进一步地，多头注意力机制就是使用多个注意力机制进行单独计算，以获取更多层面的语义信息，然后将各个注意力机制获取的结果进行拼接组合，得到最终的结果。

S4：在训练好的模型中抽取混合训练语料的i-vector向量，获得第二声纹向量；

S5：将第一声纹向量、第二声纹向量输入修正器，修正后获得修正声纹向量；

进一步地，如图5所示，修正器包括i-vector向量的修正和x-vector向量的修正，获得修正向量Mi:

M_i＝P_i*Y_i+(1-P_i)*X_i (2)

S6：将修正声纹向量输入归一化指数函数(softmax)，得到分类结果；

S7：将分类结果输入损失函数计算损失，反向传播，对修正器的参数进行更新；

进一步地，步骤9中第一待识别语音和第二待识别语音的长度均大于等于10秒。

S8：重复上述步骤二至步骤七，直至算法收敛。

如图1所示，模型的训练的流程可概括为收集训练语料、数据预处理、声音特征提取、提取算法、存储计算结果。

声纹的识别方法步骤包括：

S9：分别对第一待识别语音和第二待识别语音进行分帧，形成相应的第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征；

S10：分别将第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征放入训练好的声纹提取模型中，分别获得第一抽取声纹向量和第二抽取声纹向量；接着再将第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征分别放入i-vector模型中，分别获得第一修正声纹向量和第二修正声纹向量；

S11：将第一抽取声纹向量和第一修正声纹向量放入修正后的修正器中进行修正，得到第一待识别语音的修正声纹向量；将第二抽取声纹向量和第二修正声纹向量放入修正后的修正器中进行修正，得到第二待识别语音的修正声纹向量；

S12：计算第一待识别语音的修正声纹向量和第二待识别语音的修正声纹向量的余弦相似度，根据阈值判断第一待识别语音和第二待识别语音是否属于同一个人。

本申请的一个具体实施例如下：

1)获得由多名说话人音频组成的纯净训练语料，该语料训练集中包含 5000个说话人，其中男性和女性说话人的音频个数分别是2500个。语音内容随机，音频样本中的说话内容不一定相同。对纯净的训练预料进行加噪处理，在训练语料中加入回响噪音，自然噪音、等，得到混合训练语料；

2)对上述训练语料进行分批训练，16个为一组，一共400组。对每个批次的每段语音进行分块、分帧，每个语音取16个语音块，每一块的帧数为256，每一帧提取36维的MFCC特征，因此训练语料的维度是16*256*36；

3)将上一步的声音特征作为输入，输入到声纹向量提取模型中进行训练，如图2所示，本声纹向量提取模型主要包括四个部分：一个TDNN时延生成网络使用各帧信息，一个Pooling池化层对各帧的TDNN输出进行平均，一个图4所示的Transformer多头注意力转移模型和两层全连接网络将特征图映射成一个固定长度的特征向量。经过该层之后会得到一个1*200维的声纹向量

4)根据训练好的模型抽取输入语料的i-vector向量，经过该层也会获得一个1*200维的声纹向量

5)将步骤3)和步骤4)中的两个1*200维的声纹向量X⁰和X¹作为输入，进入图5所示的修正器中进行修正，修正后得到一个新的修正声纹 M＝[m₀,...,m_i,...,m₂₀₀]，且

i∈(1,2,..,200)。修正器参数 P＝[p₁,p₂,...,p₂₀₀]，一开始为随机生成值，后面根据前馈神经网络来更新参数，训练修正器。

6)将得到的结果输入softmax层，得到分类结果，计算损失；损失函数是交叉熵

其中n代表要输入的语音，k代表各个说话人，当是本说话人时，d_nk为 1，否则为0，

是各个说话人的后验概率，该函数是对所有的语音结果的求和。

7)反向传播，对参数进行更新；

8)重复上述步骤二至步骤七，直至算法收敛。

(一)识别过程：

假设有两段有效时长均大于等于10s语音voice₀和voice₁，需要识别出二者是不是属于同一个人。

(1)首先分别对两段语音voice₀和voice₁进行分帧，每一帧为32ms，取 256帧，每一帧提取36维的MFCC特征，因此两段语料的输入

和

的维度均为1*256*36；

(2)分别将

和

放入训练好的声纹提取器中，获得两段输入语料的声纹向量

和

其中，这两个向量均为1*200维；接着再将

和

丢进i-vector模型中，也获得两个1*200维的声纹向量

和

本步骤结束之后，每段语料分别获得一个抽取声纹向量和一个修声纹向量；

(3)将两段声音的两个声纹向量

和

分别放入修正器中进行修正，得到修正后的声纹向量

和

(4)计算两段声纹向量M⁰和M¹的余弦相似度，根据阈值判断二个声音片段是否属于同一个人。

综上所述，本发明具有以下有意效果：

以上所述仅是本申请的示范性实施方式，而非用于限制本申请的保护范围，本申请的保护范围由所附的权利要求确定。

Claims

1.一种结合x-vector与i-vector的声纹识别方法，其特征在于，包括模型的训练方法和声纹的识别方法两个部分，

所述模型的训练方法的步骤包括：

S2：对所述混合训练语料进行分批训练，对每个批次的每段语音进行分帧，并提取其梅尔频率倒谱系数(MFCC)特征；

S3：将所述梅尔频率倒谱系数(MFCC)特征作为输入，输入到声纹向量提取模型中进行训练,形成第一声纹向量；

S4：在训练好的模型中抽取所述混合训练语料的i-vector向量，获得第二声纹向量；

S5：将所述第一声纹向量、第二声纹向量输入修正器，修正后获得修正声纹向量；

S6：将所述修正声纹向量输入归一化指数函数(softmax)，得到分类结果；

S7：将所述分类结果输入损失函数计算损失，反向传播，对所述修正器的参数进行更新；

S8：重复上述步骤二至步骤七，直至算法收敛；

所述声纹的识别方法为：

S10：分别将所述第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征放入训练好的所述声纹提取模型中，分别获得第一抽取声纹向量和第二抽取声纹向量；接着再将所述第一梅尔频率倒谱系数(MFCC)特征和第二梅尔频率倒谱系数(MFCC)特征分别放入i-vector模型中，分别获得第一修正声纹向量和第二修正声纹向量；

S11：将所述第一抽取声纹向量和第一修正声纹向量放入修正后的所述修正器中进行修正，得到所述第一待识别语音的修正声纹向量；将所述第二抽取声纹向量和第二修正声纹向量放入修正后的所述修正器中进行修正，得到所述第二待识别语音的修正声纹向量；

S12：计算所述第一待识别语音的修正声纹向量和第二待识别语音的修正声纹向量的余弦相似度，根据阈值判断所述第一待识别语音和第二待识别语音是否属于同一个人。

2.根据权利要求1所述的声纹识别方法，其特征在于，步骤2提取所述梅尔频率倒谱系数特征的方法为：对分批的所述训练语料的每个批次的语音依次经过预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组过滤、取对数、离散余弦变换(DCT)这几个预处理步骤后，将数据集中的所述语音进行特征变换，得到关于一个批次的所述训练语料的梅尔频率倒谱系数特征；

在所述预加重的步骤中，所述语音通过一个高通滤波器进行预加重，补偿语音受到发音系统所抑制的高频部分，将变得平坦的频谱保持在低频到高频的整个频带中；

在所述分帧、加窗、快速傅里叶变换(FFT)的步骤中，分帧后，将一个窗口函数应用于窗口随时间滑动(Slide)或跳跃(hop)的每个帧，然后对分帧加窗后的各帧信号进行快速傅里叶变换FFT得到各帧的频谱，并对所述语音的频谱取模平方，得到语音信号的功率；

在所述梅尔滤波器组过滤、取对数预处理步骤中，将所述各帧的频谱送入所述梅尔滤波器组进行滤波，将线性的自然频谱转换为体现人类听觉特性的Mel频谱，在Mel频谱上面进行倒谱分析，取对数，通过DCT离散余弦变换DCT做逆变换，然后取DCT后的第2个到第13个系数作为语音特征梅尔倒谱系数MFC，再获得梅尔频率倒谱系数MFCC，这个MFCC就是这帧语音的特征。

3.根据权利要求2所述的声纹识别方法，其特征在于，所述分帧步骤中对所述每个批次的每段语音进行分块、分帧，所述每段语音取16个语音块，每一个所述语音块帧数为256，每一帧提取36维的梅尔频率倒谱系数MFCC特征。

4.根据权利要求2所述的声纹识别方法，其特征在于，所述分帧步骤中每帧为32ms。

5.根据权利要求1所述的声纹识别方法，其特征在于，步骤3中所述声纹向量提取模型主要包括四个部分：时延神经网络(TDNN)、pooling池化层、Transformer模型、两层全向连接层和softmax输出层，

所述时延神经网络(TDNN)用于接受步骤2中国所述梅尔频率倒谱系数(MFCC)特征中的信息，输出向量；

所述Pooling池化层用于对所述时延神经网络(TDNN)输出向量进行平均；

所述Transformer模型和两层全向连接层将特征图映射成一个固定长度的特征向量；

所述softmax输出层用于计算损失，输出步骤3所述的第一声纹向量。

6.根据权利要求4所述的声纹识别方法，其特征在于，所述Transformer模型为采用多头注意力机制的转移模型，所述Transformer模型包括Multi-Head Attention层、Add&Norm层、Feed Forward层和Add&Norm输出层，所述Add&Norm层会把所述Multi-Head Attention层的输入和输出进行求和并归一化处理后，传递到所述Feed Forward层，最后会再进行一次Add&Norm处理，输出最终的词向量矩阵。

7.根据权利要求1所述的声纹识别方法，其特征在于，所述加噪处理包括对所述训练语料加入回响噪音、自然噪音。

8.根据权利要求1所述的声纹识别方法，其特征在于，所述训练语料具体包括：收集N个男性和N个女性的声音数据，并按声纹模型的训练方法分别训练出说话人的声纹模型，共2N个，存入训练语料库。

9.根据权利要求1所述的声纹识别方法，其特征在于，步骤7中的所述损失函数是交叉熵：

其中，其中n代表要输入的语音，k代表各个说话人，当是待识别人时，d_nk为1，否则为0，

10.根据权利要求1所述的声纹识别方法，其特征在于，所述修正器包括i-vector向量的修正和x-vector向量的修正，获得所述修正向量M_i:

M_i＝P_i*Y_i+(1-P_i)*X_i (2)

其中i代表维度，Pi代表修正器参数，y_i代表i-vector向量，xi代表x-vector向量。