CN113241080A

CN113241080A - 自动注册声纹识别方法和装置

Info

Publication number: CN113241080A
Application number: CN202110649154.3A
Authority: CN
Inventors: 黄厚军; 钱彦旻
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-10

Abstract

本发明公开自动注册声纹识别方法和装置，其中，一种自动注册声纹识别方法，包括：响应于获取到包含唤醒词和命令词的音频，提取音频的第一声纹特征，判断第一声纹特征是否与已注册声纹库中的声纹模板匹配；若不匹配，将第一声纹特征和音频均存入历史音频库，判断历史音频库中的与第一声纹特征对应的历史使用记录是否小于预设次数；若不小于，对历史音频库中与第一声纹特征对应的音频进行声纹自动聚类，基于聚类结果自动注册与第一声纹特征对应的用户的声纹并更新已注册声纹库。通过基于声纹聚类自动注册与第一声纹特征对应的用户的声纹并更新已注册声纹库，从而可以大大提高用户使用声纹识别功能的便利性和识别的准确性。

Description

自动注册声纹识别方法和装置

技术领域

本发明属于语音处理术领域，尤其涉及自动注册声纹识别方法和装置。

背景技术

相关技术中，目前是市面上的声纹识别都需要用户主动完成声纹采集(注册)，而且是基于唤醒词或命令词的，没有基于两者融合的方案。

其中，基于唤醒词(每个设备唤醒词内容是固定的)的文本相关声纹识别，用户首先需要按照注册流程要求在设备录制唤醒词3～5遍，完成声纹采集，注册该用户的说话人模板；验证阶段，用户在设备录制一遍与注册相同的唤醒词，提取声纹特征，与数据库里的说话人模板比对，判断测试人是否是注册的用户，缺陷是需要终端用户主动配合注册，降低了设备使用的便利性。

基于指令词(用户发的指令内容无法提前预知)的文本无关声纹识别，用户首先需要按照注册流程要求在设备录制10秒左右自由文本，完成声纹采集，注册该用户的说话人模板；验证阶段，用户在设备录制一个任意内容的指令，提取声纹特征，与数据库里的说话人模板比对，判断测试人是否是注册的用户，缺陷是声纹识别精度较低。

发明内容

本发明实施例提供一种自动注册声纹识别方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种自动注册声纹识别方法，包括：响应于获取到包含唤醒词和命令词的音频，提取所述音频的第一声纹特征，判断所述第一声纹特征是否与已注册声纹库中的声纹模板匹配；若不匹配，将所述第一声纹特征和所述音频均存入历史音频库，判断所述历史音频库中的与所述第一声纹特征对应的历史使用记录是否小于预设次数；若不小于，对所述历史音频库中与所述第一声纹特征对应的音频进行声纹自动聚类，基于聚类结果自动注册与所述第一声纹特征对应的用户的声纹并更新所述已注册声纹库。

第二方面，本发明实施例提供一种自动注册声纹识别装置，包括：获取提取判断程序模块，配置为响应于获取到包含唤醒词和命令词的音频，提取所述音频的第一声纹特征，判断所述第一声纹特征是否与已注册声纹库中的声纹模板匹配；存入判断程序模块，配置为若不匹配，将所述第一声纹特征和所述音频均存入历史音频库，判断所述历史音频库中的与所述第一声纹特征对应的历史使用记录是否小于预设次数；聚类注册更新程序模块，配置为若不小于，对所述历史音频库中与所述第一声纹特征对应的音频进行声纹自动聚类，基于聚类结果自动注册与所述第一声纹特征对应的用户的声纹并更新所述已注册声纹库。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的自动注册声纹识别方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的自动注册声纹识别方法的步骤。

本申请的方法和装置通过将不是已注册用户的声纹特征和音频存入历史音频库，进一步地判断历史音频库中的与第一声纹特征对应的历史使用记录是否小于预设次数，从而可以实现基于声纹聚类自动注册与第一声纹特征对应的用户的声纹并更新已注册声纹库，使得注册声纹更加便捷与准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种自动注册声纹识别方法的流程图；

图2为本发明一实施例提供的另一种自动注册声纹识别方法的流程图；

图3为本发明一实施例提供的又一种自动注册声纹识别方法的流程图；

图4为本发明一实施例提供的自动注册声纹识别方法的一个具体示例的自动注册声纹识别流程图；

图5为本发明一实施例提供的一种自动注册声纹识别装置的框图；

图6是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的自动注册声纹识别方法一实施例的流程图。

如图1所示，在步骤101中，响应于获取到包含唤醒词和命令词的音频，提取所述音频的第一声纹特征，判断所述第一声纹特征是否与已注册声纹库中的声纹模板匹配；

在步骤102中，若不匹配，将所述第一声纹特征和所述音频均存入历史音频库，判断所述历史音频库中的与所述第一声纹特征对应的历史使用记录是否小于预设次数；

在步骤103中，若不小于，对所述历史音频库中与所述第一声纹特征对应的音频进行声纹自动聚类，基于聚类结果自动注册与所述第一声纹特征对应的用户的声纹并更新所述已注册声纹库。

在本实施例中，对于步骤101，自动注册声纹识别装置响应于获取到包含唤醒词和命令词的音频，提取音频的第一声纹特征，判断第一声纹特征是否与已注册声纹库中的声纹模板匹配，例如，分别提取唤醒词的声纹特征和命令词的声纹特征的中间值为第一声纹特征，再将第一声纹特征与已注册声纹库中的声纹特征进行匹配，判断第一声纹特征是否是已注册人的声纹特征。

之后，对于步骤102，若第一声纹特征与已注册声纹库中的声纹特征不匹配，将第一声纹特征和音频均存入历史音频库，判断历史音频库中的与第一声纹特征对应的历史使用记录是否小于预设次数，例如，每一位用户在使用设备的时每一位用户的声纹特征与音频都将存储在历史音频库和历史使用记录，在将第一声纹特征和音频存入历史音频库之后，判断历史音频库中的与第一声纹特征对应的用户的历史使用记录是否小于预设次数。

最后，对于步骤103，若历史音频库中的与第一声纹特征对应的历史使用记录不小于预设次数，对历史音频库中与第一声纹特征对应的音频进行声纹自动聚类，基于聚类结果自动注册与第一声纹特征对应的用户的声纹并更新已注册声纹库，例如，采用说话人聚类的方式将历史记录分类，然后对每个类注册声纹模板分配一个说话人ID并更新已注册声纹模板库。

本实施例的方法通过将不是已注册用户的声纹特征和音频存入历史音频库，进一步地判断历史音频库中的与第一声纹特征对应的历史使用记录是否小于预设次数，从而可以实现基于声纹聚类自动注册与第一声纹特征对应的用户的声纹并更新已注册声纹库，使得注册声纹更加便捷与准确。

在上述实施例所述的方法中，所述响应于获取到包含唤醒词和命令词的音频，提取所述音频的第一声纹特征，包括：

提取包含唤醒词的第二声纹特征和包含命令词的第三声纹特征，将第二声纹特征和第三声纹特征取均值融合为第一声纹特征。

本实施例的方法通过融合唤醒词的声纹特征和命令词的声纹特征，从而可以实现提高说话人聚类的准确路和设备唤醒率。

进一步参考图2，其示出了本申请一实施例提供的另一种自动注册声纹识别方法的流程图。该流程图主要是对流程图1“响应于获取到包含唤醒词和命令词的音频，提取所述音频的第一声纹特征”之前的流程进一步限定的步骤的流程图。

如图2所示，在步骤201中，询问所述用户是否开启声纹识别；

在步骤202中，响应于所述用户确认开启声纹识别指令，提取唤醒词和命令词的第一声纹特征；

在步骤203中，响应于所述用户确认不开启声纹识别指令，不提取唤醒词和命令词的第一声纹特征。

在本实施例中，对于步骤201，自动注册声纹识别装置询问用户是否开启声纹识别，例如，在设备初始化之后或重新启动设备之后询问用户。

之后，对于步骤202，自动注册声纹识别装置响应于用户确认开启声纹识别指令，提取唤醒词和命令词的第一声纹特征，例如，若用户确认开启声纹识别，会自动提取声纹特征并自动完成注册。

最后，对于步骤203，自动注册声纹识别装置响应于用户确认不开启声纹识别指令，不提取唤醒词和命令词的第一声纹特征，例如，若用户确认不开启声纹识别，将不会自动提取声纹和注册。

本实施例的方法通过只需要用户确认开启声纹识别，从而可以自动提取用户的声纹特征并完成注册。

进一步参考图3，其示出了本申请一实施例提供的又一种自动注册声纹识别方法的流程图。该流程图主要是对流程图1“判断所述第一声纹特征是否与已注册声纹库中的声纹模板匹配”的流程进一步限定的步骤的流程图。

如图3所示，在步骤301中，判断所述已注册声纹库是否为空；

在步骤302中，若所述已注册声纹库为空，则判定所述第一声纹特征与已注册声纹库中的声纹模板不匹配。

在本实施例中，对于步骤301，自动注册声纹识别装置判断已注册声纹库是否为空，例如，第一次开启声纹识别的情况下已注册声纹库为空，或设备初始化之后，又或者历史音频库中用户的历史记录小于自动注册的历史记录次数。

之后，对于步骤302，若已注册声纹库为空，则判定第一声纹特征与已注册声纹库中的声纹模板不匹配。

本实施例的方法通过判断判断已注册声纹库为空时判定第一声纹特征与已注册声纹库中的声纹模板不匹配，从而可以将第一声纹特征和与第一声纹特征对应的音频存入历史音频库。

在上述实施例所述的方法中，在判断所述第一声纹特征是否与已注册声纹库中的声纹模板匹配之后，所述方法还包括：

若匹配，返回与第一声纹特征对应的用户的身份ID。

本实施例的方法通过在第一声纹特征与已注册声纹库中的声纹模板匹配时返回与第一声纹特征对应的用户的身份ID，从而可以避免向历史音频库存储不必要的声纹特征与音频。

在上述实施例所述的方法中，在所述判断所述历史音频库中的与所述第一声纹特征对应的历史使用记录是否小于预设数量之后，还包括：

若历史音频库中的与第一声纹特征对应的历史使用记录小于预设数量，返回用户未注册信息。

在上述实施例所述的方法中，所述对所述历史音频库中与所述第一声纹特征对应的音频进行声纹自动聚类包括：

基于提取的第一声纹特征，采用说话人聚类技术根据历史记录分类对与第一声纹特征对应的类注册声纹模板并分配一个身份ID，更新已注册声纹库，例如，每个类包含一个用户的使用音频，不同类包含不同的用户。

本实施例的方法通过采用说话人聚类技术根据历史记录分类对与第一声纹特征对应的类注册声纹模板并分配一个身份ID，更新已注册声纹库，从而可以大大提高用户使用声纹识别功能的便利性和识别的准确性。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的：

声纹识别必须要采集注册人的声纹信息，这个过程目前市面上的产品都是要求用户在安静环境、按照注册要求配合完成注册。每个需要用声纹来做身份认证的终端用户，都需要主动注册，而且如果换了用户需要重新注册，导致声纹的便利性很差。

目前市场上的智能设备(智能电视、智能音箱、智能空调等)的语音助手大部分都需要先喊一个固定唤醒词，然后再说指令，这样设备才会对用户的指令进行响应。市面上的常见的基于唤醒词的文本相关声纹识和基于指令词的文本无关声纹识别精度并不理想。

这些缺陷所导致的问题是该领域长期存在的问题。

发明人还发现，目前未见到针对声纹识别必须要采集注册人的声纹信息的解决方案；针对目前市场上的智能设备的语音助手大部分都需要先喊一个固定唤醒词，本行业的从业人员主要研究通过不同深度学习方法来提高文本相关和文本无关声纹识别模型的识别率。

我们申请的方案最大难点是如何在不需要用户配合条件下，利用用户历史使用数据自动准确的完成说话人的注册。

本申请的方案主要从以下几个方面入手进行设计和优化：

当用户使用智能设备上的语音助手时，用户对设备喊出唤醒词唤醒设备，然后对设备说出操作指令。最初我们在产品上上线基于唤醒词的文本相关声纹识别，声纹识别系统根据用户说的唤醒词判断说话人的身份，然后根据该识别结果选择对应的用户画像(一个用户画像会记录该用户使用习惯)来响应后面的操作指令。但实际产品发现声纹识别系统准确率在复杂场景下并不能满足高精度身份认证需求，于是我们提出了用唤醒词和指令词融合的方案，将指令词的信息也用来辅助声纹识别。

无论是基于唤醒词的文本相关声纹识别方案还是基于唤醒词和指令词融合的方案，都需要终端用户主动配合注册，但在产品投放过程中发现因为感觉注册较为麻烦，特别是老人和儿童更难以配合完成注册，导致很多用户放弃声纹识别功能。从而设备上无法准确对家里的每个人生成自己的用户画像，影响个性化服务的效果。针对这个问题，我们提出了自动注册的声纹识别方案，在征求用户同意后，收集用户在设备上的使用音频，当历史使用音频达到M条之后，开始进行说话人聚类，将多个用户的音频分开，用每个人的历史使用音频自动完成声纹模板注册。采用上文提出的唤醒词和指令词融合的方案，大大提高了说话人聚类的准确率，保证了声纹模板注册的效果。

请参考图4，其示出了本发明一实施例提供的自动注册声纹识别方法的一个具体示例的自动注册声纹识别流程图。

如图4所示，步骤1：检查用户是否同意开启声纹识别功能，如果未开启，结束流程；如果已开启，继续步骤2。

步骤2：接受当前用户的唤醒词和命令词音频，分别提取声纹特征，然后将这两个声纹特征取均值得到融合的声纹特征。进入步骤3。

步骤3：检查设备上已注册声纹库是否为空。若为空，进入步骤4。若不为空，将步骤2提取的声纹特征与已注册声纹库里的声纹模板进行比对，判断本次操作的说话人是否来自已注册人，如果是，则返回说话人ID，结束流程；如果否，则进入步骤4。

步骤4：将当前接收的唤醒词和命令词音频以及步骤2提取的声纹特征存入用户历史使用数据库。检查用户历史使用数据库记录条数是否达到M，如果否，则返回当前说话人是未注册人消息，结束流程；如果是，开始自动聚类功能，基于音频提取的声纹特征，采用说话人聚类技术将历史记录分类(每个类包含一个用户的使用音频，不同类包含不同的用户)，然后对每个类注册声纹模板分配一个说话人ID，更新已注册声纹模板库，最后返回当前说话人是未注册人消息，结束流程。

其中，步骤2里提取唤醒词和指令词融合的声纹特征，步骤3和步骤4都采用唤醒词和指令词融合的声纹特征来做声纹注册和测试，比市面上单纯基于唤醒词或指令词的声纹是被准确率更高。在错误拒绝率(已注册用户在使用时被错判成未注册人的比例)固定在5％的条件下，基于唤醒词的文本相关声纹识别系统的错误接受率(未注册用户在使用时被错判成已注册人的比例)为0.4％，基于指令词的文本无关声纹识别系统的错误接受率为4％，基于唤醒词和指令词融合的声纹识别系统的错误接受率为0.1％。融合方案可以将声纹识别系统的错误接受率降低到现有方案的25％。

在整个流程里没有要求用户主动配合注册，只需要用户同意开启声纹识别功能，方案在步骤4未根据用户前期使用的历史数据自动完成声纹注册，大大提高了用户使用声纹识别功能的便利性。本专利里基于唤醒词和指令词融合声纹特征的说话人聚类准确率可以达到99.5％以上(单独使用唤醒词的声纹特征，说话人聚类准确率可以达到98.5％；单独使用指令词的声纹特征，说话人聚类准确率可以达到96％)，能够保证自动注册的声纹模板识别效果。

发明人在实现本发明的过程中形成的beta版：

在一些只能获取唤醒词或指令词音频的产品上，可以将图4中所绘最佳方案里的唤醒词和指令词融合声纹特征换成单独的基于唤醒词或指令词的声纹特征，同样可以实现本专自动注册声纹识别方案，只是整体方案效果会差一些。

在本专利里说话人ID是系统自动分配的，只是一个编号，并不知道该用户具体是谁。在有条件的产品上可以在自动注册完成后，下次用户使用时在步骤3，发现当次用户属于已注册人，且该注册人没有经过用户命名，可以征求用户意见是否要给该说话人ID起一个名字(比如爸爸、妈妈等)，如果用户同意进行命名，则播放几条该ID的注册音频用户参考，确定是谁的声音。用户起名之后，系统在响应给用户的指令时可以直接用该名称来称呼用户，更显人性化。

请参考图5，其示出了本发明一实施例提供的自动注册声纹识别装置的框图。

如图5所示，自动注册声纹识别装置500，包括获取提取判断程序模块510、存入判断程序模块520和聚类注册更新程序模块530。

其中，获取提取判断程序模块510，配置为响应于获取到包含唤醒词和命令词的音频，提取所述音频的第一声纹特征，判断所述第一声纹特征是否与已注册声纹库中的声纹模板匹配；存入判断程序模块520，配置为若不匹配，将所述第一声纹特征和所述音频均存入历史音频库，判断所述历史音频库中的与所述第一声纹特征对应的历史使用记录是否小于预设次数；聚类注册更新程序模块530，配置为若不小于，对所述历史音频库中与所述第一声纹特征对应的音频进行声纹自动聚类，基于聚类结果自动注册与所述第一声纹特征对应的用户的声纹并更新所述已注册声纹库。

应当理解，图5中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如获取提取判断程序模块可以描述为响应于获取到包含唤醒词和命令词的音频，提取所述音频的第一声纹特征，判断所述第一声纹特征是否与已注册声纹库中的声纹模板匹配的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如获取提取判断程序模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的自动注册声纹识别方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取到包含唤醒词和命令词的音频，提取所述音频的第一声纹特征，判断所述第一声纹特征是否与已注册声纹库中的声纹模板匹配；

若不匹配，将所述第一声纹特征和所述音频均存入历史音频库，判断所述历史音频库中的与所述第一声纹特征对应的历史使用记录是否小于预设次数；

若不小于，对所述历史音频库中与所述第一声纹特征对应的音频进行声纹自动聚类，基于聚类结果自动注册与所述第一声纹特征对应的用户的声纹并更新所述已注册声纹库。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据自动注册声纹识别装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至自动注册声纹识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项自动注册声纹识别方法。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，该设备包括：一个或多个处理器610以及存储器620，图6中以一个处理器610为例。自动注册声纹识别方法的设备还可以包括：输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例自动注册声纹识别方法。输入装置630可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于自动注册声纹识别装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种自动注册声纹识别方法，包括：

2.根据权利要求1所述的方法，其中，所述响应于获取到包含唤醒词和命令词的音频，提取所述音频的第一声纹特征，包括：

提取包含唤醒词的第二声纹特征和包含命令词的第三声纹特征，将所述第二声纹特征和所述第三声纹特征取均值融合为第一声纹特征。

3.根据权利要求1所述的方法，其中，在所述响应于获取到包含唤醒词和命令词的音频，提取所述音频的第一声纹特征之前，还包括：

询问所述用户是否开启声纹识别；

响应于所述用户确认开启声纹识别指令，提取唤醒词和命令词的第一声纹特征；

响应于所述用户确认不开启声纹识别指令，不提取唤醒词和命令词的第一声纹特征。

4.根据权利要求1所述的方法，其中，所述判断所述第一声纹特征是否与已注册声纹库中的声纹模板匹配包括：

判断所述已注册声纹库是否为空；

若所述已注册声纹库为空，则判定所述第一声纹特征与已注册声纹库中的声纹模板不匹配。

5.根据权利要求1所述的方法，其中，在判断所述第一声纹特征是否与已注册声纹库中的声纹模板匹配之后，所述方法还包括：

若匹配，返回与所述第一声纹特征对应的用户的身份ID。

6.根据权利要求1所述的方法，其中，在所述判断所述历史音频库中的与所述第一声纹特征对应的历史使用记录是否小于预设数量之后，还包括：

若所述历史音频库中的与所述第一声纹特征对应的历史使用记录小于预设数量，返回用户未注册信息。

7.根据权利要求1所述的方法，其中，所述对所述历史音频库中与所述第一声纹特征对应的音频进行声纹自动聚类包括：

基于提取的所述第一声纹特征，采用说话人聚类技术根据历史记录分类对与所述第一声纹特征对应的类注册声纹模板并分配一个身份ID，更新已注册声纹库。

8.一种自动注册声纹识别装置，包括：

获取提取判断程序模块，配置为响应于获取到包含唤醒词和命令词的音频，提取所述音频的第一声纹特征，判断所述第一声纹特征是否与已注册声纹库中的声纹模板匹配；

存入判断程序模块，配置为若不匹配，将所述第一声纹特征和所述音频均存入历史音频库，判断所述历史音频库中的与所述第一声纹特征对应的历史使用记录是否小于预设次数；

聚类注册更新程序模块，配置为若不小于，对所述历史音频库中与所述第一声纹特征对应的音频进行声纹自动聚类，基于聚类结果自动注册与所述第一声纹特征对应的用户的声纹并更新所述已注册声纹库。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。