[go: up one dir, main page]

CN119541501B - 基于语音控制的车机屏自定义唤醒词配置方法及系统 - Google Patents

基于语音控制的车机屏自定义唤醒词配置方法及系统 Download PDF

Info

Publication number
CN119541501B
CN119541501B CN202510108179.0A CN202510108179A CN119541501B CN 119541501 B CN119541501 B CN 119541501B CN 202510108179 A CN202510108179 A CN 202510108179A CN 119541501 B CN119541501 B CN 119541501B
Authority
CN
China
Prior art keywords
wake
noise
word
vehicle
voiceprint feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202510108179.0A
Other languages
English (en)
Other versions
CN119541501A (zh
Inventor
盛小飞
李金�
许玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Simba Network Technology Nanjing Co ltd
Original Assignee
Simba Network Technology Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Simba Network Technology Nanjing Co ltd filed Critical Simba Network Technology Nanjing Co ltd
Priority to CN202510108179.0A priority Critical patent/CN119541501B/zh
Publication of CN119541501A publication Critical patent/CN119541501A/zh
Application granted granted Critical
Publication of CN119541501B publication Critical patent/CN119541501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

本发明涉及语音识别技术领域,公开了基于语音控制的车机屏自定义唤醒词配置方法及系统,该方法包括:采集目标车辆的车内噪音数据,构建噪音数据库;将噪音数据库中的噪音记录划分为多个噪音等级;获取用户自定义唤醒词语音样本,提取自定义唤醒词声纹特征向量;度量自定义唤醒词声纹特征向量与声纹特征库中各声纹特征向量的相似度,匹配获得相似度最高的第一声纹特征;构建噪音等级对应的唤醒词检测子模型,实时采集车内音频数据,根据唤醒词检测子模型和第一声纹特征,进行唤醒词识别,触发车机屏幕唤醒;本发明提高了唤醒词识别的准确性和响应速度。

Description

基于语音控制的车机屏自定义唤醒词配置方法及系统
技术领域
本发明涉及语音识别技术领域,更具体地说,本发明涉及基于语音控制的车机屏自定义唤醒词配置方法及系统。
背景技术
随着人工智能技术的快速发展,语音交互已成为人机交互的重要方式之一。特别是在智能驾驶领域,通过语音指令控制车载设备,可以最大限度地保证行车安全。车载语音助手能够在驾驶员将注意力集中在路况的情况下,通过语音交互完成导航、音乐播放、空调控制等任务。其中,语音唤醒是实现车载语音交互的关键一环。
在现有的车载语音唤醒系统中,主要采用预设唤醒词或用户自定义唤醒词的方式触发唤醒。例如公开号为CN113611294A的专利申请公开了一种语音唤醒方法,通过配置多个组合唤醒词,当用户语音与组合唤醒词匹配时执行唤醒。该方法支持预设唤醒词、自定义唤醒词和多唤醒词唤醒,但没有考虑车内噪音等复杂声学环境对唤醒性能的影响。再如授权公告号为CN109360552B的专利提出一种自动过滤唤醒词的方法,通过对比用户语音与唤醒词音频,得到用户语音中的无意义唤醒词并进行屏蔽,从而提高语义解析的准确率。该方法侧重于唤醒后语义理解阶段,但在复杂声学环境下容易产生误唤醒。
综上所述,现有的语音唤醒技术未充分考虑车内噪音对唤醒性能的影响,自定义唤醒词与用户声纹匹配度不足;车内噪音具有时变性和多样性,唤醒系统需要在各种复杂噪音环境下保持稳定的唤醒性能,而现有方法普遍缺乏针对车内噪音的适配机制;用户音色、语速、情绪等因素都会影响自定义唤醒词的声学特征,若自定义唤醒词模型与用户实际发音存在较大差异,会导致唤醒准确率下降;现有的自定义唤醒词方法通常只训练一个统一的声学模型,缺乏针对用户个性化声纹特征的建模能力。
发明内容
为了克服现有技术的上述缺陷,本发明提供基于语音控制的车机屏自定义唤醒词配置方法及系统,该方法首先采集车内噪音数据构建噪音数据库,并将噪音记录划分为多个噪音等级;然后获取自定义唤醒词语音样本,匹配得到用户声纹特征;再针对不同噪音等级构建唤醒词检测子模型。在唤醒识别阶段,根据车内音频数据所属的噪音等级,选用对应的唤醒词检测子模型,同时结合用户声纹特征进行匹配验证,从而在复杂车内噪音环境下精确识别自定义唤醒词,显著提高唤醒准确率和系统响应速度。
为实现上述目的,本发明提供如下技术方案:
基于语音控制的车机屏自定义唤醒词配置方法,包括:
采集目标车辆的车内噪音数据,构建车内噪音数据库,所述车内噪音数据库包括n1条噪音记录;将车内噪音数据库中的n1条噪音记录划分为N1个噪音等级,记录每条噪音记录的噪音等级标签;获取用户的自定义唤醒词语音样本,提取自定义唤醒词语音样本的声纹特征向量,标记为自定义唤醒词声纹特征向量;度量自定义唤醒词声纹特征向量与预构建的声纹特征库中各声纹特征向量的相似度,匹配得到与自定义唤醒词声纹特征向量相似度最高的第一声纹特征;
根据车内噪音数据库和第一声纹特征,构建N1个噪音等级对应的唤醒词检测子模型;
实时采集车内音频数据,基于车内音频数据、唤醒词检测子模型和第一声纹特征进行唤醒词识别,触发车机屏幕唤醒。
进一步地,所述n1条噪音记录,每条噪音记录包括一个噪音片段的属性数据;所述噪音片段的属性数据包括噪音片段编号、噪音片段数据、噪音类型标签、噪音能量值和噪音频谱特征向量。
所述将车内噪音数据库中的n1条噪音记录划分为N1个噪音等级包括:根据车内噪音数据库中n1条噪音记录的噪音能量值和噪音频谱特征向量,对n1条噪音记录进行聚类。
进一步地,所述对n1条噪音记录进行聚类包括:
步骤S1210,根据车内噪音数据库中每条噪音记录的噪音能量值和噪音频谱特征向量,计算能量均值Ei、频谱重心Fi,和频谱离散度Di,构成每条噪音记录的噪音声学特征向量[Ei,Fi,Di];其中,Ei为第i条噪音记录的能量均值,Fi为第i条噪音记录的频谱重心,Di为第i条噪音记录的频谱离散度,[Ei,Fi,Di]表示第i条噪音记录的噪音声学特征向量;
步骤S1220,以噪音声学特征向量[Ei,Fi,Di]为特征描述,对n1条噪音记录进行聚类,得到N1个噪音聚类中心;
步骤S1230,计算平均轮廓系数SC,若SC≤SC',则调整噪音聚类中心数N1,返回步骤S1220重新聚类,直至SC>SC',输出聚类结果;SC'为预设的轮廓系数阈值。
进一步地,所述声纹特征库的构建方法为:采集多个用户的语音样本,提取语音样本的声纹特征向量,构建声纹特征库;声纹特征向量包括基频、共振峰和语音速率;
所述得到与自定义唤醒词声纹特征向量相似度最高的第一声纹特征包括:
度量自定义唤醒词声纹特征向量与声纹特征库中各声纹特征向量的相似度,得到相似度得分;根据相似度得分排序,选取得分最高的声纹特征库中的声纹特征向量,标记为第一声纹特征。
进一步地,所述构建N1个噪音等级对应的唤醒词检测子模型包括:
以车内噪音数据库中的N1个噪音等级为基础,构建N1个噪音数据子集,每个噪音数据子集对应一个噪音等级;
遍历N1个噪音等级,针对每个噪音等级,分别构建独立的唤醒词检测子模型;得到所有N1个噪音等级对应的唤醒词检测子模型,所述唤醒词检测子模型的输出为用布尔值表示的自定义唤醒词检测结果,如果为1则表示检测到自定义唤醒词,如果为0则表示未检测到自定义唤醒词;
所述构建N1个噪音数据子集包括:
遍历车内噪音数据库中的n1条噪音记录,根据每条噪音记录的噪音等级标签,将其划分至对应的N1个噪音数据子集中。
进一步地,所述针对每个噪音等级,分别构建独立的唤醒词检测子模型包括:
根据预设的数据集划分比例,将第j个噪音数据子集划分为训练集、验证集和测试集;1≤j≤N1;
将第j个噪音数据子集中的训练集与第一声纹特征进行融合,构建面向噪音等级j的唤醒词检测训练集;
以面向噪音等级j的唤醒词检测训练集为输入,训练噪音等级j下的初始唤醒词检测子模型。
进一步地,所述基于车内音频数据、唤醒词检测子模型和第一声纹特征进行唤醒词识别,触发车机屏幕唤醒包括:
步骤S3100,判断车内音频数据所属噪音等级,并选用车内音频数据所属噪音等级对应的唤醒词检测子模型进行自定义唤醒词检测,判断是否检测到自定义唤醒词;
步骤S3200,若未检测到自定义唤醒词,则跳转至步骤S3100,继续下一轮车内音频数据采集与检测;若检测到自定义唤醒词,则通过麦克风阵列采集唤醒词音频数据,对唤醒词说话人进行定位,获得唤醒词说话人相对车载麦克风阵列的水平方位角和距离
步骤S3300,设置唤醒角度阈值范围和距离阈值范围;若,则判定检测到的自定义唤醒词来自车内合理位置,识别为待确认唤醒词,否则视为误唤醒,跳转步骤S3100,继续下一轮车内音频数据采集与自定义唤醒词检测;
步骤S3400,对判定为待确认唤醒词的唤醒词音频数据进行声学特征提取,构建第二声纹特征;计算第二声纹特征与第一声纹特征的相似度得分SIM,若相似度得分SIM大于预设的声纹验证阈值,则将待确认唤醒词识别为有效唤醒词,触发车机屏幕唤醒;否则识别为无效唤醒词,拒绝车机屏幕唤醒并跳转步骤S3100,继续下一轮车内音频数据采集与自定义唤醒词检测。
进一步地,所述判断车内音频数据所属噪音等级包括:
对实时采集的车内音频数据进行特征提取,得到实时能量值Es,实时频谱重心Fs和实时频谱离散度Ds,构建实时声学特征向量[Es,Fs,Ds];
将实时声学特征向量[Es,Fs,Ds]与N1个噪音聚类中心进行比较,计算实时声学特征向量与各噪音聚类中心的欧氏距离,选取欧氏距离最小的噪音聚类中心对应的噪音等级作为实时采集的车内音频数据所属的噪音等级。
进一步地,所述获得唤醒词说话人相对车载麦克风阵列的水平方位角和距离包括:
通过麦克风阵列采集唤醒词音频数据,所述唤醒词音频数据共有M路语音信号,第m路语音信号的唤醒词音频数据记为,t为时间,
对唤醒词音频数据进行语音端点检测,提取各麦克风接收到的中的唤醒词语音片段,找出唤醒词语音片段的起止时间,唤醒词语音片段记为;从麦克风阵列中选择一个麦克风作为参考麦克风,另外的M-1个麦克风为非参考麦克风,估计非参考麦克风与参考麦克风的唤醒词语音片段的时间延迟,其中是第个非参考麦克风相对于参考麦克风的唤醒词语音片段的时间延迟;基于麦克风阵列的几何布局,构建M-1个方程:
其中是第个非参考麦克风相对于参考麦克风的位置矢量,为声速,为声源的水平方位角,为声源的俯仰角;
将所述M-1个方程进行联立求解,得到唤醒词说话人相对麦克风阵列的水平方位角和距离,其中
基于语音控制的车机屏自定义唤醒词配置系统,其用于实现上述的基于语音控制的车机屏自定义唤醒词配置方法,所述系统包括:
噪音等级划分模块:用于采集目标车辆的车内噪音数据,构建车内噪音数据库,所述车内噪音数据库包括n1条噪音记录;将车内噪音数据库中的n1条噪音记录划分为N1个噪音等级;
第一声纹特征获取模块:用于获取用户的自定义唤醒词语音样本,提取自定义唤醒词语音样本的声纹特征向量,标记为自定义唤醒词声纹特征向量;度量自定义唤醒词声纹特征向量与预构建的声纹特征库中各声纹特征向量的相似度,匹配得到与自定义唤醒词声纹特征向量相似度最高的第一声纹特征;
模型构建模块:用于根据车内噪音数据库和第一声纹特征,构建N1个噪音等级对应的唤醒词检测子模型;
唤醒词识别模块:用于实时采集车内音频数据,基于车内音频数据、唤醒词检测子模型和第一声纹特征进行唤醒词识别,触发车机屏幕唤醒。
一种电子设备,包括存储器、中央处理器以及存储在存储器上并可在中央处理器上运行的计算机程序,所述中央处理器执行所述计算机程序时实现上述的基于语音控制的车机屏自定义唤醒词配置方法。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被执行时实现上述的基于语音控制的车机屏自定义唤醒词配置方法。
相比于现有技术,本发明的有益效果为:
提高识别准确性,通过构建噪音等级数据库和自定义唤醒词声纹特征库,能够在不同噪音环境下准确识别唤醒词,并采用声学特征向量和相似度匹配算法,有效降低误唤醒率。增强系统响应速度,实时采集和处理车内音频数据,快速判断唤醒词,实现即时响应,同时利用独立的唤醒词检测子模型,针对不同噪音等级进行优化,提高检测效率。适应多样化环境,通过噪音数据的聚类分析,系统能够适应各种驾驶环境下的噪音变化,并设计灵活的噪音等级划分机制,使系统在复杂声学环境中依然保持稳定性能。提升用户体验,允许用户自定义唤醒词,提高个性化和便捷性,通过精确的声源定位,避免误唤醒和无效操作,提升交互体验。优化资源使用,通过聚类和模型优化,减少计算资源消耗,提升系统整体效率,并实现高效的噪音数据管理和检索,便于后续分析和优化。这些优势使得本发明在车载语音交互领域具有显著的技术突破和应用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中基于语音控制的车机屏自定义唤醒词配置方法的原理流程图;
图2为本发明的基于语音控制的车机屏自定义唤醒词配置方法中对n1条噪音记录进行聚类的方法流程图;
图3为本发明的基于语音控制的车机屏自定义唤醒词配置方法中构建N1个噪音等级对应的唤醒词检测子模型的方法流程图;
图4为本发明的基于语音控制的车机屏自定义唤醒词配置方法中针对每个噪音等级,分别构建独立的唤醒词检测子模型的方法流程图;
图5为本发明的基于语音控制的车机屏自定义唤醒词配置方法中设置唤醒角度阈值范围和距离阈值范围的方法流程图;
图6为本发明中基于语音控制的车机屏自定义唤醒词配置系统的功能模块图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1所示,本实施例提供了基于语音控制的车机屏自定义唤醒词配置方法,包括:
步骤S1000,采集目标车辆的车内噪音数据,构建车内噪音数据库,所述车内噪音数据库包括n1条噪音记录;将车内噪音数据库中的n1条噪音记录划分为N1个噪音等级;获取用户的自定义唤醒词语音样本,度量自定义唤醒词语音样本的声纹特征与预设的声纹特征库中各声纹特征的相似度,匹配得到与自定义唤醒词声纹特征相似度最高的第一声纹特征;
进一步地,步骤S1000包括:
步骤S1100,采集目标车辆的车内噪音数据,构建车内噪音数据库;所述车内噪音数据库包括n1条噪音记录,每条噪音记录包括一个噪音片段的属性数据;所述噪音片段的属性数据包括噪音片段编号、噪音片段数据、噪音类型标签、噪音能量值和噪音频谱特征向量;
具体而言,步骤S1100通过车载声学传感器获取真实环境下的车内噪音,全面覆盖了驾驶场景中的各类噪音干扰。首先利用车内声学传感器阵列采集目标车辆的车内噪音数据,包括但不限于发动机噪音、风噪、车外交通噪音、车内人声噪音等;其中,声学传感器阵列包括麦克风阵列、MEMS传感器等,布置在车内驾驶区、乘客区等位置;其中,发动机噪音反映了车辆的工况,是影响语音交互的主要噪音源之一;风噪是车速引起的气流噪音,会随着车速升高而增强;车外交通噪音包括其他车辆的噪音、喇叭声等,是车外环境引入的背景噪音;车内人声噪音则来自乘客的交谈声、呼吸声等,是车内活动产生的非语音噪音。
对采集的车内噪音数据进行预处理,包括噪音分割、能量归一化、降噪滤波等操作;噪音分割是利用语音端点检测算法,如双门限法、能熵比法等,将噪音数据划分为不同的噪音段;能量归一化是对各噪音段的能量进行归一化处理,使其幅值范围一致;降噪滤波是采用自适应滤波器,如LMS、RLS等,对噪音进行降噪增强;通过噪音分割,可将噪音从连续的音频流中提取出来,便于后续进行定向处理。能量归一化消除了噪音录制设备、距离等因素引起的幅值差异,使噪音数据具有统一的能量基准。降噪滤波在保留噪音本质特征的同时,去除了其中的随机噪声成分,提高了信噪比。基于预处理的车内噪音数据构建结构化噪音库,一方面为噪音分级提供了统一的数据源,另一方面使噪音数据更易于检索、管理和应用,为唤醒系统的研发、测试、迭代提供了数据基础。
基于预处理后的车内噪音数据,构建结构化的车内噪音数据库;车内噪音数据库中的噪音片段编号唯一标识每个噪音片段,便于数据检索和管理;如001,002,用于区分不同噪音片段。噪音片段数据用于存储每个噪音片段的音频数据,用于分析和处理,如一段包含5秒发动机噪音的音频文件。噪音类型标签标识噪音的来源或类别,便于分类和处理,如“发动机噪音”“风噪”“交通噪音”“人声噪音”。噪音能量值表示噪音的响度或强度,用于比较和归一化处理,如85dB,表示噪音的声压级。噪音频谱特征向量描述噪音的频率特征,用于信号处理和模式识别,一个频谱特征向量,显示特定频率的峰值,帮助识别噪音类型。因此,步骤S1100采集并优化了真实环境下的车内噪音数据,为后续的噪音分级、模型自适应奠定了坚实的数据基础,是提高唤醒系统环境适应性和鲁棒性的关键。
步骤S1200,根据车内噪音数据库中n1条噪音记录的噪音能量值和噪音频谱特征向量,对n1条噪音记录进行聚类,将车内噪音数据库中的n1条噪音记录划分为N1个噪音等级,记录每条噪音记录的噪音等级标签;
进一步的,如图2所示,步骤S1200包括:
步骤S1210,根据车内噪音数据库中每条噪音记录的噪音能量值和噪音频谱特征向量,计算能量均值Ei、频谱重心Fi,和频谱离散度Di,构成每条噪音记录的噪音声学特征向量[Ei,Fi,Di];其中,Ei为第i条噪音记录的能量均值,Fi为第i条噪音记录的频谱重心,Di为第i条噪音记录的频谱离散度,[Ei,Fi,Di]表示第i条噪音记录的噪音声学特征向量;
步骤S1220,以噪音声学特征向量[Ei,Fi,Di]为特征描述,对n1条噪音记录进行聚类,得到N1个噪音聚类中心;
步骤S1230,计算平均轮廓系数SC,若SC≤SC',则调整噪音聚类中心数N1,返回步骤S1220重新聚类,直至SC>SC',输出聚类结果;SC'为预设的轮廓系数阈值。
所述计算平均轮廓系数SC包括:
其中:
:第个噪音聚类中心,取值范围为1到N1。
:第条噪音记录所属的聚类中心编号。
:第条噪音记录与第个聚类中心之间的欧氏距离,衡量噪音记录与聚类中心的距离,计算公式为:
其中分别为聚类中心的能量均值、频谱重心和频谱离散度。
分子表示第条噪音记录与其他类别的最近距离减去它与所属类别中心的距离。分子越大,说明该噪音记录与其他类别的边界距离越远,与所属类别的凝聚度越高,聚类效果越好。
分母是为了对不同记录的轮廓系数进行归一化。分母取第条噪音记录与所属类中心的距离和它与其他类最近距离两者的较大值。这样可以平衡聚类内部距离和聚类间距离对轮廓系数的影响。
对所有条噪音记录的轮廓系数求平均,得到平均轮廓系数SC,取值范围为。当SC越接近1,表示聚类的内聚性和分离性越好,噪音等级划分的合理性越高。当SC大于给定阈值SC'时,可以认为当前的噪音聚类结果是优良的。
该公式的作用是量化评估噪音聚类的效果。噪音等级数N1越接近真实的噪音分布,噪音聚类中心Ck越能准确反映各噪音等级的声学特征,平均轮廓系数SC的值就会越高。通过迭代调整N1的值使SC达到较大值,可以使噪音聚类结果更加合理,从而为后续的分级降噪、自适应唤醒等应用提供更好的数据支持。
值得一提的是,由于轮廓系数计算了每条噪音记录与其所属类别和其他类别的相对距离,因此对噪音记录的顺序和类别标签的编码鲁棒。即使噪音记录的顺序发生变化,或者聚类类别重新编号,只要聚类结果不变,SC值就保持不变。这有利于提高聚类评估的可靠性。
总之,该平均轮廓系数公式综合考虑了噪音聚类的紧密程度和分散程度两个层面,对噪音分级的合理性给出了定量评价。平均轮廓系数随着聚类中心数N1的变化而变化,当N1逐步逼近真实的噪音等级数时,SC将达到较大值。进一步地,可以通过参数寻优算法自动调整N1的取值,使SC最大化,从而实现噪音等级划分的自适应优化。该公式对于车内噪音数据的挖掘和车载语音交互技术的环境适应性提升都具有重要意义。
具体而言,能量均值(Ei)反映了第i条噪音记录的平均能量水平。其计算方法为,将该条噪音记录的所有时刻的噪音能量值平方求和,然后除以记录的长度。能量均值越大,表示噪音的响度越高。频谱重心(Fi)表示第i条噪音记录的频谱分布的中心位置。通过将各频点的频率与其对应的频谱幅值平方的乘积求和,然后再除以频谱幅值平方的总和来计算。频谱重心越大,表示噪音的频率成分越高。频谱离散度(Di)用于衡量第i条噪音记录的频谱分布的分散程度。通过计算各频点的频率与频谱重心的差的平方乘以频谱幅值平方的乘积总和,然后再除以频谱幅值平方的总和来获取。频谱离散度越大,表示噪音的频谱越分散,包含的频率成分越丰富。示例性的,某条发动机噪音记录的能量均值为80分贝,频谱重心为500赫兹,频谱离散度为200赫兹的平方,因此其声学特征向量可以表示为[80,500,200]。而某条风噪记录的能量均值为60分贝,频谱重心为2000赫兹,频谱离散度为1000赫兹的平方,声学特征向量为[60,2000,1000]。从中可以看出,发动机噪音能量更高、频率较低且更集中,而风噪能量较低但频率较高且分散。
选择这三个特征作为噪音的声学特征向量,是因为它们从能量、频率和分散性三个方面全面描述了噪音的声学属性。这种特征描述使得噪音聚类能够将能量水平相近、频谱分布相似的噪音记录归为一类,得出的噪音等级具有声学同质性。
用K均值聚类等算法,以噪音声学特征向量为样本特征,对多条噪音记录进行聚类分析,从而得到多个聚类中心。每个聚类中心表示一个噪音等级,包含该等级噪音的平均能量、频谱重心和频谱离散度。
例如,聚类结果可能得到三个噪音等级,其聚类中心分别为:
第一个等级中心为[70,800,300],代表低频噪音,可能包括发动机噪音等;
第二个等级中心为[65,1500,500],代表中频噪音,可能包括车外交通噪音和人声噪音等;
第三个等级中心为[50,4000,1500],代表高频噪音,可能包括风噪等。
通过计算平均轮廓系数来评估聚类效果。轮廓系数是衡量聚类的紧凑性和分离性的指标,其取值范围为-1到1,值越大表示聚类质量越好。对于每条噪音记录,轮廓系数通过比较该记录与同类噪音的平均距离和与最近异类噪音的平均距离来计算。如果轮廓系数接近1,表示该记录被正确分类;接近-1则可能分类错误;接近0则表示该记录处于两类之间。
平均轮廓系数是所有轮廓系数的算术平均值,反映了聚类结果的整体优劣。当平均轮廓系数大于预设的轮廓系数阈值时,可以认为聚类效果理想,噪音等级划分合理。反之,则需要调整聚类数,重新进行聚类,直至达到理想效果。
例如,如果得到的平均轮廓系数为0.8,说明当前的三个噪音等级在声学特征上区分度高,聚类结果可靠;而若值为0.3,则可能需要尝试调整噪音等级数(例如,改为2或4),再次进行聚类,以寻找最佳分级方案。
通过这样的迭代优化,最终实现了一个声学特征可分的噪音分级结果。这一结果揭示了车内噪音数据的内在结构和等级划分,为后续的自适应噪音抑制和分级唤醒提供了重要依据。与简单的能量阈值分级方法相比,本方法充分利用了噪音的频域特征,实现了更加精细和有针对性的噪音分级,为提高车载语音交互系统的环境适应性奠定了基础。
总之,步骤S1200通过噪音声学特征的提取和聚类,成功实现了车内噪音数据的自动分级。这种方法融合了信号处理和机器学习技术,能够从复杂的车内噪音中挖掘出有价值的声学模式和规律,为智能化、个性化的车载语音交互提供了数据支撑和算法保障。
步骤S1300,获取用户的自定义唤醒词语音样本,提取自定义唤醒词语音样本的声纹特征向量,标记为自定义唤醒词声纹特征向量;度量自定义唤醒词声纹特征向量与预构建的声纹特征库中各声纹特征的相似度,匹配得到与自定义唤醒词声纹特征向量相似度最高的第一声纹特征。
进一步地,步骤S1300包括:
步骤S1310,采集多个用户的语音样本,提取语音样本的声纹特征向量,构建声纹特征库;声纹特征向量包括基频、共振峰和语音速率;
步骤S1320,度量自定义唤醒词声纹特征向量与声纹特征库中各声纹特征向量的相似度,得到相似度得分;根据相似度得分排序,选取得分最高的声纹特征库中的声纹特征向量,标记为第一声纹特征。
具体而言,步骤S1300通过获取用户自定义唤醒词语音样本,提取其声纹特征,并与预设声纹特征库匹配,实现了自定义唤醒词的个性化声纹注册。首先,系统提示用户录制自定义唤醒词的语音样本,如“XX同学”、“你好,小X”等。用户可以在安静环境下,使用车载麦克风多次录制唤醒词语音,获得尽可能纯净的语音数据。
步骤S1310通过采集多个用户的语音样本,获取了丰富的声纹数据。语音样本覆盖了不同性别、年龄、方言的用户,包含语句、字词等多种类型,确保了声纹特征库的多样性和代表性。对每个语音样本,利用声纹分析技术提取其声纹特征向量。基频是声带振动频率的衡量指标,反映了说话人的年龄、性别等生理特征。可通过基于时域的平均幅度差函数(AMDF)或基于频域的倒谱法提取。共振峰是声道共鸣产生的频域峰值,反映了说话人的发音器官特性。可使用线性预测编码(LPC)等方法估计。一般提取前3-5个共振峰的中心频率和带宽作为特征。语音速率是单位时间内发音单元(如音节、词等)的数量,反映了说话人的节奏习惯。通过语音的端点检测和发音单元划分统计得到。
例如,某用户语音样本的声纹特征可表示为[103.5Hz,650Hz,1400Hz,2600Hz,3.5音节/秒],分别对应基频、前3个共振峰和语音速率5个特征维度。通过对多个用户的语音样本进行特征提取,即可构建一个囊括群体差异的声纹特征库。这是声纹识别和匹配的基础。
通过对语音样本的声纹特征提取,每个用户的声纹被转化为一个固定维度的特征向量,便于比较和匹配。由各用户的声纹特征向量汇总构成的特征集合,即为用户声纹特征库。该特征库涵盖了不同用户的声纹模板,是声纹识别和验证的基础。预先构建声纹特征库,一方面可以加快声纹匹配的速度,无需重复提取特征;另一方面有利于采集更全面的用户语音样本,提高了声纹特征的丰富度和可靠性。
利用声纹相似度度量方法,计算唤醒词声纹特征与声纹库中每个用户声纹特征的相似程度。常用的相似度度量包括欧氏距离、余弦相似度、概率距离等。欧氏距离衡量了两个声纹特征向量在特征空间中的直线距离,距离越小表示声纹越接近。余弦相似度计算了两个声纹特征向量夹角的余弦值,值越大表示方向越一致,即声纹越相似。概率距离如KL散度,度量了两个声纹特征的概率分布差异,差异越小说明声纹越匹配。无论采用何种度量方式,都可以得到一个相似度得分,量化了唤醒词声纹与每个库中声纹的相似程度。将唤醒词声纹依次与库中各声纹进行相似度计算,即得到一个相似度得分向量。按照相似度得分从高到低排序,得分最高的声纹即为与当前唤醒词声纹最匹配的声纹,对应的用户身份也被识别为当前唤醒用户。通过相似度排序,声纹匹配的结果更加可靠,误识率低。基于现有声纹库的匹配方式,避免了重复录入用户语音的繁琐步骤,用户只需输入一次唤醒词,即可方便地完成声纹注册和识别。
示例性的,用户自定义的唤醒词“你好,小X”的声纹特征为[105Hz,720Hz,1300Hz,2400Hz,4音节/秒]。与声纹库中3个特征的相似度计算结果为[0.8,0.6,0.3]。则得分最高的0.8对应的第一个声纹特征[110Hz,700Hz,1350Hz,2500Hz,3.8音节/秒]被选为最佳匹配,可用于后续唤醒词声学建模的参考和优化。
提取用户自定义唤醒词的声纹特征,从语音输入的源头就植入了用户个性,有助于提高唤醒词识别的针对性。通过与声纹特征库的相似度匹配,可以为不同用户自动选择最合适的声学参考,具有自适应性,减少了人工调优的工作量。综合了基频、共振峰等多个声学特征,比单一特征更能全面反映声纹属性,提高了声纹表征和匹配的鲁棒性,降低了识别错误率。声纹特征库可通过纳入更多用户的语音样本持续扩充和优化,使匹配的参考基准更加丰富可靠,具有可扩展性。
总之,步骤S1300通过声纹特征提取和相似度匹配,为用户自定义唤醒词选择了最优的声学参考,既保留了用户个性,又兼顾了识别的可靠性,是一种语音交互系统中的智能化、个性化方案。它利用声纹识别技术,在唤醒词设置的环节就植入了声纹适配的机制,为后续的唤醒词建模和识别奠定了基础,对提升系统性能和用户体验具有重要意义。相比传统的“一刀切”的唤醒词设置,本方法更加灵活智能,展现了语音交互技术的发展趋势和潜力。
步骤S2000,根据车内噪音数据库和第一声纹特征,构建N1个噪音等级对应的唤醒词检测子模型;
进一步地,如图3所示,步骤S2000包括:
步骤S2100,以车内噪音数据库中的N1个噪音等级为基础,构建N1个噪音数据子集,每个噪音数据子集对应一个噪音等级;
所述构建N1个噪音数据子集包括:
遍历车内噪音数据库中的n1条噪音记录,根据每条噪音记录的噪音等级标签,将其划分至对应的N1个噪音数据子集中;
步骤S2200,针对每个噪音等级,分别构建独立的唤醒词检测子模型;
进一步地,如图4所示,步骤S2200包括:
步骤S2210,根据预设的数据集划分比例,将第j个噪音数据子集划分为训练集、验证集和测试集;1≤j≤N1;
步骤S2220,将第j个噪音数据子集中的训练集与第一声纹特征进行融合,构建面向噪音等级j的唤醒词检测训练集;
步骤S2230,以面向噪音等级j的唤醒词检测训练集为输入,训练噪音等级j下的初始唤醒词检测子模型;
步骤S2240,使用第j个噪音数据子集中的验证集,优化模型参数,得到最终的噪音等级j下的唤醒词检测子模型;
步骤S2250,使用第j个噪音数据子集中的测试集,评估最终的噪音等级j下的唤醒词检测子模型的性能指标。
步骤S2300,遍历N1个噪音等级,执行步骤S2200,得到所有N1个噪音等级对应的唤醒词检测子模型,所述唤醒词检测子模型的输出为用布尔值表示的自定义唤醒词检测结果,如果为1则表示检测到自定义唤醒词,如果为0则表示未检测到自定义唤醒词。
具体而言,步骤S2000旨在针对不同噪音环境下的唤醒词识别问题,构建多个专门的唤醒词检测子模型,从而提高系统的环境适应性和识别性能。
在步骤S2100中,基于之前得到的N1个噪音等级,将原始的车内噪音数据库划分为N1个噪音数据子集。每个子集对应一种特定的噪音类型或噪音强度,例如“高速风噪”、“中等发动机噪音”等。通过按照噪音等级标签对n1条噪音记录进行分组,最终得到内部噪音特征一致、外部区分度高的N1个数据子集。这种数据集划分方式使得后续的模型训练可以更加针对性地进行,有利于提高唤醒词检测的细粒度和精确性。
步骤S2200的核心是针对每个噪音等级,分别训练一个唤醒词检测子模型。步骤S2210首先采用留出法将每个噪音数据子集按照一定比例(如7:2:1)划分为训练集、验证集和测试集。其中,训练集用于训练模型参数,验证集用于调参和选择最优模型,测试集用于评估模型的实际性能。这种数据集划分有助于提高模型的泛化能力和鲁棒性。
步骤S2220旨在将用户注册的自定义唤醒词声纹特征与噪音数据相融合,构建个性化的唤醒词检测训练集。具体做法是,将用户的自定义唤醒词声纹特征向量与训练集中的每条噪音记录拼接,形成新的训练样本。例如,原本包含5秒噪音的训练样本,与提取的40维MFCC声纹特征拼接后,就成为一个45维的新特征向量。这种特征融合使得训练数据同时包含了环境噪音和目标唤醒词的声学信息,从而使训练得到的模型能够在复杂噪音中准确识别用户的唤醒词语音。与传统的唤醒词检测模型相比,该方法充分利用了用户声纹的个性化特征,显著提高了唤醒的灵敏度和准确率。
步骤S2230选用CNN和LSTM的组合模型进行唤醒词检测子模型的训练。CNN(卷积神经网络)能够自动提取语音信号中的局部特征,LSTM(长短时记忆网络)能够建模语音的长期依赖关系,二者结合可以全面刻画唤醒词语音的声学和时序特征。模型的输入是融合了声纹特征的噪音语音片段,输出是用布尔值表示的自定义唤醒词检测结果。训练时,将人工标注的唤醒词片段作为正样本,将其他语音片段和纯噪音片段作为负样本,最小化样本预测结果与真实标签的交叉熵损失函数,迭代优化模型参数。经过多轮训练后,模型能够从嘈杂的音频流中准确定位和识别目标唤醒词。
例如,训练集中的一个正样本可能是用户在80分贝左右的风噪下说出“你好,小X”的3秒语音,与该用户的声纹特征拼接后输入模型训练。模型输出“1”,即检测到自定义唤醒词,与人工标注一致,说明模型已经学会了在中等风噪下识别该用户的唤醒词声音。
步骤S2240利用验证集对模型进行调优。通过网格搜索等方法遍历不同的超参数(如CNN的卷积核大小、LSTM的隐藏层单元数),选取在验证集上性能最优的参数组合,并用早停法防止过拟合,最终得到性能稳定、泛化性好的唤醒词检测子模型。这个过程保证了模型的优化方向与真实环境中的表现一致,减少了训练集和实际应用之间的差异。
步骤S2250利用测试集评估模型的性能指标,如准确率、召回率、误唤醒率等。通过分析这些指标,可以全面评判唤醒词检测子模型在该噪音等级下的实际表现,为后续的模型选择和改进提供依据。一个理想的子模型应该在目标唤醒词识别准确率高、误唤醒率低的同时,也能适应该噪音等级内的声学环境变化。
经过步骤S2300的迭代,最终得到N1个针对不同噪音等级的唤醒词检测子模型。每个子模型都经过专门的噪音数据训练,能够在特定的车内噪音环境下鲁棒地检测用户的自定义唤醒词。与单一的通用唤醒模型相比,这种分而治之、因材施教的多模型机制在复杂噪音应对、个性化唤醒词识别等方面具有明显优势。
总之,步骤S2000通过噪音数据集划分、声纹特征融合、分层建模等关键技术,构建了一套车载环境下的自适应唤醒词检测方案。该方案能够根据车内噪音的实时变化,动态选择最优的唤醒词检测子模型,从而在噪音抑制、唤醒灵敏度、误唤醒率等方面取得良好的平衡,为车载语音交互系统的实际应用奠定了坚实的基础。
步骤S3000,实时采集车内音频数据,基于车内音频数据、唤醒词检测子模型和第一声纹特征进行唤醒词识别,触发车机屏幕唤醒。
进一步地,步骤S3000包括:
步骤S3100,实时采集车内音频数据,判断车内音频数据所属噪音等级,并选用车内音频数据所属噪音等级对应的唤醒词检测子模型进行自定义唤醒词检测,判断是否检测到自定义唤醒词;
进一步地,步骤S3100包括:
步骤S3110,对实时采集的车内音频数据进行特征提取,得到实时能量值Es,实时频谱重心Fs和实时频谱离散度Ds,构建实时声学特征向量[Es,Fs,Ds];
步骤S3120,将实时声学特征向量[Es,Fs,Ds]与N1个噪音聚类中心进行比较,计算实时声学特征向量与各噪音聚类中心的欧氏距离,选取欧氏距离最小的噪音聚类中心对应的噪音等级作为实时采集的车内音频数据所属的噪音等级;
步骤S3130,根据车内音频数据所属的噪音等级,选用对应的唤醒词检测子模型进行自定义唤醒词检测。
具体而言,步骤S3100利用车载麦克风阵列持续采集车内音频信号,实现车内音频的实时监测。车载麦克风阵列由多个麦克风单元分布式布置在车内不同位置,以拾取全方位的车内声音。实时采集得到的音频数据以帧为单位进行处理,每帧包含L个采样点,相邻帧之间允许一定比例的重叠,以平滑音频特征的时间变化。例如,以16kHz采样率采集音频信号,帧长取L=400个采样点(对应25ms),帧移取160个采样点(对应10ms),则相邻帧之间重叠50%。
对音频帧进行预加重、分帧、加窗等预处理,提取音频帧的特征,得到实时能量值Es,实时频谱重心Fs和实时频谱离散度Ds。预加重是用一阶高通滤波器对音频信号进行滤波,提升高频分量,补偿声道和麦克风的高频衰减。分帧是将预加重后的音频信号按帧长L逐帧分割,得到一系列音频帧。加窗是对每帧音频施加汉明窗、汉宁窗等平滑窗函数,以减少帧边缘的信号突变。经过预处理,音频帧中的噪音成分得到抑制,语音成分得到增强。
步骤S3100通过特征提取与噪音分类实现了车内音频的实时噪音估计与适配唤醒,是提高车载语音唤醒系统环境适应性的关键。该步骤结合了步骤S1000的噪音建模、步骤S2000的分级唤醒等技术,在复杂噪音环境下动态优化唤醒词检测过程,最大限度地提升唤醒系统的准确性和实时性。与传统固定模型的唤醒方法相比,该步骤引入的噪音分级自适应唤醒机制,可显著改善恶劣噪音环境下的唤醒质量,实现更加自然流畅的人机语音交互。
步骤S3200,若未检测到自定义唤醒词,则跳转至步骤S3100,继续下一轮车内音频数据采集与检测;若检测到自定义唤醒词,则通过麦克风阵列采集唤醒词音频数据,对唤醒词说话人进行定位,获得唤醒词说话人相对车载麦克风阵列的水平方位角和距离
进一步地,步骤S3200包括:
步骤S3210,若检测到自定义唤醒词,则通过麦克风阵列采集唤醒词音频数据,所述唤醒词音频数据共有M路语音信号,第m路语音信号的唤醒词音频数据记为,t为时间,
步骤S3220,对唤醒词音频数据进行语音端点检测,提取各麦克风接收到的中的唤醒词语音片段,找出唤醒词语音片段的起止时间,唤醒词语音片段记为;从麦克风阵列中选择一个麦克风作为参考麦克风,另外的M-1个麦克风为非参考麦克风,估计非参考麦克风与参考麦克风的唤醒词语音片段的时间延迟,其中是第个非参考麦克风相对于参考麦克风的唤醒词语音片段的时间延迟;基于麦克风阵列的几何布局,构建M-1个方程:
其中是第个非参考麦克风相对于参考麦克风的位置矢量,为声速,为声源的水平方位角,为声源的俯仰角;
步骤S3230,将所述M-1个方程进行联立求解,得到唤醒词说话人相对车载麦克风阵列的水平方位角和距离,其中
具体而言,当检测到自定义唤醒词时,麦克风阵列开始同步采集唤醒词音频数据,包含M路语音信号,对应唤醒词在M个麦克风上的接收信号。通过语音端点检测和互相关分析,可估计出唤醒词语音片段的时间边界,以及非参考麦克风与参考麦克风的唤醒词语音片段的时间延迟
时间延迟反映了唤醒词语音到达第个非参考麦克风和参考麦克风的时间差,蕴含了声源方位角和距离的信息。通过联立方程组,可以得到声源的方位角和俯仰角的估计值。进一步地,将估计的方位角代入麦克风阵列的远场模型,可以求得声源距离的估计值。麦克风阵列的远场模型是声学和信号处理领域的公知常识,广泛应用于声音源定位和音频信号处理。
举例说明:设车载麦克风阵列包含4个麦克风单元,分别位于车内前、后、左、右四个方位,形成一个矩形阵列。当检测到唤醒词“你好,小X”时,4个麦克风同步采集100ms长度的音频数据,参考麦克风1接收信号记为,非参考麦克风2接收信号记为,依次类推。声速一般取340m/s,对这4路语音信号做互相关运算,估计得到以下时间延迟:
代入方程组:
其中已知麦克风位置矢量为:
联立求解得到:
将估计的方位角代入远场模型得到距离估计值:
因此,该唤醒词说话人位于车内右前方60°方位,距离麦克风阵列约0.4m。这表明唤醒词来自车内乘客区域,可以继续下一步的声纹验证。如果定位结果显示唤醒词来自车外较远位置,则可判定为环境噪音引起的误唤醒,应拒绝唤醒请求。
步骤S3300,设置唤醒角度阈值范围和距离阈值范围;若,则判定检测到的自定义唤醒词来自车内合理位置,识别为待确认唤醒词,否则视为车外噪音引起的误唤醒,拒绝唤醒并跳转步骤S3100,继续下一轮车内音频数据采集与自定义唤醒词检测;
进一步地,如图5所示,步骤S3300包括:
步骤S3310,根据车型的空间结构参数和座椅布局,建立车内三维空间模型;在车内三维空间模型中,标定出车载麦克风阵列的安装位置;
步骤S3320,在车内三维空间模型中,划定个唤醒区域,每个唤醒区域用一个空间多边形表示,记录多边形的角点坐标,为正整数;
步骤S3330,将个唤醒区域投影到以麦克风阵列为原点的水平面上,提取各投影多边形的方位角跨度和距离跨度,其中为唤醒区域总数,为投影多边形的最小方位角,表示唤醒区域在水平面上从麦克风阵列向外的最左边界;为投影多边形的最大方位角,表示唤醒区域在水平面上从麦克风阵列向外的最右边界;为投影多边形的最短距离,表示唤醒区域从麦克风阵列起始的最近边界;为投影多边形的最长距离,表示唤醒区域从麦克风阵列起始的最远边界;
步骤S3340,取各方位角跨度的并集,确定唤醒角度阈值范围;取各距离跨度的并集,确定唤醒距离阈值范围
具体而言,步骤S3300在声源定位的基础上,引入车内布局和使用场景先验,设置唤醒词说话人位置的合理性要求,进一步提高唤醒确认的可靠性。通过对车内三维空间建模,刻画驾驶员和乘客的位置分布特征,可以得到一个三维的乘客位置模板。将麦克风阵列定位得到的说话人位置映射到车内空间中,并与乘客位置模板比对,即可判断该位置是否处于合理的唤醒范围内。在此基础上,设置距离和角度阈值条件,构成了一个三维的唤醒许可区域。只有当定位结果落在许可区域内时,才认为唤醒词来自车内合法用户,否则视为车外噪音干扰引起的误唤醒。该方法充分利用了车内场景先验信息,从声源的空间位置角度设置了唤醒限制条件,可有效地将车外噪音唤醒与车内真实唤醒区分开来,减少误唤醒发生。与传统唤醒方法相比,本步骤能够更全面地描述车内语音交互的空间特点,利用声学空间信息动态调整唤醒策略,使得车载语音唤醒更加灵活和准确。
设置唤醒角度阈值范围和距离阈值范围,是为了根据唤醒词检测的声源方位和距离,判断其是否来自车内合理位置。这里的合理位置是指车载麦克风的有效接收范围,通常为驾驶员和副驾驶的座位区域。表示声源相对于麦克风阵列的水平夹角,分别为车内唤醒角度的下限和上限,如60°到120°,表示仅响应正前方一定范围内的声音;d表示声源到麦克风阵列的距离,为车内唤醒距离的下限和上限,如0.5米到1.5米,表示仅响应一定距离内的声音。
当检测到的唤醒词满足且d∈时,可以初步判定它是车内用户发出的有效唤醒,需要进一步验证其声纹;否则它可能是其他位置的用户、其他设备的音频,或车外噪音引起的误唤醒,应当直接拒绝,避免不必要的声纹比对。示例性的,若检测到的唤醒词“你好,小X”的声源位于副驾驶座,与麦克风的水平夹角为100°,距离为1米,属于预设的唤醒角度范围[60°,120°]和距离范围[0.5m,1.5m],则暂时判定为待确认唤醒词,需要进入声纹验证流程;若唤醒词“你好,小X”的声源位于后排座椅,与麦克风的水平夹角为150°或距离为2米,则超出了预设的角度或距离范围,可以判定为误唤醒,应当拒绝唤醒并重新开始下一轮唤醒词检测。
这种基于角度和距离的唤醒位置判断,充分利用了麦克风阵列的波束成形能力,能有效降低后部座椅、车外等非目标区域声音引起的误唤醒,提高系统的抗噪声干扰能力。它是声纹验证的预筛选,可以减少不必要的声纹比对,降低系统的能耗和响应时延。同时,角度阈值和距离阈值可以根据车型、座椅布置等因素灵活设定,具有一定的自适应性。
步骤S3400,对判定为待确认唤醒词的唤醒词音频数据进行声学特征提取,构建第二声纹特征;计算第二声纹特征与第一声纹特征的相似度得分SIM,若相似度得分SIM大于预设的声纹验证阈值,则将待确认唤醒词识别为有效唤醒词,触发车机屏幕唤醒;否则识别为无效唤醒词,拒绝车机屏幕唤醒并跳转步骤S3100,继续下一轮车内音频数据采集与自定义唤醒词检测。
具体而言,第二声纹特征采用与步骤S1000中构建声纹特征库相同的特征提取方法,即基频、共振峰、语音速率等,确保了声纹验证的一致性。然后,计算第二声纹特征与步骤S1300中得到的第一声纹特征(即用户注册的自定义唤醒词声纹特征)的相似度得分SIM。相似度得分可以采用欧氏距离、余弦相似度等常用的特征匹配度量方法计算。若相似度得分SIM大于预设的声纹验证阈值,如0.8,则判定待确认唤醒词的说话人与注册用户的声纹匹配,识别为有效唤醒词,触发车机屏幕唤醒;否则,若SIM小于等于验证阈值,则判定说话人与注册用户的声纹不匹配,识别为他人的无效唤醒词,拒绝车机屏幕唤醒。
值得一提的是,声纹验证阈值的设置需要平衡安全性和便利性。阈值越高,声纹验证越严格,误唤醒率越低,但可能增加本人唤醒的拒绝率;阈值越低,越容易通过声纹验证,本人唤醒更方便,但误唤醒率可能升高。可以根据实际应用场景和用户偏好,灵活调整阈值。同时,随着用户使用自定义唤醒词的次数增多,可以动态更新第一声纹特征,提高声纹匹配的准确率。
总之,步骤S3300和S3400通过唤醒位置判断和声纹验证,构成了两道防线,能够有效降低自定义唤醒词的误唤醒率,提高车机语音交互的安全性和可靠性。与传统的固定唤醒词方案相比,该方案支持用户自主注册个性化的唤醒词,提供了更好的用户体验;与单纯的声纹识别方案相比,该方法融合了声源定位技术,在声纹验证前引入了唤醒位置判断,减少了不必要的声纹比对,降低了系统开销。因此,本方案在提高用户便利性的同时,兼顾了系统的实时性、准确性和安全性,为车载语音交互提供了一种新思路。
实施例2
本实施例在实施例1的基础之上,提供了基于语音控制的车机屏自定义唤醒词配置系统,如图6所示,包括:
噪音等级划分模块:用于采集目标车辆的车内噪音数据,构建车内噪音数据库,所述车内噪音数据库包括n1条噪音记录;将车内噪音数据库中的n1条噪音记录划分为N1个噪音等级;
第一声纹特征获取模块:用于获取用户的自定义唤醒词语音样本,提取自定义唤醒词语音样本的声纹特征向量,标记为自定义唤醒词声纹特征向量;度量自定义唤醒词声纹特征向量与预构建的声纹特征库中各声纹特征向量的相似度,匹配得到与自定义唤醒词声纹特征向量相似度最高的第一声纹特征;
模型构建模块:用于根据车内噪音数据库和第一声纹特征,构建N1个噪音等级对应的唤醒词检测子模型;
唤醒词识别模块:用于实时采集车内音频数据,基于车内音频数据、唤醒词检测子模型和第一声纹特征进行唤醒词识别,触发车机屏幕唤醒。
噪音等级划分模块中,所述n1条噪音记录,每条噪音记录包括一个噪音片段的属性数据;所述噪音片段的属性数据包括噪音片段编号、噪音片段数据、噪音类型标签、噪音能量值和噪音频谱特征向量;
噪音等级划分模块中,所述将车内噪音数据库中的n1条噪音记录划分为N1个噪音等级包括:
步骤S1210,根据车内噪音数据库中每条噪音记录的噪音能量值和噪音频谱特征向量,计算能量均值Ei、频谱重心Fi,和频谱离散度Di,构成每条噪音记录的噪音声学特征向量[Ei,Fi,Di];其中,Ei为第i条噪音记录的能量均值,Fi为第i条噪音记录的频谱重心,Di为第i条噪音记录的频谱离散度,[Ei,Fi,Di]表示第i条噪音记录的噪音声学特征向量;
步骤S1220,以噪音声学特征向量[Ei,Fi,Di]为特征描述,对n1条噪音记录进行聚类,得到N1个噪音聚类中心;
步骤S1230,计算平均轮廓系数SC,若SC≤SC',则调整噪音聚类中心数N1,返回步骤S1220重新聚类,直至SC>SC',输出聚类结果;SC'为预设的轮廓系数阈值。
第一声纹特征获取模块中,所述得到与自定义唤醒词声纹特征向量相似度最高的第一声纹特征包括:
步骤S1310,采集多个用户的语音样本,提取语音样本的声纹特征向量,构建声纹特征库;声纹特征向量包括基频、共振峰和语音速率;
步骤S1320,度量自定义唤醒词声纹特征向量与声纹特征库中各声纹特征向量的相似度,得到相似度得分;根据相似度得分排序,选取得分最高的声纹特征库中的声纹特征向量,标记为第一声纹特征。
模型构建模块中,所述构建N1个噪音等级对应的唤醒词检测子模型包括:
步骤S2100,以车内噪音数据库中的N1个噪音等级为基础,构建N1个噪音数据子集,每个噪音数据子集对应一个噪音等级;
所述构建N1个噪音数据子集包括:
遍历车内噪音数据库中的n1条噪音记录,根据每条噪音记录的噪音等级标签,将其划分至对应的N1个噪音数据子集中;
步骤S2200,针对每个噪音等级,分别构建独立的唤醒词检测子模型;
步骤S2300,遍历N1个噪音等级,执行步骤S2200,得到所有N1个噪音等级对应的唤醒词检测子模型,所述唤醒词检测子模型的输出为用布尔值表示的自定义唤醒词检测结果,如果为1则表示检测到自定义唤醒词,如果为0则表示未检测到自定义唤醒词。
所述步骤S2200包括:
步骤S2210,根据预设的数据集划分比例,将第j个噪音数据子集划分为训练集、验证集和测试集;1≤j≤N1;
步骤S2220,将第j个噪音数据子集中的训练集与第一声纹特征进行融合,构建面向噪音等级j的唤醒词检测训练集;
步骤S2230,以面向噪音等级j的唤醒词检测训练集为输入,训练噪音等级j下的初始唤醒词检测子模型;
步骤S2240,使用第j个噪音数据子集中的验证集,优化模型参数,得到最终的噪音等级j下的唤醒词检测子模型;
步骤S2250,使用第j个噪音数据子集中的测试集,评估最终的噪音等级j下的唤醒词检测子模型的性能指标。
唤醒词识别模块中,所述基于车内音频数据、唤醒词检测子模型和第一声纹特征进行唤醒词识别,触发车机屏幕唤醒包括:
步骤S3100,实时采集车内音频数据,判断车内音频数据所属噪音等级,并选用车内音频数据所属噪音等级对应的唤醒词检测子模型进行自定义唤醒词检测,判断是否检测到自定义唤醒词;
步骤S3200,若未检测到自定义唤醒词,则跳转至步骤S3100,继续下一轮车内音频数据采集与检测;若检测到自定义唤醒词,则通过麦克风阵列采集唤醒词音频数据,对唤醒词说话人进行定位,获得唤醒词说话人相对车载麦克风阵列的水平方位角和距离
步骤S3300,设置唤醒角度阈值范围和距离阈值范围;若,则判定检测到的自定义唤醒词来自车内合理位置,识别为待确认唤醒词,否则视为车外噪音引起的误唤醒,拒绝唤醒并跳转步骤S3100,继续下一轮车内音频数据采集与自定义唤醒词检测;
步骤S3400,对判定为待确认唤醒词的唤醒词音频数据进行声学特征提取,构建第二声纹特征;计算第二声纹特征与第一声纹特征的相似度得分SIM,若相似度得分SIM大于预设的声纹验证阈值,则将待确认唤醒词识别为有效唤醒词,触发车机屏幕唤醒;否则识别为无效唤醒词,拒绝车机屏幕唤醒并跳转步骤S3100,继续下一轮车内音频数据采集与自定义唤醒词检测。
所述步骤S3100包括:
步骤S3110,对实时采集的车内音频数据进行特征提取,得到实时能量值Es,实时频谱重心Fs和实时频谱离散度Ds,构建实时声学特征向量[Es,Fs,Ds];
步骤S3120,将实时声学特征向量[Es,Fs,Ds]与N1个噪音聚类中心进行比较,计算实时声学特征向量与各噪音聚类中心的欧氏距离,选取欧氏距离最小的噪音聚类中心对应的噪音等级作为实时采集的车内音频数据所属的噪音等级;
步骤S3130,根据车内音频数据所属的噪音等级,选用对应的唤醒词检测子模型进行自定义唤醒词检测。
所述步骤S3200包括:
步骤S3210,若检测到自定义唤醒词,则通过麦克风阵列采集唤醒词音频数据,所述唤醒词音频数据共有M路语音信号,第m路语音信号的唤醒词音频数据记为,t为时间,
步骤S3220,对唤醒词音频数据进行语音端点检测,提取各麦克风接收到的中的唤醒词语音片段,找出唤醒词语音片段的起止时间,唤醒词语音片段记为;从麦克风阵列中选择一个麦克风作为参考麦克风,另外的M-1个麦克风为非参考麦克风,估计非参考麦克风与参考麦克风的唤醒词语音片段的时间延迟,其中是第个非参考麦克风相对于参考麦克风的唤醒词语音片段的时间延迟;基于麦克风阵列的几何布局,构建M-1个方程:
其中是第个非参考麦克风相对于参考麦克风的位置矢量,为声速,为声源的水平方位角,为声源的俯仰角;
步骤S3230,将所述M-1个方程进行联立求解,得到唤醒词说话人相对车载麦克风阵列的水平方位角和距离,其中
所述步骤S3300包括:
步骤S3310,根据车型的空间结构参数和座椅布局,建立车内三维空间模型;在车内三维空间模型中,标定出车载麦克风阵列的安装位置;
步骤S3320,在车内三维空间模型中,划定个唤醒区域,每个唤醒区域用一个空间多边形表示,记录多边形的角点坐标,为正整数;
步骤S3330,将个唤醒区域投影到以麦克风阵列为原点的水平面上,提取各投影多边形的方位角跨度和距离跨度,其中为唤醒区域总数,为投影多边形的最小方位角,表示唤醒区域在水平面上从麦克风阵列向外的最左边界;为投影多边形的最大方位角,表示唤醒区域在水平面上从麦克风阵列向外的最右边界;为投影多边形的最短距离,表示唤醒区域从麦克风阵列起始的最近边界;为投影多边形的最长距离,表示唤醒区域从麦克风阵列起始的最远边界;
步骤S3340,取各方位角跨度的并集,确定唤醒角度阈值范围;取各距离跨度的并集,确定唤醒距离阈值范围
实施例3
本实施例公开了一种电子设备,该电子设备可包括一个或多个处理器以及一个或多个存储器。其中,存储器中存储有计算机可读代码,计算机可读代码当由一个或多个处理器运行时,可以执行如上所述的基于语音控制的车机屏自定义唤醒词配置方法。
根据本申请实施方式的方法或系统也可以借助电子设备的架构来实现。电子设备可包括总线、一个或多个CPU、只读存储器(ROM)、随机存取存储器(RAM)、连接到网络的通信端口、输入/输出组件、硬盘等。电子设备中的存储设备,例如ROM或硬盘可存储本申请提供的基于语音控制的车机屏自定义唤醒词配置方法。基于语音控制的车机屏自定义唤醒词配置方法可例如包括:采集目标车辆的车内噪音数据,构建车内噪音数据库,所述车内噪音数据库包括n1条噪音记录;将车内噪音数据库中的n1条噪音记录划分为N1个噪音等级,记录每条噪音记录的噪音等级标签;获取用户的自定义唤醒词语音样本,提取自定义唤醒词语音样本的声纹特征向量,标记为自定义唤醒词声纹特征向量;度量自定义唤醒词声纹特征向量与预构建的声纹特征库中各声纹特征向量的相似度,匹配得到与自定义唤醒词声纹特征向量相似度最高的第一声纹特征;根据车内噪音数据库和第一声纹特征,构建N1个噪音等级对应的唤醒词检测子模型;实时采集车内音频数据,基于车内音频数据、唤醒词检测子模型和第一声纹特征进行唤醒词识别,触发车机屏幕唤醒。
进一步地,电子设备还可包括用户界面。当然,本发明公开的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略本发明公开的电子设备中的一个或多个组件。
实施例4
本实施例公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机可读指令。当计算机可读指令由处理器运行时,可执行本申请实施方式的基于语音控制的车机屏自定义唤醒词配置方法。存储介质包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可包括随机存取存储器(RAM)和高速缓冲存储器(cache)等。非易失性存储器例如可包括只读存储器(ROM)、硬盘、闪存等。
另外,根据本申请的实施方式,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质存储有机器可读指令,所述机器可读指令能够由处理器运行以执行与本申请提供的方法步骤对应的指令,例如:采集目标车辆的车内噪音数据,构建车内噪音数据库,所述车内噪音数据库包括n1条噪音记录;将车内噪音数据库中的n1条噪音记录划分为N1个噪音等级,记录每条噪音记录的噪音等级标签;获取用户的自定义唤醒词语音样本,提取自定义唤醒词语音样本的声纹特征向量,标记为自定义唤醒词声纹特征向量;度量自定义唤醒词声纹特征向量与预构建的声纹特征库中各声纹特征向量的相似度,匹配得到与自定义唤醒词声纹特征向量相似度最高的第一声纹特征;根据车内噪音数据库和第一声纹特征,构建N1个噪音等级对应的唤醒词检测子模型;实时采集车内音频数据,基于车内音频数据、唤醒词检测子模型和第一声纹特征进行唤醒词识别,触发车机屏幕唤醒。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。
可能以许多方式来实现本申请的方法和系统、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和系统、设备。用于方法的步骤的上述顺序仅是为了进行说明,本申请的方法的步骤不限于以上具体描述的顺序,除非以其他方式特别说明。此外,在一些实施例中,还可将本申请实施为记录在记录介质中的程序,这些程序包括用于实现根据本申请的方法的机器可读指令。因而,本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。
另外,本申请的实施方式中提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
如上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明。应理解的是,以上所述仅为本发明的具体实施方式,并不用于限制本发明。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等均应包含在本发明的保护范围之内。

Claims (10)

1.基于语音控制的车机屏自定义唤醒词配置方法,其特征在于,所述方法包括:
采集目标车辆的车内噪音数据,构建车内噪音数据库,所述车内噪音数据库包括n1条噪音记录;将车内噪音数据库中的n1条噪音记录划分为N1个噪音等级,记录每条噪音记录的噪音等级标签;获取用户的自定义唤醒词语音样本,提取自定义唤醒词语音样本的声纹特征向量,标记为自定义唤醒词声纹特征向量;度量自定义唤醒词声纹特征向量与预构建的声纹特征库中各声纹特征向量的相似度,匹配得到与自定义唤醒词声纹特征向量相似度最高的第一声纹特征;
根据车内噪音数据库和第一声纹特征,构建N1个噪音等级对应的唤醒词检测子模型;
实时采集车内音频数据,基于车内音频数据和唤醒词检测子模型进行唤醒词识别,判定是否检测到自定义唤醒词;若未检测到自定义唤醒词,则进行下一轮车内音频数据采集与唤醒词识别;若检测到自定义唤醒词,则构建第二声纹特征,根据第一声纹特征和第二声纹特征,判定是否触发车机屏幕唤醒。
2.根据权利要求1所述的基于语音控制的车机屏自定义唤醒词配置方法,其特征在于,所述n1条噪音记录,每条噪音记录包括一个噪音片段的属性数据;所述噪音片段的属性数据包括噪音片段编号、噪音片段数据、噪音类型标签、噪音能量值和噪音频谱特征向量;
所述将车内噪音数据库中的n1条噪音记录划分为N1个噪音等级包括:根据车内噪音数据库中n1条噪音记录的噪音能量值和噪音频谱特征向量,对n1条噪音记录进行聚类。
3.根据权利要求2所述的基于语音控制的车机屏自定义唤醒词配置方法,其特征在于,所述对n1条噪音记录进行聚类包括:
步骤S1210,根据车内噪音数据库中每条噪音记录的噪音能量值和噪音频谱特征向量,计算能量均值Ei、频谱重心Fi,和频谱离散度Di,构成每条噪音记录的噪音声学特征向量[Ei,Fi,Di];其中,Ei为第i条噪音记录的能量均值,Fi为第i条噪音记录的频谱重心,Di为第i条噪音记录的频谱离散度,[Ei,Fi,Di]表示第i条噪音记录的噪音声学特征向量;
步骤S1220,以噪音声学特征向量[Ei,Fi,Di]为特征描述,对n1条噪音记录进行聚类,得到N1个噪音聚类中心;
步骤S1230,计算平均轮廓系数SC,若SC≤SC',则调整噪音聚类中心数N1,返回步骤S1220重新聚类,直至SC>SC',输出聚类结果;SC'为预设的轮廓系数阈值。
4.根据权利要求1所述的基于语音控制的车机屏自定义唤醒词配置方法,其特征在于,所述声纹特征库的构建方法为:采集多个用户的语音样本,提取语音样本的声纹特征向量,构建声纹特征库;声纹特征向量包括基频、共振峰和语音速率;
所述得到与自定义唤醒词声纹特征向量相似度最高的第一声纹特征包括:
度量自定义唤醒词声纹特征向量与声纹特征库中各声纹特征向量的相似度,得到相似度得分;根据相似度得分排序,选取得分最高的声纹特征库中的声纹特征向量,标记为第一声纹特征。
5.根据权利要求1所述的基于语音控制的车机屏自定义唤醒词配置方法,其特征在于,所述构建N1个噪音等级对应的唤醒词检测子模型包括:
以车内噪音数据库中的N1个噪音等级为基础,构建N1个噪音数据子集,每个噪音数据子集对应一个噪音等级;
遍历N1个噪音等级,针对每个噪音等级,分别构建独立的唤醒词检测子模型;得到所有N1个噪音等级对应的唤醒词检测子模型,所述唤醒词检测子模型的输出为用布尔值表示的自定义唤醒词检测结果,如果为1则表示检测到自定义唤醒词,如果为0则表示未检测到自定义唤醒词;
所述构建N1个噪音数据子集包括:
遍历车内噪音数据库中的n1条噪音记录,根据每条噪音记录的噪音等级标签,将其划分至对应的N1个噪音数据子集中。
6.根据权利要求5所述的基于语音控制的车机屏自定义唤醒词配置方法,其特征在于,所述针对每个噪音等级,分别构建独立的唤醒词检测子模型包括:
根据预设的数据集划分比例,将第j个噪音数据子集划分为训练集、验证集和测试集;1≤j≤N1;
将第j个噪音数据子集中的训练集与第一声纹特征进行融合,构建面向噪音等级j的唤醒词检测训练集;
以面向噪音等级j的唤醒词检测训练集为输入,训练噪音等级j下的初始唤醒词检测子模型。
7.根据权利要求1所述的基于语音控制的车机屏自定义唤醒词配置方法,其特征在于,所述基于车内音频数据和唤醒词检测子模型进行唤醒词识别的方法为:判断车内音频数据所属噪音等级,并选用车内音频数据所属噪音等级对应的唤醒词检测子模型进行自定义唤醒词检测,判断是否检测到自定义唤醒词;
所述构建第二声纹特征,根据第一声纹特征和第二声纹特征,判定是否触发车机屏幕唤醒的方法包括:
若检测到自定义唤醒词,则通过麦克风阵列采集唤醒词音频数据,对唤醒词说话人进行定位,获得唤醒词说话人相对车载麦克风阵列的水平方位角和距离
设置唤醒角度阈值范围和距离阈值范围;若,则判定检测到的自定义唤醒词来自车内合理位置,识别为待确认唤醒词,否则视为误唤醒,继续下一轮车内音频数据采集与自定义唤醒词检测;
对判定为待确认唤醒词的唤醒词音频数据进行声学特征提取,构建第二声纹特征;计算第二声纹特征与第一声纹特征的相似度得分SIM,若相似度得分SIM大于预设的声纹验证阈值,则将待确认唤醒词识别为有效唤醒词,触发车机屏幕唤醒;否则识别为无效唤醒词,拒绝车机屏幕唤醒并继续下一轮车内音频数据采集与自定义唤醒词检测。
8.根据权利要求7所述的基于语音控制的车机屏自定义唤醒词配置方法,其特征在于,所述判断车内音频数据所属噪音等级包括:
对实时采集的车内音频数据进行特征提取,得到实时能量值Es,实时频谱重心Fs和实时频谱离散度Ds,构建实时声学特征向量[Es,Fs,Ds];
将实时声学特征向量[Es,Fs,Ds]与N1个噪音聚类中心进行比较,计算实时声学特征向量与各噪音聚类中心的欧氏距离,选取欧氏距离最小的噪音聚类中心对应的噪音等级作为实时采集的车内音频数据所属的噪音等级。
9.根据权利要求7所述的基于语音控制的车机屏自定义唤醒词配置方法,其特征在于,所述获得唤醒词说话人相对车载麦克风阵列的水平方位角和距离包括:
通过麦克风阵列采集唤醒词音频数据,所述唤醒词音频数据共有M路语音信号,第m路语音信号的唤醒词音频数据记为,t为时间,
对唤醒词音频数据进行语音端点检测,提取各麦克风接收到的中的唤醒词语音片段,找出唤醒词语音片段的起止时间,唤醒词语音片段记为;从麦克风阵列中选择一个麦克风作为参考麦克风,另外的M-1个麦克风为非参考麦克风,估计非参考麦克风与参考麦克风的唤醒词语音片段的时间延迟,其中是第个非参考麦克风相对于参考麦克风的唤醒词语音片段的时间延迟;
基于麦克风阵列的几何布局,构建M-1个方程:
其中是第个非参考麦克风相对于参考麦克风的位置矢量,为声速,为声源的水平方位角,为声源的俯仰角;
将所述M-1个方程进行联立求解,得到唤醒词说话人相对麦克风阵列的水平方位角和距离,其中
10.基于语音控制的车机屏自定义唤醒词配置系统,其用于实现权利要求1-9中任一项所述的基于语音控制的车机屏自定义唤醒词配置方法,其特征在于,所述系统包括:
噪音等级划分模块:用于采集目标车辆的车内噪音数据,构建车内噪音数据库,所述车内噪音数据库包括n1条噪音记录;将车内噪音数据库中的n1条噪音记录划分为N1个噪音等级;
第一声纹特征获取模块:用于获取用户的自定义唤醒词语音样本,提取自定义唤醒词语音样本的声纹特征向量,标记为自定义唤醒词声纹特征向量;度量自定义唤醒词声纹特征向量与预构建的声纹特征库中各声纹特征向量的相似度,匹配得到与自定义唤醒词声纹特征向量相似度最高的第一声纹特征;
模型构建模块:用于根据车内噪音数据库和第一声纹特征,构建N1个噪音等级对应的唤醒词检测子模型;
唤醒词识别模块:用于实时采集车内音频数据,基于车内音频数据、唤醒词检测子模型和第一声纹特征进行唤醒词识别,触发车机屏幕唤醒。
CN202510108179.0A 2025-01-23 2025-01-23 基于语音控制的车机屏自定义唤醒词配置方法及系统 Active CN119541501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202510108179.0A CN119541501B (zh) 2025-01-23 2025-01-23 基于语音控制的车机屏自定义唤醒词配置方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202510108179.0A CN119541501B (zh) 2025-01-23 2025-01-23 基于语音控制的车机屏自定义唤醒词配置方法及系统

Publications (2)

Publication Number Publication Date
CN119541501A CN119541501A (zh) 2025-02-28
CN119541501B true CN119541501B (zh) 2025-07-08

Family

ID=94711370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202510108179.0A Active CN119541501B (zh) 2025-01-23 2025-01-23 基于语音控制的车机屏自定义唤醒词配置方法及系统

Country Status (1)

Country Link
CN (1) CN119541501B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117935841A (zh) * 2023-12-15 2024-04-26 中国第一汽车股份有限公司 一种车载声纹唤醒方法、装置、电子设备及存储介质
CN118366460A (zh) * 2023-01-17 2024-07-19 北京罗克维尔斯科技有限公司 车辆的唤醒方法及装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107147618B (zh) * 2017-04-10 2020-05-15 易视星空科技无锡有限公司 一种用户注册方法、装置及电子设备
CN117012189A (zh) * 2022-04-29 2023-11-07 荣耀终端有限公司 一种语音识别方法和电子设备
CN115223555A (zh) * 2022-06-09 2022-10-21 科大讯飞股份有限公司 语音唤醒方法、声学模型的训练方法及相关装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118366460A (zh) * 2023-01-17 2024-07-19 北京罗克维尔斯科技有限公司 车辆的唤醒方法及装置、电子设备和存储介质
CN117935841A (zh) * 2023-12-15 2024-04-26 中国第一汽车股份有限公司 一种车载声纹唤醒方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN119541501A (zh) 2025-02-28

Similar Documents

Publication Publication Date Title
Deshwal et al. Feature extraction methods in language identification: a survey
Beigi Speaker recognition
Mannepalli et al. MFCC-GMM based accent recognition system for Telugu speech signals
JP4220449B2 (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
Friedland et al. Prosodic and other long-term features for speaker diarization
CN105810212B (zh) 一种复杂噪声环境下的列车鸣笛识别方法
US20090171660A1 (en) Method and apparatus for verification of speaker authentification and system for speaker authentication
CN104900229A (zh) 一种语音信号混合特征参数的提取方法
CN109712641A (zh) 一种基于支持向量机的音频分类和分段的处理方法
CN109766929A (zh) 一种基于svm的音频分类方法及系统
Amin et al. Detecting voice disguise from speech variability: Analysis of three glottal and vocal tract measures
JP5050698B2 (ja) 音声処理装置およびプログラム
Saxon et al. Objective measures of plosive nasalization in hypernasal speech
CN119314492A (zh) 声纹处理方法、系统及存储介质
Cao et al. An improved endpoint detection algorithm based on MFCC Cosine Value
Venkatesan et al. Binaural classification-based speech segregation and robust speaker recognition system
CN119889348A (zh) 一种合成语音鉴别方法、装置、系统及产品
CN119541501B (zh) 基于语音控制的车机屏自定义唤醒词配置方法及系统
Senthil Raja et al. Speaker recognition under stressed condition
JPWO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム
Bhukya et al. Automatic speaker verification spoof detection and countermeasures using gaussian mixture model
Alkanhal et al. Speaker verification based on Saudi accented Arabic database
Kanrar Robust threshold selection for environment specific voice in speaker recognition
CN114067802A (zh) 语音识别方法、装置、设备、系统及计算机可读存储介质
Olteanu et al. Fusion of speech techniques for automatic environmental sound recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant