CN104952449A

CN104952449A - 环境噪声声源识别方法及装置

Info

Publication number: CN104952449A
Application number: CN201510304135.1A
Authority: CN
Inventors: 莫颜鲜
Original assignee: Zhuhai Gaoling Technology Co Ltd
Current assignee: Zhuhai Comleader Information Technology Co Ltd
Priority date: 2015-01-09
Filing date: 2015-06-04
Publication date: 2015-09-30

Abstract

本发明实施例提供了一种环境噪声声源识别方法及装置，改善了现有技术中噪声声源识别方法计算复杂度较大，严重影响了噪声声源识别效率的问题。该方法包括：所述环境噪声声源识别装置获得待检测噪声的第二特征；按所述预设规则将获得的所述第二特征进行矢量量化得到待匹配信息；将所述待匹配信息与所述标准特征样本库中的样本信息进行对比，从所述标准特征样本库中，获得与所述待匹配信息匹配度达到预设阈值的样本信息，将与所述待匹配信息匹配度达到预设阈值的样本信息对应的已知声源类型的噪声的声源类型作为所述待检测噪声的声源类型。使用该方法，可以显著降低环境噪声声源识别的计算复杂度，提高识别效率，实施方便，易于推广应用。

Description

环境噪声声源识别方法及装置

技术领域

本发明涉及噪声识别技术，具体而言，涉及一种环境噪声声源识别方法及装置。

背景技术

噪声源识别是指在同时有许多噪声源或包含许多振动发生部件的复杂声源情况下，为了确定各个声源或振动部件的声辐射的性能，区分噪声源，并根据他们对于生产的作用加以分等而进行的测量与分析。

现有技术中，主要基于已经训练好的BP(Back Propagation)神经网络，将待识别噪声声源对应的BP神经网络与已经训练好的BP神经网络进行对比，识别出噪声源，发明人经研究发现，这种识别方式计算复杂度较大，严重影响了噪声声源识别效率。

发明内容

有鉴于此，本发明实施例的目的在于提供一种环境噪声声源识别方法及装置，以改善现有技术中噪声声源识别方法计算复杂度较大，严重影响了噪声声源识别效率的问题。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种环境噪声声源识别方法，应用于环境噪声声源识别装置，所述环境噪声声源识别装置中预设有标准特征样本库，所述标准特征样本库中包括按预设规则将已知声源类型的噪声的第一特征进行矢量量化得到的样本信息，所述样本信息与所述已知声源类型的噪声对应，所述方法包括：

所述环境噪声声源识别装置获得待检测噪声的第二特征；

按所述预设规则将获得的所述第二特征进行矢量量化得到待匹配信息；

将所述待匹配信息与所述标准特征样本库中的样本信息进行对比，从所述标准特征样本库中，获得与所述待匹配信息匹配度达到预设阈值的样本信息，将与所述待匹配信息匹配度达到预设阈值的样本信息对应的已知声源类型的噪声的声源类型作为所述待检测噪声的声源类型。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述第一特征和第二特征均为Mel频率倒谱系数MFCC特征。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述环境噪声声源识别装置获得待检测噪声的第二特征，包括：

将所述待检测噪声进行预加重、分帧和加汉明窗处理；

针对所述待检测噪声的每一帧信号，分别进行傅里叶变换，获得所述每一帧信号的幅度谱；

对所述幅度谱作对数运算和离散余弦变换得到所述待检测噪声的第二特征。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述针对所述待检测噪声的每一帧信号，分别进行傅里叶变换，获得所述每一帧信号的幅度谱之后，还包括：

对所述幅度谱进行滤波；

所述对所述幅度谱作对数运算和离散余弦变换得到所述待检测噪声的第二特征，包括：

对滤波后的所述幅度谱作对数运算和离散余弦变换得到所述待检测噪声的第二特征。

结合第一方面，或第一方面的第一种或第二种或第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述将所述待匹配信息与所述标准特征样本库中的样本信息进行对比，从所述标准特征样本库中，获得与所述待匹配信息匹配度达到预设阈值的样本信息，包括：

采用隐马尔科夫模型将所述待匹配信息与所述标准特征样本库中的样本信息进行对比，从所述标准特征样本库中，获得与所述待匹配信息匹配度达到预设阈值的样本信息。

第二方面，本发明实施例提供了一种环境噪声声源识别装置，包括：

预设单元，用于预设标准特征样本库，所述标准特征样本库中包括按预设规则将已知声源类型的噪声的第一特征进行矢量量化得到的样本信息，所述样本信息与所述已知声源类型的噪声对应；

获得单元，用于获得待检测噪声的第二特征；

矢量量化单元，用于按所述预设规则将所述获得单元获得的所述第二特征进行矢量量化得到待匹配信息；

选取单元，用于将所述待匹配信息与所述标准特征样本库中的样本信息进行对比，从所述标准特征样本库中，获得与所述待匹配信息匹配度达到预设阈值的样本信息，将与所述待匹配信息匹配度达到预设阈值的样本信息对应的已知声源类型的噪声的声源类型作为所述待检测噪声的声源类型。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述第一特征和第二特征均为Mel频率倒谱系数MFCC特征。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，所述获得单元具体用于，将所述待检测噪声进行预加重、分帧和加汉明窗处理；针对所述待检测噪声的每一帧信号，分别进行傅里叶变换，获得所述每一帧信号的幅度谱；对所述幅度谱作对数运算和离散余弦变换得到所述待检测噪声的第二特征。

结合第二方面的第二种可能的实施方式，本发明实施例提供了第二方面的第三种可能的实施方式，其中，所述获得单元还用于，在针对所述待检测噪声的每一帧信号，分别进行傅里叶变换，获得所述每一帧信号的幅度谱之后，对所述幅度谱进行滤波。

结合第二方面，或第二方面的第一种、第二种或第三种可能的实施方式，本发明实施例提供了第二方面的第四种可能的实施方式，其中，所述选取单元具体用于，采用隐马尔科夫模型将所述待匹配信息与所述标准特征样本库中的样本信息进行对比，从所述标准特征样本库中，获得与所述待匹配信息匹配度达到预设阈值的样本信息，将与所述待匹配信息匹配度达到预设阈值的样本信息对应的已知声源类型的噪声的声源类型作为所述待检测噪声的声源类型。

本发明实施例中所提供的方法和装置，摒弃了现有技术中采用BP(Back Propagation)神经网络进行声源识别的模式，巧妙地选用矢量量化获得的样本信息进行声源识别，大大降低了计算复杂度，显著提高了噪声声源识别效率。

进一步地，本发明实施例中优选提取噪声中的Mel频率倒谱系数MFCC特征作为后续处理基础，MFCC特征能够较好地反映人耳的听觉特征，使得最终识别结果更符合人们实际感受，符合实际需求。

本发明实施例提供的方法及装置，实施方便，具有突出的实质性特点和显著进步，适合大规模推广应用。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例1所提供的一种流程示意图；

图2示出了本发明实施例1所提供的一种获得第二特征的流程示意图；

图3示出了本发明实施例1所提供的另一种获得第二特征的流程示意图；

图4示出了本发明实施例2所提供的另一种结构框图；

图5示出了本发明实施例2所提供的另一种结构框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

现今，主要基于已经训练好的BP(Back Propagation)神经网络，将待识别噪声声源对应的BP神经网络与已经训练好的BP神经网络进行对比，识别出噪声源，发明人经研究发现，这种识别方式计算复杂度较大，严重影响了噪声声源识别效率。基于此，如图1所示，本发明实施例提供了一种环境噪声声源识别方法，应用于环境噪声声源识别装置，所述环境噪声声源识别装置中预设有标准特征样本库，所述标准特征样本库中包括按预设规则将已知声源类型的噪声的第一特征进行矢量量化得到的样本信息，所述样本信息与所述已知声源类型的噪声对应，所述方法包括：

步骤S100：所述环境噪声声源识别装置获得待检测噪声的第二特征；

为了更好地反映人耳对噪声的实际感受，其中，第一特征和第二特征均优选Mel频率倒谱系数MFCC特征。其中，获得MFCC特征的方式有多种，本发明实施例中提供了其中一种MFCC特征获取方式，如图2所示，步骤S200：将所述待检测噪声进行预加重、分帧和加汉明窗处理；

其中，预加重是将噪声信号作高通滤波处理，滤波器的设计方式有多种，本实施例中优选采用如下设计：

H(z)＝1-μz^-1，其中，μ的值介于0.9～1.0之间，优选取0.97。

分帧是语音信号处理中常见的处理过程，在本实施例中，每帧中包含的采样点数N和每帧重合采样点数M都和采样频率相关，优选保证每帧时间长度为20ms～30ms，M取值为N的1/3到1/2。例如：在采样频率是16KHz时，N取512，M取192。后续的处理过程都是针对每帧采样点单独进行。

加汉明窗的形式有多种，本实施例中优选采用如下形式的汉明窗：

h (n) = 0.54 - 0.46 * \cos (2 * pi * \frac{n}{N - 1}), 0 \leq n \leq N - 1

其中，N表示一帧数据采样点个数，pi为圆周率。

步骤S201：针对所述待检测噪声的每一帧信号，分别进行傅里叶变换，获得所述每一帧信号的幅度谱；

其中，优选采用快速傅里叶变换FFT。

步骤S203：对所述幅度谱作对数运算和离散余弦变换得到所述待检测噪声的第二特征。

其中，离散余弦变换的形式有多种，本实施例中优选采用如下形式：

C (n) = Σ_{m = 0}^{N - 1} s (m) \cos (\frac{n (m - 0.5)}{M}), n = 1,2, . . ., L

其中，C(n)即离散余弦变换，s(m)代表滤波器输出，N表示一帧数据采样点个数，M指Mel滤波器个数，L是MFCC系数阶数，优选取13。

为了确保第二特征获取的准确性，如图3所示，优选在针对所述待检测噪声的每一帧信号，分别进行傅里叶变换，获得所述每一帧信号的幅度谱之后，执行步骤S202：对所述幅度谱进行滤波，本实施例中优选进行Mel滤波；然后执行步骤S203：对滤波后的所述幅度谱作对数运算和离散余弦变换得到所述待检测噪声的第二特征。

已知声源类型的噪声的第一特征的获取方式与第二特征的获取方式相同，在此不作重复说明。

步骤S101：按所述预设规则将获得的所述第二特征进行矢量量化得到待匹配信息；

其中，按获得样本信息的预设规则将待检测噪声的第二特征进行矢量量化得到待匹配信息，即已知声源类型的噪声和未知声源类型的待检测噪声采用相同的方式分别获得样本信息和待匹配信息，需说明的是，标准特征样本库包括基本涵盖所有环境噪声声源类型的多种噪声的样本信息。

步骤S102：将所述待匹配信息与所述标准特征样本库中的样本信息进行对比，从所述标准特征样本库中，获得与所述待匹配信息匹配度达到预设阈值的样本信息，将与所述待匹配信息匹配度达到预设阈值的样本信息对应的已知声源类型的噪声的声源类型作为所述待检测噪声的声源类型。

其中，将待匹配信息与标准特征样本库中的样本信息进行对比，获得待检测噪声的声源类型的方式有多种，例如：采用隐马尔科夫模型获得。又例如：设定针对(多个)第一特征进行矢量量化后，构成了多维空间，不同声源类型的噪声特征在多维空间中有不同的分布，即存在不同的矢量量化码本，矢量量化码本包括若干个最佳代表这种分布的基准点，将待检测噪声的第二特征利用每类噪声的矢量量化码本分别进行矢量量化，每次矢量量化都计算对应的量化误差，量化误差低于(最大误差)预设阈值，即匹配度达到(最低匹配度)预设阈值时，即将相应声源类型作为待检测噪声的声源类型。根据实际需求，亦可将量化误差最小时对应的噪声类型作为待检测噪声的声源类型。

本发明实施例摒弃了现有技术中采用BP神经网络进行声源识别的模式，巧妙地选用矢量量化获得的样本信息进行声源识别，大大降低了计算复杂度，显著提高了噪声声源识别效率；优选提取噪声中的Mel频率倒谱系数MFCC特征作为后续处理基础，MFCC特征能够较好地反映人耳的听觉特征，使得最终识别结果更符合人们实际感受，符合实际需求。

实施例2

现今，主要基于已经训练好的BP(Back Propagation)神经网络，将待识别噪声声源对应的BP神经网络与已经训练好的BP神经网络进行对比，识别出噪声源，发明人经研究发现，这种识别方式计算复杂度较大，严重影响了噪声声源识别效率。

基于此，如图4所示，本发明实施例提供了一种环境噪声声源识别装置，包括：预设单元，用于预设标准特征样本库，所述标准特征样本库中包括按预设规则将已知声源类型的噪声的第一特征进行矢量量化得到的样本信息，所述样本信息与所述已知声源类型的噪声对应；获得单元，用于获得待检测噪声的第二特征；矢量量化单元，用于按所述预设规则将所述获得单元获得的所述第二特征进行矢量量化得到待匹配信息；选取单元，用于将所述待匹配信息与所述标准特征样本库中的样本信息进行对比，从所述标准特征样本库中，获得与所述待匹配信息匹配度达到预设阈值的样本信息，将与所述待匹配信息匹配度达到预设阈值的样本信息对应的已知声源类型的噪声的声源类型作为所述待检测噪声的声源类型。

为了更好地反映人耳对噪声的实际感受，其中，第一特征和第二特征均优选Mel频率倒谱系数MFCC特征。其中，获得MFCC特征的方式有多种，本发明实施例中提供了其中一种获得单元获取MFCC特征的方式，所述获得单元具体用于，将所述待检测噪声进行预加重、分帧和加汉明窗处理；针对所述待检测噪声的每一帧信号，分别进行傅里叶变换，获得所述每一帧信号的幅度谱；对所述幅度谱作对数运算和离散余弦变换得到所述待检测噪声的第二特征。

为了确保第二特征获取的准确性，获得单元还用于，在针对所述待检测噪声的每一帧信号，分别进行傅里叶变换，获得所述每一帧信号的幅度谱之后，对所述幅度谱进行滤波。

其中，选取单元将待匹配信息与标准特征样本库中的样本信息进行对比，获得待检测噪声的声源类型的方式有多种，例如：采用隐马尔科夫模型获得。又例如：设定针对(多个)第一特征进行矢量量化后，构成了多维空间，不同声源类型的噪声特征在多维空间中有不同的分布，即存在不同的矢量量化码本，矢量量化码本包括若干个最佳代表这种分布的基准点，将待检测噪声的第二特征利用每类噪声的矢量量化码本分别进行矢量量化，每次矢量量化都计算对应的量化误差，量化误差低于(最大误差)预设阈值，即匹配度达到(最低匹配度)预设阈值时，即将相应声源类型作为待检测噪声的声源类型。根据实际需求，亦可将量化误差最小时对应的噪声类型作为待检测噪声的声源类型。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

如图5所示，本发明实施例还提供了一种环境噪声声源识别装置的结构示意图，包括：处理器400，存储器404，总线402和通信接口403，所述处理器400、通信接口403和存储器404通过总线402连接；。

其中，存储器404可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口403(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

处理器400用于执行存储器404中的可执行模块，例如计算机程序401；处理器400通过通信接口403接收数据流；

总线402可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器404用于存储程序401，所述处理器400在接收到执行指令后，执行所述程序401，前述本发明实施例任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器400中，或者由处理器400实现。

在具体实现中，程序401可以包括程序代码，所述程序代码包括计算机操作指令和算法等；

处理器400可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器400中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器400可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器404，处理器400读取存储器404中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的进行装置中的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种环境噪声声源识别方法，其特征在于，应用于环境噪声声源识别装置，所述环境噪声声源识别装置中预设有标准特征样本库，所述标准特征样本库中包括按预设规则将已知声源类型的噪声的第一特征进行矢量量化得到的样本信息，所述样本信息与所述已知声源类型的噪声对应，所述方法包括：

所述环境噪声声源识别装置获得待检测噪声的第二特征；

2.根据权利要求1所述的环境噪声声源识别方法，其特征在于，所述第一特征和第二特征均为Mel频率倒谱系数MFCC特征。

3.根据权利要求1所述的环境噪声声源识别方法，其特征在于，所述环境噪声声源识别装置获得待检测噪声的第二特征，包括：

将所述待检测噪声进行预加重、分帧和加汉明窗处理；

4.根据权利要求3所述的环境噪声声源识别方法，其特征在于，所述针对所述待检测噪声的每一帧信号，分别进行傅里叶变换，获得所述每一帧信号的幅度谱之后，还包括：

对所述幅度谱进行滤波；

5.根据权利要求1～4任意一项所述的环境噪声声源识别方法，其特征在于，所述将所述待匹配信息与所述标准特征样本库中的样本信息进行对比，从所述标准特征样本库中，获得与所述待匹配信息匹配度达到预设阈值的样本信息，包括：

6.一种环境噪声声源识别装置，其特征在于，包括：

获得单元，用于获得待检测噪声的第二特征；

7.根据权利要求6所述的环境噪声声源识别装置，其特征在于，所述第一特征和第二特征均为Mel频率倒谱系数MFCC特征。

8.根据权利要求6所述的环境噪声声源识别装置，其特征在于，所述获得单元具体用于，将所述待检测噪声进行预加重、分帧和加汉明窗处理；针对所述待检测噪声的每一帧信号，分别进行傅里叶变换，获得所述每一帧信号的幅度谱；对所述幅度谱作对数运算和离散余弦变换得到所述待检测噪声的第二特征。

9.根据权利要求8所述的环境噪声声源识别装置，其特征在于，所述获得单元还用于，在针对所述待检测噪声的每一帧信号，分别进行傅里叶变换，获得所述每一帧信号的幅度谱之后，对所述幅度谱进行滤波。

10.根据权利要求6～9任意一项所述的环境噪声声源识别装置，其特征在于，所述选取单元具体用于，采用隐马尔科夫模型将所述待匹配信息与所述标准特征样本库中的样本信息进行对比，从所述标准特征样本库中，获得与所述待匹配信息匹配度达到预设阈值的样本信息，将与所述待匹配信息匹配度达到预设阈值的样本信息对应的已知声源类型的噪声的声源类型作为所述待检测噪声的声源类型。