WO2018121690A1

WO2018121690A1 - 对象属性检测、神经网络训练、区域检测方法和装置

Info

Publication number: WO2018121690A1
Application number: PCT/CN2017/119535
Authority: WO
Inventors: 邵婧; 闫俊杰
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2016-12-29
Filing date: 2017-12-28
Publication date: 2018-07-05
Also published as: CN108229267B; CN108229267A

Abstract

一种对象属性检测、神经网络训练、区域检测方法和装置，其中，对象属性检测方法包括：将待检图像输入到注意力神经网络中进行区域检测，获得所述待检图像中与目标的对象属性相关联的至少一个目标区域（S102）；将所述待检图像和所述至少一个目标区域输入到属性分类神经网络中进行属性检测，获得所述待检图像的对象属性信息（S104）。

Description

对象属性检测、神经网络训练、区域检测方法和装置

本申请要求在2016年12月29日提交中国专利局、申请号为CN201611246395.9、发明名称为“对象属性检测、神经网络训练、区域检测方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术，尤其涉及一种对象属性检测方法和装置、神经网络训练方法和装置、以及区域检测方法和装置、电子设备。

背景技术

卷积神经网络是用于计算机视觉和模式识别的一个重要的研究领域，它通过计算机仿照生物大脑思维启发进行类似人类对特定对象的信息处理。通过卷积神经网络，能够有效地进行对象检测和识别。随着互联网技术的发展，信息量的急剧增加，卷积神经网络被越来越广泛地应用于对象检测及识别领域，以从大量的信息中寻找出实际所需的信息。

发明内容

本申请实施例提供了一种对象属性检测方案、神经网络训练方案、以及区域检测方案。

根据本申请实施例的第一方面，提供了一种对象属性检测方法，包括：将待检图像输入到注意力神经网络中进行区域检测，获得所述待检图像中与目标的对象属性相关联的至少一个目标区域；将所述待检图像和所述至少一个目标区域输入到属性分类神经网络中进行属性检测，获得所述待检图像的对象属性信息。

根据本申请实施例的第二方面，提供了一种神经网络训练方法，包括：将训练样本图像输入到注意力神经网络中进行区域训练，获得候选目标区域的概率信息；根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本；将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息；所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息；根据所述准确度信息调整所述注意力神经网络的参数。

根据本申请实施例的第三方面，提供了一种区域检测方法，包括：获取待检测的目标图像，其中，所述目标图像包括静态图像或视频图像；采用注意力神经网络检测所述目标图像，获得所述目标图像的目标区域；其中，所述注意力神经网络采用如本申请任一实施例所述的神经网络训练方法训练而得。

根据本申请实施例的第四方面，提供了一种对象属性检测装置，包括：第一获取模块，用于将待检图像输入到注意力神经网络中进行区域检测，获得所述待检图像中与目标的对象属性相关联的至少一个目标区域；第二获取模块，用于将所述待检图像和所述至少一个目标区域输入到属性分类神经网络中进行属性检测，获得所述待检图像的对象属性信息。

根据本申请实施例的第五方面，提供了一种神经网络训练装置，包括：第六获取模块，用于将训练样本图像输入到注意力神经网络中进行区域训练，获得候选目标区域的概率信息；第七获取模块，用于根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本；第八获取模块，用于将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息；所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息；第二参数调整模块，用于根据所述准确度信息调整所述注意力神经网络的参数。

根据本申请实施例的第六方面，提供了一种区域检测装置，包括：第九获取模块，用于获取待检测的目标图像，其中，所述目标图像包括静态图像或视频图像；第十获取模块，用于采用注意力神经网络检测所述目标图像，获得所述目标图像的目标区域；其中，所述注意力神经网络采用如本申请任一实施例所述的神经网络训练方法或者神经网络训练装置训练而得。

根据本申请实施例的第七方面，提供了一种电子设备，包括：

处理器和存储器；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行本申请任一实施例所述的对象属性检测方法对应的操作；或者，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行本申请任一实施例所述的神经网络训练方法对应的操作；或者，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行本申请任一实施例所述的区域检测方法对应的操作。

根据本申请实施例的第八方面，提供了另一种电子设备，包括：

处理器和本申请任一实施例所述的对象属性检测装置；在处理器运行所述对象属性检测装置时，本申请任一实施例所述的对象属性检测装置中的单元被运行；或者

处理器和本申请任一实施例所述的神经网络训练装置；在处理器运行所述神经网络训练装置时，本申请任一实施例所述的神经网络训练装置中的单元被运行；或者

处理器和本申请任一实施例所述的区域检测装置；在处理器运行所述区域检测装置时，本申请任一实施例所述的区域检测装置中的单元被运行。根据本申请实施例的第九方面，提供了一种计算机程序，包括计算机可读代码当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本申请任一实施例所述的对象属性检测方法中各步骤的指令；或者

当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本申请任一实施例所述的神经网络训练方法中各步骤的指令；或者

当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本申请任一实施例所述的区域检测方法中各步骤的指令。

根据本申请实施例的第十方面，提供了一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时实现本申请任一实施例所述的对象属性检测方法中各步骤的操作、或者本申请任一实施例所述的神经网络训练方法中各步骤的操作、或者本申请任一实施例所述的区域检测方法中各步骤的操作。

根据本申请实施例提供的技术方案，使用注意力(Attention)神经网络进行待检图像中目标的区域检测，进而将注意力神经网络检测出的图像区域输入属性分类神经网络进行目标的属性检测，获得相应的对象属性信息。经过训练的注意力神经网络可以准确检测出图像中目标所在区域，针对该区域进行有针对性的属性检测，可以获得较为精确的目标的对象属性信息。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1是根据本申请实施例的对象属性检测方法的流程图；

图2是根据本申请实施例的对象属性检测方法的流程图；

图3是根据本申请实施例的神经网络训练方法的流程图；

图4是根据本申请实施例的区域检测方法的流程图；

图5是根据本申请实施例的对象属性检测装置的结构框图；

图6是根据本申请实施例的神经网络训练装置的结构框图；

图7是根据本申请实施例的区域检测装置的结构框图；

图8是根据本申请实施例的电子设备的结构示意图。

具体实施方式

下面结合附图(若干附图中相同的标号表示相同的元素)和实施例，对本申请实施例的可选实施方式作进一步详细说明。以下实施例用于说明本申请，但不用来限制本申请的范围。

本领域技术人员可以理解，本申请实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

应注意到：除非另外可选说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

参照图1，示出了根据本申请一实施例的对象属性检测方法的流程图。本实施例的对象属性检测方法包括以下步骤：

步骤S102：将待检图像输入到注意力神经网络中进行区域检测，获得待检图像中与目标的对象属性相关联的至少一个局部区域作为目标区域。

本申请各实施例中的待检图像可以包括静态图像或视频图像。

其中，待检图像中目标的对象属性为预先设定的待检测属性，例如，对待检图像中的人脸属性的检测，包括但不限于以下一种或多种：有无戴眼镜，有无戴帽子，有无戴口罩；再例如，对待检图像中的车辆属性的检测，包括但不限于：车辆颜色、样式、车牌号码等。

在实际应用中，所述注意力神经网络应用于深度学习的图像识别，模仿人看图像时，目光的焦点在不同的物体上移动。当神经网络对图像进行识别时，每次集中于部分特征上，识别更加准确。注意力神经网络在每次识别时，可以计算每个特征的权值，然后对特征进行加权求和，权值越大，该特征对当前识别的贡献就大。

目标区域为待检测图像的局部区域。经过训练的注意力神经网络具有自动的目标区域检测能力，将待检图像输入注意力神经网络，即可得到相应的目标区域，该目标区域可以为一个，也可以为多个，如多个人脸区域，从而可以同时对多个人脸进行属性检测。其中，注意力神经网络可以是第三方已经训练完成可直接使用的神经网络，也可以是通过样本训练获得的注意力神经网络，如经过本申请下文实施例中所述的方法训练而得的注意力神经网络。

在一个可选示例中，该步骤S102可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一获取模块502执行。

步骤S104：将待检图像和至少一个目标区域输入到属性分类神经网络中进行属性检测，获得待检图像的对象属性信息。

其中，属性分类神经网络可以采用任意适当的网络形式，如VGG-16神经网络、GoogleNet神经网络等，其训练也可以采用常规的训练方法，使训练出的网络具有属性分类和识别功能即可。例如，可以识别出行人的性别、年龄、穿着等。

属性分类神经网络的输入为待检测的整张图像以及注意力神经网络确定的目标区域，例如人体的头部区域，输出为目标区域的属性的值，如头部的属性的值。

在一个可选示例中，该步骤S104可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二获取模块504执行。

可选地，在另一实施例的对象属性检测方法中，还可以包括：在待检图像中显示上述对象属性信息。在一个可选示例中，该在待检图像中显示上述对象属性信息的操作可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的显示模块506执行。

通过本实施例，使用注意力神经网络进行待检图像中目标的区域检测，进而将注意力神经网络检测出的图像区域输入属性分类神经网络进行目标的属性检测，获得相应的对象属性信息。经过训练的注意力神经网络可以准确检测出图像中目标所在区域(即：目标区域)，针对该目标区域进行有针对性的属性检测，可以获得较为精确的目标的对象属性信息。

参照图2，示出了根据本申请另一实施例的对象属性检测方法的流程图。本实施例中，可以训练用于检测目标对应的区域的注意力神经网络，然后使用训练完成的注意力神经网络进行对象属性检测。本实施例的对象属性检测方法包括以下步骤：

步骤S202：使用训练样本图像和辅助分类网络，将注意力神经网络训练为用于检测图像中的目标区域的神经网络。

在一个可选示例中，该步骤S202可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一训练模块508执行。

可选地，本步骤S202可以包括：

步骤S2022：将训练样本图像输入到注意力神经网络中进行区域训练，获得候选目标区域的概率信息。

其中，训练样本图像可以由本领域技术人员根据实际需求适当选择，例如可以包括但不限于：人物样本图像和车辆样本图像。

本申请各实施例中的注意力神经网络，可以认为是引入了注意力机制的卷积网络。引入了注意力机制后，卷积网络在图像训练过程中，可以确定图像中的每个候选目标区域对最终确定的目标区域的影响程度，这种影响程度通常以概率形式表示，也即，候选目标区域的概率信息。

以单张图像为例，其中通常包括多个候选目标区域，通过注意力神经网络的处理，可以初步获得该图像中各个候选目标区域可能为最终的目标区域的概率值。同样，训练样本集中的所有图像通过注意力神经网络的处理，可获得各自图像中各个候选目标区域可能为最终的目标区域的概率值。例如，在人物图像中，多个候选区域为头部区域的概率值。

本实施例中，以人物样本图像训练注意力神经网络为例，以实现注意力神经网络对人物的相应目标区域，如头部区域、上身区域、下身区域、足部区域、手部区域等的自动识别。本领域技术人员可以参照对人物样本图像的训练，实现对其它样本图像如车辆样本图像的训练，如注意力神经网络对车辆相应目标区域，如车辆牌号区域、车辆标志区域、车身区域等的自动识别。

步骤S2024：根据候选目标区域的概率信息对训练样本图像进行候选目标区域采样，获得采样后的图像样本。

在一张样本图像中，概率值较大的候选目标区域被采样的可能性也较大。一般情况下，对一张具有多个候选目标区域的样本图像来说，对其进行采样，可能采集到的是该样本图像的多个候选目标区域中的部分区域，也可能是全部区域。采样数量可以由本领域技术人员根据实际需要适当设置，本申请实施例对此不作限制。

在一种可行方案中，可以先确定候选目标区域的概率值对应的多项式分布；然后，根据多项式分布，对每个训练样本图像进行候选目标区域采样，获取采样后的图像样本。

通过采样，可以获得采集到的训练样本图像中的目标区域的信息，通过该信息可以获得相对应的目标区域的特征图(feature map)。

步骤S2026：将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，获得图像样本中的候选目标区域的准确度信息；并根据准确度信息调整注意力神经网络的网络参数，该网络参数例如可以包括但不限于权重参数(weight)、偏置参数(bias)等。

其中，目标区域的属性信息为针对训练样本图像标注的目标区域的属性信息。

其中，目标区域的属性信息用于表征目标区域的对象的属性，例如，对于人脸的头部区域，其属性信息例如可以包括但不限于以下一种或多种：性别、年龄、发型、是否佩戴眼镜、是否佩戴口罩等。采样后的图像样本中包含有采样到的区域的信息，包括采集到了哪个区域，该区域对应的特征图。

在使用辅助分类网络之前，需要先获取目标区域的属性信息，在一种可行方式中，该目标区域的属性信息可以在初始时，与训练样本图像一起输入，其中，训练样本图像输入给注意力神经网络，而目标区域的属性信息输入给辅助分类网络。但不限于此，该目标区域的属性信息也可以与训练样本图像一起输入注意力神经网络，然后，由注意力神经网络传输给辅助分类网络使用；还可以在输入采样后的图像样本时临时通过适当方式获取等。

本申请各实施例中，辅助分类网络用于实现注意力神经网络的强化学习，在实际应用中，辅助分类网络可以采用任意适当的能够实现强化学习的网络。强化学习作为一个序列决策(Sequential Decision Making)问题，它连续选择一些行为，从这些行为完成后得到最大的回报作为最好的结果。它在没有标签(label)告诉算法应该怎么做的情况下，通过先尝试做出一些行为，然后得到一个结果，通过判断这个结果是对还是错来对之前的行为进行反馈。由这个反馈来调整之前的行为，通过不断的调整算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。

本实施例中，辅助分类网络通过对各个采样后的图像样本中的各个候选目标区域的回报值(reward)的计算，确定注意力神经网络对相应的候选目标区域的概率估算是否准确，进而决定如何调整注意力神经网络的网络参数，以使注意力神经网络的预测更为准确。

本实施例中，将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，通过辅助分类网络的损失函数，获得图像样本中，候选目标区域的属性信息的损失值。其中，损失函数根据目标区域的属性信息确定；然后，根据获得的损失值，确定图像样本中的候选目标区域的回报值，该回报值即为准确度信息。

例如，可以首先对至少一个图像样本的至少一个候选目标区域的损失值求平均，获得平均值；再根据所述平均值和获得的所述损失值的关系，确定采样后的图像样本中的候选目标区域的回报值。

在一种可行方案中，若获得的所述损失值满足设定标准，则将所述损失值对应的候选目标区域的回报值设置为第一回报值；否则，将所述损失值对应的候选目标区域的回报值设置为第二回报值。可选的，所述设定标准可以为损失值小于平均值的X倍(例如在实际应用中，X值可以为0.5)，则将损失值对应的候选目标区域的回报值设置为1；否则，将损失值对应的候选目标区域的回报值设置为0。其中，所述设定标准可以由本领域技术人员根据实际情况适当设置，如还可以设置为损失值小于平均值的0.5倍，且从大到小的损失值中的前N个等，N为大于0的整数。

如果调整后的注意力神经网络的网络参数能够使通过辅助分类网络得到的目标区域的回报值为1，非目标区域的回报值为0，则可以认为注意力神经网络训练完成。否则，继续根据回报值调整注意力神经网络的参数，直至通过辅助分类网络最终得到的目标区域的回报值为1，非目标区域的回报值为0。

至此，实现了对注意力神经网络的训练，训练后的注意力神经网络可以准确预测出目标区域。

步骤S204：将待检图像输入到注意力神经网络中进行区域检测，获得待检图像中与目标的对象属性相关联的至少一个局部区域作为目标区域。

如前所述，经过训练的注意力神经网络能够进行目标区域检测，从而检测出与目标的对象属性相关联的至少一个目标区域

在一个可选示例中，该步骤S204可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一获取模块502执行。

步骤S206：将待检图像和至少一个目标区域输入到属性分类神经网络中进行属性检测，获得待检图像的对象属性信息。

在一个可选示例中，该步骤S206可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二获取模块504执行。

通过本实施例，使用注意力神经网络进行待检图像中目标的区域检测，进而将注意力神经网络检测出的图像区域输入属性分类神经网络进行目标的属性检测，获得相应的对象属性信息。经过训练的注意力神经网络可以准确检测出图像中目标所在区域，针对该区域进行有针对性的属性检测，可以获得较为精确的目标的对象属性信息。

以下，通过图3所示实施例对本申请实施例中提供的注意力神经网络的训练进行说明。参照图3，示出了根据本申请一实施例的神经网络训练方法的流程图。本实施例的神经网络训练方法包括以下步骤：

步骤S302：将训练样本图像输入到注意力神经网络中进行区域训练，获得候选目标区域的概率信息。

本实施例中，仍以人物样本图像训练注意力神经网络为例，以实现注意力神经网络对人物的相应目标区域的自动识别。

本实施例中，候选目标区域的概率信息可以包括候选目标区域的概率值。

在一个可选示例中，该步骤S302可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第三获取模块5082执行。

步骤S304：根据候选目标区域的概率信息对训练样本图像进行候选目标区域采样，获得采样后的图像样本。

在一种可行方案中，可以先确定候选目标区域的概率值对应的多项式分布；然后，根据多项式分布，对训练样本图像进行候选目标区域采样，获取采样后的图像样本。

通过采样，可以获得采集到的人物图像训练样本中的区域的信息，通过该信息可以获得相对应的区域的特征图。

在一个可选示例中，该步骤S304可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第四获取模块5084执行。

步骤S306：将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，获得图像样本中的候选目标区域的准确度信息。

目标区域的属性信息用于表征目标区域的对象的属性，例如，对于头部区域，其属性信息可以包括但不限于：性别、年龄、发型、是否佩戴眼镜、是否佩戴口罩等。采样后的图像样本中包含有采样到的区域的信息，包括采集到了哪个区域，该区域对应的特征图。

本实施例中，辅助分类网络通过对各个采样后的图像样本中的各个候选目标区域的回报值的计算，确定注意力神经网络对相应的候选目标区域的概率估算是否准确，进而决定如何调整注意力神经网络的网络参数，以使注意力神经网络的预测更为准确。

在通过辅助分类网络和目标区域的属性信息，获得训练样本图像中的候选目标区域的准确度信息如本实施例中的回报值时，一种可行方案中，可以将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，通过辅助分类网络的损失函数，获得图像样本中候选目标区域的属性信息的损失值，其中，损失函数根据目标区域的属性信息确定；根据获得的所述损失值，确定图像样本中的候选目标区域的回报值，所述回报值为所述准确度信息。例如，可以首先对至少一个图像样本的至少一个候选目标区域的损失值求平均(例如对所有图像样本的各个候选目标区域的损失值求平均)，获得平均值；再根据所述平均值和获得的所述损失值的关系，确定采样后的图像样本中的候选目标区域的回报值。在一种可行方案中，若获得的损失值小于平均值的0.5倍，且损失值满足设定标准，则将损失值对应的候选目标区域的回报值设置为1；否则，将损失值对应的候选目标区域的回报值设置为0。其中，所述设定标准可以由本领域技术人员根据实际情况适当设置，如设置为从大到小的损失值中的前N个等，N为大于0的整数。

可以理解的是，上述的可行方案仅是其中一种实现方式，在实际应用中，用户可以根据实际需求调整实现条件或可选参数，上述可行方案的举例不应理解为唯一的实现方式。

在一个可选示例中，该步骤S306可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第五获取模块5086执行。

步骤S308：根据准确度信息调整注意力神经网络的参数。

其中，调整的注意力神经网络的参数例如可以包括但不限于权重参数、偏置参数等网络参数。

上述注意力神经网络的训练收敛条件仅是其中一种实现方案，可以理解的是，在实际应用中，本申请实施例的注意力神经网络还可以设置其他的训练收敛条件，上述训练收敛条件的举例不应理解为唯一的实现方式。

在一个可选示例中，该步骤S308可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一参数调整模块5088执行。

至此，实现了对注意力神经网络的训练，训练后的注意力神经网络可以准确预测出目标区域。需要说明的是，为了提高训练效果，一种可选方式为，针对不同的目标区域分别对注意力神经网络进行训练，例如，在一次训练中，仅训练注意力神经网络对人物的头部区域的预测；在另一次训练中，仅训练注意力神经网络对人物的上身区域的预测等。

此外，在已训练完成的注意力神经网络的基础上，还可以进行以下可选方案，即：采用训练完成的注意力神经网络检测训练样本图像，获得训练样本图像的目标区域；使用训练样本图像、每个训练样本图像的目标区域、和每个目标区域的属性信息训练属性分类神经网络。

其中，属性分类神经网络可以采用任意适当的网络形式，例如卷积神经网络，其训练也可以采用常规的训练方法。通过每个训练样本图像的目标区域可以有效地对训练样本图像中的目标区域的识别进行学习和训练，通过每个目标区域的属性信息可以有效地对识别出的人物图像中的目标区域中的对象的属性进行学习和训练。

可选地，本申请实施例中的注意力神经网络可以是全卷积神经网络，与具有全连接层的卷积神经网络相比，采用全卷积神经网络所需的卷积层参数少，训练速度更快。

因图像中主体对象的属性往往只跟主体的某些区域有关，并不需要整张图像的特征，例如，行人属性往往只跟行人的某些身体区域有关，并不需要一整张行人图像的特征，例如有无戴眼镜，有无戴帽子，有无戴口罩这些属性只需要行人头部的特征即可。本实施例的方案中，采用基于增强学习(Reinforcement Learning)方法的注意力机制来让算法自动选择每个属性在图像中的关联区域，可以再着重提取相关联区域的特征，从而利用该特征和图像的全局特征来对相应的属性做预测，这样不仅可以节省人工标注的成本，而且可以找到对训练较优的区域。

以下，以一个可选实例对本实施例的神经网络训练方法进行示例性说明。

本实例中，以训练注意力神经网络对人物的头部区域的识别为例，其训练过程如下：

(1)对将要识别的行人属性依据其关联的身体部位人工分类，所关联区域相同的属性分为一类，例如戴眼镜，戴帽子，戴口罩这些属性只涉及到行人的头部；上衣的类型、背包这些属性只涉及到行人的上半身。

(2)针对每一个身体部位训练一个全卷积的注意力神经网络。

以下，以训练头部的注意力神经网络为例，其它部位的训练以及非行人情况下的训练可参照本实例实现。

注意力神经网络在每次迭代训练的时候，会选择一批图像作为输入，注意力神经网络每次输入整个数据集的一部分数据做训练即一批图像，下一次迭代时会输入下一批图像，以此类推，直至整个数据集中的数据全部迭代完成，注意力神经网络对每张图像会输出一张特征图，特征图中的至少一个位置满足多项式分布，该至少一个位置的值为对应的概率；然后，每张图像从这一多项式分布中随机取样M个区域，取样M个区域中每个区域的概率是特征图中该区域对应的概率值，其中，M为大于0的整数，由本领域技术人员根据实际需要适当设置；取样到的每个区域会经过辅助分类网络，通过辅助分类网络中的属性分类的损失函数得到一个属性的分类的损失；记L为N×M个区域的损失的平均值，N表示图像样本的个数，对每一个图像所选的M个区域的损失从小到大进行排序，如果每个区域位于排序后的队列的前top_k个，并且小于0.5L(即：平均损失的一半)，则该区域的回报值为1，否则为0。其中，top_k可以由本领域技术人员根据实际需要适当设置，本申请实施例对此不作限制。

其中，因为每个属性为一个多值属性，因此每个属性可以采用损失函数(softmax函数)来计算损失，最终的损失是所有属性的损失的和。一种辅助分类网络中的属性分类的损失函数如下：

其中，

为第n个图像样本的第k个属性的真实的标签(根据输入的头部区域的属性值确定)，

为网络输出的该属性的标签为

的概率，n和N均为图像样本的数量，k为图像样本的属性的数量。

训练后的注意力神经网络的输入为一整张行人图像，输出是图像中每个可能的区域是头部的概率，其中，注意力神经网络为全卷积神经网络。例如，可以是2个卷积层再加一个Softmax层，每个卷积层后加一个ReLU层。其中，Softmax层前的最后一个卷积层的输出是一个单个频道的特征图，然后经过Softmax层后，特征图的每个位置的值就是该位置在原图中所对应的区域可以选为头部的概率，概率最大的区域即可选为头部区域。

本实施例中的注意力神经网络采用增强学习来进行优化，注意力神经网络不会立即计算损失，而是评估每个区域的回报值，最终的目标是让回报值最大化。评估每个可能选为头部的区域的回报值的时候，将该区域再输入到一个辅助分类网络里面，辅助分类网络的损失函数为涉及到头部区域的属性的分类损失。每个可能选为头部区域的回报值由该区域经过辅助分类网络后的对头部区域的属性的分类效果决定。

在本实施例的神经网络训练方法中，通过训练样本图像训练注意力神经网络，每张训练样本图像中可能包含有多个不同的候选目标区域，通过注意力神经网络可以获得各个候选目标区域最终为目标区域的概率值；进而，在获得该概率值后，根据该概率值对对应的训练样本图像进行采样，其中概率值较大的区域被采集到的可能性更大；采样后，将目标区域的属性信息和采样后的图像一起输入辅助分类网络，通过辅助分类网络计算采集的区域的回报值，进而根据该回报值对注意力神经网络的网络参数进行调整，直至满足注意力神经网络的收敛条件，完成注意力神经网络的训练。

可见，在上述训练过程，因目标区域的属性信息与目标区域相关，例如，是否佩戴眼镜、是否佩戴口罩的信息仅与人体头部有关，在完成上述训练后，注意力神经网络可以自动找到图像中对属性信息对应的属性响应最大的区域，无需人工对训练样本进行标注，不仅节省了人工标注的成本，而且可以找到对与属性信息对应最好的区域，降低了卷积神经网络训练过程成本、缩短了训练时间。

本实施例的神经网络训练方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：PC机等。

参照图4，示出了根据本申请一实施例的区域检测方法的流程图。本实施例中，采用上述任一实施例中示出的经过训练的注意力神经网络对图像进行目标区域检测，从图像中确定出需要的目标区域。本实施例的区域检测方法包括以下步骤：

步骤S402：获取待检测的目标图像。

在本申请各实施例中，目标图像可以包括静态图像或视频图像。在一种可选方案中，视频图像可以包括视频监控中的行人图像或车辆图像。

在视频监控场景中，往往有对行人属性或车辆属性进行识别的需要。在进行行人属性或车辆属性识别时，可以先定位出相应的目标区域，如某个人体的头部区域或某个车辆所在区域，进而针对该目标区域进行相应的属性识别。

在一个可选示例中，该步骤S402可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第九获取模块702执行。

步骤S404：采用注意力神经网络检测所述目标图像，获得目标图像的目标区域。

本实施例中，采用如上述任一实施例中所示的方法训练而得的注意力神经网络。通过该可以快速准确地定位出目标图像的目标区域，进而根据实际需要对目标区域进行相应的处理，如属性识别、图像信息获取、区域定位等。

本申请各实施例中，当目标图像为人物图像时，目标区域例如可以包括但不限于以下任意一项或多项：头部、上身、下身、足部、手部；当目标图像为车辆图像时，目标区域例如可以包括但不限于以下任意一项或多项：车辆牌号区域、车辆标志区域、车身区域。

在一个可选示例中，该步骤S404可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第十获取模块704执行。

通过本实施例的区域检测方法，可以准确有效地对图像中的目标区域进行检测和定位，降低了目标区域定位成本，提高了目标区域定位效率。

本实施例的区域检测方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：PC机等。

本申请实施例提供的任一方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本申请实施例提供的任一方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本申请实施例提及的任一方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

参照图5，示出了根据本申请一实施例的对象属性检测装置的结构框图。本实施例的对象属性检测装置包括：第一获取模块502，用于将待检图像输入到注意力神经网络中进行区域检测，获得待检图像中与目标的对象属性相关联的至少一个局部区域作为目标区域；第二获取模块504，用于将待检图像和至少一个目标区域输入到属性分类神经网络中进行属性检测，获得所述待检图对象属性信息。

可选地，本实施例的对象属性检测装置还包括：显示模块506，用于在待检图像中显示所述对象属性信息。

可选地，当目标图像为人物图像时，目标区域例如可以包括以下任意一项或多项：头部、上身、下身、足部、手部；和/或，当目标图像为车辆图像时，目标区域例如可以包括以下任意一项或多项：车辆牌号区域、车辆标志区域、车身区域。

可选地，待检图像可以包括静态图像或视频图像。

可选地，视频图像可以包括视频监控中的行人图像和/或车辆图像。

可选地，本实施例的对象属性检测装置还包括：第一训练模块508，用于在第一获取模块502将待检图像输入到注意力神经网络中进行区域检测之前，使用训练样本图像和辅助分类网络，将注意力神经网络训练为用于检测图像中的目标区域的神经网络。

可选地，第一训练模块508包括：第三获取模块5082，用于将训练样本图像输入到注意力神经网络中进行区域训练，获得候选目标区域的概率信息；第四获取模块5084，用于根据候选目标区域的概率信息对训练样本图像进行候选目标区域采样，获得采样后的图像样本；第五获取模块5086，用于将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，获得图像样本中的候选目标区域的准确度信息；目标区域的属性信息为针对训练样本图像标注的目标区域的属性信息；第一参数调整模块5088，用于根据准确度信息调整注意力神经网络的网络参数。

可选地，第五获取模块5086包括：第一损失获取模块50862，用于将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，通过辅助分类网络的损失函数，获得图像样本中，候选目标区域的属性信息的损失值，其中，损失函数根据目标区域的属性信息确定；第一回报获取模块50864，用于根据获得的损失值，确定图像样本中的候选目标区域的回报值，回报值为准确度信息。

可选地，第一回报获取模块50864用于对至少一个图像样本的至少一个候选目标区域的损失值求平均，获得平均值；根据平均值和获得的损失值的关系，确定图像样本中的候选目标区域的回报值。

可选地，第一回报获取模块50864用于对至少一个图像样本的至少一个候选目标区域的损失值求平均，获得平均值；若获得的损失值满足设定标准，则将损失值对应的候选目标区域的回报值设置为第一回报值；否则，将损失值对应的候选目标区域的回报值设置为第二回报值。

可选地，第四获取模块5084用于确定候选目标区域的概率值对应的多项式分布；根据多项式分布，对训练样本图像进行候选目标区域采样，获取采样后的图像样本。

可选地，注意力神经网络包括全卷积神经网络。

可选地，本实施例的对象属性检测装置还包括：第二训练模块510，用于采用训练完成的注意力神经网络检测训练样本图像，获得训练样本图像的目标区域；使用训练样本图像、至少一个训练样本图像的目标区域、和至少一个目标区域的属性信息训练属性分类神经网络。

本实施例的对象属性检测装置可用于实现前述多个方法实施例中相应的对象属性检测方法，并具有相应的方法实施例的有益效果，在此不再赘述。

参照图6，示出了根据本申请另一实施例的神经网络训练装置的结构框图。本实施例的神经网络训练装置包括：第六获取模块602，用于将训练样本图像输入到注意力神经网络中进行区域训练，获得候选目标区域的概率信息；第七获取模块604，用于根据候选目标区域的概率信息对训练样本图像进行候选目标区域采样，获得采样后的图像样本；第八获取模块606，用于将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，获得图像样本中的候选目标区域的准确度信息；目标区域的属性信息为针对训练样本图像标注的目标区域的属性信息；第二参数调整模块608，用于根据准确度信息调整注意力神经网络的参数。

可选地，第八获取模块606包括：第二损失获取模块6062，用于将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，通过辅助分类网络的损失函数，获得图像样本中，候选目标区域的属性信息的损失值，其中，损失函数根据目标区域的属性信息确定；第二回报获取模块6064，用于根据获得的损失值，确定图像样本中的候选目标区域的回报值，回报值为准确度信息。

可选地，第二回报获取模块6064用于对至少一个图像样本的至少一个候选目标区域的损失值求平均，获得平均值；根据平均值和获得的损失值的关系，确定图像样本中的候选目标区域的回报值。

可选地，第二回报获取模块6064用于对至少一个图像样本的至少一个候选目标区域的损失值求平均，获得平均值；若获得的损失值满足设定标准，则将损失值对应的候选目标区域的回报值设置为第一回报值；否则，将损失值对应的候选目标区域的回报值设置为第二回报值。

可选地，第七获取模块604用于确定候选目标区域的概率值对应的多项式分布；根据多项式分布，对训练样本图像进行候选目标区域采样，获取采样后的图像样本。

可选地，注意力神经网络为全卷积神经网络。

可选地，本实施例的神经网络训练装置还包括：第三训练模块610，用于采用训练完成的注意力神经网络检测训练样本图像，获得训练样本图像的目标区域；使用训练样本图像、至少一个训练样本图像的目标区域、和至少一个目标区域的属性信息训练属性分类神经网络。

本实施例的神经网络训练装置用于实现前述多个方法实施例中相应的神经网络训练方法，并具有相应的方法实施例的有益效果，在此不再赘述。

参照图7，示出了根据本申请一实施例的区域检测装置的结构框图。本实施例的区域检测装置包括：第九获取模块702，用于获取待检测的目标图像，其中，目标图像包括静态图像或视频图像；第十获取模块704，用于采用注意力神经网络检测目标图像，获得目标图像的目标区域；其中，注意力神经网络采用本申请上述任一实施例所述的神经网络训练方法或者神经网络训练装置训练而得。

可选地，当目标图像为人物图像时，目标区域可以包括以下任意一项或多项：头部、上身、下身、足部、手部；当目标图像为车辆图像时，目标区域可以包括以下任意一项或多项：车辆牌号区域、车辆标志区域、车身区域。

可选地，视频图像包括视频监控中的行人图像或车辆图像。

本实施例的区域检测装置可用于实现前述多个方法实施例中相应的区域检测方法，并具有相应的方法实施例的有益效果，在此不再赘述。

另外，本申请实施例还提供了一种电子设备，包括：处理器和存储器；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行本申请上述任一实施例所述的对象属性检测方法对应的操作；或者，

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行本申请上述任一实施例所述的神经网络训练方法对应的操作；或者，

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行本申请上述任一实施例所述的区域检测方法对应的操作。

另外，本申请实施例还提供了另一种电子设备，包括：

处理器和本申请上述任一实施例所述的对象属性检测装置；在处理器运行所述对象属性检测装置时，本申请上述任一实施例所述的对象属性检测装置中的单元被运行；或者

处理器和本申请上述任一实施例所述的神经网络训练装置；在处理器运行所述神经网络训练装置时，本申请上述任一实施例所述的神经网络训练装置中的单元被运行；或者

处理器和本申请上述任一实施例所述的区域检测装置；在处理器运行所述区域检测装置时，本申请上述任一实施例所述的区域检测装置中的单元被运行。

本申请实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图8，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备800的结构示意图。如图8所示，电子设备800包括一个或多个第一处理器、第一通信元件等，所述一个或多个第一处理器例如：一个或多个中央处理单元(CPU)801，和/或一个或多个图像处理器(GPU)813等，第一处理器可以根据存储在只读存储器(ROM)802中的可执行指令或者从存储部分808加载到随机访问存储器(RAM)803中的可执行指令而执行各种适当的动作和处理。本实施例中，第一只读存储器802和随机访问存储器803统称为第一存储器。第一通信元件包括通信组件812和/或通信接口809。其中，通信组件812可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口809包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口809经由诸如因特网的网络执行通信处理。

第一处理器可与只读存储器802和/或随机访问存储器803中通信以执行可执行指令，通过第一通信总线804与通信组件812相连、并经通信组件812与其他目标设备通信，从而完成本申请实施例提供的任一对象属性检测方法对应的操作，例如，将待检图像输入到注意力神经网络中进行区域检测，获得待检图像中与目标的对象属性相关联的至少一个目标区域；将待检图像和至少一个目标区域输入到属性分类神经网络中进行属性检测，获得待检图像的对象属性信息。或者，第一处理器可与只读存储器802和/或随机访问存储器803中通信以执行可执行指令，通过第一通信总线804与通信组件812相连、并经通信组件812与其他目标设备通信，从而完成本申请实施例提供的任一神经网络训练方法对应的操作，例如，将训练样本图像输入到注意力神经网络中进行区域训练，获得候选目标区域的概率信息；根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本；将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息；所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息；根据所述准确度信息调整所述注意力神经网络的参数。或者，第一处理器可与只读存储器802和/或随机访问存储器803中通信以执行可执行指令，通过第一通信总线804与通信组件812相连、并经通信组件812与其他目标设备通信，从而完成本申请实施例提供的任一区域检测方法对应的操作，例如，获取待检测的目标图像，其中，所述目标图像包括静态图像或视频图像；采用注意力神经网络检测所述目标图像，获得所述目标图像的目标区域；其中，所述注意力神经网络采用如本申请任一实施例所述的神经网络训练方法训练而得。

此外，在RAM 803中，还可存储有装置操作所需的各种程序和数据。CPU801或GPU813、ROM802以及RAM803通过第一通信总线804彼此相连。在有RAM803的情况下，ROM802为可选模块。RAM803存储可执行指令，或在运行时向ROM802中写入可执行指令，可执行指令使第一处理器执行上述通信方法对应的操作。输入/输出(I/O)接口805也连接至第一通信总线804。通信组件812可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口809。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

需要说明的，如图8所示的架构仅为一种可选实现方式，在可选实践过程中，可根据实际需要对上述图8的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本申请的保护范围。

特别地，根据本申请实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请任一实施例提供的方法步骤对应的指令。例如，程序代码可包括对应执行本申请实施例提供的如下步骤对应的指令：将待检图像输入到注意力神经网络中进行区域检测，获得待检图像中与目标的对象属性相关联的至少一个目标区域；将待检图像和至少一个目标区域输入到属性分类神经网络中进行属性检测，获得待检图像的对象属性信息。又例如，程序代码可包括对应执行本申请实施例提供的如下步骤对应的指令：将训练样本图像输入到注意力神经网络中进行区域训练，获得候选目标区域的概率信息；根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本；将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息；所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息；根据所述准确度信息调整所述注意力神经网络的参数。再例如，程序代码可包括对应执行本申请实施例提供的如下步骤对应的指令：获取待检测的目标图像，其中，所述目标图像包括静态图像或视频图像；采用注意力神经网络检测所述目标图像，获得所述目标图像的目标区域；其中，所述注意力神经网络采用如本申请任一实施例所述的神经网络训练方法训练而得。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被第一处理器执行时，执行本申请任一实施例的方法中限定的上述功能。

另外，本申请实施例还提供了一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本申请任一实施例所述的对象属性检测方法中各步骤的指令；或者

当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现如本申请任一实施例所述的区域检测方法中各步骤的指令。

另外，本申请实施例还提供了一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时实现本申请任一实施例所述的对象属性检测方法中各步骤的操作、或者本申请任一实施例所述的神经网络训练方法中各步骤的操作、或者如本申请任一实施例所述的区域检测方法中各步骤的操作。

本说明书中至少一个实施例均采用递进的方式描述，至少一个实施例重点说明的都是与其它实施例的不同之处，至少一个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本申请的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本申请实施例的方法的步骤不限于以上可选描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请实施例的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请实施例的方法的程序的记录介质。

本申请实施例的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式，很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种对象属性检测方法，包括：

将待检图像输入到注意力神经网络中进行区域检测，获得所述待检图像中与目标的对象属性相关联的至少一个目标区域；

将所述待检图像和所述至少一个目标区域输入到属性分类神经网络中进行属性检测，获得所述待检图像的对象属性信息。
根据权利要求1所述的方法，其中，还包括：

在所述待检图像中显示所述对象属性信息。
根据权利要求1或2所述的方法，其中，当所述待检图像为人物图像时，所述目标区域包括以下任意一项或多项：头部、上身、下身、足部、手部；和/或，

当所述待检图像为车辆图像时，所述目标区域包括以下任意一项或多项：车辆牌号区域、车辆标志区域、车身区域。
根据权利要求1-3任一项所述的方法，其中，所述待检图像包括静态图像或视频图像。
根据权利要求4所述的方法，其中，所述视频图像包括视频监控中的行人图像和/或车辆图像。
根据权利要求1-5任一项所述的方法，其中，在将待检图像输入到注意力神经网络中进行区域检测之前，还包括：

使用训练样本图像和辅助分类网络，将所述注意力神经网络训练为用于检测图像中的目标区域的神经网络。
根据权利要求6所述的方法，其中，所述使用训练样本图像和辅助分类网络，将所述注意力神经网络训练为用于检测图像中的目标区域的神经网络，包括：

将训练样本图像输入到注意力神经网络中进行区域训练，获得候选目标区域的概率信息；

根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本；

将目标区域的属性信息和所述图像样本输入到所述辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息；其中，所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息；

根据所述准确度信息调整所述注意力神经网络的网络参数。
根据权利要求7所述的方法，其中，将目标区域的属性信息和所述图像样本输入到所述辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息，包括：

将所述目标区域的属性信息和所述图像样本输入到所述辅助分类网络中进行属性训练，通过所述辅助分类网络的损失函数，获得所述图像样本中，所述候选目标区域的属性信息的损失值，其中，所述损失函数根据所述目标区域的属性信息确定；

根据获得的所述损失值，确定所述图像样本中的候选目标区域的回报值，所述回报值为所述准确度信息。
根据权利要求8所述的方法，其中，根据获得的所述损失值，确定所述图像样本中的候选目标区域的回报值，包括：

对至少一个所述图像样本的至少一个候选目标区域的损失值求平均，获得平均值；

根据所述平均值和获得的所述损失值的关系，确定所述图像样本中的候选目标区域的回报值。
根据权利要求9所述的方法，其中，根据所述平均值和获得的所述损失值的关系，确定所述图像样本中的候选目标区域的回报值，包括：

若获得的所述损失值满足设定标准，则将所述损失值对应的候选目标区域的回报值设置为第一回报值；

否则，将所述损失值对应的候选目标区域的回报值设置为第二回报值。
根据权利要求7-10任一项所述的方法，其中，根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本，包括：

确定所述候选目标区域的概率值对应的多项式分布；

根据所述多项式分布，对所述训练样本图像进行候选目标区域采样，获取采样后的图像样本。
根据权利要求7-11任一项所述的方法，其中，所述注意力神经网络包括全卷积神经网络。
根据权利要求7-12任一项所述的方法，其中，还包括：

采用训练完成的所述注意力神经网络检测所述训练样本图像，获得所述训练样本图像的目标区域；

使用所述训练样本图像、至少一个所述训练样本图像的目标区域、和至少一个所述目标区域的属性信息训练属性分类神经网络。
一种神经网络训练方法，包括：

将训练样本图像输入到注意力神经网络中进行区域训练，获得候选目标区域的概率信息；

根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本；

将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息；其中，所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息；

根据所述准确度信息调整所述注意力神经网络的参数。
根据权利要求14所述的方法，其中，将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息，包括：

将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，通过所述辅助分类网络的损失函数，获得所述图像样本中，所述候选目标区域的属性信息的损失值，其中，所述损失函数根据所述目标区域的属性信息确定；

根据获得的所述损失值，确定所述图像样本中的候选目标区域的回报值，所述回报值为所述准确度信息。
根据权利要求15所述的方法，其中，根据获得的所述损失值，确定所述图像样本中的候选目标区域的回报值，包括：

对至少一个所述图像样本的至少一个候选目标区域的损失值求平均，获得平均值；

根据所述平均值和获得的所述损失值的关系，确定所述图像样本中的候选目标区域的回报值。
根据权利要求16所述的方法，其中，根据所述平均值和获得的所述损失值的关系，确定所述图像样本中的候选目标区域的回报值，包括：

若获得的所述损失值满足设定标准，则将所述损失值对应的候选目标区域的回报值设置为第一回报值；

否则，将所述损失值对应的候选目标区域的回报值设置为第二回报值。
根据权利要求14-17任一项所述的方法，其中，根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本，包括：

确定所述候选目标区域的概率值对应的多项式分布；

根据所述多项式分布，对所述训练样本图像进行候选目标区域采样，获取采样后的图像样本。
根据权利要求14-18任一项所述的方法，其中，所述注意力神经网络包括全卷积神经网络。
根据权利要求14-19任一项所述的方法，其中，还包括：

采用训练完成的所述注意力神经网络检测所述训练样本图像，获得所述训练样本图像的目标区域；

使用所述训练样本图像、至少一个所述训练样本图像的目标区域、和至少一个所述目标区域的属性信息训练属性分类神经网络。
一种区域检测方法，包括：

获取待检测的目标图像，其中，所述目标图像包括静态图像或视频图像；

采用注意力神经网络检测所述目标图像，获得所述目标图像的目标区域；

其中，所述注意力神经网络采用如权利要求14-20任一项所述的方法训练而得。
根据权利要求21所述的方法，其中，当所述目标图像为人物图像时，所述目标区域包括以下任意一项或多项：头部、上身、下身、足部、手部；当所述目标图像为车辆图像时，所述目标区域包括以下任意一项或多项：车辆牌号区域、车辆标志区域、车身区域。
根据权利要求21或22所述的方法，其中，所述视频图像包括视频监控中的行人图像或车辆图像。
一种对象属性检测装置，包括：

第一获取模块，用于将待检图像输入到注意力神经网络中进行区域检测，获得所述待检图像中与目标的对象属性相关联的至少一个目标区域；

第二获取模块，用于将所述待检图像和所述至少一个目标区域输入到属性分类神经网络中进行属性检测，获得所述待检图像的对象属性信息。
根据权利要求24所述的装置，其中，还包括：

显示模块，用于在所述待检图像中显示所述对象属性信息。
根据权利要求24或25所述的装置，其中，当所述目标图像为人物图像时，所述目标区域包括以下任意一项或多项：头部、上身、下身、足部、手部；和/或，

当所述目标图像为车辆图像时，所述目标区域包括以下任意一项或多项：车辆牌号区域、车辆标志区域、车身区域。
根据权利要求24-26任一项所述的装置，其中，所述待检图像包括静态图像或视频图像。
根据权利要求27所述的装置，其中，所述视频图像包括视频监控中的行人图像和/或车辆图像。
根据权利要求24-28任一项所述的装置，其中，还包括：

第一训练模块，用于在所述第一获取模块将待检图像输入到注意力神经网络中进行区域检测之前，使用训练样本图像和辅助分类网络，将所述注意力神经网络训练为用于检测图像中的目标区域的神经网络。
根据权利要求29所述的装置，其中，所述第一训练模块包括：

第三获取模块，用于将训练样本图像输入到注意力神经网络中进行区域训练，获得候选目标区域的概率信息；

第四获取模块，用于根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本；

第五获取模块，用于将目标区域的属性信息和所述图像样本输入到所述辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息；所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息；

第一参数调整模块，用于根据所述准确度信息调整所述注意力神经网络的网络参数。
根据权利要求30所述的装置，其中，所述第五获取模块包括：

第一损失获取模块，用于将目标区域的属性信息和所述图像样本输入到所述辅助分类网络中进行属性训练，通过所述辅助分类网络的损失函数，获得所述图像样本中，所述候选目标区域的属性信息的损失值，其中，所述损失函数根据所述目标区域的属性信息确定；

第一回报获取模块，用于根据获得的所述损失值，确定所述图像样本中的候选目标区域的回报值，所述回报值为所述准确度信息。
根据权利要求31所述的装置，其中，所述第一回报获取模块，用于对至少一个图像样本的至少一个候选目标区域的损失值求平均，获得平均值；根据所述平均值和获得的所述损失值的关系，确定所述图像样本中的候选目标区域的回报值。
根据权利要求32所述的装置，其中，所述第一回报获取模块，用于对至少一个所述图像样本的至少一个所述候选目标区域的损失值求平均，获得平均值；若获得的所述损失值满足设定标准，则将所述损失值对应的候选目标区域的回报值设置为第一回报值；否则，将所述损失值对应的候选目标区域的回报值设置为第二回报值。
根据权利要求30-33任一项所述的装置，其中，所述第四获取模块，用于确定所述候选目标区域的概率值对应的多项式分布；以及根据所述多项式分布，对所述训练样本图像进行候选目标区域采样，获取采样后的图像样本。
根据权利要求30-34任一项所述的装置，其中，所述注意力神经网络包括全卷积神经网络。
根据权利要求30-35任一项所述的装置，其中，还包括：

第二训练模块，用于采用训练完成的所述注意力神经网络检测所述训练样本图像，获得所述训练样本图像的目标区域；以及使用所述训练样本图像、至少一个所述训练样本图像的目标区域、和至少一个所述目标区域的属性信息训练属性分类神经网络。
一种神经网络训练装置，包括：

第六获取模块，用于将训练样本图像输入到注意力神经网络中进行区域训练，获得候选目标区域的概率信息；

第七获取模块，用于根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本；

第八获取模块，用于将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息；其中，所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息；

第二参数调整模块，用于根据所述准确度信息调整所述注意力神经网络的参数。
根据权利要求37所述的装置，其中，所述第八获取模块，包括：

第二损失获取模块，用于将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，通过所述辅助分类网络的损失函数，获得所述图像样本中，所述候选目标区域的属性信息的损失值，其中，所述损失函数根据所述目标区域的属性信息确定；

第二回报获取模块，用于根据获得的所述损失值，确定所述图像样本中的候选目标区域的回报值，所述回报值为所述准确度信息。
根据权利要求38所述的装置，其中，所述第二回报获取模块，用于对所有图像样本的各个候选目标区域的损失值求平均，获得平均值；根据所述平均值和获得的所述损失值的关系，确定所述图像样本中的候选目标区域的回报值。
根据权利要求39所述的装置，其中，所述第二回报获取模块，用于对所有图像样本的各个候选目标区域的损失值求平均，获得平均值；若获得的所述损失值满足设定标准，则将所述损失值对应的候选目标区域的回报值设置为第一回报值；否则，将所述损失值对应的候选目标区域的回报值设置为第二回报值。
根据权利要求37-40任一项所述的装置，其中，所述第七获取模块，用于确定所述候选目标区域的概率值对应的多项式分布；根据所述多项式分布，对所述训练样本图像进行候选目标区域采样，获取采样后的图像样本。
根据权利要求37-41任一项所述的装置，其中，所述注意力神经网络包括全卷积神经网络。
根据权利要求37-42任一项所述的装置，其中，还包括：

第三训练模块，用于采用训练完成的所述注意力神经网络检测所述训练样本图像，获得所述训练样本图像的目标区域；使用所述训练样本图像、至少一个所述训练样本图像的目标区域、和至少一个所述目标区域的属性信息训练属性分类神经网络。
一种区域检测装置，包括：

第九获取模块，用于获取待检测的目标图像，其中，所述目标图像包括静态图像或视频图像；

第十获取模块，用于采用注意力神经网络检测所述目标图像，获得所述目标图像的目标区域；

其中，所述注意力神经网络采用如14-20任一项所述的方法或者权利要求37-43任一项所述的装置训练而得。
根据权利要求44所述的装置，其中，当所述目标图像为人物图像时，所述目标区域包括以下任意一项或多项：头部、上身、下身、足部、手部；当所述目标图像为车辆图像时，所述目标区域包括以下任意一项或多项：车辆牌号区域、车辆标志区域、车身区域。
根据权利要求44或45所述的装置，其中，所述视频图像包括视频监控中的行人图像或车辆图像。
一种电子设备，包括：处理器和存储器；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-13任一项所述的对象属性检测方法对应的操作；或者，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求14-20任一项所述的神经网络训练方法对应的操作；或者，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求21-23任一项所述的区域检测方法对应的操作。
一种电子设备，包括：

处理器和权利要求24-36任一项所述的对象属性检测装置；在处理器运行所述对象属性检测装置时，权利要求24-36任一项所述的对象属性检测装置中的单元被运行；或者

处理器和权利要求37-43任一项所述的神经网络训练装置；在处理器运行所述神经网络训练装置时，权利要求37-43任一项所述的神经网络训练装置中的单元被运行；或者

处理器和权利要求44-46任一项所述的区域检测装置；在处理器运行所述区域检测装置时，权利要求44-46任一项所述的区域检测装置中的单元被运行。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现如权利要求1-13任一项所述的对象属性检测方法中各步骤的指令；或者

当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现如权利要求14-20任一项所述的神经网络训练方法中各步骤的指令；或者

当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现如权利要求21-23任一项所述的区域检测方法中各步骤的指令。
一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现如权利要求1-13任一项所述的对象属性检测方法中各步骤的操作、或者如权利要求14-20任一项所述的神经网络训练方法中各步骤的操作、或者如权利要求21-23任一项所述的区域检测方法中各步骤的操作。