[go: up one dir, main page]

WO2018121690A1 - 对象属性检测、神经网络训练、区域检测方法和装置 - Google Patents

对象属性检测、神经网络训练、区域检测方法和装置 Download PDF

Info

Publication number
WO2018121690A1
WO2018121690A1 PCT/CN2017/119535 CN2017119535W WO2018121690A1 WO 2018121690 A1 WO2018121690 A1 WO 2018121690A1 CN 2017119535 W CN2017119535 W CN 2017119535W WO 2018121690 A1 WO2018121690 A1 WO 2018121690A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
neural network
target area
training
sample
Prior art date
Application number
PCT/CN2017/119535
Other languages
English (en)
French (fr)
Inventor
邵婧
闫俊杰
Original Assignee
北京市商汤科技开发有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京市商汤科技开发有限公司 filed Critical 北京市商汤科技开发有限公司
Publication of WO2018121690A1 publication Critical patent/WO2018121690A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning

Definitions

  • the present application relates to artificial intelligence technology, and in particular, to an object attribute detection method and apparatus, a neural network training method and apparatus, and an area detection method and apparatus, and an electronic apparatus.
  • Convolutional neural networks are an important research field for computer vision and pattern recognition. They use computer-like biological brain thinking to inspire information processing similar to humans to specific objects. Through the convolutional neural network, object detection and recognition can be performed efficiently. With the development of Internet technology and the rapid increase of information volume, convolutional neural networks are more and more widely used in the field of object detection and recognition to find out the actual information needed from a large amount of information.
  • the embodiment of the present application provides an object attribute detection scheme, a neural network training scheme, and an area detection scheme.
  • an object attribute detecting method includes: inputting an image to be detected into an attention neural network for area detection, and obtaining an image of the object to be detected in the image to be detected. At least one target area; inputting the to-be-detected image and the at least one target area into an attribute classification neural network for attribute detection, and obtaining object attribute information of the to-be-detected image.
  • a neural network training method including: inputting a training sample image into an attention neural network for area training, obtaining probability information of a candidate target area; and according to the candidate target area
  • the probability information is used to sample the candidate target region of the training sample image to obtain the sampled image sample; and input the attribute information of the target region and the image sample into the auxiliary classification network for attribute training to obtain the image sample.
  • the accuracy information of the candidate target area; the attribute information of the target area is attribute information of the target area marked for the training sample image; and the parameter of the attention neural network is adjusted according to the accuracy information.
  • a region detecting method includes: acquiring a target image to be detected, wherein the target image includes a still image or a video image; and detecting the target image by using an attention neural network Obtaining a target area of the target image; wherein the attention neural network is trained using a neural network training method as described in any of the embodiments of the present application.
  • an object attribute detecting apparatus comprising: a first acquiring module, configured to input an image to be detected into an attention neural network for area detection, and obtain the image to be detected. At least one target area associated with the object attribute of the target; a second obtaining module, configured to input the image to be detected and the at least one target area into an attribute classification neural network for attribute detection, and obtain the image to be detected Object property information.
  • a neural network training apparatus including: a sixth acquiring module, configured to input a training sample image into an attention neural network for area training, and obtain probability information of a candidate target area.
  • a seventh acquiring module configured to perform candidate target region sampling on the training sample image according to probability information of the candidate target region, to obtain a sampled image sample
  • an eighth obtaining module configured to: perform attribute information of the target region and And inputting the image sample into the auxiliary classification network for attribute training, obtaining accuracy information of the candidate target area in the image sample; and the attribute information of the target area is attribute information of the target area marked for the training sample image
  • the second parameter adjustment module is configured to adjust parameters of the attention neural network according to the accuracy information.
  • an area detecting apparatus including: a ninth obtaining module, configured to acquire a target image to be detected, where the target image includes a still image or a video image; a module, configured to detect the target image by using an attention neural network to obtain a target area of the target image; wherein the attention neural network adopts a neural network training method or a neural network according to any embodiment of the present application
  • the training device is trained.
  • an electronic device including:
  • the memory is configured to store at least one executable instruction, the executable instruction causing the processor to perform an operation corresponding to the object attribute detecting method according to any one of the embodiments of the present application; or the memory is configured to store at least one An executable instruction, the executable instruction causing the processor to perform an operation corresponding to the neural network training method according to any one of the embodiments of the present application; or the memory is configured to store at least one executable instruction, the executable The instructions cause the processor to perform operations corresponding to the area detecting method described in any of the embodiments of the present application.
  • another electronic device including:
  • the processor and the object attribute detecting apparatus according to any one of the embodiments of the present application; when the processor runs the object attribute detecting apparatus, the unit in the object attribute detecting apparatus according to any one of the embodiments of the present application is operated; or
  • the processor and the neural network training device according to any one of the embodiments of the present application; when the processor runs the neural network training device, the unit in the neural network training device according to any one of the embodiments of the present application is operated; or
  • a computer program comprising computer readable code, when the computer readable code is run on a device, the processor in the device is operative to implement any of the present application An instruction of each step in the object attribute detecting method described in the embodiment; or
  • the processor in the device executes instructions for implementing the steps in the neural network training method described in any of the embodiments of the present application.
  • the processor in the device executes instructions for implementing the steps in the region detecting method of any of the embodiments of the present application.
  • a computer readable storage medium for storing computer readable instructions, and when the instructions are executed, implementing an object attribute detecting method according to any one of the embodiments of the present application.
  • an Attention neural network is used to detect an area of a target in an image to be inspected, and then an image region detected by the attention neural network is input into an attribute classification neural network to perform attribute detection of the target. Obtain the corresponding object attribute information.
  • the trained attention neural network can accurately detect the target area in the image, and perform targeted attribute detection on the area to obtain more accurate object attribute information.
  • FIG. 1 is a flowchart of an object attribute detecting method according to an embodiment of the present application.
  • FIG. 2 is a flowchart of an object attribute detecting method according to an embodiment of the present application.
  • FIG. 3 is a flowchart of a neural network training method according to an embodiment of the present application.
  • FIG. 5 is a structural block diagram of an object attribute detecting apparatus according to an embodiment of the present application.
  • FIG. 6 is a structural block diagram of a neural network training apparatus according to an embodiment of the present application.
  • FIG. 7 is a structural block diagram of an area detecting apparatus according to an embodiment of the present application.
  • FIG. 8 is a schematic structural diagram of an electronic device according to an embodiment of the present application.
  • Embodiments of the present application can be applied to electronic devices such as terminal devices, computer systems, servers, etc., which can operate with numerous other general purpose or special purpose computing system environments or configurations.
  • Examples of well-known terminal devices, computing systems, environments, and/or configurations suitable for use with electronic devices such as terminal devices, computer systems, servers, and the like include, but are not limited to, personal computer systems, server computer systems, thin clients, thick clients Machines, handheld or laptop devices, microprocessor-based systems, set-top boxes, programmable consumer electronics, networked personal computers, small computer systems, mainframe computer systems, and distributed cloud computing technology environments including any of the above, and the like.
  • Electronic devices such as terminal devices, computer systems, servers, etc., can be described in the general context of computer system executable instructions (such as program modules) being executed by a computer system.
  • program modules may include routines, programs, target programs, components, logic, data structures, and the like that perform particular tasks or implement particular abstract data types.
  • the computer system/server can be implemented in a distributed cloud computing environment where tasks are performed by remote processing devices that are linked through a communication network.
  • program modules may be located on a local or remote computing system storage medium including storage devices.
  • the object attribute detecting method of this embodiment includes the following steps:
  • Step S102 input the image to be detected into the attention neural network for area detection, and obtain at least one local area associated with the object attribute of the target in the image to be detected as the target area.
  • the image to be examined in each embodiment of the present application may include a still image or a video image.
  • the object attribute of the target in the image to be detected is a preset attribute to be detected.
  • the detection of the face attribute in the image to be inspected includes, but is not limited to, one or more of the following: whether or not the glasses are worn, whether or not there is Wearing a hat with or without a mask; for example, detection of vehicle attributes in the image to be examined, including but not limited to: vehicle color, style, license plate number, and the like.
  • the attention neural network is applied to image recognition of deep learning, and when the image is imitated by a person, the focus of the eye moves on different objects.
  • the neural network recognizes the image, it is more accurate to focus on each feature at a time.
  • the attention neural network can calculate the weight of each feature, and then weight the sum of the features. The larger the weight, the greater the contribution of the feature to the current recognition.
  • the target area is a partial area of the image to be detected.
  • the trained attentional neural network has automatic target area detection capability, and the image to be detected is input into the attention neural network, and the corresponding target area can be obtained, and the target area can be one or multiple, such as multiple faces. Area, so that attribute detection can be performed on multiple faces at the same time.
  • the attention neural network may be a neural network that has been trained to be directly used by a third party, or may be an attention neural network obtained through sample training, such as the training obtained by the method described in the following embodiments of the present application. Force neural network.
  • the step S102 may be performed by a processor invoking a corresponding instruction stored in the memory, or may be performed by the first acquisition module 502 being executed by the processor.
  • Step S104 Input the image to be detected and the at least one target area into the attribute classification neural network for attribute detection, and obtain object attribute information of the image to be detected.
  • the attribute classification neural network may adopt any appropriate network form, such as VGG-16 neural network, GoogleNet neural network, etc., and the training may also adopt a conventional training method, so that the trained network has attribute classification and recognition functions. For example, the gender, age, wearing, etc. of the pedestrian can be identified.
  • the input of the attribute classification neural network is the entire image to be detected and the target area determined by the attention neural network, such as the head area of the human body, and the output is the value of the attribute of the target area, such as the value of the attribute of the head.
  • the step S104 may be performed by a processor invoking a corresponding instruction stored in the memory, or may be performed by a second acquisition module 504 being executed by the processor.
  • the method further includes: displaying the object attribute information in the image to be detected.
  • the operation of displaying the object attribute information in the image to be examined may be performed by a processor invoking a corresponding instruction stored in the memory, or may be performed by a display module 506 executed by the processor.
  • the attention neural network is used to detect the target region in the image to be inspected, and then the image region detected by the attention neural network is input into the attribute classification neural network to perform target attribute detection, and corresponding object attribute information is obtained.
  • the trained attention neural network can accurately detect the target region (ie, the target region) in the image, and perform targeted attribute detection on the target region to obtain more accurate target object attribute information.
  • the attention neural network for detecting the region corresponding to the target may be trained, and then the object property detection is performed using the trained attention neural network.
  • the object attribute detecting method of this embodiment includes the following steps:
  • Step S202 Using the training sample image and the auxiliary classification network, the attention neural network is trained as a neural network for detecting a target area in the image.
  • the step S202 may be performed by a processor invoking a corresponding instruction stored in the memory, or may be performed by the first training module 508 being executed by the processor.
  • this step S202 may include:
  • Step S2022 Input the training sample image into the attention neural network for area training, and obtain probability information of the candidate target area.
  • the training sample image may be appropriately selected by a person skilled in the art according to actual needs, and may include, for example, but not limited to, a person sample image and a vehicle sample image.
  • the attention neural network in the embodiments of the present application can be considered as a convolution network that introduces an attention mechanism. After the attention mechanism is introduced, the convolutional network can determine the degree of influence of each candidate target region in the image on the final target region during image training. This degree of influence is usually expressed in the form of probability, that is, candidates. Probability information for the target area.
  • a plurality of candidate target regions are usually included.
  • the probability values of each candidate target region in the image may be the final target region.
  • all images in the training sample set are processed by the attention neural network to obtain probability values for which each candidate target region in the respective image may be the final target region.
  • a plurality of candidate regions are probability values of the head region.
  • the attention sample neural network is taken as an example to realize the attention neural network to the corresponding target area of the character, such as the head area, the upper body area, the lower body area, the foot area, the hand area, and the like.
  • auto recognition Those skilled in the art can refer to the training of the sample image of the person to realize the training of other sample images, such as the image of the vehicle sample, such as the automatic attention of the attention neural network to the corresponding target area of the vehicle, such as the vehicle brand area, the vehicle sign area, the vehicle body area, and the like. Identification.
  • Step S2024 Perform sampling of the candidate target region on the training sample image according to the probability information of the candidate target region, and obtain the sampled sampled image.
  • the candidate target region with a larger probability value is more likely to be sampled.
  • it is sampled, and some or a plurality of candidate target regions of the sample image may be acquired.
  • the number of samples may be appropriately set by a person skilled in the art according to actual needs, and the embodiment of the present application does not limit this.
  • the polynomial distribution corresponding to the probability value of the candidate target region may be determined first; then, according to the polynomial distribution, the candidate target region is sampled for each training sample image, and the sampled image sample is obtained.
  • information of the target area in the collected training sample image can be obtained, and the feature map of the corresponding target area can be obtained by using the information.
  • Step S2026 input attribute information and image samples of the target area into the auxiliary classification network for attribute training, obtain accuracy information of the candidate target area in the image sample, and adjust network parameters of the attention neural network according to the accuracy information
  • Network parameters may include, for example, but are not limited to, weights, biases, and the like.
  • the attribute information of the target area is attribute information of the target area marked for the training sample image.
  • the attribute information of the target area is used to represent the attribute of the object of the target area.
  • the attribute information may include, but is not limited to, one or more of the following: gender, age, hairstyle, whether Wear glasses, wear masks, etc.
  • the sampled image sample contains information of the sampled area, including which area is collected, and the corresponding feature map of the area.
  • the attribute information of the target area needs to be acquired first.
  • the attribute information of the target area may be input together with the training sample image at the initial time, wherein the training sample image is input to the attention.
  • the neural network, and the attribute information of the target area is input to the auxiliary classification network.
  • the information of the target area may also be input into the attention neural network together with the training sample image, and then transmitted to the auxiliary classification network by the attention neural network; or may be temporarily passed when the sampled sample is input. Get it in the right way.
  • the auxiliary classification network is used to implement the reinforcement learning of the attention neural network.
  • the auxiliary classification network may adopt any suitable network capable of implementing reinforcement learning.
  • Reinforcement learning as a problem of Sequential Decision Making, continuously selects some behaviors and obtains the greatest return from these behaviors as the best result. It does not have a label to tell the algorithm what to do, by first trying to make some behavior, and then getting a result, by judging whether the result is right or wrong to feedback the previous behavior. This feedback is used to adjust the previous behavior, and through continuous adjustment algorithms, we can learn under what circumstances what kind of behavior can be selected to get the best results.
  • the auxiliary classification network determines whether the probability estimation of the corresponding candidate target region by the attention neural network is accurate by calculating the reward value of each candidate target region in each sampled image sample, and then determines How to adjust the network parameters of the attention neural network to make the prediction of the attention neural network more accurate.
  • the attribute information and the image sample of the target area are input into the auxiliary classification network for attribute training, and the loss value of the attribute information of the candidate target area in the image sample is obtained by the loss function of the auxiliary classification network.
  • the loss function is determined according to the attribute information of the target area; then, according to the obtained loss value, the reward value of the candidate target area in the image sample is determined, and the reward value is the accuracy information.
  • the loss values of at least one candidate target region of the at least one image sample may be first averaged to obtain an average value; and the candidate in the sampled image sample is determined according to the relationship between the average value and the obtained loss value.
  • the return value of the target area may be first averaged to obtain an average value; and the candidate in the sampled image sample is determined according to the relationship between the average value and the obtained loss value. The return value of the target area.
  • the return value of the candidate target area corresponding to the loss value is set as the first return value; otherwise, the candidate corresponding to the loss value is The return value of the target area is set to the second return value.
  • the setting criterion may be that the loss value is less than X times of the average value (for example, in an actual application, the X value may be 0.5), and the return value of the candidate target area corresponding to the loss value is set to 1; otherwise Set the return value of the candidate target area corresponding to the loss value to 0.
  • the setting criterion may be appropriately set by a person skilled in the art according to actual conditions, for example, the loss value may be less than 0.5 times of the average value, and the first N or the like among the loss values from large to small, N is greater than An integer of 0.
  • the adjusted network parameters of the attention neural network can make the target area obtained by the auxiliary classification network have a return value of 1 and the non-target area has a return value of 0, then the attention neural network training can be considered completed. Otherwise, the parameters of the attention neural network are continuously adjusted according to the reward value until the target area obtained by the auxiliary classification network has a return value of 1 and the non-target area has a return value of 0.
  • Step S204 Input the image to be detected into the attention neural network for area detection, and obtain at least one local area associated with the object attribute of the target in the image to be detected as the target area.
  • the trained attention neural network is capable of performing target region detection to detect at least one target region associated with the target object attribute
  • the step S204 may be performed by a processor invoking a corresponding instruction stored in the memory, or may be performed by the first acquisition module 502 being executed by the processor.
  • Step S206 Input the image to be detected and the at least one target area into the attribute classification neural network for attribute detection, and obtain object attribute information of the image to be inspected.
  • the step S206 may be performed by a processor invoking a corresponding instruction stored in the memory, or may be performed by a second acquisition module 504 being executed by the processor.
  • the attention neural network is used to detect the target region in the image to be inspected, and then the image region detected by the attention neural network is input into the attribute classification neural network to perform target attribute detection, and corresponding object attribute information is obtained.
  • the trained attention neural network can accurately detect the target area in the image, and perform targeted attribute detection on the area to obtain more accurate object attribute information.
  • FIG. 3 a flow chart of a neural network training method in accordance with an embodiment of the present application is shown.
  • the neural network training method of this embodiment includes the following steps:
  • Step S302 Input the training sample image into the attention neural network for area training, and obtain probability information of the candidate target area.
  • the attention sample neural network is still taken as an example to realize the automatic recognition of the corresponding target area of the character by the attention neural network.
  • the probability information of the candidate target area may include a probability value of the candidate target area.
  • the step S302 may be performed by a processor invoking a corresponding instruction stored in the memory, or may be performed by a third acquisition module 5082 being executed by the processor.
  • Step S304 Perform sampling of the candidate target region on the training sample image according to the probability information of the candidate target region, and obtain the sampled sampled image.
  • the candidate target region with a larger probability value is more likely to be sampled.
  • it is sampled, and some or a plurality of candidate target regions of the sample image may be acquired.
  • the number of samples may be appropriately set by a person skilled in the art according to actual needs, and the embodiment of the present application does not limit this.
  • the polynomial distribution corresponding to the probability value of the candidate target region may be determined first; then, according to the polynomial distribution, the candidate target region is sampled by the training sample image, and the sampled image sample is obtained.
  • the step S304 may be performed by a processor invoking a corresponding instruction stored in the memory, or may be performed by a fourth acquisition module 5084 being executed by the processor.
  • Step S306 Input attribute information and image samples of the target area into the auxiliary classification network for attribute training, and obtain accuracy information of the candidate target area in the image sample.
  • the attribute information of the target area is attribute information of the target area marked for the training sample image.
  • the attribute information of the target area is used to represent the attributes of the object of the target area.
  • the attribute information may include, but is not limited to, gender, age, hairstyle, whether to wear glasses, whether to wear a mask, or the like.
  • the sampled image sample contains information of the sampled area, including which area is collected, and the corresponding feature map of the area.
  • the auxiliary classification network determines whether the attention neural network determines the probability of the corresponding candidate target region accurately by calculating the return value of each candidate target region in each sampled sample, and then determines how to adjust the attention.
  • the network parameters of the neural network to make the prediction of the attention neural network more accurate.
  • the attribute information and the image of the target region may be obtained.
  • the sample is input into the auxiliary classification network for attribute training, and the loss value of the attribute information of the candidate target area in the image sample is obtained by the loss function of the auxiliary classification network, wherein the loss function is determined according to the attribute information of the target area;
  • the loss value determines a reward value of the candidate target area in the image sample, and the reward value is the accuracy information.
  • the loss values of at least one candidate target region of the at least one image sample may be first averaged (eg, the loss values of the respective candidate target regions of all image samples are averaged) to obtain an average value; and then obtained according to the average value
  • the relationship of the loss values determines the return value of the candidate target region in the sampled image sample.
  • the obtained loss value is less than 0.5 times of the average value, and the loss value satisfies the set standard, the return value of the candidate target area corresponding to the loss value is set to 1; otherwise, the loss value is corresponding.
  • the return value of the candidate target area is set to zero.
  • the setting criteria may be appropriately set by a person skilled in the art according to actual conditions, such as setting the first N or the like among the loss values from large to small, and N is an integer greater than 0.
  • step S306 may be performed by a processor invoking a corresponding instruction stored in the memory, or may be performed by a fifth acquisition module 5086 being executed by the processor.
  • Step S308 Adjust parameters of the attention neural network according to the accuracy information.
  • the parameters of the adjusted attention neural network may include, for example, but are not limited to, network parameters such as weight parameters and offset parameters.
  • the adjusted network parameters of the attention neural network can make the target area obtained by the auxiliary classification network have a return value of 1 and the non-target area has a return value of 0, then the attention neural network training can be considered completed. Otherwise, the parameters of the attention neural network are continuously adjusted according to the reward value until the target area obtained by the auxiliary classification network has a return value of 1 and the non-target area has a return value of 0.
  • the training convergence condition of the above attention neural network is only one of the implementation solutions. It can be understood that, in practical applications, the attention neural network of the embodiment of the present application may also set other training convergence conditions, and the above training convergence conditions are An example should not be construed as the only implementation.
  • step S308 may be performed by the processor invoking a corresponding instruction stored in the memory, or may be performed by the first parameter adjustment module 5088 being executed by the processor.
  • an optional method is to separately train the attention neural network for different target areas, for example, in one training, only the attention neural network is trained on the head region of the character. In another training, only the attentional neural network is trained to predict the upper body area of the character.
  • the following alternatives can be performed: using the trained attentional neural network to detect the training sample image, obtaining the target region of the training sample image; using the training sample image , a target area of each training sample image, and an attribute information training attribute classification neural network of each target area.
  • the attribute classification neural network may adopt any appropriate network form, such as a convolutional neural network, and the training may also adopt a conventional training method.
  • the recognition of the target area in the training sample image can be effectively learned and trained, and the attribute information of each target area can be effectively used in the target area in the recognized person image.
  • the properties of the object are learned and trained.
  • the attention neural network in the embodiment of the present application may be a full convolutional neural network.
  • the convolutional layer parameters required by the full convolutional neural network are less. Training is faster.
  • the attributes of the subject object in the image are often only related to certain areas of the subject, and do not require the characteristics of the entire image.
  • the pedestrian attribute is often only related to certain body areas of the pedestrian, and does not require a whole pedestrian image.
  • Features such as wearing glasses, wearing a hat, or wearing a mask are only required for the characteristics of the pedestrian's head.
  • the attention mechanism based on the Reinforcement Learning method is adopted to enable the algorithm to automatically select the associated region of each attribute in the image, and then the feature of the associated region may be extracted, thereby utilizing the feature and
  • the global characteristics of the image are used to predict the corresponding attributes, which not only saves the cost of manual labeling, but also finds areas that are better for training.
  • the neural network training method of the present embodiment will be exemplarily illustrated with an optional example.
  • the training attention neural network is used to identify the head region of a person as an example.
  • the training process is as follows:
  • the pedestrian attributes to be identified are manually classified according to their associated body parts, and the same attributes of the associated areas are classified into one category, such as wearing glasses, wearing a hat, and wearing a mask. These attributes only relate to the head of the pedestrian; Types, backpacks These attributes only relate to the upper body of the pedestrian.
  • the attention neural network selects a batch of images as input.
  • the attention neural network inputs a part of the data of the entire data set for training, that is, a batch of images, and the next batch of images is input in the next iteration.
  • the attention neural network outputs a feature map for each image, at least one position in the feature map satisfies the polynomial distribution, and the value of the at least one position corresponds to Probability; then, each image randomly samples M regions from this polynomial distribution, and the probability of sampling each region in the M regions is the probability value corresponding to the region in the feature map, where M is an integer greater than 0,
  • M is an integer greater than 0.
  • the technical personnel in the field are appropriately set according to actual needs; each area sampled will pass through the auxiliary classification network, and the loss of the classification of an attribute is obtained by the loss function of the attribute classification in the auxiliary classification network; the loss of L is N ⁇ M areas
  • the average value, N represents the number of image samples, and the loss of the M regions selected for each image is from small to large.
  • Sorting if each area is located before the sorted queue top_k months, and less than 0.5L (ie: half the average loss), the return value of the region 1, and 0 otherwise.
  • the top_k may be appropriately set by a person skilled in the art according to actual needs, and the embodiment of the present application does not limit this.
  • each attribute is a multi-valued attribute
  • each attribute can use the loss function (softmax function) to calculate the loss
  • the final loss is the sum of the losses of all attributes.
  • a loss function for attribute classification in an auxiliary classification network is as follows:
  • the true label of the kth attribute of the nth image sample (determined according to the attribute value of the input header area),
  • the label for this attribute output for the network is The probability, n and N are the number of image samples, and k is the number of attributes of the image sample.
  • the input of the attentional neural network after training is a whole pedestrian image
  • the output is the probability that each possible region in the image is the head
  • the attention neural network is a full convolutional neural network.
  • it can be 2 convolution layers plus one Softmax layer, and each convolution layer is followed by a ReLU layer.
  • the output of the last convolutional layer before the Softmax layer is a feature map of a single channel, and then after passing through the Softmax layer, the value of each position of the feature map is that the location corresponding to the location in the original image can be selected as the header.
  • the probability, the area with the highest probability, can be selected as the head area.
  • the attention neural network in this embodiment is optimized by using reinforcement learning.
  • the attention neural network does not calculate the loss immediately, but evaluates the return value of each region. The ultimate goal is to maximize the return value.
  • the area is re-entered into an auxiliary classification network, and the loss function of the auxiliary classification network is the classification loss of the attributes related to the head area.
  • the return value of each possible selection as the head region is determined by the classification effect of the region on the attributes of the header region after passing through the auxiliary classification network.
  • the attentional neural network is trained by training the sample image, and each training sample image may include a plurality of different candidate target regions, and each candidate target region may be obtained through the attention neural network.
  • a probability value of the target area further, after obtaining the probability value, sampling the corresponding training sample image according to the probability value, wherein a region with a larger probability value is more likely to be collected; after sampling, the target is
  • the attribute information of the region is input into the auxiliary classification network together with the sampled image, and the reward value of the collected region is calculated by the auxiliary classification network, and then the network parameters of the attention neural network are adjusted according to the reward value until the attention neural network is satisfied. Convergence conditions, complete the training of attention neural networks.
  • the attention neural network can automatically find the image.
  • the region with the largest response to the attribute corresponding to the attribute information it is not necessary to manually mark the training sample, which not only saves the cost of manual labeling, but also finds the best area corresponding to the attribute information, and reduces the cost of the convolutional neural network training process. Reduced training time.
  • the neural network training method of this embodiment may be performed by any suitable device having data processing capabilities, including but not limited to: a PC or the like.
  • the area detecting method of this embodiment includes the following steps:
  • Step S402 Acquire a target image to be detected.
  • the target image may include a still image or a video image.
  • the video image may include a pedestrian image or a vehicle image in video surveillance.
  • the corresponding target area such as the head area of a certain human body or the area where a certain vehicle is located, may be first located, and corresponding attribute recognition is performed for the target area.
  • the step S402 may be performed by a processor invoking a corresponding instruction stored in the memory, or may be performed by a ninth acquisition module 702 being executed by the processor.
  • Step S404 detecting the target image by using an attention neural network to obtain a target area of the target image.
  • an attention neural network trained by the method shown in any of the above embodiments is employed.
  • the target area of the target image can be quickly and accurately located, and the target area can be processed according to actual needs, such as attribute recognition, image information acquisition, and area positioning.
  • the target area when the target image is a person image, the target area may include, but is not limited to, any one or more of the following: a head, an upper body, a lower body, a foot, a hand; when the target image is a vehicle image
  • the target area may include, for example but not limited to, any one or more of the following: a vehicle brand area, a vehicle sign area, and a body area.
  • the step S404 may be performed by a processor invoking a corresponding instruction stored in the memory, or may be performed by a tenth acquisition module 704 that is executed by the processor.
  • the area detection method in this embodiment can accurately and effectively detect and locate the target area in the image, reduce the target area positioning cost, and improve the target area positioning efficiency.
  • the area detecting method of this embodiment may be performed by any suitable device having data processing capabilities, including but not limited to: a PC or the like.
  • any of the methods provided by the embodiments of the present application may be performed by any suitable device having data processing capabilities, including but not limited to: a terminal device, a server, and the like.
  • any of the methods provided by the embodiments of the present application may be executed by a processor, such as the processor, by executing a corresponding instruction stored in the memory to perform any of the methods mentioned in the embodiments of the present application. This will not be repeated below.
  • the foregoing program may be stored in a computer readable storage medium, and the program is executed when executed.
  • the foregoing steps include the steps of the foregoing method embodiments; and the foregoing storage medium includes: a medium that can store program codes, such as a ROM, a RAM, a magnetic disk, or an optical disk.
  • the object attribute detecting apparatus of the embodiment includes: a first acquiring module 502, configured to input the image to be detected into the attention neural network for area detection, and obtain at least one local area in the image to be detected that is associated with the object attribute of the target.
  • the second obtaining module 504 is configured to input the to-be-detected image and the at least one target area into the attribute classification neural network for attribute detection, and obtain the to-be-checked object attribute information.
  • the object attribute detecting apparatus of the embodiment further includes: a display module 506, configured to display the object attribute information in the image to be detected.
  • the target area may include any one or more of the following: a head, an upper body, a lower body, a foot, a hand; and/or, when the target image is a vehicle image,
  • the target area may include, for example, any one or more of the following: a vehicle brand area, a vehicle sign area, and a body area.
  • the image to be examined may include a still image or a video image.
  • the video image may include a pedestrian image and/or a vehicle image in video surveillance.
  • the object attribute detecting apparatus of the embodiment further includes: a first training module 508, configured to use the training sample image and before the first acquiring module 502 inputs the image to be detected into the attention neural network for area detection.
  • the auxiliary classification network trains the attention neural network as a neural network for detecting a target area in the image.
  • the first training module 508 includes: a third obtaining module 5082, configured to input the training sample image into the attention neural network for area training, to obtain probability information of the candidate target area; and a fourth obtaining module 5084, configured to: The candidate target region is sampled according to the probability information of the candidate target region, and the sampled image sample is obtained.
  • the fifth obtaining module 5086 is configured to input the attribute information and the image sample of the target region into the auxiliary classification network for attribute training. And obtaining the accuracy information of the candidate target area in the image sample; the attribute information of the target area is attribute information of the target area marked for the training sample image; the first parameter adjustment module 5088 is configured to adjust the attention neural network according to the accuracy information Network parameters.
  • the fifth obtaining module 5086 includes: a first loss obtaining module 50862, configured to input attribute information and image samples of the target area into the auxiliary classification network for attribute training, and obtain image samples by using a loss function of the auxiliary classification network. And a loss value of the attribute information of the candidate target area, wherein the loss function is determined according to the attribute information of the target area; the first report obtaining module 50864 is configured to determine, according to the obtained loss value, a return value of the candidate target area in the image sample The return value is the accuracy information.
  • the first report obtaining module 50864 is configured to average the loss values of the at least one candidate target region of the at least one image sample to obtain an average value; and determine the candidate in the image sample according to the relationship between the average value and the obtained loss value. The return value of the target area.
  • the first report obtaining module 50864 is configured to average the loss values of the at least one candidate target region of the at least one image sample to obtain an average value; if the obtained loss value satisfies the setting criterion, the candidate corresponding to the loss value is obtained.
  • the return value of the target area is set to the first return value; otherwise, the return value of the candidate target area corresponding to the loss value is set as the second return value.
  • the fourth obtaining module 5084 is configured to determine a polynomial distribution corresponding to the probability value of the candidate target region; according to the polynomial distribution, the candidate target region is sampled by the training sample image, and the sampled image sample is obtained.
  • the attention neural network comprises a full convolutional neural network.
  • the object attribute detecting apparatus of the embodiment further includes: a second training module 510, configured to detect the training sample image by using the trained attention neural network to obtain a target area of the training sample image; and use the training sample image, at least A target area of the training sample image, and an attribute information training attribute classification neural network of at least one target area.
  • a second training module 510 configured to detect the training sample image by using the trained attention neural network to obtain a target area of the training sample image; and use the training sample image, at least A target area of the training sample image, and an attribute information training attribute classification neural network of at least one target area.
  • the object attribute detecting apparatus of the present embodiment can be used to implement the corresponding object attribute detecting method in the foregoing multiple method embodiments, and has the beneficial effects of the corresponding method embodiments, and details are not described herein again.
  • the neural network training device of the present embodiment includes: a sixth obtaining module 602, configured to input a training sample image into the attention neural network for area training, and obtain probability information of the candidate target region; and a seventh obtaining module 604, configured to The probability information of the candidate target region is used to sample the candidate target region of the training sample image to obtain the sampled image sample.
  • the eighth obtaining module 606 is configured to input the attribute information and the image sample of the target region into the auxiliary classification network for attribute training. Obtaining accuracy information of the candidate target region in the image sample; the attribute information of the target region is attribute information of the target region marked for the training sample image; and the second parameter adjustment module 608 is configured to adjust the attention neural network according to the accuracy information parameter.
  • the eighth obtaining module 606 includes: a second loss obtaining module 6062, configured to input attribute information and image samples of the target area into the auxiliary classification network for attribute training, and obtain an image sample by using a loss function of the auxiliary classification network.
  • the second report obtaining module 6064 is configured to determine the return value of the candidate target area in the image sample according to the obtained loss value
  • the return value is the accuracy information.
  • the second report obtaining module 6064 is configured to average the loss values of the at least one candidate target region of the at least one image sample to obtain an average value; and determine the candidate in the image sample according to the relationship between the average value and the obtained loss value. The return value of the target area.
  • the second report obtaining module 6064 is configured to average the loss values of the at least one candidate target region of the at least one image sample to obtain an average value; if the obtained loss value satisfies the setting criterion, the candidate corresponding to the loss value is obtained.
  • the return value of the target area is set to the first return value; otherwise, the return value of the candidate target area corresponding to the loss value is set as the second return value.
  • the seventh obtaining module 604 is configured to determine a polynomial distribution corresponding to the probability value of the candidate target region; according to the polynomial distribution, the candidate target region is sampled by the training sample image, and the sampled image sample is obtained.
  • the attention neural network is a full convolutional neural network.
  • the neural network training device of the embodiment further includes: a third training module 610, configured to detect the training sample image by using the trained attention neural network to obtain a target region of the training sample image; and use the training sample image, at least A target area of the training sample image, and an attribute information training attribute classification neural network of at least one target area.
  • a third training module 610 configured to detect the training sample image by using the trained attention neural network to obtain a target region of the training sample image; and use the training sample image, at least A target area of the training sample image, and an attribute information training attribute classification neural network of at least one target area.
  • the neural network training device of the present embodiment is used to implement the corresponding neural network training method in the foregoing multiple method embodiments, and has the beneficial effects of the corresponding method embodiments, and details are not described herein again.
  • the area detecting device of this embodiment includes: a ninth obtaining module 702, configured to acquire a target image to be detected, wherein the target image includes a still image or a video image; and a tenth acquiring module 704 is configured to detect the target by using an attention neural network.
  • the image is obtained from the target area of the target image; wherein the attention neural network is trained by using the neural network training method or the neural network training device according to any of the above embodiments of the present application.
  • the target area may include any one or more of the following: a head, an upper body, a lower body, a foot, a hand; when the target image is a vehicle image, the target area may include the following: Any one or more of: vehicle grade area, vehicle sign area, body area.
  • the video image includes a pedestrian image or a vehicle image in video surveillance.
  • the area detecting device of the present embodiment can be used to implement the corresponding area detecting method in the foregoing multiple method embodiments, and has the beneficial effects of the corresponding method embodiments, and details are not described herein again.
  • an embodiment of the present application further provides an electronic device, including: a processor and a memory;
  • the memory is configured to store at least one executable instruction, the executable instruction causing the processor to perform an operation corresponding to the object attribute detecting method according to any one of the foregoing embodiments of the present application; or
  • the memory is configured to store at least one executable instruction, the executable instruction causing the processor to perform an operation corresponding to the neural network training method described in any one of the foregoing embodiments of the present application; or
  • the memory is configured to store at least one executable instruction, the executable instruction causing the processor to perform an operation corresponding to the area detecting method according to any one of the foregoing embodiments of the present application.
  • the embodiment of the present application further provides another electronic device, including:
  • the processor and the object attribute detecting apparatus according to any one of the above embodiments of the present application; when the processor runs the object attribute detecting apparatus, the unit in the object attribute detecting apparatus according to any one of the above embodiments of the present application is operated; or
  • the processor and the neural network training device according to any one of the above embodiments of the present application; when the processor runs the neural network training device, the unit in the neural network training device according to any of the above embodiments of the present application is operated; or
  • the processor and the area detecting device according to any of the above embodiments of the present application; when the processor runs the area detecting device, the unit in the area detecting device according to any of the above embodiments of the present application is operated.
  • the embodiment of the present application further provides an electronic device, such as a mobile terminal, a personal computer (PC), a tablet computer, a server, and the like.
  • electronic device 800 includes one or more first processors, first communication elements, etc., such as one or more central processing units (CPUs) 801, and / or one or more image processor (GPU) 813 or the like, the first processor may be loaded into the random access memory (RAM) 803 according to executable instructions stored in read only memory (ROM) 802 or from storage portion 808.
  • the executable instructions execute various appropriate actions and processes.
  • the first read only memory 802 and the random access memory 803 are collectively referred to as a first memory.
  • the first communication component includes a communication component 812 and/or a communication interface 809.
  • the communication component 812 can include, but is not limited to, a network card.
  • the network card can include, but is not limited to, an IB (Infiniband) network card.
  • the communication interface 809 includes a communication interface of a network interface card such as a LAN card, a modem, etc., and the communication interface 809 is via an Internet interface.
  • the network performs communication processing.
  • the first processor can communicate with read only memory 802 and/or random access memory 803 to execute executable instructions, connect to communication component 812 via first communication bus 804, and communicate with other target devices via communication component 812 to complete
  • the operation corresponding to any object attribute detecting method provided by the embodiment of the present application, for example, inputting the image to be detected into the attention neural network for area detection, and obtaining at least one target area in the image to be detected that is associated with the object attribute of the target. Entering the image to be inspected and the at least one target area into the attribute classification neural network for attribute detection, and obtaining object attribute information of the image to be inspected.
  • the first processor can communicate with read only memory 802 and/or random access memory 803 to execute executable instructions, connect to communication component 812 via first communication bus 804, and communicate with other target devices via communication component 812,
  • the operation corresponding to any of the neural network training methods provided by the embodiment of the present application is completed, for example, the training sample image is input into the attention neural network for area training, and probability information of the candidate target area is obtained; according to the candidate target area Probabilistic information is used to sample candidate image regions of the training sample image to obtain sampled image samples; and input attribute information of the target region and the image samples into an auxiliary classification network for attribute training to obtain candidates in the image samples.
  • the accuracy information of the target area; the attribute information of the target area is attribute information of the target area marked for the training sample image; and the parameter of the attention neural network is adjusted according to the accuracy information.
  • the first processor can communicate with read only memory 802 and/or random access memory 803 to execute executable instructions, connect to communication component 812 via first communication bus 804, and communicate with other target devices via communication component 812,
  • the operation corresponding to any area detection method provided by the embodiment of the present application is completed, for example, acquiring a target image to be detected, where the target image includes a still image or a video image; and the target image is detected by using an attention neural network.
  • RAM 803 various programs and data required for the operation of the device can be stored.
  • the CPU 801 or GPU 813, the ROM 802, and the RAM 803 are connected to each other through the first communication bus 804.
  • ROM 802 is an optional module.
  • the RAM 803 stores executable instructions or writes executable instructions to the ROM 802 at runtime, the executable instructions causing the first processor to perform operations corresponding to the above-described communication methods.
  • An input/output (I/O) interface 805 is also coupled to the first communication bus 804.
  • the communication component 812 can be integrated or can be configured to have multiple sub-modules (e.g., multiple IB network cards) and be on a communication bus link.
  • the following components are connected to the I/O interface 805: an input portion 806 including a keyboard, a mouse, etc.; an output portion 807 including, for example, a cathode ray tube (CRT), a liquid crystal display (LCD), and the like, and a storage portion 808 including a hard disk or the like. And a communication interface 809 including a network interface card such as a LAN card, modem, or the like.
  • Driver 810 is also coupled to I/O interface 805 as needed.
  • a removable medium 811 such as a magnetic disk, an optical disk, a magneto-optical disk, a semiconductor memory or the like, is mounted on the drive 810 as needed so that a computer program read therefrom is installed into the storage portion 808 as needed.
  • FIG. 8 is only an optional implementation manner.
  • the number and type of components in FIG. 8 may be selected, deleted, added, or replaced according to actual needs;
  • Different function components can also be implemented in separate settings or integrated settings, such as GPU and CPU detachable settings or GPU can be integrated on the CPU, communication components can be separated, or integrated on the CPU or GPU. ,and many more.
  • These alternative embodiments are all within the scope of the present application.
  • embodiments of the present application include a computer program product comprising a computer program tangibly embodied on a machine readable medium, the computer program comprising program code for executing the method illustrated in the flowchart, the program code comprising the corresponding execution
  • the instructions corresponding to the method steps provided by any embodiment of the present application may include an instruction corresponding to the following steps provided in the embodiment of the present application: inputting the image to be detected into the attention neural network for area detection, and obtaining at least one of the to-be-detected image associated with the object attribute of the target.
  • Target area inputting the image to be inspected and the at least one target area into the attribute classification neural network for attribute detection, and obtaining object attribute information of the image to be inspected.
  • the program code may include an instruction corresponding to the following steps provided in the embodiment of the present application: inputting the training sample image into the attention neural network for area training, and obtaining probability information of the candidate target area; according to the candidate target area The probability information is used to sample the candidate target region of the training sample image to obtain the sampled image sample; and input the attribute information of the target region and the image sample into the auxiliary classification network for attribute training to obtain the image sample.
  • the program code may include an instruction corresponding to the following steps provided in the embodiment of the present application: acquiring a target image to be detected, wherein the target image includes a still image or a video image; and detecting the target by using an attention neural network And obtaining a target area of the target image; wherein the attention neural network is trained using a neural network training method as described in any of the embodiments of the present application.
  • the computer program can be downloaded and installed from the network via a communication component, and/or installed from the removable media 811. The above-described functions defined in the method of any of the embodiments of the present application are executed when the computer program is executed by the first processor.
  • the embodiment of the present application further provides a computer program, including computer readable code, when the computer readable code is run on a device, the processor in the device executes to implement any of the embodiments of the present application.
  • the processor in the device executes instructions for implementing the steps in the neural network training method described in any of the embodiments of the present application.
  • the processor in the device executes instructions for implementing the steps in the region detecting method as described in any of the embodiments of the present application.
  • the embodiment of the present application further provides a computer readable storage medium, which is configured to store computer readable instructions, and when the instructions are executed, implement the steps in the object attribute detecting method according to any embodiment of the present application.
  • a computer readable storage medium configured to store computer readable instructions, and when the instructions are executed, implement the steps in the object attribute detecting method according to any embodiment of the present application.
  • At least one embodiment of the present specification is described in a progressive manner, and at least one embodiment focuses on differences from other embodiments, and the same or similar parts between at least one embodiment may be referred to each other.
  • the description is relatively simple, and the relevant parts can be referred to the description of the method embodiment.
  • the methods, apparatus, and apparatus of the present application may be implemented in a number of ways.
  • the method, apparatus, and apparatus of the embodiments of the present application can be implemented by software, hardware, firmware, or any combination of software, hardware, and firmware.
  • the above-described sequence of steps for the method is for illustrative purposes only, and the steps of the method of the embodiments of the present application are not limited to the order of the above optional description unless otherwise specified.
  • the present application may also be embodied as a program recorded in a recording medium, the programs including machine readable instructions for implementing a method in accordance with embodiments of the present application.
  • the present application also covers a recording medium storing a program for executing the method according to an embodiment of the present application.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种对象属性检测、神经网络训练、区域检测方法和装置,其中,对象属性检测方法包括:将待检图像输入到注意力神经网络中进行区域检测,获得所述待检图像中与目标的对象属性相关联的至少一个目标区域(S102);将所述待检图像和所述至少一个目标区域输入到属性分类神经网络中进行属性检测,获得所述待检图像的对象属性信息(S104)。

Description

对象属性检测、神经网络训练、区域检测方法和装置
本申请要求在2016年12月29日提交中国专利局、申请号为CN201611246395.9、发明名称为“对象属性检测、神经网络训练、区域检测方法和装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术,尤其涉及一种对象属性检测方法和装置、神经网络训练方法和装置、以及区域检测方法和装置、电子设备。
背景技术
卷积神经网络是用于计算机视觉和模式识别的一个重要的研究领域,它通过计算机仿照生物大脑思维启发进行类似人类对特定对象的信息处理。通过卷积神经网络,能够有效地进行对象检测和识别。随着互联网技术的发展,信息量的急剧增加,卷积神经网络被越来越广泛地应用于对象检测及识别领域,以从大量的信息中寻找出实际所需的信息。
发明内容
本申请实施例提供了一种对象属性检测方案、神经网络训练方案、以及区域检测方案。
根据本申请实施例的第一方面,提供了一种对象属性检测方法,包括:将待检图像输入到注意力神经网络中进行区域检测,获得所述待检图像中与目标的对象属性相关联的至少一个目标区域;将所述待检图像和所述至少一个目标区域输入到属性分类神经网络中进行属性检测,获得所述待检图像的对象属性信息。
根据本申请实施例的第二方面,提供了一种神经网络训练方法,包括:将训练样本图像输入到注意力神经网络中进行区域训练,获得候选目标区域的概率信息;根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样,获得采样后的图像样本;将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练,获得所述图像样本中的候选目标区域的准确度信息;所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息;根据所述准确度信息调整所述注意力神经网络的参数。
根据本申请实施例的第三方面,提供了一种区域检测方法,包括:获取待检测的目标图像,其中,所述目标图像包括静态图像或视频图像;采用注意力神经网络检测所述目标图像,获得所述目标图像的目标区域;其中,所述注意力神经网络采用如本申请任一实施例所述的神经网络训练方法训练而得。
根据本申请实施例的第四方面,提供了一种对象属性检测装置,包括:第一获取模块,用于将待检图像输入到注意力神经网络中进行区域检测,获得所述待检图像中与目标的对象属性相关联的至少一个目标区域;第二获取模块,用于将所述待检图像和所述至少一个目标区域输入到属性分类神经网络中进行属性检测,获得所述待检图像的对象属性信息。
根据本申请实施例的第五方面,提供了一种神经网络训练装置,包括:第六获取模块,用于将训练样本图像输入到注意力神经网络中进行区域训练,获得候选目标区域的概率信息;第七获取模块,用于根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样,获得采样后的图像样本;第八获取模块,用于将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练,获得所述图像样本中的候选目标区域的准确度信息;所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息;第二参数调整模块,用于根据所述准确度信息调整所述注意力神经网络的参数。
根据本申请实施例的第六方面,提供了一种区域检测装置,包括:第九获取模块,用于获取待检测的目标图像,其中,所述目标图像包括静态图像或视频图像;第十获取模块, 用于采用注意力神经网络检测所述目标图像,获得所述目标图像的目标区域;其中,所述注意力神经网络采用如本申请任一实施例所述的神经网络训练方法或者神经网络训练装置训练而得。
根据本申请实施例的第七方面,提供了一种电子设备,包括:
处理器和存储器;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行本申请任一实施例所述的对象属性检测方法对应的操作;或者,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行本申请任一实施例所述的神经网络训练方法对应的操作;或者,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行本申请任一实施例所述的区域检测方法对应的操作。
根据本申请实施例的第八方面,提供了另一种电子设备,包括:
处理器和本申请任一实施例所述的对象属性检测装置;在处理器运行所述对象属性检测装置时,本申请任一实施例所述的对象属性检测装置中的单元被运行;或者
处理器和本申请任一实施例所述的神经网络训练装置;在处理器运行所述神经网络训练装置时,本申请任一实施例所述的神经网络训练装置中的单元被运行;或者
处理器和本申请任一实施例所述的区域检测装置;在处理器运行所述区域检测装置时,本申请任一实施例所述的区域检测装置中的单元被运行。根据本申请实施例的第九方面,提供了一种计算机程序,包括计算机可读代码当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现本申请任一实施例所述的对象属性检测方法中各步骤的指令;或者
当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现本申请任一实施例所述的神经网络训练方法中各步骤的指令;或者
当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现本申请任一实施例所述的区域检测方法中各步骤的指令。
根据本申请实施例的第十方面,提供了一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时实现本申请任一实施例所述的对象属性检测方法中各步骤的操作、或者本申请任一实施例所述的神经网络训练方法中各步骤的操作、或者本申请任一实施例所述的区域检测方法中各步骤的操作。
根据本申请实施例提供的技术方案,使用注意力(Attention)神经网络进行待检图像中目标的区域检测,进而将注意力神经网络检测出的图像区域输入属性分类神经网络进行目标的属性检测,获得相应的对象属性信息。经过训练的注意力神经网络可以准确检测出图像中目标所在区域,针对该区域进行有针对性的属性检测,可以获得较为精确的目标的对象属性信息。
下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1是根据本申请实施例的对象属性检测方法的流程图;
图2是根据本申请实施例的对象属性检测方法的流程图;
图3是根据本申请实施例的神经网络训练方法的流程图;
图4是根据本申请实施例的区域检测方法的流程图;
图5是根据本申请实施例的对象属性检测装置的结构框图;
图6是根据本申请实施例的神经网络训练装置的结构框图;
图7是根据本申请实施例的区域检测装置的结构框图;
图8是根据本申请实施例的电子设备的结构示意图。
具体实施方式
下面结合附图(若干附图中相同的标号表示相同的元素)和实施例,对本申请实施例的可选实施方式作进一步详细说明。以下实施例用于说明本申请,但不用来限制本申请的范围。
本领域技术人员可以理解,本申请实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
应注意到:除非另外可选说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本申请实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
参照图1,示出了根据本申请一实施例的对象属性检测方法的流程图。本实施例的对象属性检测方法包括以下步骤:
步骤S102:将待检图像输入到注意力神经网络中进行区域检测,获得待检图像中与目标的对象属性相关联的至少一个局部区域作为目标区域。
本申请各实施例中的待检图像可以包括静态图像或视频图像。
其中,待检图像中目标的对象属性为预先设定的待检测属性,例如,对待检图像中的人脸属性的检测,包括但不限于以下一种或多种:有无戴眼镜,有无戴帽子,有无戴口罩;再例如,对待检图像中的车辆属性的检测,包括但不限于:车辆颜色、样式、车牌号码等。
在实际应用中,所述注意力神经网络应用于深度学习的图像识别,模仿人看图像时,目光的焦点在不同的物体上移动。当神经网络对图像进行识别时,每次集中于部分特征上,识别更加准确。注意力神经网络在每次识别时,可以计算每个特征的权值,然后对特征进行加权求和,权值越大,该特征对当前识别的贡献就大。
目标区域为待检测图像的局部区域。经过训练的注意力神经网络具有自动的目标区域检测能力,将待检图像输入注意力神经网络,即可得到相应的目标区域,该目标区域可以为一个,也可以为多个,如多个人脸区域,从而可以同时对多个人脸进行属性检测。其中, 注意力神经网络可以是第三方已经训练完成可直接使用的神经网络,也可以是通过样本训练获得的注意力神经网络,如经过本申请下文实施例中所述的方法训练而得的注意力神经网络。
在一个可选示例中,该步骤S102可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的第一获取模块502执行。
步骤S104:将待检图像和至少一个目标区域输入到属性分类神经网络中进行属性检测,获得待检图像的对象属性信息。
其中,属性分类神经网络可以采用任意适当的网络形式,如VGG-16神经网络、GoogleNet神经网络等,其训练也可以采用常规的训练方法,使训练出的网络具有属性分类和识别功能即可。例如,可以识别出行人的性别、年龄、穿着等。
属性分类神经网络的输入为待检测的整张图像以及注意力神经网络确定的目标区域,例如人体的头部区域,输出为目标区域的属性的值,如头部的属性的值。
在一个可选示例中,该步骤S104可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的第二获取模块504执行。
可选地,在另一实施例的对象属性检测方法中,还可以包括:在待检图像中显示上述对象属性信息。在一个可选示例中,该在待检图像中显示上述对象属性信息的操作可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的显示模块506执行。
通过本实施例,使用注意力神经网络进行待检图像中目标的区域检测,进而将注意力神经网络检测出的图像区域输入属性分类神经网络进行目标的属性检测,获得相应的对象属性信息。经过训练的注意力神经网络可以准确检测出图像中目标所在区域(即:目标区域),针对该目标区域进行有针对性的属性检测,可以获得较为精确的目标的对象属性信息。
参照图2,示出了根据本申请另一实施例的对象属性检测方法的流程图。本实施例中,可以训练用于检测目标对应的区域的注意力神经网络,然后使用训练完成的注意力神经网络进行对象属性检测。本实施例的对象属性检测方法包括以下步骤:
步骤S202:使用训练样本图像和辅助分类网络,将注意力神经网络训练为用于检测图像中的目标区域的神经网络。
在一个可选示例中,该步骤S202可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的第一训练模块508执行。
可选地,本步骤S202可以包括:
步骤S2022:将训练样本图像输入到注意力神经网络中进行区域训练,获得候选目标区域的概率信息。
其中,训练样本图像可以由本领域技术人员根据实际需求适当选择,例如可以包括但不限于:人物样本图像和车辆样本图像。
本申请各实施例中的注意力神经网络,可以认为是引入了注意力机制的卷积网络。引入了注意力机制后,卷积网络在图像训练过程中,可以确定图像中的每个候选目标区域对最终确定的目标区域的影响程度,这种影响程度通常以概率形式表示,也即,候选目标区域的概率信息。
以单张图像为例,其中通常包括多个候选目标区域,通过注意力神经网络的处理,可以初步获得该图像中各个候选目标区域可能为最终的目标区域的概率值。同样,训练样本集中的所有图像通过注意力神经网络的处理,可获得各自图像中各个候选目标区域可能为最终的目标区域的概率值。例如,在人物图像中,多个候选区域为头部区域的概率值。
本实施例中,以人物样本图像训练注意力神经网络为例,以实现注意力神经网络对人物的相应目标区域,如头部区域、上身区域、下身区域、足部区域、手部区域等的自动识别。本领域技术人员可以参照对人物样本图像的训练,实现对其它样本图像如车辆样本图 像的训练,如注意力神经网络对车辆相应目标区域,如车辆牌号区域、车辆标志区域、车身区域等的自动识别。
步骤S2024:根据候选目标区域的概率信息对训练样本图像进行候选目标区域采样,获得采样后的图像样本。
在一张样本图像中,概率值较大的候选目标区域被采样的可能性也较大。一般情况下,对一张具有多个候选目标区域的样本图像来说,对其进行采样,可能采集到的是该样本图像的多个候选目标区域中的部分区域,也可能是全部区域。采样数量可以由本领域技术人员根据实际需要适当设置,本申请实施例对此不作限制。
在一种可行方案中,可以先确定候选目标区域的概率值对应的多项式分布;然后,根据多项式分布,对每个训练样本图像进行候选目标区域采样,获取采样后的图像样本。
通过采样,可以获得采集到的训练样本图像中的目标区域的信息,通过该信息可以获得相对应的目标区域的特征图(feature map)。
步骤S2026:将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练,获得图像样本中的候选目标区域的准确度信息;并根据准确度信息调整注意力神经网络的网络参数,该网络参数例如可以包括但不限于权重参数(weight)、偏置参数(bias)等。
其中,目标区域的属性信息为针对训练样本图像标注的目标区域的属性信息。
其中,目标区域的属性信息用于表征目标区域的对象的属性,例如,对于人脸的头部区域,其属性信息例如可以包括但不限于以下一种或多种:性别、年龄、发型、是否佩戴眼镜、是否佩戴口罩等。采样后的图像样本中包含有采样到的区域的信息,包括采集到了哪个区域,该区域对应的特征图。
在使用辅助分类网络之前,需要先获取目标区域的属性信息,在一种可行方式中,该目标区域的属性信息可以在初始时,与训练样本图像一起输入,其中,训练样本图像输入给注意力神经网络,而目标区域的属性信息输入给辅助分类网络。但不限于此,该目标区域的属性信息也可以与训练样本图像一起输入注意力神经网络,然后,由注意力神经网络传输给辅助分类网络使用;还可以在输入采样后的图像样本时临时通过适当方式获取等。
本申请各实施例中,辅助分类网络用于实现注意力神经网络的强化学习,在实际应用中,辅助分类网络可以采用任意适当的能够实现强化学习的网络。强化学习作为一个序列决策(Sequential Decision Making)问题,它连续选择一些行为,从这些行为完成后得到最大的回报作为最好的结果。它在没有标签(label)告诉算法应该怎么做的情况下,通过先尝试做出一些行为,然后得到一个结果,通过判断这个结果是对还是错来对之前的行为进行反馈。由这个反馈来调整之前的行为,通过不断的调整算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。
本实施例中,辅助分类网络通过对各个采样后的图像样本中的各个候选目标区域的回报值(reward)的计算,确定注意力神经网络对相应的候选目标区域的概率估算是否准确,进而决定如何调整注意力神经网络的网络参数,以使注意力神经网络的预测更为准确。
本实施例中,将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练,通过辅助分类网络的损失函数,获得图像样本中,候选目标区域的属性信息的损失值。其中,损失函数根据目标区域的属性信息确定;然后,根据获得的损失值,确定图像样本中的候选目标区域的回报值,该回报值即为准确度信息。
例如,可以首先对至少一个图像样本的至少一个候选目标区域的损失值求平均,获得平均值;再根据所述平均值和获得的所述损失值的关系,确定采样后的图像样本中的候选目标区域的回报值。
在一种可行方案中,若获得的所述损失值满足设定标准,则将所述损失值对应的候选目标区域的回报值设置为第一回报值;否则,将所述损失值对应的候选目标区域的回报值设置为第二回报值。可选的,所述设定标准可以为损失值小于平均值的X倍(例如在实际 应用中,X值可以为0.5),则将损失值对应的候选目标区域的回报值设置为1;否则,将损失值对应的候选目标区域的回报值设置为0。其中,所述设定标准可以由本领域技术人员根据实际情况适当设置,如还可以设置为损失值小于平均值的0.5倍,且从大到小的损失值中的前N个等,N为大于0的整数。
如果调整后的注意力神经网络的网络参数能够使通过辅助分类网络得到的目标区域的回报值为1,非目标区域的回报值为0,则可以认为注意力神经网络训练完成。否则,继续根据回报值调整注意力神经网络的参数,直至通过辅助分类网络最终得到的目标区域的回报值为1,非目标区域的回报值为0。
至此,实现了对注意力神经网络的训练,训练后的注意力神经网络可以准确预测出目标区域。
步骤S204:将待检图像输入到注意力神经网络中进行区域检测,获得待检图像中与目标的对象属性相关联的至少一个局部区域作为目标区域。
如前所述,经过训练的注意力神经网络能够进行目标区域检测,从而检测出与目标的对象属性相关联的至少一个目标区域
在一个可选示例中,该步骤S204可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的第一获取模块502执行。
步骤S206:将待检图像和至少一个目标区域输入到属性分类神经网络中进行属性检测,获得待检图像的对象属性信息。
在一个可选示例中,该步骤S206可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的第二获取模块504执行。
通过本实施例,使用注意力神经网络进行待检图像中目标的区域检测,进而将注意力神经网络检测出的图像区域输入属性分类神经网络进行目标的属性检测,获得相应的对象属性信息。经过训练的注意力神经网络可以准确检测出图像中目标所在区域,针对该区域进行有针对性的属性检测,可以获得较为精确的目标的对象属性信息。
以下,通过图3所示实施例对本申请实施例中提供的注意力神经网络的训练进行说明。参照图3,示出了根据本申请一实施例的神经网络训练方法的流程图。本实施例的神经网络训练方法包括以下步骤:
步骤S302:将训练样本图像输入到注意力神经网络中进行区域训练,获得候选目标区域的概率信息。
本实施例中,仍以人物样本图像训练注意力神经网络为例,以实现注意力神经网络对人物的相应目标区域的自动识别。
本实施例中,候选目标区域的概率信息可以包括候选目标区域的概率值。
在一个可选示例中,该步骤S302可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的第三获取模块5082执行。
步骤S304:根据候选目标区域的概率信息对训练样本图像进行候选目标区域采样,获得采样后的图像样本。
在一张样本图像中,概率值较大的候选目标区域被采样的可能性也较大。一般情况下,对一张具有多个候选目标区域的样本图像来说,对其进行采样,可能采集到的是该样本图像的多个候选目标区域中的部分区域,也可能是全部区域。采样数量可以由本领域技术人员根据实际需要适当设置,本申请实施例对此不作限制。
在一种可行方案中,可以先确定候选目标区域的概率值对应的多项式分布;然后,根据多项式分布,对训练样本图像进行候选目标区域采样,获取采样后的图像样本。
通过采样,可以获得采集到的人物图像训练样本中的区域的信息,通过该信息可以获得相对应的区域的特征图。
在一个可选示例中,该步骤S304可以由处理器调用存储器存储的相应指令执行,也 可以由被处理器运行的第四获取模块5084执行。
步骤S306:将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练,获得图像样本中的候选目标区域的准确度信息。
其中,目标区域的属性信息为针对训练样本图像标注的目标区域的属性信息。
目标区域的属性信息用于表征目标区域的对象的属性,例如,对于头部区域,其属性信息可以包括但不限于:性别、年龄、发型、是否佩戴眼镜、是否佩戴口罩等。采样后的图像样本中包含有采样到的区域的信息,包括采集到了哪个区域,该区域对应的特征图。
本实施例中,辅助分类网络通过对各个采样后的图像样本中的各个候选目标区域的回报值的计算,确定注意力神经网络对相应的候选目标区域的概率估算是否准确,进而决定如何调整注意力神经网络的网络参数,以使注意力神经网络的预测更为准确。
在通过辅助分类网络和目标区域的属性信息,获得训练样本图像中的候选目标区域的准确度信息如本实施例中的回报值时,一种可行方案中,可以将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练,通过辅助分类网络的损失函数,获得图像样本中候选目标区域的属性信息的损失值,其中,损失函数根据目标区域的属性信息确定;根据获得的所述损失值,确定图像样本中的候选目标区域的回报值,所述回报值为所述准确度信息。例如,可以首先对至少一个图像样本的至少一个候选目标区域的损失值求平均(例如对所有图像样本的各个候选目标区域的损失值求平均),获得平均值;再根据所述平均值和获得的所述损失值的关系,确定采样后的图像样本中的候选目标区域的回报值。在一种可行方案中,若获得的损失值小于平均值的0.5倍,且损失值满足设定标准,则将损失值对应的候选目标区域的回报值设置为1;否则,将损失值对应的候选目标区域的回报值设置为0。其中,所述设定标准可以由本领域技术人员根据实际情况适当设置,如设置为从大到小的损失值中的前N个等,N为大于0的整数。
可以理解的是,上述的可行方案仅是其中一种实现方式,在实际应用中,用户可以根据实际需求调整实现条件或可选参数,上述可行方案的举例不应理解为唯一的实现方式。
在一个可选示例中,该步骤S306可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的第五获取模块5086执行。
步骤S308:根据准确度信息调整注意力神经网络的参数。
其中,调整的注意力神经网络的参数例如可以包括但不限于权重参数、偏置参数等网络参数。
如果调整后的注意力神经网络的网络参数能够使通过辅助分类网络得到的目标区域的回报值为1,非目标区域的回报值为0,则可以认为注意力神经网络训练完成。否则,继续根据回报值调整注意力神经网络的参数,直至通过辅助分类网络最终得到的目标区域的回报值为1,非目标区域的回报值为0。
上述注意力神经网络的训练收敛条件仅是其中一种实现方案,可以理解的是,在实际应用中,本申请实施例的注意力神经网络还可以设置其他的训练收敛条件,上述训练收敛条件的举例不应理解为唯一的实现方式。
在一个可选示例中,该步骤S308可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的第一参数调整模块5088执行。
至此,实现了对注意力神经网络的训练,训练后的注意力神经网络可以准确预测出目标区域。需要说明的是,为了提高训练效果,一种可选方式为,针对不同的目标区域分别对注意力神经网络进行训练,例如,在一次训练中,仅训练注意力神经网络对人物的头部区域的预测;在另一次训练中,仅训练注意力神经网络对人物的上身区域的预测等。
此外,在已训练完成的注意力神经网络的基础上,还可以进行以下可选方案,即:采用训练完成的注意力神经网络检测训练样本图像,获得训练样本图像的目标区域;使用训练样本图像、每个训练样本图像的目标区域、和每个目标区域的属性信息训练属性分类神 经网络。
其中,属性分类神经网络可以采用任意适当的网络形式,例如卷积神经网络,其训练也可以采用常规的训练方法。通过每个训练样本图像的目标区域可以有效地对训练样本图像中的目标区域的识别进行学习和训练,通过每个目标区域的属性信息可以有效地对识别出的人物图像中的目标区域中的对象的属性进行学习和训练。
可选地,本申请实施例中的注意力神经网络可以是全卷积神经网络,与具有全连接层的卷积神经网络相比,采用全卷积神经网络所需的卷积层参数少,训练速度更快。
因图像中主体对象的属性往往只跟主体的某些区域有关,并不需要整张图像的特征,例如,行人属性往往只跟行人的某些身体区域有关,并不需要一整张行人图像的特征,例如有无戴眼镜,有无戴帽子,有无戴口罩这些属性只需要行人头部的特征即可。本实施例的方案中,采用基于增强学习(Reinforcement Learning)方法的注意力机制来让算法自动选择每个属性在图像中的关联区域,可以再着重提取相关联区域的特征,从而利用该特征和图像的全局特征来对相应的属性做预测,这样不仅可以节省人工标注的成本,而且可以找到对训练较优的区域。
以下,以一个可选实例对本实施例的神经网络训练方法进行示例性说明。
本实例中,以训练注意力神经网络对人物的头部区域的识别为例,其训练过程如下:
(1)对将要识别的行人属性依据其关联的身体部位人工分类,所关联区域相同的属性分为一类,例如戴眼镜,戴帽子,戴口罩这些属性只涉及到行人的头部;上衣的类型、背包这些属性只涉及到行人的上半身。
(2)针对每一个身体部位训练一个全卷积的注意力神经网络。
以下,以训练头部的注意力神经网络为例,其它部位的训练以及非行人情况下的训练可参照本实例实现。
注意力神经网络在每次迭代训练的时候,会选择一批图像作为输入,注意力神经网络每次输入整个数据集的一部分数据做训练即一批图像,下一次迭代时会输入下一批图像,以此类推,直至整个数据集中的数据全部迭代完成,注意力神经网络对每张图像会输出一张特征图,特征图中的至少一个位置满足多项式分布,该至少一个位置的值为对应的概率;然后,每张图像从这一多项式分布中随机取样M个区域,取样M个区域中每个区域的概率是特征图中该区域对应的概率值,其中,M为大于0的整数,由本领域技术人员根据实际需要适当设置;取样到的每个区域会经过辅助分类网络,通过辅助分类网络中的属性分类的损失函数得到一个属性的分类的损失;记L为N×M个区域的损失的平均值,N表示图像样本的个数,对每一个图像所选的M个区域的损失从小到大进行排序,如果每个区域位于排序后的队列的前top_k个,并且小于0.5L(即:平均损失的一半),则该区域的回报值为1,否则为0。其中,top_k可以由本领域技术人员根据实际需要适当设置,本申请实施例对此不作限制。
其中,因为每个属性为一个多值属性,因此每个属性可以采用损失函数(softmax函数)来计算损失,最终的损失是所有属性的损失的和。一种辅助分类网络中的属性分类的损失函数如下:
Figure PCTCN2017119535-appb-000001
其中,
Figure PCTCN2017119535-appb-000002
为第n个图像样本的第k个属性的真实的标签(根据输入的头部区域的属性值确定),
Figure PCTCN2017119535-appb-000003
为网络输出的该属性的标签为
Figure PCTCN2017119535-appb-000004
的概率,n和N均为图像样本的数量,k为图像样本的属性的数量。
训练后的注意力神经网络的输入为一整张行人图像,输出是图像中每个可能的区域是 头部的概率,其中,注意力神经网络为全卷积神经网络。例如,可以是2个卷积层再加一个Softmax层,每个卷积层后加一个ReLU层。其中,Softmax层前的最后一个卷积层的输出是一个单个频道的特征图,然后经过Softmax层后,特征图的每个位置的值就是该位置在原图中所对应的区域可以选为头部的概率,概率最大的区域即可选为头部区域。
本实施例中的注意力神经网络采用增强学习来进行优化,注意力神经网络不会立即计算损失,而是评估每个区域的回报值,最终的目标是让回报值最大化。评估每个可能选为头部的区域的回报值的时候,将该区域再输入到一个辅助分类网络里面,辅助分类网络的损失函数为涉及到头部区域的属性的分类损失。每个可能选为头部区域的回报值由该区域经过辅助分类网络后的对头部区域的属性的分类效果决定。
在本实施例的神经网络训练方法中,通过训练样本图像训练注意力神经网络,每张训练样本图像中可能包含有多个不同的候选目标区域,通过注意力神经网络可以获得各个候选目标区域最终为目标区域的概率值;进而,在获得该概率值后,根据该概率值对对应的训练样本图像进行采样,其中概率值较大的区域被采集到的可能性更大;采样后,将目标区域的属性信息和采样后的图像一起输入辅助分类网络,通过辅助分类网络计算采集的区域的回报值,进而根据该回报值对注意力神经网络的网络参数进行调整,直至满足注意力神经网络的收敛条件,完成注意力神经网络的训练。
可见,在上述训练过程,因目标区域的属性信息与目标区域相关,例如,是否佩戴眼镜、是否佩戴口罩的信息仅与人体头部有关,在完成上述训练后,注意力神经网络可以自动找到图像中对属性信息对应的属性响应最大的区域,无需人工对训练样本进行标注,不仅节省了人工标注的成本,而且可以找到对与属性信息对应最好的区域,降低了卷积神经网络训练过程成本、缩短了训练时间。
本实施例的神经网络训练方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:PC机等。
参照图4,示出了根据本申请一实施例的区域检测方法的流程图。本实施例中,采用上述任一实施例中示出的经过训练的注意力神经网络对图像进行目标区域检测,从图像中确定出需要的目标区域。本实施例的区域检测方法包括以下步骤:
步骤S402:获取待检测的目标图像。
在本申请各实施例中,目标图像可以包括静态图像或视频图像。在一种可选方案中,视频图像可以包括视频监控中的行人图像或车辆图像。
在视频监控场景中,往往有对行人属性或车辆属性进行识别的需要。在进行行人属性或车辆属性识别时,可以先定位出相应的目标区域,如某个人体的头部区域或某个车辆所在区域,进而针对该目标区域进行相应的属性识别。
在一个可选示例中,该步骤S402可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的第九获取模块702执行。
步骤S404:采用注意力神经网络检测所述目标图像,获得目标图像的目标区域。
本实施例中,采用如上述任一实施例中所示的方法训练而得的注意力神经网络。通过该可以快速准确地定位出目标图像的目标区域,进而根据实际需要对目标区域进行相应的处理,如属性识别、图像信息获取、区域定位等。
本申请各实施例中,当目标图像为人物图像时,目标区域例如可以包括但不限于以下任意一项或多项:头部、上身、下身、足部、手部;当目标图像为车辆图像时,目标区域例如可以包括但不限于以下任意一项或多项:车辆牌号区域、车辆标志区域、车身区域。
在一个可选示例中,该步骤S404可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的第十获取模块704执行。
通过本实施例的区域检测方法,可以准确有效地对图像中的目标区域进行检测和定位,降低了目标区域定位成本,提高了目标区域定位效率。
本实施例的区域检测方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:PC机等。
本申请实施例提供的任一方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本申请实施例提供的任一方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本申请实施例提及的任一方法。下文不再赘述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
参照图5,示出了根据本申请一实施例的对象属性检测装置的结构框图。本实施例的对象属性检测装置包括:第一获取模块502,用于将待检图像输入到注意力神经网络中进行区域检测,获得待检图像中与目标的对象属性相关联的至少一个局部区域作为目标区域;第二获取模块504,用于将待检图像和至少一个目标区域输入到属性分类神经网络中进行属性检测,获得所述待检图对象属性信息。
可选地,本实施例的对象属性检测装置还包括:显示模块506,用于在待检图像中显示所述对象属性信息。
可选地,当目标图像为人物图像时,目标区域例如可以包括以下任意一项或多项:头部、上身、下身、足部、手部;和/或,当目标图像为车辆图像时,目标区域例如可以包括以下任意一项或多项:车辆牌号区域、车辆标志区域、车身区域。
可选地,待检图像可以包括静态图像或视频图像。
可选地,视频图像可以包括视频监控中的行人图像和/或车辆图像。
可选地,本实施例的对象属性检测装置还包括:第一训练模块508,用于在第一获取模块502将待检图像输入到注意力神经网络中进行区域检测之前,使用训练样本图像和辅助分类网络,将注意力神经网络训练为用于检测图像中的目标区域的神经网络。
可选地,第一训练模块508包括:第三获取模块5082,用于将训练样本图像输入到注意力神经网络中进行区域训练,获得候选目标区域的概率信息;第四获取模块5084,用于根据候选目标区域的概率信息对训练样本图像进行候选目标区域采样,获得采样后的图像样本;第五获取模块5086,用于将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练,获得图像样本中的候选目标区域的准确度信息;目标区域的属性信息为针对训练样本图像标注的目标区域的属性信息;第一参数调整模块5088,用于根据准确度信息调整注意力神经网络的网络参数。
可选地,第五获取模块5086包括:第一损失获取模块50862,用于将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练,通过辅助分类网络的损失函数,获得图像样本中,候选目标区域的属性信息的损失值,其中,损失函数根据目标区域的属性信息确定;第一回报获取模块50864,用于根据获得的损失值,确定图像样本中的候选目标区域的回报值,回报值为准确度信息。
可选地,第一回报获取模块50864用于对至少一个图像样本的至少一个候选目标区域的损失值求平均,获得平均值;根据平均值和获得的损失值的关系,确定图像样本中的候选目标区域的回报值。
可选地,第一回报获取模块50864用于对至少一个图像样本的至少一个候选目标区域的损失值求平均,获得平均值;若获得的损失值满足设定标准,则将损失值对应的候选目标区域的回报值设置为第一回报值;否则,将损失值对应的候选目标区域的回报值设置为第二回报值。
可选地,第四获取模块5084用于确定候选目标区域的概率值对应的多项式分布;根 据多项式分布,对训练样本图像进行候选目标区域采样,获取采样后的图像样本。
可选地,注意力神经网络包括全卷积神经网络。
可选地,本实施例的对象属性检测装置还包括:第二训练模块510,用于采用训练完成的注意力神经网络检测训练样本图像,获得训练样本图像的目标区域;使用训练样本图像、至少一个训练样本图像的目标区域、和至少一个目标区域的属性信息训练属性分类神经网络。
本实施例的对象属性检测装置可用于实现前述多个方法实施例中相应的对象属性检测方法,并具有相应的方法实施例的有益效果,在此不再赘述。
参照图6,示出了根据本申请另一实施例的神经网络训练装置的结构框图。本实施例的神经网络训练装置包括:第六获取模块602,用于将训练样本图像输入到注意力神经网络中进行区域训练,获得候选目标区域的概率信息;第七获取模块604,用于根据候选目标区域的概率信息对训练样本图像进行候选目标区域采样,获得采样后的图像样本;第八获取模块606,用于将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练,获得图像样本中的候选目标区域的准确度信息;目标区域的属性信息为针对训练样本图像标注的目标区域的属性信息;第二参数调整模块608,用于根据准确度信息调整注意力神经网络的参数。
可选地,第八获取模块606包括:第二损失获取模块6062,用于将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练,通过辅助分类网络的损失函数,获得图像样本中,候选目标区域的属性信息的损失值,其中,损失函数根据目标区域的属性信息确定;第二回报获取模块6064,用于根据获得的损失值,确定图像样本中的候选目标区域的回报值,回报值为准确度信息。
可选地,第二回报获取模块6064用于对至少一个图像样本的至少一个候选目标区域的损失值求平均,获得平均值;根据平均值和获得的损失值的关系,确定图像样本中的候选目标区域的回报值。
可选地,第二回报获取模块6064用于对至少一个图像样本的至少一个候选目标区域的损失值求平均,获得平均值;若获得的损失值满足设定标准,则将损失值对应的候选目标区域的回报值设置为第一回报值;否则,将损失值对应的候选目标区域的回报值设置为第二回报值。
可选地,第七获取模块604用于确定候选目标区域的概率值对应的多项式分布;根据多项式分布,对训练样本图像进行候选目标区域采样,获取采样后的图像样本。
可选地,注意力神经网络为全卷积神经网络。
可选地,本实施例的神经网络训练装置还包括:第三训练模块610,用于采用训练完成的注意力神经网络检测训练样本图像,获得训练样本图像的目标区域;使用训练样本图像、至少一个训练样本图像的目标区域、和至少一个目标区域的属性信息训练属性分类神经网络。
本实施例的神经网络训练装置用于实现前述多个方法实施例中相应的神经网络训练方法,并具有相应的方法实施例的有益效果,在此不再赘述。
参照图7,示出了根据本申请一实施例的区域检测装置的结构框图。本实施例的区域检测装置包括:第九获取模块702,用于获取待检测的目标图像,其中,目标图像包括静态图像或视频图像;第十获取模块704,用于采用注意力神经网络检测目标图像,获得目标图像的目标区域;其中,注意力神经网络采用本申请上述任一实施例所述的神经网络训练方法或者神经网络训练装置训练而得。
可选地,当目标图像为人物图像时,目标区域可以包括以下任意一项或多项:头部、上身、下身、足部、手部;当目标图像为车辆图像时,目标区域可以包括以下任意一项或多项:车辆牌号区域、车辆标志区域、车身区域。
可选地,视频图像包括视频监控中的行人图像或车辆图像。
本实施例的区域检测装置可用于实现前述多个方法实施例中相应的区域检测方法,并具有相应的方法实施例的有益效果,在此不再赘述。
另外,本申请实施例还提供了一种电子设备,包括:处理器和存储器;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行本申请上述任一实施例所述的对象属性检测方法对应的操作;或者,
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行本申请上述任一实施例所述的神经网络训练方法对应的操作;或者,
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行本申请上述任一实施例所述的区域检测方法对应的操作。
另外,本申请实施例还提供了另一种电子设备,包括:
处理器和本申请上述任一实施例所述的对象属性检测装置;在处理器运行所述对象属性检测装置时,本申请上述任一实施例所述的对象属性检测装置中的单元被运行;或者
处理器和本申请上述任一实施例所述的神经网络训练装置;在处理器运行所述神经网络训练装置时,本申请上述任一实施例所述的神经网络训练装置中的单元被运行;或者
处理器和本申请上述任一实施例所述的区域检测装置;在处理器运行所述区域检测装置时,本申请上述任一实施例所述的区域检测装置中的单元被运行。
本申请实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图8,其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备800的结构示意图。如图8所示,电子设备800包括一个或多个第一处理器、第一通信元件等,所述一个或多个第一处理器例如:一个或多个中央处理单元(CPU)801,和/或一个或多个图像处理器(GPU)813等,第一处理器可以根据存储在只读存储器(ROM)802中的可执行指令或者从存储部分808加载到随机访问存储器(RAM)803中的可执行指令而执行各种适当的动作和处理。本实施例中,第一只读存储器802和随机访问存储器803统称为第一存储器。第一通信元件包括通信组件812和/或通信接口809。其中,通信组件812可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,通信接口809包括诸如LAN卡、调制解调器等的网络接口卡的通信接口,通信接口809经由诸如因特网的网络执行通信处理。
第一处理器可与只读存储器802和/或随机访问存储器803中通信以执行可执行指令,通过第一通信总线804与通信组件812相连、并经通信组件812与其他目标设备通信,从而完成本申请实施例提供的任一对象属性检测方法对应的操作,例如,将待检图像输入到注意力神经网络中进行区域检测,获得待检图像中与目标的对象属性相关联的至少一个目标区域;将待检图像和至少一个目标区域输入到属性分类神经网络中进行属性检测,获得待检图像的对象属性信息。或者,第一处理器可与只读存储器802和/或随机访问存储器803中通信以执行可执行指令,通过第一通信总线804与通信组件812相连、并经通信组件812与其他目标设备通信,从而完成本申请实施例提供的任一神经网络训练方法对应的操作,例如,将训练样本图像输入到注意力神经网络中进行区域训练,获得候选目标区域的概率信息;根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样,获得采样后的图像样本;将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练,获得所述图像样本中的候选目标区域的准确度信息;所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息;根据所述准确度信息调整所述注意力神经网络的参数。或者,第一处理器可与只读存储器802和/或随机访问存储器803中通信以执行可执行指令,通过第一通信总线804与通信组件812相连、并经通信组件812与其他目标设备通信,从而完成本申请实施例提供的任一区域检测方法对应的操作,例如,获取待检测的目标图像,其中,所述目标图像包括静态图像或视频图像;采用注意 力神经网络检测所述目标图像,获得所述目标图像的目标区域;其中,所述注意力神经网络采用如本申请任一实施例所述的神经网络训练方法训练而得。
此外,在RAM 803中,还可存储有装置操作所需的各种程序和数据。CPU801或GPU813、ROM802以及RAM803通过第一通信总线804彼此相连。在有RAM803的情况下,ROM802为可选模块。RAM803存储可执行指令,或在运行时向ROM802中写入可执行指令,可执行指令使第一处理器执行上述通信方法对应的操作。输入/输出(I/O)接口805也连接至第一通信总线804。通信组件812可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在通信总线链接上。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口809。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
需要说明的,如图8所示的架构仅为一种可选实现方式,在可选实践过程中,可根据实际需要对上述图8的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信元件可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本申请的保护范围。
特别地,根据本申请实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本申请任一实施例提供的方法步骤对应的指令。例如,程序代码可包括对应执行本申请实施例提供的如下步骤对应的指令:将待检图像输入到注意力神经网络中进行区域检测,获得待检图像中与目标的对象属性相关联的至少一个目标区域;将待检图像和至少一个目标区域输入到属性分类神经网络中进行属性检测,获得待检图像的对象属性信息。又例如,程序代码可包括对应执行本申请实施例提供的如下步骤对应的指令:将训练样本图像输入到注意力神经网络中进行区域训练,获得候选目标区域的概率信息;根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样,获得采样后的图像样本;将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练,获得所述图像样本中的候选目标区域的准确度信息;所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息;根据所述准确度信息调整所述注意力神经网络的参数。再例如,程序代码可包括对应执行本申请实施例提供的如下步骤对应的指令:获取待检测的目标图像,其中,所述目标图像包括静态图像或视频图像;采用注意力神经网络检测所述目标图像,获得所述目标图像的目标区域;其中,所述注意力神经网络采用如本申请任一实施例所述的神经网络训练方法训练而得。在这样的实施例中,该计算机程序可以通过通信元件从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被第一处理器执行时,执行本申请任一实施例的方法中限定的上述功能。
另外,本申请实施例还提供了一种计算机程序,包括计算机可读代码,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现本申请任一实施例所述的对象属性检测方法中各步骤的指令;或者
当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现本申请任一实施例所述的神经网络训练方法中各步骤的指令;或者
当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现如本申请任一实施例所述的区域检测方法中各步骤的指令。
另外,本申请实施例还提供了一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时实现本申请任一实施例所述的对象属性检测方法中各步骤的操作、或者本申请任一实施例所述的神经网络训练方法中各步骤的操作、或者如本申请任一实施例所述的区域检测方法中各步骤的操作。
本说明书中至少一个实施例均采用递进的方式描述,至少一个实施例重点说明的都是与其它实施例的不同之处,至少一个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本申请的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明,本申请实施例的方法的步骤不限于以上可选描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本申请实施为记录在记录介质中的程序,这些程序包括用于实现根据本申请实施例的方法的机器可读指令。因而,本申请还覆盖存储用于执行根据本申请实施例的方法的程序的记录介质。
本申请实施例的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本申请限于所公开的形式,很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用,并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims (50)

  1. 一种对象属性检测方法,包括:
    将待检图像输入到注意力神经网络中进行区域检测,获得所述待检图像中与目标的对象属性相关联的至少一个目标区域;
    将所述待检图像和所述至少一个目标区域输入到属性分类神经网络中进行属性检测,获得所述待检图像的对象属性信息。
  2. 根据权利要求1所述的方法,其中,还包括:
    在所述待检图像中显示所述对象属性信息。
  3. 根据权利要求1或2所述的方法,其中,当所述待检图像为人物图像时,所述目标区域包括以下任意一项或多项:头部、上身、下身、足部、手部;和/或,
    当所述待检图像为车辆图像时,所述目标区域包括以下任意一项或多项:车辆牌号区域、车辆标志区域、车身区域。
  4. 根据权利要求1-3任一项所述的方法,其中,所述待检图像包括静态图像或视频图像。
  5. 根据权利要求4所述的方法,其中,所述视频图像包括视频监控中的行人图像和/或车辆图像。
  6. 根据权利要求1-5任一项所述的方法,其中,在将待检图像输入到注意力神经网络中进行区域检测之前,还包括:
    使用训练样本图像和辅助分类网络,将所述注意力神经网络训练为用于检测图像中的目标区域的神经网络。
  7. 根据权利要求6所述的方法,其中,所述使用训练样本图像和辅助分类网络,将所述注意力神经网络训练为用于检测图像中的目标区域的神经网络,包括:
    将训练样本图像输入到注意力神经网络中进行区域训练,获得候选目标区域的概率信息;
    根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样,获得采样后的图像样本;
    将目标区域的属性信息和所述图像样本输入到所述辅助分类网络中进行属性训练,获得所述图像样本中的候选目标区域的准确度信息;其中,所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息;
    根据所述准确度信息调整所述注意力神经网络的网络参数。
  8. 根据权利要求7所述的方法,其中,将目标区域的属性信息和所述图像样本输入到所述辅助分类网络中进行属性训练,获得所述图像样本中的候选目标区域的准确度信息,包括:
    将所述目标区域的属性信息和所述图像样本输入到所述辅助分类网络中进行属性训练,通过所述辅助分类网络的损失函数,获得所述图像样本中,所述候选目标区域的属性信息的损失值,其中,所述损失函数根据所述目标区域的属性信息确定;
    根据获得的所述损失值,确定所述图像样本中的候选目标区域的回报值,所述回报值为所述准确度信息。
  9. 根据权利要求8所述的方法,其中,根据获得的所述损失值,确定所述图像样本中的候选目标区域的回报值,包括:
    对至少一个所述图像样本的至少一个候选目标区域的损失值求平均,获得平均值;
    根据所述平均值和获得的所述损失值的关系,确定所述图像样本中的候选目标区域的回报值。
  10. 根据权利要求9所述的方法,其中,根据所述平均值和获得的所述损失值的关系, 确定所述图像样本中的候选目标区域的回报值,包括:
    若获得的所述损失值满足设定标准,则将所述损失值对应的候选目标区域的回报值设置为第一回报值;
    否则,将所述损失值对应的候选目标区域的回报值设置为第二回报值。
  11. 根据权利要求7-10任一项所述的方法,其中,根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样,获得采样后的图像样本,包括:
    确定所述候选目标区域的概率值对应的多项式分布;
    根据所述多项式分布,对所述训练样本图像进行候选目标区域采样,获取采样后的图像样本。
  12. 根据权利要求7-11任一项所述的方法,其中,所述注意力神经网络包括全卷积神经网络。
  13. 根据权利要求7-12任一项所述的方法,其中,还包括:
    采用训练完成的所述注意力神经网络检测所述训练样本图像,获得所述训练样本图像的目标区域;
    使用所述训练样本图像、至少一个所述训练样本图像的目标区域、和至少一个所述目标区域的属性信息训练属性分类神经网络。
  14. 一种神经网络训练方法,包括:
    将训练样本图像输入到注意力神经网络中进行区域训练,获得候选目标区域的概率信息;
    根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样,获得采样后的图像样本;
    将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练,获得所述图像样本中的候选目标区域的准确度信息;其中,所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息;
    根据所述准确度信息调整所述注意力神经网络的参数。
  15. 根据权利要求14所述的方法,其中,将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练,获得所述图像样本中的候选目标区域的准确度信息,包括:
    将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练,通过所述辅助分类网络的损失函数,获得所述图像样本中,所述候选目标区域的属性信息的损失值,其中,所述损失函数根据所述目标区域的属性信息确定;
    根据获得的所述损失值,确定所述图像样本中的候选目标区域的回报值,所述回报值为所述准确度信息。
  16. 根据权利要求15所述的方法,其中,根据获得的所述损失值,确定所述图像样本中的候选目标区域的回报值,包括:
    对至少一个所述图像样本的至少一个候选目标区域的损失值求平均,获得平均值;
    根据所述平均值和获得的所述损失值的关系,确定所述图像样本中的候选目标区域的回报值。
  17. 根据权利要求16所述的方法,其中,根据所述平均值和获得的所述损失值的关系,确定所述图像样本中的候选目标区域的回报值,包括:
    若获得的所述损失值满足设定标准,则将所述损失值对应的候选目标区域的回报值设置为第一回报值;
    否则,将所述损失值对应的候选目标区域的回报值设置为第二回报值。
  18. 根据权利要求14-17任一项所述的方法,其中,根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样,获得采样后的图像样本,包括:
    确定所述候选目标区域的概率值对应的多项式分布;
    根据所述多项式分布,对所述训练样本图像进行候选目标区域采样,获取采样后的图像样本。
  19. 根据权利要求14-18任一项所述的方法,其中,所述注意力神经网络包括全卷积神经网络。
  20. 根据权利要求14-19任一项所述的方法,其中,还包括:
    采用训练完成的所述注意力神经网络检测所述训练样本图像,获得所述训练样本图像的目标区域;
    使用所述训练样本图像、至少一个所述训练样本图像的目标区域、和至少一个所述目标区域的属性信息训练属性分类神经网络。
  21. 一种区域检测方法,包括:
    获取待检测的目标图像,其中,所述目标图像包括静态图像或视频图像;
    采用注意力神经网络检测所述目标图像,获得所述目标图像的目标区域;
    其中,所述注意力神经网络采用如权利要求14-20任一项所述的方法训练而得。
  22. 根据权利要求21所述的方法,其中,当所述目标图像为人物图像时,所述目标区域包括以下任意一项或多项:头部、上身、下身、足部、手部;当所述目标图像为车辆图像时,所述目标区域包括以下任意一项或多项:车辆牌号区域、车辆标志区域、车身区域。
  23. 根据权利要求21或22所述的方法,其中,所述视频图像包括视频监控中的行人图像或车辆图像。
  24. 一种对象属性检测装置,包括:
    第一获取模块,用于将待检图像输入到注意力神经网络中进行区域检测,获得所述待检图像中与目标的对象属性相关联的至少一个目标区域;
    第二获取模块,用于将所述待检图像和所述至少一个目标区域输入到属性分类神经网络中进行属性检测,获得所述待检图像的对象属性信息。
  25. 根据权利要求24所述的装置,其中,还包括:
    显示模块,用于在所述待检图像中显示所述对象属性信息。
  26. 根据权利要求24或25所述的装置,其中,当所述目标图像为人物图像时,所述目标区域包括以下任意一项或多项:头部、上身、下身、足部、手部;和/或,
    当所述目标图像为车辆图像时,所述目标区域包括以下任意一项或多项:车辆牌号区域、车辆标志区域、车身区域。
  27. 根据权利要求24-26任一项所述的装置,其中,所述待检图像包括静态图像或视频图像。
  28. 根据权利要求27所述的装置,其中,所述视频图像包括视频监控中的行人图像和/或车辆图像。
  29. 根据权利要求24-28任一项所述的装置,其中,还包括:
    第一训练模块,用于在所述第一获取模块将待检图像输入到注意力神经网络中进行区域检测之前,使用训练样本图像和辅助分类网络,将所述注意力神经网络训练为用于检测图像中的目标区域的神经网络。
  30. 根据权利要求29所述的装置,其中,所述第一训练模块包括:
    第三获取模块,用于将训练样本图像输入到注意力神经网络中进行区域训练,获得候选目标区域的概率信息;
    第四获取模块,用于根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样,获得采样后的图像样本;
    第五获取模块,用于将目标区域的属性信息和所述图像样本输入到所述辅助分类网络 中进行属性训练,获得所述图像样本中的候选目标区域的准确度信息;所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息;
    第一参数调整模块,用于根据所述准确度信息调整所述注意力神经网络的网络参数。
  31. 根据权利要求30所述的装置,其中,所述第五获取模块包括:
    第一损失获取模块,用于将目标区域的属性信息和所述图像样本输入到所述辅助分类网络中进行属性训练,通过所述辅助分类网络的损失函数,获得所述图像样本中,所述候选目标区域的属性信息的损失值,其中,所述损失函数根据所述目标区域的属性信息确定;
    第一回报获取模块,用于根据获得的所述损失值,确定所述图像样本中的候选目标区域的回报值,所述回报值为所述准确度信息。
  32. 根据权利要求31所述的装置,其中,所述第一回报获取模块,用于对至少一个图像样本的至少一个候选目标区域的损失值求平均,获得平均值;根据所述平均值和获得的所述损失值的关系,确定所述图像样本中的候选目标区域的回报值。
  33. 根据权利要求32所述的装置,其中,所述第一回报获取模块,用于对至少一个所述图像样本的至少一个所述候选目标区域的损失值求平均,获得平均值;若获得的所述损失值满足设定标准,则将所述损失值对应的候选目标区域的回报值设置为第一回报值;否则,将所述损失值对应的候选目标区域的回报值设置为第二回报值。
  34. 根据权利要求30-33任一项所述的装置,其中,所述第四获取模块,用于确定所述候选目标区域的概率值对应的多项式分布;以及根据所述多项式分布,对所述训练样本图像进行候选目标区域采样,获取采样后的图像样本。
  35. 根据权利要求30-34任一项所述的装置,其中,所述注意力神经网络包括全卷积神经网络。
  36. 根据权利要求30-35任一项所述的装置,其中,还包括:
    第二训练模块,用于采用训练完成的所述注意力神经网络检测所述训练样本图像,获得所述训练样本图像的目标区域;以及使用所述训练样本图像、至少一个所述训练样本图像的目标区域、和至少一个所述目标区域的属性信息训练属性分类神经网络。
  37. 一种神经网络训练装置,包括:
    第六获取模块,用于将训练样本图像输入到注意力神经网络中进行区域训练,获得候选目标区域的概率信息;
    第七获取模块,用于根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样,获得采样后的图像样本;
    第八获取模块,用于将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练,获得所述图像样本中的候选目标区域的准确度信息;其中,所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息;
    第二参数调整模块,用于根据所述准确度信息调整所述注意力神经网络的参数。
  38. 根据权利要求37所述的装置,其中,所述第八获取模块,包括:
    第二损失获取模块,用于将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练,通过所述辅助分类网络的损失函数,获得所述图像样本中,所述候选目标区域的属性信息的损失值,其中,所述损失函数根据所述目标区域的属性信息确定;
    第二回报获取模块,用于根据获得的所述损失值,确定所述图像样本中的候选目标区域的回报值,所述回报值为所述准确度信息。
  39. 根据权利要求38所述的装置,其中,所述第二回报获取模块,用于对所有图像样本的各个候选目标区域的损失值求平均,获得平均值;根据所述平均值和获得的所述损失值的关系,确定所述图像样本中的候选目标区域的回报值。
  40. 根据权利要求39所述的装置,其中,所述第二回报获取模块,用于对所有图像样本的各个候选目标区域的损失值求平均,获得平均值;若获得的所述损失值满足设定标 准,则将所述损失值对应的候选目标区域的回报值设置为第一回报值;否则,将所述损失值对应的候选目标区域的回报值设置为第二回报值。
  41. 根据权利要求37-40任一项所述的装置,其中,所述第七获取模块,用于确定所述候选目标区域的概率值对应的多项式分布;根据所述多项式分布,对所述训练样本图像进行候选目标区域采样,获取采样后的图像样本。
  42. 根据权利要求37-41任一项所述的装置,其中,所述注意力神经网络包括全卷积神经网络。
  43. 根据权利要求37-42任一项所述的装置,其中,还包括:
    第三训练模块,用于采用训练完成的所述注意力神经网络检测所述训练样本图像,获得所述训练样本图像的目标区域;使用所述训练样本图像、至少一个所述训练样本图像的目标区域、和至少一个所述目标区域的属性信息训练属性分类神经网络。
  44. 一种区域检测装置,包括:
    第九获取模块,用于获取待检测的目标图像,其中,所述目标图像包括静态图像或视频图像;
    第十获取模块,用于采用注意力神经网络检测所述目标图像,获得所述目标图像的目标区域;
    其中,所述注意力神经网络采用如14-20任一项所述的方法或者权利要求37-43任一项所述的装置训练而得。
  45. 根据权利要求44所述的装置,其中,当所述目标图像为人物图像时,所述目标区域包括以下任意一项或多项:头部、上身、下身、足部、手部;当所述目标图像为车辆图像时,所述目标区域包括以下任意一项或多项:车辆牌号区域、车辆标志区域、车身区域。
  46. 根据权利要求44或45所述的装置,其中,所述视频图像包括视频监控中的行人图像或车辆图像。
  47. 一种电子设备,包括:处理器和存储器;
    所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-13任一项所述的对象属性检测方法对应的操作;或者,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求14-20任一项所述的神经网络训练方法对应的操作;或者,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求21-23任一项所述的区域检测方法对应的操作。
  48. 一种电子设备,包括:
    处理器和权利要求24-36任一项所述的对象属性检测装置;在处理器运行所述对象属性检测装置时,权利要求24-36任一项所述的对象属性检测装置中的单元被运行;或者
    处理器和权利要求37-43任一项所述的神经网络训练装置;在处理器运行所述神经网络训练装置时,权利要求37-43任一项所述的神经网络训练装置中的单元被运行;或者
    处理器和权利要求44-46任一项所述的区域检测装置;在处理器运行所述区域检测装置时,权利要求44-46任一项所述的区域检测装置中的单元被运行。
  49. 一种计算机程序,包括计算机可读代码,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现如权利要求1-13任一项所述的对象属性检测方法中各步骤的指令;或者
    当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现如权利要求14-20任一项所述的神经网络训练方法中各步骤的指令;或者
    当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现如权利要求21-23任一项所述的区域检测方法中各步骤的指令。
  50. 一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指 令被执行时实现如权利要求1-13任一项所述的对象属性检测方法中各步骤的操作、或者如权利要求14-20任一项所述的神经网络训练方法中各步骤的操作、或者如权利要求21-23任一项所述的区域检测方法中各步骤的操作。
PCT/CN2017/119535 2016-12-29 2017-12-28 对象属性检测、神经网络训练、区域检测方法和装置 WO2018121690A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201611246395.9A CN108229267B (zh) 2016-12-29 2016-12-29 对象属性检测、神经网络训练、区域检测方法和装置
CN201611246395.9 2016-12-29

Publications (1)

Publication Number Publication Date
WO2018121690A1 true WO2018121690A1 (zh) 2018-07-05

Family

ID=62657290

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/119535 WO2018121690A1 (zh) 2016-12-29 2017-12-28 对象属性检测、神经网络训练、区域检测方法和装置

Country Status (2)

Country Link
CN (1) CN108229267B (zh)
WO (1) WO2018121690A1 (zh)

Cited By (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046632A (zh) * 2018-11-09 2019-07-23 阿里巴巴集团控股有限公司 模型训练方法和装置
CN110059721A (zh) * 2019-03-16 2019-07-26 平安城市建设科技(深圳)有限公司 户型图区域识别方法、装置、设备及计算机可读存储介质
CN110443222A (zh) * 2019-08-14 2019-11-12 北京百度网讯科技有限公司 用于训练脸部关键点检测模型的方法和装置
CN110458829A (zh) * 2019-08-13 2019-11-15 腾讯医疗健康(深圳)有限公司 基于人工智能的图像质控方法、装置、设备及存储介质
CN110766152A (zh) * 2018-07-27 2020-02-07 富士通株式会社 用于训练深度神经网络的方法和装置
CN110766129A (zh) * 2018-07-27 2020-02-07 杭州海康威视数字技术股份有限公司 一种神经网络训练系统及显示数据的方法
CN110969173A (zh) * 2018-09-28 2020-04-07 杭州海康威视数字技术股份有限公司 目标分类方法及装置
CN110969657A (zh) * 2018-09-29 2020-04-07 杭州海康威视数字技术股份有限公司 一种枪球坐标关联方法、装置、电子设备及存储介质
CN111160429A (zh) * 2019-12-17 2020-05-15 平安银行股份有限公司 图像检测模型的训练方法、图像检测方法、装置及设备
CN111191526A (zh) * 2019-12-16 2020-05-22 汇纳科技股份有限公司 行人属性识别网络训练方法、系统、介质及终端
CN111242951A (zh) * 2020-01-08 2020-06-05 上海眼控科技股份有限公司 车辆检测方法、装置、计算机设备和存储介质
CN111241869A (zh) * 2018-11-28 2020-06-05 杭州海康威视数字技术股份有限公司 物料盘点的方法、装置及计算机可读存储介质
CN111259763A (zh) * 2020-01-13 2020-06-09 华雁智能科技(集团)股份有限公司 目标检测方法、装置、电子设备及可读存储介质
CN111259701A (zh) * 2018-12-03 2020-06-09 杭州海康威视数字技术股份有限公司 行人再识别方法、装置及电子设备
CN111292331A (zh) * 2020-02-23 2020-06-16 华为技术有限公司 图像处理的方法与装置
CN111291597A (zh) * 2018-12-07 2020-06-16 杭州海康威视数字技术股份有限公司 一种基于图像的人群态势分析方法、装置、设备及系统
CN111310775A (zh) * 2018-12-11 2020-06-19 Tcl集团股份有限公司 数据训练方法、装置、终端设备及计算机可读存储介质
CN111340090A (zh) * 2020-02-21 2020-06-26 浙江每日互动网络科技股份有限公司 图像特征比对方法及装置、设备、计算机可读存储介质
CN111357014A (zh) * 2018-09-19 2020-06-30 华为技术有限公司 一种ai模型的开发方法及装置
CN111368923A (zh) * 2020-03-05 2020-07-03 上海商汤智能科技有限公司 神经网络训练方法及装置、电子设备和存储介质
CN111428671A (zh) * 2020-03-31 2020-07-17 杭州博雅鸿图视频技术有限公司 人脸结构化信息识别方法、系统、装置及存储介质
CN111428536A (zh) * 2019-01-09 2020-07-17 北京京东尚科信息技术有限公司 用于检测物品类别和位置的检测网络的训练方法和装置
CN111435432A (zh) * 2019-01-15 2020-07-21 北京市商汤科技开发有限公司 网络优化方法及装置、图像处理方法及装置、存储介质
CN111435364A (zh) * 2019-01-14 2020-07-21 阿里巴巴集团控股有限公司 电子病历质检方法和装置
CN111444749A (zh) * 2019-01-17 2020-07-24 杭州海康威视数字技术股份有限公司 路面导向标志的识别方法、装置及存储介质
CN111459675A (zh) * 2020-03-31 2020-07-28 拉扎斯网络科技(上海)有限公司 一种数据处理方法、装置、可读存储介质和电子设备
CN111507958A (zh) * 2020-04-15 2020-08-07 全球能源互联网研究院有限公司 目标检测方法、检测模型的训练方法及电子设备
CN111523600A (zh) * 2020-04-26 2020-08-11 上海商汤临港智能科技有限公司 神经网络训练、目标检测、及智能设备控制的方法及装置
CN111539452A (zh) * 2020-03-26 2020-08-14 深圳云天励飞技术有限公司 多任务属性的图像识别方法、装置、电子设备及存储介质
CN111539947A (zh) * 2020-04-30 2020-08-14 上海商汤智能科技有限公司 图像检测方法及相关模型的训练方法和相关装置、设备
CN111539481A (zh) * 2020-04-28 2020-08-14 北京市商汤科技开发有限公司 图像标注方法、装置、电子设备及存储介质
CN111582107A (zh) * 2020-04-28 2020-08-25 浙江大华技术股份有限公司 目标重识别模型的训练方法、识别方法、电子设备及装置
CN111598902A (zh) * 2020-05-20 2020-08-28 北京字节跳动网络技术有限公司 图像分割方法、装置、电子设备及计算机可读介质
CN111612732A (zh) * 2020-04-02 2020-09-01 深圳大学 图像质量评估方法、装置、计算机设备及存储介质
CN111832368A (zh) * 2019-04-23 2020-10-27 长沙智能驾驶研究院有限公司 可行驶区域检测模型的训练方法、训练装置及应用
CN111860573A (zh) * 2020-06-04 2020-10-30 北京迈格威科技有限公司 模型训练方法、图像类别检测方法、装置和电子设备
CN111967597A (zh) * 2020-08-18 2020-11-20 上海商汤临港智能科技有限公司 神经网络训练及图像分类方法、装置、存储介质、设备
CN112016630A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 基于图像分类模型的训练方法、装置、设备及存储介质
CN112101282A (zh) * 2020-09-25 2020-12-18 北京瞰天科技有限公司 水上目标识别方法、装置及电子设备和存储介质
CN112101169A (zh) * 2020-09-08 2020-12-18 平安科技(深圳)有限公司 基于注意力机制的道路图像目标检测方法及相关设备
CN112163545A (zh) * 2020-10-12 2021-01-01 北京易华录信息技术股份有限公司 一种头部特征提取方法、装置、电子设备及存储介质
CN112184635A (zh) * 2020-09-10 2021-01-05 上海商汤智能科技有限公司 目标检测方法、装置、存储介质及设备
CN112257604A (zh) * 2020-10-23 2021-01-22 北京百度网讯科技有限公司 图像检测方法、装置、电子设备和存储介质
CN112307850A (zh) * 2019-08-01 2021-02-02 浙江商汤科技开发有限公司 神经网络训练方法、车道线检测方法、装置和电子设备
CN112418261A (zh) * 2020-09-17 2021-02-26 电子科技大学 一种基于先验原型注意力机制的人体图像多属性分类方法
CN112464785A (zh) * 2020-11-25 2021-03-09 浙江大华技术股份有限公司 一种目标检测方法、装置、计算机设备及存储介质
CN112487226A (zh) * 2020-11-06 2021-03-12 北京三快在线科技有限公司 图片分类模型获取方法、装置、电子设备及可读存储介质
CN112528995A (zh) * 2020-12-22 2021-03-19 北京百度网讯科技有限公司 用于训练目标检测模型的方法、目标检测方法及装置
CN112529839A (zh) * 2020-11-05 2021-03-19 西安交通大学 一种核磁共振图像中颈动脉血管中心线的提取方法及系统
CN112614117A (zh) * 2020-12-28 2021-04-06 广州绿怡信息科技有限公司 设备区域提取模型训练方法、设备区域提取方法及装置
CN112700002A (zh) * 2020-12-23 2021-04-23 北京三快在线科技有限公司 图神经网络的训练方法、装置、电子设备及可读存储介质
CN112712088A (zh) * 2020-12-31 2021-04-27 洛阳语音云创新研究院 动物膘情检测方法、装置及计算机可读存储介质
CN112733578A (zh) * 2019-10-28 2021-04-30 普天信息技术有限公司 车辆重识别方法及系统
CN112749609A (zh) * 2020-07-23 2021-05-04 腾讯科技(深圳)有限公司 人体图像分割方法、装置、计算机设备及存储介质
CN112861858A (zh) * 2021-02-19 2021-05-28 首都师范大学 显著性真值图的生成方法及显著性检测模型的训练方法
CN112906651A (zh) * 2021-03-25 2021-06-04 中国联合网络通信集团有限公司 目标检测方法及装置
CN112906685A (zh) * 2021-03-04 2021-06-04 重庆赛迪奇智人工智能科技有限公司 一种目标检测方法、装置、电子设备及存储介质
CN112925938A (zh) * 2021-01-28 2021-06-08 上海商汤智能科技有限公司 一种图像标注方法、装置、电子设备及存储介质
CN112949767A (zh) * 2021-04-07 2021-06-11 北京百度网讯科技有限公司 样本图像增量、图像检测模型训练及图像检测方法
CN113012176A (zh) * 2021-03-17 2021-06-22 北京百度网讯科技有限公司 样本图像的处理方法、装置、电子设备及存储介质
CN113052175A (zh) * 2021-03-26 2021-06-29 北京百度网讯科技有限公司 目标检测方法、装置、电子设备及可读存储介质
CN113454649A (zh) * 2021-06-17 2021-09-28 商汤国际私人有限公司 目标检测方法、装置、电子设备和计算机可读存储介质
CN113469121A (zh) * 2021-07-21 2021-10-01 浙江大华技术股份有限公司 一种车辆状态的识别方法及装置
CN113516013A (zh) * 2021-04-09 2021-10-19 阿波罗智联(北京)科技有限公司 目标检测方法、装置、电子设备、路侧设备和云控平台
CN113516144A (zh) * 2020-12-01 2021-10-19 阿里巴巴集团控股有限公司 目标检测方法及装置、计算设备
CN113573044A (zh) * 2021-01-19 2021-10-29 腾讯科技(深圳)有限公司 视频数据处理方法、装置、计算机设备及可读存储介质
CN113642431A (zh) * 2021-07-29 2021-11-12 北京百度网讯科技有限公司 目标检测模型的训练方法及装置、电子设备和存储介质
CN113688933A (zh) * 2019-01-18 2021-11-23 北京市商汤科技开发有限公司 分类网络的训练方法及分类方法和装置、电子设备
CN113723159A (zh) * 2021-02-26 2021-11-30 腾讯科技(深圳)有限公司 场景识别模型训练方法、场景识别方法及模型训练装置
CN113742562A (zh) * 2020-05-27 2021-12-03 北京达佳互联信息技术有限公司 视频推荐方法、装置、电子设备及存储介质
CN113743535A (zh) * 2019-05-21 2021-12-03 北京市商汤科技开发有限公司 神经网络训练方法及装置以及图像处理方法及装置
CN113822111A (zh) * 2021-01-19 2021-12-21 北京京东振世信息技术有限公司 人群检测模型训练方法、装置以及人群计数方法、装置
CN113902999A (zh) * 2021-09-24 2022-01-07 青岛海信网络科技股份有限公司 一种跟踪方法、装置、设备及介质
CN113947189A (zh) * 2021-10-14 2022-01-18 北京百度网讯科技有限公司 图像生成模型的训练方法、装置、电子设备及存储介质
CN113963249A (zh) * 2021-10-29 2022-01-21 山东大学 一种星系图像的检测方法和系统
CN113989772A (zh) * 2021-10-27 2022-01-28 广州小鹏自动驾驶科技有限公司 一种交通灯检测方法、装置、车辆和可读存储介质
CN114387649A (zh) * 2022-01-11 2022-04-22 北京百度网讯科技有限公司 图像处理方法、装置、电子设备以及存储介质
CN114571472A (zh) * 2020-12-01 2022-06-03 北京小米移动软件有限公司 用于足式机器人的地面属性检测方法及驱动方法及其装置
CN114764919A (zh) * 2021-01-14 2022-07-19 郑州信大先进技术研究院 一种基于深度学习的行人属性识别方法
CN115690639A (zh) * 2021-07-30 2023-02-03 海信集团控股股份有限公司 一种图像处理的方法及装置
CN109800654B (zh) * 2018-12-24 2023-04-07 百度在线网络技术(北京)有限公司 车载摄像头检测处理方法、装置及车辆
CN111414930B (zh) * 2019-01-07 2023-10-27 中国移动通信有限公司研究院 深度学习模型训练方法及装置、电子设备及存储介质
CN117037218A (zh) * 2023-10-08 2023-11-10 腾讯科技(深圳)有限公司 对象属性识别方法、相关装置、设备和介质
CN118587746A (zh) * 2024-08-06 2024-09-03 浙江大华技术股份有限公司 人体目标检测方法、装置、计算机设备和存储介质

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689030A (zh) * 2018-07-04 2020-01-14 佳能株式会社 属性识别装置和方法及存储介质
CN108875076B (zh) * 2018-07-10 2021-07-20 重庆大学 一种基于Attention机制和卷积神经网络的快速商标图像检索方法
CN109376757B (zh) * 2018-09-06 2020-09-08 苏州飞搜科技有限公司 一种多标签分类方法及系统
CN111103629A (zh) * 2018-10-25 2020-05-05 杭州海康威视数字技术股份有限公司 一种目标检测方法、装置、nvr设备及安检系统
CN111325052A (zh) * 2018-12-13 2020-06-23 北京嘀嘀无限科技发展有限公司 一种目标检测方法及装置
CN109886072B (zh) * 2018-12-25 2021-02-26 中国科学院自动化研究所 基于双向Ladder结构的人脸属性分类系统
CN111382734B (zh) * 2018-12-29 2022-08-23 阿里巴巴集团控股有限公司 电话号码的检测及识别方法、装置及存储介质
CN111435452B (zh) * 2019-01-11 2023-11-03 百度在线网络技术(北京)有限公司 模型训练方法、装置、设备和介质
CN110069997B (zh) * 2019-03-22 2021-07-20 北京字节跳动网络技术有限公司 场景分类方法、装置及电子设备
CN110059577B (zh) * 2019-03-26 2022-02-18 北京迈格威科技有限公司 行人属性信息提取方法及装置
CN111753857B (zh) * 2019-03-26 2024-08-02 北京地平线机器人技术研发有限公司 一种应用于目标物的自动分类的模型训练方法、装置及电子设备
CN112001211B (zh) * 2019-05-27 2024-04-19 商汤集团有限公司 对象检测方法、装置、设备及计算机可读存储介质
CN110210561B (zh) * 2019-05-31 2022-04-01 北京市商汤科技开发有限公司 神经网络的训练方法、目标检测方法及装置、存储介质
CN110338835B (zh) * 2019-07-02 2023-04-18 深圳安科高技术股份有限公司 一种智能扫描立体监测方法及系统
CN110378895A (zh) * 2019-07-25 2019-10-25 山东浪潮人工智能研究院有限公司 一种基于深度注意力学习的乳腺癌图像识别方法
CN110458077B (zh) * 2019-08-05 2022-05-03 高新兴科技集团股份有限公司 一种车辆颜色识别方法及系统
EP3779799A1 (en) * 2019-08-14 2021-02-17 Robert Bosch GmbH Method and system for reliable classification using a neural network
CN110738211B (zh) * 2019-10-17 2024-09-03 腾讯科技(深圳)有限公司 一种对象检测的方法、相关装置以及设备
CN112836549B (zh) * 2019-11-22 2024-07-26 虹软科技股份有限公司 用户信息的检测方法及系统、电子设备
CN111144313A (zh) * 2019-12-27 2020-05-12 创新奇智(青岛)科技有限公司 一种基于多感受野动态结合的人脸检测方法及系统
CN111274945B (zh) * 2020-01-19 2023-08-08 北京百度网讯科技有限公司 一种行人属性的识别方法、装置、电子设备和存储介质
CN111401359A (zh) * 2020-02-25 2020-07-10 北京三快在线科技有限公司 目标识别方法、装置、电子设备和存储介质
CN111510752B (zh) * 2020-06-18 2021-04-23 平安国际智慧城市科技股份有限公司 数据传输方法、装置、服务器及存储介质
CN111753702A (zh) * 2020-06-18 2020-10-09 上海高德威智能交通系统有限公司 目标检测方法、装置及设备
CN112152821B (zh) * 2020-09-23 2023-03-28 青岛海尔科技有限公司 定向通信方法和装置、存储介质及电子设备
CN113065592B (zh) * 2021-03-31 2025-02-25 上海商汤智能科技有限公司 图像分类方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101419671A (zh) * 2008-11-10 2009-04-29 北方工业大学 基于模糊支持向量机的人脸性别识别方法
CN102880859A (zh) * 2012-08-30 2013-01-16 华南理工大学 一种车牌识别方法
CN104134079A (zh) * 2014-07-31 2014-11-05 中国科学院自动化研究所 一种基于极值区域和极限学习机的车牌识别方法
CN105512676A (zh) * 2015-11-30 2016-04-20 华南理工大学 一种智能终端上的食物识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107408196B (zh) * 2014-12-19 2021-03-19 顶级公司 从图像中提取特征的方法
CN105447529B (zh) * 2015-12-30 2020-11-03 商汤集团有限公司 一种服饰检测及其属性值识别的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101419671A (zh) * 2008-11-10 2009-04-29 北方工业大学 基于模糊支持向量机的人脸性别识别方法
CN102880859A (zh) * 2012-08-30 2013-01-16 华南理工大学 一种车牌识别方法
CN104134079A (zh) * 2014-07-31 2014-11-05 中国科学院自动化研究所 一种基于极值区域和极限学习机的车牌识别方法
CN105512676A (zh) * 2015-11-30 2016-04-20 华南理工大学 一种智能终端上的食物识别方法

Cited By (140)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766152B (zh) * 2018-07-27 2023-08-04 富士通株式会社 用于训练深度神经网络的方法和装置
CN110766152A (zh) * 2018-07-27 2020-02-07 富士通株式会社 用于训练深度神经网络的方法和装置
CN110766129A (zh) * 2018-07-27 2020-02-07 杭州海康威视数字技术股份有限公司 一种神经网络训练系统及显示数据的方法
CN111357014A (zh) * 2018-09-19 2020-06-30 华为技术有限公司 一种ai模型的开发方法及装置
CN110969173B (zh) * 2018-09-28 2023-10-24 杭州海康威视数字技术股份有限公司 目标分类方法及装置
CN110969173A (zh) * 2018-09-28 2020-04-07 杭州海康威视数字技术股份有限公司 目标分类方法及装置
CN110969657B (zh) * 2018-09-29 2023-11-03 杭州海康威视数字技术股份有限公司 一种枪球坐标关联方法、装置、电子设备及存储介质
CN110969657A (zh) * 2018-09-29 2020-04-07 杭州海康威视数字技术股份有限公司 一种枪球坐标关联方法、装置、电子设备及存储介质
CN110046632A (zh) * 2018-11-09 2019-07-23 阿里巴巴集团控股有限公司 模型训练方法和装置
CN110046632B (zh) * 2018-11-09 2023-06-02 创新先进技术有限公司 模型训练方法和装置
CN111241869B (zh) * 2018-11-28 2024-04-02 杭州海康威视数字技术股份有限公司 物料盘点的方法、装置及计算机可读存储介质
CN111241869A (zh) * 2018-11-28 2020-06-05 杭州海康威视数字技术股份有限公司 物料盘点的方法、装置及计算机可读存储介质
CN111259701B (zh) * 2018-12-03 2023-04-25 杭州海康威视数字技术股份有限公司 行人再识别方法、装置及电子设备
CN111259701A (zh) * 2018-12-03 2020-06-09 杭州海康威视数字技术股份有限公司 行人再识别方法、装置及电子设备
CN111291597B (zh) * 2018-12-07 2023-10-13 杭州海康威视数字技术股份有限公司 一种基于图像的人群态势分析方法、装置、设备及系统
CN111291597A (zh) * 2018-12-07 2020-06-16 杭州海康威视数字技术股份有限公司 一种基于图像的人群态势分析方法、装置、设备及系统
CN111310775A (zh) * 2018-12-11 2020-06-19 Tcl集团股份有限公司 数据训练方法、装置、终端设备及计算机可读存储介质
CN111310775B (zh) * 2018-12-11 2023-08-25 Tcl科技集团股份有限公司 数据训练方法、装置、终端设备及计算机可读存储介质
CN109800654B (zh) * 2018-12-24 2023-04-07 百度在线网络技术(北京)有限公司 车载摄像头检测处理方法、装置及车辆
CN111414930B (zh) * 2019-01-07 2023-10-27 中国移动通信有限公司研究院 深度学习模型训练方法及装置、电子设备及存储介质
CN111428536B (zh) * 2019-01-09 2024-04-19 北京京东乾石科技有限公司 用于检测物品类别和位置的检测网络的训练方法和装置
CN111428536A (zh) * 2019-01-09 2020-07-17 北京京东尚科信息技术有限公司 用于检测物品类别和位置的检测网络的训练方法和装置
CN111435364A (zh) * 2019-01-14 2020-07-21 阿里巴巴集团控股有限公司 电子病历质检方法和装置
CN111435364B (zh) * 2019-01-14 2023-04-18 阿里巴巴集团控股有限公司 电子病历质检方法和装置
CN111435432A (zh) * 2019-01-15 2020-07-21 北京市商汤科技开发有限公司 网络优化方法及装置、图像处理方法及装置、存储介质
CN111435432B (zh) * 2019-01-15 2023-05-26 北京市商汤科技开发有限公司 网络优化方法及装置、图像处理方法及装置、存储介质
CN111444749B (zh) * 2019-01-17 2023-09-01 杭州海康威视数字技术股份有限公司 路面导向标志的识别方法、装置及存储介质
CN111444749A (zh) * 2019-01-17 2020-07-24 杭州海康威视数字技术股份有限公司 路面导向标志的识别方法、装置及存储介质
CN113688933B (zh) * 2019-01-18 2024-05-24 北京市商汤科技开发有限公司 分类网络的训练方法及分类方法和装置、电子设备
CN113688933A (zh) * 2019-01-18 2021-11-23 北京市商汤科技开发有限公司 分类网络的训练方法及分类方法和装置、电子设备
CN110059721A (zh) * 2019-03-16 2019-07-26 平安城市建设科技(深圳)有限公司 户型图区域识别方法、装置、设备及计算机可读存储介质
CN111832368A (zh) * 2019-04-23 2020-10-27 长沙智能驾驶研究院有限公司 可行驶区域检测模型的训练方法、训练装置及应用
CN113743535B (zh) * 2019-05-21 2024-05-24 北京市商汤科技开发有限公司 神经网络训练方法及装置以及图像处理方法及装置
CN113743535A (zh) * 2019-05-21 2021-12-03 北京市商汤科技开发有限公司 神经网络训练方法及装置以及图像处理方法及装置
CN112307850A (zh) * 2019-08-01 2021-02-02 浙江商汤科技开发有限公司 神经网络训练方法、车道线检测方法、装置和电子设备
CN110458829A (zh) * 2019-08-13 2019-11-15 腾讯医疗健康(深圳)有限公司 基于人工智能的图像质控方法、装置、设备及存储介质
CN110458829B (zh) * 2019-08-13 2024-01-30 腾讯医疗健康(深圳)有限公司 基于人工智能的图像质控方法、装置、设备及存储介质
CN110443222B (zh) * 2019-08-14 2022-09-09 北京百度网讯科技有限公司 用于训练脸部关键点检测模型的方法和装置
CN110443222A (zh) * 2019-08-14 2019-11-12 北京百度网讯科技有限公司 用于训练脸部关键点检测模型的方法和装置
CN112733578A (zh) * 2019-10-28 2021-04-30 普天信息技术有限公司 车辆重识别方法及系统
CN112733578B (zh) * 2019-10-28 2024-05-24 普天信息技术有限公司 车辆重识别方法及系统
CN111191526A (zh) * 2019-12-16 2020-05-22 汇纳科技股份有限公司 行人属性识别网络训练方法、系统、介质及终端
CN111191526B (zh) * 2019-12-16 2023-10-10 汇纳科技股份有限公司 行人属性识别网络训练方法、系统、介质及终端
CN111160429A (zh) * 2019-12-17 2020-05-15 平安银行股份有限公司 图像检测模型的训练方法、图像检测方法、装置及设备
CN111160429B (zh) * 2019-12-17 2023-09-05 平安银行股份有限公司 图像检测模型的训练方法、图像检测方法、装置及设备
CN111242951A (zh) * 2020-01-08 2020-06-05 上海眼控科技股份有限公司 车辆检测方法、装置、计算机设备和存储介质
CN111259763B (zh) * 2020-01-13 2024-02-02 华雁智能科技(集团)股份有限公司 目标检测方法、装置、电子设备及可读存储介质
CN111259763A (zh) * 2020-01-13 2020-06-09 华雁智能科技(集团)股份有限公司 目标检测方法、装置、电子设备及可读存储介质
CN111340090A (zh) * 2020-02-21 2020-06-26 浙江每日互动网络科技股份有限公司 图像特征比对方法及装置、设备、计算机可读存储介质
CN111340090B (zh) * 2020-02-21 2023-08-01 每日互动股份有限公司 图像特征比对方法及装置、设备、计算机可读存储介质
CN111292331B (zh) * 2020-02-23 2023-09-12 华为云计算技术有限公司 图像处理的方法与装置
CN111292331A (zh) * 2020-02-23 2020-06-16 华为技术有限公司 图像处理的方法与装置
CN111368923A (zh) * 2020-03-05 2020-07-03 上海商汤智能科技有限公司 神经网络训练方法及装置、电子设备和存储介质
CN111368923B (zh) * 2020-03-05 2023-12-19 上海商汤智能科技有限公司 神经网络训练方法及装置、电子设备和存储介质
CN111539452B (zh) * 2020-03-26 2024-03-26 深圳云天励飞技术有限公司 多任务属性的图像识别方法、装置、电子设备及存储介质
CN111539452A (zh) * 2020-03-26 2020-08-14 深圳云天励飞技术有限公司 多任务属性的图像识别方法、装置、电子设备及存储介质
CN111459675B (zh) * 2020-03-31 2023-09-15 拉扎斯网络科技(上海)有限公司 一种数据处理方法、装置、可读存储介质和电子设备
CN111428671A (zh) * 2020-03-31 2020-07-17 杭州博雅鸿图视频技术有限公司 人脸结构化信息识别方法、系统、装置及存储介质
CN111459675A (zh) * 2020-03-31 2020-07-28 拉扎斯网络科技(上海)有限公司 一种数据处理方法、装置、可读存储介质和电子设备
CN111612732A (zh) * 2020-04-02 2020-09-01 深圳大学 图像质量评估方法、装置、计算机设备及存储介质
CN111612732B (zh) * 2020-04-02 2023-07-18 深圳大学 图像质量评估方法、装置、计算机设备及存储介质
CN111507958B (zh) * 2020-04-15 2023-05-26 全球能源互联网研究院有限公司 目标检测方法、检测模型的训练方法及电子设备
CN111507958A (zh) * 2020-04-15 2020-08-07 全球能源互联网研究院有限公司 目标检测方法、检测模型的训练方法及电子设备
CN111523600B (zh) * 2020-04-26 2023-12-19 上海商汤临港智能科技有限公司 神经网络训练、目标检测、及智能设备控制的方法及装置
CN111523600A (zh) * 2020-04-26 2020-08-11 上海商汤临港智能科技有限公司 神经网络训练、目标检测、及智能设备控制的方法及装置
CN111582107B (zh) * 2020-04-28 2023-09-29 浙江大华技术股份有限公司 目标重识别模型的训练方法、识别方法、电子设备及装置
CN111539481A (zh) * 2020-04-28 2020-08-14 北京市商汤科技开发有限公司 图像标注方法、装置、电子设备及存储介质
CN111582107A (zh) * 2020-04-28 2020-08-25 浙江大华技术股份有限公司 目标重识别模型的训练方法、识别方法、电子设备及装置
CN111539481B (zh) * 2020-04-28 2024-03-08 北京市商汤科技开发有限公司 图像标注方法、装置、电子设备及存储介质
CN111539947B (zh) * 2020-04-30 2024-03-29 上海商汤智能科技有限公司 图像检测方法及相关模型的训练方法和相关装置、设备
CN111539947A (zh) * 2020-04-30 2020-08-14 上海商汤智能科技有限公司 图像检测方法及相关模型的训练方法和相关装置、设备
CN111598902B (zh) * 2020-05-20 2023-05-30 抖音视界有限公司 图像分割方法、装置、电子设备及计算机可读介质
CN111598902A (zh) * 2020-05-20 2020-08-28 北京字节跳动网络技术有限公司 图像分割方法、装置、电子设备及计算机可读介质
CN113742562A (zh) * 2020-05-27 2021-12-03 北京达佳互联信息技术有限公司 视频推荐方法、装置、电子设备及存储介质
CN113742562B (zh) * 2020-05-27 2023-10-10 北京达佳互联信息技术有限公司 视频推荐方法、装置、电子设备及存储介质
CN111860573A (zh) * 2020-06-04 2020-10-30 北京迈格威科技有限公司 模型训练方法、图像类别检测方法、装置和电子设备
CN111860573B (zh) * 2020-06-04 2024-05-10 北京迈格威科技有限公司 模型训练方法、图像类别检测方法、装置和电子设备
CN112749609A (zh) * 2020-07-23 2021-05-04 腾讯科技(深圳)有限公司 人体图像分割方法、装置、计算机设备及存储介质
CN112749609B (zh) * 2020-07-23 2024-03-19 腾讯科技(深圳)有限公司 人体图像分割方法、装置、计算机设备及存储介质
CN111967597A (zh) * 2020-08-18 2020-11-20 上海商汤临港智能科技有限公司 神经网络训练及图像分类方法、装置、存储介质、设备
CN112016630A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 基于图像分类模型的训练方法、装置、设备及存储介质
CN112016630B (zh) * 2020-09-03 2024-03-19 平安科技(深圳)有限公司 基于图像分类模型的训练方法、装置、设备及存储介质
CN112101169B (zh) * 2020-09-08 2024-04-05 平安科技(深圳)有限公司 基于注意力机制的道路图像目标检测方法及相关设备
CN112101169A (zh) * 2020-09-08 2020-12-18 平安科技(深圳)有限公司 基于注意力机制的道路图像目标检测方法及相关设备
CN112184635A (zh) * 2020-09-10 2021-01-05 上海商汤智能科技有限公司 目标检测方法、装置、存储介质及设备
CN112418261A (zh) * 2020-09-17 2021-02-26 电子科技大学 一种基于先验原型注意力机制的人体图像多属性分类方法
CN112101282A (zh) * 2020-09-25 2020-12-18 北京瞰天科技有限公司 水上目标识别方法、装置及电子设备和存储介质
CN112101282B (zh) * 2020-09-25 2024-04-26 北京瞰天科技有限公司 水上目标识别方法、装置及电子设备和存储介质
CN112163545A (zh) * 2020-10-12 2021-01-01 北京易华录信息技术股份有限公司 一种头部特征提取方法、装置、电子设备及存储介质
CN112257604A (zh) * 2020-10-23 2021-01-22 北京百度网讯科技有限公司 图像检测方法、装置、电子设备和存储介质
CN112529839B (zh) * 2020-11-05 2023-05-02 西安交通大学 一种核磁共振图像中颈动脉血管中心线的提取方法及系统
CN112529839A (zh) * 2020-11-05 2021-03-19 西安交通大学 一种核磁共振图像中颈动脉血管中心线的提取方法及系统
CN112487226A (zh) * 2020-11-06 2021-03-12 北京三快在线科技有限公司 图片分类模型获取方法、装置、电子设备及可读存储介质
CN112464785A (zh) * 2020-11-25 2021-03-09 浙江大华技术股份有限公司 一种目标检测方法、装置、计算机设备及存储介质
CN113516144A (zh) * 2020-12-01 2021-10-19 阿里巴巴集团控股有限公司 目标检测方法及装置、计算设备
CN114571472B (zh) * 2020-12-01 2024-01-23 北京小米机器人技术有限公司 用于足式机器人的地面属性检测方法及驱动方法及其装置
CN114571472A (zh) * 2020-12-01 2022-06-03 北京小米移动软件有限公司 用于足式机器人的地面属性检测方法及驱动方法及其装置
CN112528995B (zh) * 2020-12-22 2023-08-04 北京百度网讯科技有限公司 用于训练目标检测模型的方法、目标检测方法及装置
CN112528995A (zh) * 2020-12-22 2021-03-19 北京百度网讯科技有限公司 用于训练目标检测模型的方法、目标检测方法及装置
CN112700002A (zh) * 2020-12-23 2021-04-23 北京三快在线科技有限公司 图神经网络的训练方法、装置、电子设备及可读存储介质
CN112614117A (zh) * 2020-12-28 2021-04-06 广州绿怡信息科技有限公司 设备区域提取模型训练方法、设备区域提取方法及装置
CN112712088A (zh) * 2020-12-31 2021-04-27 洛阳语音云创新研究院 动物膘情检测方法、装置及计算机可读存储介质
CN112712088B (zh) * 2020-12-31 2023-02-14 洛阳语音云创新研究院 动物膘情检测方法、装置及计算机可读存储介质
CN114764919A (zh) * 2021-01-14 2022-07-19 郑州信大先进技术研究院 一种基于深度学习的行人属性识别方法
CN113822111B (zh) * 2021-01-19 2024-05-24 北京京东振世信息技术有限公司 人群检测模型训练方法、装置以及人群计数方法、装置
CN113573044A (zh) * 2021-01-19 2021-10-29 腾讯科技(深圳)有限公司 视频数据处理方法、装置、计算机设备及可读存储介质
CN113573044B (zh) * 2021-01-19 2022-12-09 腾讯科技(深圳)有限公司 视频数据处理方法、装置、计算机设备及可读存储介质
CN113822111A (zh) * 2021-01-19 2021-12-21 北京京东振世信息技术有限公司 人群检测模型训练方法、装置以及人群计数方法、装置
CN112925938A (zh) * 2021-01-28 2021-06-08 上海商汤智能科技有限公司 一种图像标注方法、装置、电子设备及存储介质
CN112861858B (zh) * 2021-02-19 2024-06-07 北京龙翼风科技有限公司 显著性真值图的生成方法及显著性检测模型的训练方法
CN112861858A (zh) * 2021-02-19 2021-05-28 首都师范大学 显著性真值图的生成方法及显著性检测模型的训练方法
CN113723159A (zh) * 2021-02-26 2021-11-30 腾讯科技(深圳)有限公司 场景识别模型训练方法、场景识别方法及模型训练装置
CN112906685A (zh) * 2021-03-04 2021-06-04 重庆赛迪奇智人工智能科技有限公司 一种目标检测方法、装置、电子设备及存储介质
CN112906685B (zh) * 2021-03-04 2024-03-26 重庆赛迪奇智人工智能科技有限公司 一种目标检测方法、装置、电子设备及存储介质
CN113012176B (zh) * 2021-03-17 2023-12-15 阿波罗智联(北京)科技有限公司 样本图像的处理方法、装置、电子设备及存储介质
CN113012176A (zh) * 2021-03-17 2021-06-22 北京百度网讯科技有限公司 样本图像的处理方法、装置、电子设备及存储介质
CN112906651B (zh) * 2021-03-25 2023-07-11 中国联合网络通信集团有限公司 目标检测方法及装置
CN112906651A (zh) * 2021-03-25 2021-06-04 中国联合网络通信集团有限公司 目标检测方法及装置
CN113052175A (zh) * 2021-03-26 2021-06-29 北京百度网讯科技有限公司 目标检测方法、装置、电子设备及可读存储介质
CN113052175B (zh) * 2021-03-26 2024-03-29 北京百度网讯科技有限公司 目标检测方法、装置、电子设备及可读存储介质
CN112949767B (zh) * 2021-04-07 2023-08-11 北京百度网讯科技有限公司 样本图像增量、图像检测模型训练及图像检测方法
CN112949767A (zh) * 2021-04-07 2021-06-11 北京百度网讯科技有限公司 样本图像增量、图像检测模型训练及图像检测方法
CN113516013A (zh) * 2021-04-09 2021-10-19 阿波罗智联(北京)科技有限公司 目标检测方法、装置、电子设备、路侧设备和云控平台
CN113516013B (zh) * 2021-04-09 2024-05-14 阿波罗智联(北京)科技有限公司 目标检测方法、装置、电子设备、路侧设备和云控平台
CN113454649B (zh) * 2021-06-17 2024-05-24 商汤国际私人有限公司 目标检测方法、装置、电子设备和计算机可读存储介质
CN113454649A (zh) * 2021-06-17 2021-09-28 商汤国际私人有限公司 目标检测方法、装置、电子设备和计算机可读存储介质
CN113469121A (zh) * 2021-07-21 2021-10-01 浙江大华技术股份有限公司 一种车辆状态的识别方法及装置
CN113642431A (zh) * 2021-07-29 2021-11-12 北京百度网讯科技有限公司 目标检测模型的训练方法及装置、电子设备和存储介质
CN113642431B (zh) * 2021-07-29 2024-02-06 北京百度网讯科技有限公司 目标检测模型的训练方法及装置、电子设备和存储介质
CN115690639B (zh) * 2021-07-30 2025-08-15 海信集团控股股份有限公司 一种图像处理的方法及装置
CN115690639A (zh) * 2021-07-30 2023-02-03 海信集团控股股份有限公司 一种图像处理的方法及装置
CN113902999A (zh) * 2021-09-24 2022-01-07 青岛海信网络科技股份有限公司 一种跟踪方法、装置、设备及介质
CN113947189A (zh) * 2021-10-14 2022-01-18 北京百度网讯科技有限公司 图像生成模型的训练方法、装置、电子设备及存储介质
CN113989772A (zh) * 2021-10-27 2022-01-28 广州小鹏自动驾驶科技有限公司 一种交通灯检测方法、装置、车辆和可读存储介质
CN113963249B (zh) * 2021-10-29 2024-04-09 山东大学 一种星系图像的检测方法和系统
CN113963249A (zh) * 2021-10-29 2022-01-21 山东大学 一种星系图像的检测方法和系统
CN114387649A (zh) * 2022-01-11 2022-04-22 北京百度网讯科技有限公司 图像处理方法、装置、电子设备以及存储介质
CN117037218A (zh) * 2023-10-08 2023-11-10 腾讯科技(深圳)有限公司 对象属性识别方法、相关装置、设备和介质
CN117037218B (zh) * 2023-10-08 2024-03-15 腾讯科技(深圳)有限公司 对象属性识别方法、相关装置、设备和介质
CN118587746A (zh) * 2024-08-06 2024-09-03 浙江大华技术股份有限公司 人体目标检测方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN108229267B (zh) 2020-10-16
CN108229267A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
WO2018121690A1 (zh) 对象属性检测、神经网络训练、区域检测方法和装置
Xu et al. Investigating bias and fairness in facial expression recognition
US11270124B1 (en) Temporal bottleneck attention architecture for video action recognition
EP3767536B1 (en) Latent code for unsupervised domain adaptation
CN112990432B (zh) 目标识别模型训练方法、装置及电子设备
US11657602B2 (en) Font identification from imagery
US20210117760A1 (en) Methods and apparatus to obtain well-calibrated uncertainty in deep neural networks
CN110135231B (zh) 动物面部识别方法、装置、计算机设备和存储介质
Bendale et al. Towards open set deep networks
CN114332578B (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN113537630B (zh) 业务预测模型的训练方法及装置
CN108229673B (zh) 卷积神经网络的处理方法、装置和电子设备
CN114118259B (zh) 一种目标检测方法及装置
KR20190029083A (ko) 신경망 학습 방법 및 이를 적용한 장치
CN113780145A (zh) 精子形态检测方法、装置、计算机设备和存储介质
WO2022247448A1 (zh) 数据处理方法、装置、计算设备和计算机可读存储介质
US20240127153A1 (en) Systems and methods for automated risk assessment in machine learning
CN112215831B (zh) 一种用于人脸图像质量的评价方法和系统
CN117011616A (zh) 一种图像内容审核方法、装置、存储介质和电子设备
CN116958615A (zh) 图片识别方法、装置、设备和介质
Thevarasa et al. Weighted ensemble algorithm for aerial imaging based mosquito breeding sites classification
Ojo et al. Real-time face-based gender identification system using pelican support vector machine
CN116872961B (zh) 用于智能驾驶车辆的控制系统
CN115661542B (zh) 一种基于特征关系迁移的小样本目标检测方法
Tsekhmystro et al. Study of methods for searching and localizing objects in images from aircraft using convolutional neural networks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17888499

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17888499

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS (EPO FORM 1205A DATED 17.12.2019)

122 Ep: pct application non-entry in european phase

Ref document number: 17888499

Country of ref document: EP

Kind code of ref document: A1