[go: up one dir, main page]

WO2018179119A1 - 映像解析装置、映像解析方法および記録媒体 - Google Patents

映像解析装置、映像解析方法および記録媒体 Download PDF

Info

Publication number
WO2018179119A1
WO2018179119A1 PCT/JP2017/012817 JP2017012817W WO2018179119A1 WO 2018179119 A1 WO2018179119 A1 WO 2018179119A1 JP 2017012817 W JP2017012817 W JP 2017012817W WO 2018179119 A1 WO2018179119 A1 WO 2018179119A1
Authority
WO
WIPO (PCT)
Prior art keywords
subject
quality
data
image
subject data
Prior art date
Application number
PCT/JP2017/012817
Other languages
English (en)
French (fr)
Inventor
洋介 岩松
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2019508411A priority Critical patent/JP6798609B2/ja
Priority to US16/495,465 priority patent/US11132778B2/en
Priority to PCT/JP2017/012817 priority patent/WO2018179119A1/ja
Publication of WO2018179119A1 publication Critical patent/WO2018179119A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Definitions

  • the present disclosure relates to a video analysis device, a video analysis method, and a recording medium.
  • a feature amount extraction process may be performed for each subject included in a frame image. Since the number of objects to be detected has increased due to the higher resolution of the imaging device, the amount of feature amount extraction processing tends to increase. Therefore, in order to perform analysis processing on subjects in all frame images without overflowing processing, a high-performance device or the like is required, which increases costs. Further, there is a possibility that the delay amount increases as the processing amount increases.
  • Patent Document 1 describes a method of generating stream data obtained by thinning out constituent elements that are not processed based on query information indicating constituent elements that are processed or not processed with respect to stream data.
  • Non-Patent Document 1 describes that the amount of data to be thinned out is optimized.
  • the present disclosure has been made in view of the above problems, and an object of the present disclosure is to provide a technique for reducing the amount of data to be output while maintaining the accuracy of analysis processing with a small amount of delay.
  • the video analysis apparatus is a first analysis related to the subject data obtained using a state model for estimating the position and size of the subject from subject data related to the input subject.
  • the quality model for estimating the second quality related to the subject from the state of the subject in the second image different from the image and the first quality related to the subject related to the subject data Using the quality model for estimating the second quality related to the subject from the state of the subject in the second image different from the image and the first quality related to the subject related to the subject data, the second image Estimation means for estimating a second quality related to the subject in the image, and determination means for determining whether to use the subject data for analysis based on the estimated second quality.
  • the video analysis method relates to the subject data obtained using a state model for estimating the position and size of the subject from the subject data related to the input subject.
  • a state model for estimating the position and size of the subject from the subject data related to the input subject Using the quality model for estimating the second quality related to the subject from the state of the subject in the second image different from the first image and the first quality related to the subject related to the subject data, A second quality related to the subject in the two images is estimated, and whether to use the subject data for analysis is determined based on the estimated second quality.
  • FIG. 1 is a diagram illustrating an example of the overall configuration of an image processing system 1 according to the present embodiment.
  • the image processing system 1 according to the present embodiment includes a primary analysis device 100, a video distribution device 200, a secondary analysis device 300, and a display device 400.
  • the configuration of the image processing system 1 is an example and is not limited to the configuration shown in FIG.
  • the image processing system 1 may include devices other than the configuration shown in FIG.
  • the video distribution device 200 distributes the video data to the primary analysis device 100.
  • the video distribution device 200 is realized by an imaging device (imaging unit) such as a video camera, a surveillance camera, a network camera, or an intelligent camera that images a subject.
  • the video distribution device 200 distributes the captured video data to the primary analysis device 100.
  • the primary analysis device 100 performs processing for determining valid data that is valid data for analysis performed by the secondary analysis device 300 from the video data received from the video distribution device 200.
  • the primary analysis device 100 will be described later with different drawings.
  • the primary analysis device 100 extracts the feature amount of the subject included in the determined effective data, and supplies the extracted feature amount of the subject to the secondary analysis device 300.
  • the secondary analysis device 300 performs analysis using the feature amount of the subject output from the primary analysis device 100.
  • the type of analysis performed by the secondary analysis device 300 is not particularly limited, and examples thereof include face authentication and vehicle body authentication.
  • the secondary analysis device 300 transmits the analysis result to the display device 400.
  • the display device 400 displays the analysis result in the secondary analysis device 300 on the display unit.
  • the display device 400 is realized by, for example, a liquid crystal display.
  • FIG. 2 is a functional block diagram illustrating an example of a functional configuration of the primary analysis device 100 of the image processing system 1 according to the present embodiment.
  • the primary analysis device 100 includes an acquisition unit 110, a detection unit 120, a tracking unit 130, a subject data determination unit 140, an extraction unit 150, and a transmission unit 160.
  • the acquisition unit 110 acquires video data input to the primary analysis device 100.
  • the video data is described as moving image data including a plurality of frame images, but the video data may represent each of the plurality of frame images.
  • the acquisition unit 110 may acquire the video data from the video distribution device 200, or may acquire it from a recording unit in which the video data distributed by the video distribution device 200 is recorded.
  • the acquisition unit 110 divides the acquired video data into a plurality of frame images and supplies the frame images to the detection unit 120.
  • the detection unit 120 detects a subject from each of a plurality of frame images.
  • the detection unit 120 receives the frame image supplied from the acquisition unit 110.
  • the detection unit 120 detects one or more subjects from the received frame image.
  • the detection unit 120 extracts an area of the detected subject on the frame image as the subject area from the frame image.
  • the detection unit 120 uses the center coordinates of the subject area as position information indicating the position of the subject area.
  • the position information is not center coordinates but may be, for example, the upper left coordinates of the subject area. It may be a coordinate representing another position.
  • the position information represented by the coordinates of the subject area represents the position of the subject in the frame image, and thus can be said to be position information representing the position of the subject.
  • the size of the subject area is described as the size of the subject.
  • the description will be made assuming that the subject is a person and the subject area detected by the detection unit 120 is a human face area.
  • the subject area may be an area of the entire person.
  • the subject may be an object other than a person.
  • the detection unit 120 may further detect the orientation of the subject.
  • the subject detection method and the subject orientation detection method are not particularly limited, and any method may be employed.
  • the method for extracting the subject area is not particularly limited, and any method may be employed.
  • the shape of the subject region extracted from the frame image by the detection unit 120 may be a rectangle, a circle, or other shapes.
  • the detection unit 120 detects the position of the subject, the size and orientation of the subject as the state of the subject in the detection target frame image.
  • the detection unit 120 calculates a quality score representing quality related to the detected subject (also referred to as first quality) for each extracted subject area.
  • the quality related to the subject is determined according to the type of analysis performed by the secondary analysis device 300. For example, in the case where the secondary analysis device 300 is a device that performs face authentication, the detection unit 120 is such that an image of a subject area (referred to as a subject image) can extract more feature quantities used for face authentication. A quality score is calculated so that the quality of the subject area is higher.
  • the detection unit 120 determines that the quality of the subject area is a part of the subject when the subject area includes the entire subject.
  • the quality score is calculated so as to be higher than the case where it is included.
  • the detection unit 120 may calculate a quality score based on conditions at the time of shooting a subject included in the frame image and camera parameters.
  • the conditions at the time of shooting may be any conditions as long as they are conditions related to quality, such as brightness at the time of shooting, distance from the subject, time, and the like. That is, the detection unit 120 may calculate a quality score in consideration of the image quality of the subject in the frame image.
  • the method for calculating the quality score is not particularly limited, and any method may be adopted.
  • the detection unit 120 associates the frame number representing the frame image in which the subject is detected, the state of the subject (the position of the subject, the size of the subject, and the orientation of the subject), the subject image and the quality score, and outputs the result as a detection result.
  • the detection result is preferably stored for each subject in a memory (not shown) or the like. Note that the detection unit 120 may output a frame image from which the subject image is extracted instead of or in addition to the subject image.
  • the tracking unit 130 receives the detection result output from the detection unit 120, and tracks the subject using the state of the subject included in the received detection result.
  • the tracking unit 130 determines the position, size, and orientation of the subject included in the past frame image stored in the memory and the subject included in the received detection result rather than the frame image represented by the frame number included in the detection result.
  • the subject is tracked by determining whether or not the subjects included in each frame image are the same subject.
  • the tracking unit 130 associates the subjects with each other.
  • the tracking unit 130 uses the detection result related to the subject associated with the subject (referred to as the past subject) included in the past frame image than the frame image represented by the frame number included in the detection result to the past.
  • the same subject number as that of the subject is assigned and output as a tracking result.
  • the subject number is a number for identifying the subject.
  • the tracking unit 130 adds a new subject number to a detection result related to a subject that has not been associated with a past subject, and outputs the result as a tracking result.
  • the subject tracking method performed by the tracking unit 130 is not particularly limited, and any method may be employed.
  • the subject data determination unit 140 receives the tracking result from the tracking unit 130. Since the tracking result includes the subject number, the frame number, the subject state, the subject image, and the quality score, which are associated with each other, as described above, the tracking result is also referred to as subject data related to the subject.
  • the subject data determination unit 140 refers to the state and quality score of the subject associated with each of a plurality of frame images included in a predetermined time width (called a window) for each subject number, and determines subject data used for analysis. decide. Specific processing of the subject data determination unit 140 will be described with reference to different drawings.
  • the subject data determination unit 140 outputs the determined subject data to the extraction unit 150.
  • the subject data determination unit 140 may output the subject image of the determined subject data to the extraction unit 150.
  • the subject data determined by the subject data determination unit 140 is effective data effective for the analysis performed by the secondary analysis device 300. Therefore, it can be said that the subject data determination unit 140 performs a process of determining valid data.
  • the extraction unit 150 receives the subject data output from the subject data determination unit 140 and extracts a feature amount from the subject image included in the subject data.
  • the feature quantity extracted by the extraction unit 150 may be anything corresponding to the analysis performed by the secondary analysis device 300, and the type of feature quantity is not particularly limited. Further, the method by which the extraction unit 150 extracts the feature amount is not particularly limited, and any method may be employed.
  • the extraction unit 150 outputs the extracted feature amount to the transmission unit 160. Note that the extraction unit 150 may output the extracted feature amount to the transmission unit 160 together with subject data including the subject image from which the feature amount is extracted.
  • the transmission unit 160 transmits the feature amount received from the extraction unit 150 to the secondary analysis device 300.
  • the feature amount transmitted by the transmission unit 160 may be associated with at least one of a subject image, a subject number associated with the subject image, a frame number, a subject state, and a quality score as subject data.
  • FIG. 3 is a functional block diagram illustrating an example of a functional configuration of the subject data determination unit 140 of the primary analysis device 100 according to the present embodiment.
  • the subject data determination unit 140 includes a selection unit 141, a first determination unit (output candidate determination unit) 142, an estimation unit 143, a second determination unit 144, and a storage unit 145.
  • the storage unit 145 may be formed of a member separate from the subject data determination unit 140.
  • the selection unit 141 receives subject data (tracking result) input to the subject data determination unit 140.
  • the selection unit 141 compares subject data including the same subject number in the window. Specifically, the selection unit 141 compares the quality scores associated with the same subject number among subjects included in each of the plurality of frame images included in the window, and selects subject data including the highest quality score. To do. For example, the selection unit 141 selects, for each subject number, a subject image having the highest quality score from among subject images included in each of a plurality of frame images included in one second every second.
  • the window size is 1 second and 10 frame images are included in one second.
  • Each frame image includes one subject, and each subject has the same subject number.
  • the selection unit 141 compares the quality scores associated with each of the subject images included in each of the ten frame images, and selects subject data including the highest quality score. Then, the selection unit 141 supplies the selected subject data to the first determination unit 142 as a selection result.
  • the selection unit 141 performs a selection process for selecting subject data of a subject for each window for each subject number. Thereby, when there are a plurality of subjects included in a certain window, the selection unit 141 outputs a selection result related to each of the plurality of subjects.
  • the selection unit 141 may output a window number for identifying the window in association with the selection result.
  • the window size is set according to the amount of delay required until the display device 400 outputs the video data captured by the video distribution device 200 to the screen, and is not limited to 1 second.
  • the storage unit 145 stores determination history information 146, a state model 147, a quality model 148, and an output policy 149. In addition to this, the storage unit 145 may store output data output by each unit included in the subject data determination unit 140. Each of the determination history information 146, the state model 147, the quality model 148, and the output policy 149 will be described later.
  • the first determination unit 142 determines whether or not the selection result is subject data as an output candidate based on the quality score included in the selection result.
  • the first determination unit 142 receives the selection result.
  • the selection result is subject data including the highest quality score among subject data (tracking results) related to each of a plurality of frame images included in a certain window.
  • the first determination unit 142 refers to the determination history information 146 and determines whether or not the subject data that is the selection result is subject data that is an output candidate.
  • the determination history information 146 will be described with reference to FIG.
  • FIG. 4 is a diagram illustrating an example of the determination history information 146 stored in the storage unit 145 of the subject data determination unit 140 in the present embodiment.
  • the determination history information 146 includes the subject number 41 and the highest quality score 42 as shown in FIG.
  • the subject number 41 is the same number as the subject number included in the subject data, and is a number for identifying the subject.
  • the highest quality score 42 indicates the highest quality score among the quality scores included in the subject data including the subject number 41 determined in the past by the second determination unit 144 described later.
  • the determination history information 146 is updated by a second determination unit 144 described later.
  • the first determination unit 142 refers to the determination history information 146, and the quality score included in the subject data is larger than the highest quality score 42 associated with the subject number 41 having the same number as the subject number included in the subject data. It is determined whether or not. When the quality score included in the subject data is greater than the highest quality score 42, the first determination unit 142 determines the subject data as an output candidate.
  • the first determining unit 142 determines not to output the subject data.
  • the quality score included in the subject data is equal to or lower than the highest quality score 42, it can be seen that the subject data is lower in quality or the same quality as subject data output in the past (referred to as past subject data).
  • the subject data having the same quality as the past subject data or the lower quality than the past subject data is less likely to be more effective than the past subject data.
  • the first determination unit 142 determines that no subject data having the same quality as the past subject data or a quality lower than the past subject data is to be output, so that the subject data determination unit 140 outputs the subject data to the extraction unit 150. The amount of data can be reduced.
  • the first determination unit 142 determines the output candidate subject data with a small amount of calculation, which is a comparison between the highest quality score 42 of the past subject data and the quality score of the input subject data, and therefore the processing is performed.
  • the load can be reduced. Therefore, the image processing system 1 can reduce the delay amount from when the video distribution device 200 acquires the video data until the display device 400 displays information related to the video data.
  • the first determination unit 142 supplies subject data determined as output candidates to the estimation unit 143.
  • the estimation unit 143 estimates the next state of the subject using the state model 147 from the subject data that is the output candidate supplied from the first determination unit 142.
  • the next state of the subject is a subject in a frame image (referred to as a second frame image) different from a frame image (referred to as a first frame image) from which the subject data is extracted of a subject related to input subject data. Position and size.
  • the second frame image is picked up by the video distribution device 200 later in time than the first frame image.
  • the next state may include the direction of the subject. As described above, since one frame image is selected from a certain window by the selection unit 141, the first frame image and the second frame image are included in different windows.
  • the state model 147 is a model for estimating the next state of the subject.
  • the state model 147 may be generated in advance by the user, or may be a result of learning using learning data. For example, a frame image is divided into grids of a predetermined size, and the learning data is used to determine which subject that exists at a certain grid position in the frame image temporally after the frame image that includes the subject.
  • the state model 147 may be generated by counting the presence of the position in the grid and calculating the probability for each grid.
  • the state model 147 may be expressed in any format, may be a mathematical formula, or may be a table format. Further, the state model 147 may use a probability distribution. That is, the state model 147 may be a model in which the next state estimated by the estimation unit 143 becomes a state corresponding to the probability distribution.
  • the state model 147 is a mathematical formula for calculating the next position and the next size as the next state.
  • the video distribution apparatus 200 is a place where the moving direction of the subject is the positive direction of the Y axis. Is imaged.
  • the video distribution device 200 when the video distribution device 200 is installed on the Y axis positive direction side, when the video distribution device 200 moves to the Y axis positive direction side (closer to the video distribution device 200), The size of the subject included in the is increased.
  • a state model 147 as shown in FIG. 5 is stored in the storage unit 145.
  • Ycur is the Y coordinate of the current subject position, and indicates the Y coordinate of the subject position included in the inputted subject data.
  • Ynext is the position of the subject estimated by the estimation unit 143, and indicates the Y coordinate of the position where the subject is estimated to exist on the second frame image (for example, the estimated center coordinates of the subject area).
  • Scur is the size of the current subject and indicates the size of the subject area included in the inputted subject data.
  • the size of the subject estimated by the estimation unit 143 indicates the size of the estimated subject region on the second frame image.
  • the estimation unit 143 uses the state model 147 and the subject data supplied from the first determination unit 142 to determine the state (position (Ynext) and size (Snext)) of the subject in the second frame image. presume.
  • the position of the subject estimated by the estimation unit 143 is not limited to one place, and may be within a range having a predetermined width.
  • Ynext estimated using the state model 147 shown in FIG. 5 may be a position from Ycur + 150 to Ycur + 250.
  • the estimation unit 143 uses the quality model to calculate the second quality related to the subject on the second frame image related to the estimated subject state from the estimated subject state and the quality score included in the subject data. presume.
  • the quality model 148 is a model for estimating the next quality (second quality) of the subject. Similar to the state model 147, the quality model 148 may be generated by a user in advance, or may be a result of learning using learning data. The quality model 148 may be expressed in any format, may be a mathematical formula, or may be a table format. Further, the quality model 148 may use a probability distribution. In the present embodiment, it is assumed that the quality model 148 is a mathematical formula for calculating the second quality.
  • FIG. 6 is a diagram for explaining an example of the quality model 148. Assume that a quality model 148 as shown in FIG. 6 is stored in the storage unit 145.
  • Ymax is the maximum value of the Y coordinate of the frame image, and is 1080, for example.
  • Smax is the maximum size of the detected subject image, and is assumed to be, for example, 400 ⁇ 400 (that is, 160000). Note that Smax may be a value that is changed according to Ymax or a position where a frame image is captured.
  • Qcur is a quality score (first quality) regarding the current subject, and indicates a quality score included in the input subject data.
  • Qnext is a quality score (second quality) related to the subject estimated by the estimation unit 143, and indicates a quality score related to the subject on the second frame image.
  • the estimation unit 143 uses the quality model 148 to estimate the quality score Qnext according to the estimated subject size. For example, when the size of the frame image is 1920 ⁇ 1080 and the Y coordinate of the center coordinate of the subject area is close to 0 and the Y coordinate is close to 1080, the subject area includes the entire face of the subject. There is a high possibility that It is highly possible that the feature amount extracted from such a subject image is not effective as a target to be analyzed. Therefore, the estimation unit 143 may estimate the quality score Qnext so that the quality score related to such a subject image becomes low.
  • FIG. 7 is a diagram illustrating an example of a result of the estimation process of the estimation unit 143 according to the present embodiment.
  • the estimation result 70 includes a subject number 74, a position 75, a size 76, and a quality score 77.
  • the estimation unit 143 may estimate the Next using a value expressed by “size in the X-axis direction ⁇ size in the Y-axis direction” using an approximate value, or use the state model 147. May be estimated by the value obtained in this case (in the above case, 20000).
  • the estimation unit 143 may include the quality score 77 having a higher calculated ratio in the estimation result 70, or may include both quality scores 77 together with the ratio in the estimation result 70.
  • the estimation result 70 may include a lower quality score 77.
  • the estimation unit 143 uses the quality score Qcur and the quality score Qnext to improve the second quality indicated by the estimated quality score Qnext (the quality score Qnext is higher than the quality score Qcur).
  • the likelihood indicating the possibility may be calculated.
  • the quality score 77 for the subject whose subject number 74 is “3” shown in FIG. 7 is “0.1” and “1.0”, which are ratios of 70% and 30%, respectively.
  • 143 may calculate the likelihood as 0.3.
  • the estimation unit 143 supplies such an estimation result 70 to the second determination unit 144 together with subject data related to the subject number 74.
  • the estimation unit 143 may supply the estimated quality score 77 and the subject number 74 in the estimation result 70 to the second determination unit 144 together with the subject data related to the subject number 74.
  • a state model 147 as shown in FIG. 8 is stored in the storage unit 145.
  • Ycur, Ynext, Scur, and Next represent the same values as in FIG. F represents the degree of front of the subject.
  • the direction of the subject represents the degree of rotation of the subject in the horizontal direction when, for example, the subject is directly facing the video distribution device 200 that captures video.
  • the subject when the subject is a person's face, the case where the person's face is directly facing the video distribution device 200 is set to 0 degree, and the person's face passes in the vertical direction (for example, from the center of the forehead to the center of the nose)
  • the direction of the subject is the counterclockwise rotation angle of the person's face, with the line segment leading to the jaw as the axis.
  • the angle for capturing the left half of the person's face is -90 degrees
  • the angle for capturing the right half of the person's face is 90 degrees.
  • the orientation is the degree of rotation of the subject in the vertical direction, the degree of rotation in the direction of rotation with respect to the optical axis of the imaging device, or the rotation of the subject when the subject is directly facing the video distribution device 200. It may be a combination of degrees.
  • the front degree F obtained from the orientation of the subject is a value calculated when the orientation is 0 degree and 1.0, and the orientation is ⁇ 90 degrees and 90 degrees is 0.5. To do.
  • the estimation unit 143 uses the state model 147 as shown in FIG. 8 and the subject data supplied from the first determination unit 142, and the state (position (Ynext) and size (Snext) of the subject in the second frame image. And the degree of front (F)) may be estimated. In the following description, the direction of the subject estimated by the estimation unit 143 indicates the front degree F.
  • the estimation unit 143 uses the quality model 148 estimated from the estimated subject state and the quality score included in the subject data on the second frame image related to the estimated subject state. A second quality related to the subject is estimated.
  • Smax, Qcur, and Qnext indicate the same values as in FIG.
  • the quality model 148 shown in FIG. 9 is set so that a low quality score is estimated when the front degree F is equal to or less than a predetermined threshold (0.7 in the case of FIG. 9).
  • the quality model 148 is a model for estimating the quality score using only the estimated orientation among the estimated subject states, but the quality model 148 indicates the estimated position and size. It may be a model for estimating the quality score.
  • FIG. 10 is a diagram illustrating another example of a result of the estimation process of the estimation unit 143 according to the present embodiment.
  • FIG. 10 also shows the subject position 71, size 72, and quality score (first quality) 73 in the subject data including the same subject number 74, as in FIG.
  • the estimation result 70 includes a subject number 74, a position 75, a size 76, and a quality score 77.
  • the estimation unit 143 estimates the orientation as the next state of the subject using the state model 147 shown in FIG. 8, and uses the quality model 148 shown in FIG. 9 to estimate the next state and subject data. From the quality score, the estimation result 70 shown in FIG. 10 may be output.
  • the estimation part 143 can estimate the quality score which considered direction.
  • the second determination unit 144 receives the estimation result 70 from the estimation unit 143 together with the subject data related to the subject number 74. Based on the quality score 77 included in the estimation result 70, the second determination unit 144 determines whether to use subject data including the same subject number as the subject number 74 included in the estimation result 70 for analysis. Then, the second determination unit 144 updates the highest quality score 42 of the subject number 41 having the same number as the subject number included in the determined subject data.
  • the second determination unit 144 determines whether to use the subject data for analysis based on the output policy 149 stored in the storage unit 145.
  • the output policy 149 represents a policy for determining whether to use subject data for analysis.
  • FIG. 11 is a diagram for explaining the result of the determination process in the second determination unit 144 of the subject data determination unit 140 in the first embodiment.
  • the result of the determination process is output as the determination result 115.
  • the determination result 115 is output for each subject number 111 and each window number 112.
  • the subject number 111 is the same number as the subject number included in the subject data.
  • FIG. 11 is a diagram showing a history of determination results 115 for each window for subject data with subject number 111 of “1”.
  • the quality score 113 is a quality score included in the subject data input to the subject data determination unit 140, and is the first quality (Qcur) described above.
  • the estimated quality score 114 is the above-described second quality (Qnext) and is a quality score estimated by the estimation unit 143.
  • the quality score 113 whose window number 112 is “1” is a value smaller than the estimated quality score 114.
  • the second determining unit 144 determines not to output the subject data associated with each of the window numbers 112 of “2” to “4”.
  • the second frame image The data (for example, feature amount) related to the subject area (second subject data) extracted from the data is more effective than the data (first subject data) related to the subject area extracted from the first frame image. Is likely. Therefore, when the first subject data is used for the analysis and the second subject data is not used for the analysis, the accuracy of the analysis may be lower than when the second subject data is used for the analysis. Further, when both the first subject data and the second subject data are used for the analysis, the amount of subject data output from the subject data determination unit 140 increases, so that the amount of extraction processing in the extraction unit 150 increases and a delay occurs. There is a possibility of becoming large.
  • the second determination unit 144 sets the first subject data to the first subject data. Do not output. Therefore, the second determination unit 144 can output the second subject data having the second quality that is higher than the first quality. Thereby, the subject data determination unit 140 can reduce the amount of data to be output while maintaining the accuracy of the analysis processing. Further, by reducing the amount of data to be output, the subject data determination unit 140 can reduce the amount of delay in processing.
  • the second determination unit 144 when the estimated quality score 77 is supplied to the second determination unit 144 together with the ratio like the quality score 77 regarding the subject whose subject number 74 is “3” in FIG. 7, the second determination unit 144 The estimated quality score 114 having a smaller value may be used to determine whether to use the subject data for analysis, or the estimated quality score 114 having the larger ratio may be used for analyzing the subject data. It may be determined whether or not.
  • the second determination unit 144 compares the likelihood with a predetermined threshold, and based on the comparison result and the output policy 149, Whether to use subject data for analysis may be determined.
  • the output policy 149 is not limited to that described above.
  • Qpmax is the highest quality score of the subject data output in the past, and is the highest quality score 42 shown in FIG.
  • FIG. 12 shows the determination result determined by the second determination unit 144 for the subject data based on the output policy 149.
  • FIG. 12 is a diagram for explaining another result of the determination process in the second determination unit 144 of the subject data determination unit 140 in the present embodiment. The difference between FIG. 12 and FIG. 11 is the determination result column.
  • the second determination unit 144 sets the subject data related to the window number 112 of “1”, the subject data related to the window number 112 of “4”, and the window number 112 of “5”. It is determined that related subject data is output.
  • the second determination unit 144 can determine to output subject data whose quality is improved by a predetermined level or more than the quality of subject data output in the past. Thereby, for example, since the primary analysis device 100 can output valid data used for the analysis in the secondary analysis device 300, it is possible to prevent a decrease in the accuracy of the analysis processing.
  • FIG. 13 is a flowchart showing an example of the processing flow of the primary analysis apparatus 100 in the present embodiment.
  • the acquisition unit 110 acquires video data (step S131).
  • the detection unit 120 detects a subject from each of the plurality of frame images included in the video data (step S132).
  • the tracking unit 130 tracks the subject by determining whether or not the subjects included in each frame image are the same subject (step S133). Then, the subject data determination unit 140 performs subject data determination processing (step S134). Thereafter, the extraction unit 150 extracts a feature amount from the subject image included in the subject data determined in the subject data determination process (step S135). Then, the transmission unit 160 transmits the feature amount extracted in step S135 to the secondary analysis device 300 (step S136).
  • FIG. 14 is a flowchart showing an example of the subject data determination process in step S134 shown in FIG.
  • the selection unit 141 selects, for each subject number, subject data having the highest quality score among subject data related to each of a plurality of frame images included in the window (step S141).
  • step S142 Whether the quality score of the selected subject data is greater than the highest quality score 42 that is a past quality score associated with the subject number 41 having the same number as the subject number of the subject data. It is determined whether or not (step S142). If the quality score included in the subject data is equal to or lower than the highest quality score 42 (NO in step S142), the process ends. As a result, no subject data is output from the subject data determination unit 140, and thus the above-described steps S135 and S136 are not performed.
  • the estimation unit 143 estimates the state of the subject in the second frame image from the subject data using the state model 147. (Step S143).
  • the estimation unit 143 uses the quality model 148 to estimate the second quality from the estimated state of the subject and the first quality included in the subject data (step S144).
  • the second determination unit 144 refers to the output policy 149 based on the second quality, and determines whether or not the input subject data is used for analysis (step S145). If second determination unit 144 determines that the input subject data is not used for analysis (NO in step S145), the process ends. When the second determination unit 144 determines to use the input subject data for analysis (YES in step S145), the second determination unit 144 outputs the determined subject data to the extraction unit 150 (step S146). Then, the second determination unit 144 updates the highest quality score 42 of the determination history information 146 (Step S147).
  • the subject data determination unit 140 ends the process of step S134.
  • FIG. 15 is a diagram illustrating an example of output data 151 output by the subject data determination unit 140 according to the present embodiment.
  • the output data 151 includes subject number 152, frame number 153, subject position 155, subject size 156, subject direction 157, subject image 158, and quality score 159 included in the subject data.
  • the output data 151 may include a window number 154.
  • the subject data determination unit 140 outputs output data 151 including a subject image 158 as shown in FIG. Thereby, the extraction unit 150 can extract a feature amount from the subject image 158 included in the output data 151.
  • the subject data determination unit 140 of the primary analysis device 100 uses the subject model and the subject on the second image obtained by using the state model 147 from the subject data input by the estimation unit 143. From the first quality included in the data, the second quality related to the subject on the second image is estimated using the quality model 148. Then, the second determination unit 144 determines subject data to be used for analysis based on the estimated second quality. Thereby, the subject data determination unit 140 uses subject data related to the first quality for analysis, for example, when the first quality has the same quality as the estimated second quality or higher than the second quality. If the first quality is lower than the estimated second quality, it is determined that the subject data related to the first quality is not used for the analysis.
  • the subject data determination unit 140 has a quality related to the subject data extracted from the second image captured later in time than the first image related to the input subject data, rather than the first quality. Is estimated to be high, it is determined that the input subject data is not used for analysis. As a result, the subject data determination unit 140 does not output subject data that is lower in quality than subject data that is input later, so that the amount of data to be output can be reduced. Therefore, the amount of delay due to data processing by the primary analysis apparatus 100 can be reduced.
  • the second determination unit 144 determines to use the subject data to which the subject data is input for analysis. Thereby, the accuracy of the analysis process can be maintained.
  • the image processing system 1 is a system that identifies a suspicious person who has entered a store.
  • the time taken from when the video distribution device 200 captures the video data until the information regarding the suspicious person specified on the display device 400 is displayed is small.
  • the display device 400 can display information on the suspicious person identified from the video data acquired by the video distribution apparatus 200 in almost real time.
  • the image processing system 1 can preferably detect the intrusion of a suspicious person.
  • each device included in the image processing system 1 is a separate device, but the configuration of each device of the image processing system 1 is not limited to this. .
  • the primary analysis device 100, the video distribution device 200, the secondary analysis device 300, and the display device 400 included in the image processing system 1 may all be integrated or combined.
  • FIG. 16 is a diagram illustrating another example of the configuration of the image processing system 1 according to the present embodiment.
  • the primary analysis device 100, the video distribution device 200, and the secondary analysis device 300 included in the image processing system 1 may be implemented as an imaging device 500.
  • the imaging device 500 is an imaging device called an intelligent camera or a network camera, for example.
  • the imaging device 500 may include a primary analysis device 100 and a video distribution device 200.
  • the secondary analysis device 300 and the display device 400 may be an integrally formed device or may be separate devices.
  • the video distribution device 200 included in the imaging device 500 performs imaging processing using, for example, a CCD (Charge Coupled Device) sensor and a CMOS (Complementary Metal Oxide Semiconductor) sensor to generate video data including a plurality of frames. Part. Then, the video distribution device 200 supplies the generated video data to the primary analysis device 100. Thereby, the primary analysis apparatus 100 can extract valid data from the video data.
  • the acquisition unit 110 may be integrally formed with the video distribution device 200.
  • the captured video data can be performed by the imaging device 500 that has captured the processing on the video data. . Even with such a configuration, the image processing system 1 can obtain the effects described above.
  • FIG. 17 is a functional block diagram illustrating an example of a functional configuration of the video analysis device 2 according to the present embodiment.
  • the video analysis device 2 has a function corresponding to the subject data determination unit 140 in the first embodiment.
  • the video analysis apparatus 2 includes an estimation unit 3 and a determination unit 4 as shown in FIG.
  • the estimation unit 3 has the function of the estimation unit 143 in the first embodiment described above.
  • the estimation unit 3 estimates the second quality using the quality model from the state of the subject obtained from the subject data input using the state model and the first quality.
  • the subject data is data related to the subject input to the video analysis device 2, and includes, for example, the position and size of the subject in the first image and the first quality related to the subject in the first image.
  • the first quality and the second quality are indexes indicating that the data is effective for the analysis processing, and are obtained according to, for example, the position, size, orientation of the subject, shooting conditions for the subject, and the like. It is an indicator.
  • the state model is a model for estimating the position and size of the subject on the second image.
  • the first image and the second image are different images.
  • the second image is an image captured after the first image in time.
  • the quality model is a model for estimating the second quality related to the subject in the second image.
  • the determination unit 4 has the function of the second determination unit 144 in the first embodiment described above.
  • the determination unit 4 determines whether to use the subject data for analysis based on the estimated second quality. For example, when the second quality indicates the same quality as the first quality or lower than the first quality, the determination unit 4 determines that the subject data is used for the analysis, and the second quality is higher than the first quality. If so, it is determined that the first image data is not used for analysis.
  • FIG. 18 is a flowchart showing an example of the processing flow of the video analysis apparatus 2 according to the present embodiment.
  • the estimation unit 3 of the video analysis device 2 estimates the second quality related to the subject in the second image using the quality model from the state of the subject and the first quality in the second image (step S1). .
  • the second image is an image different from the first image.
  • the second image is acquired after the first image.
  • the state of the subject in the second image is the position and size of the subject in the second image, and is estimated using the state model.
  • the quality model is a model for estimating the second quality related to the subject in the second image.
  • the determination unit 4 determines whether to use the subject data for the analysis based on the second quality estimated in step S1.
  • the video analysis apparatus 2 can reduce the amount of data to be output while maintaining the accuracy of the analysis processing with a small delay amount.
  • the determination unit determines subject data used for analysis based on the second quality estimated by the estimation unit 3.
  • the subject data related to the first quality is used for the analysis. If the first quality is lower than the estimated second quality, it can be determined that the subject data related to the first quality is not used for the analysis. As a result, it is estimated that the quality related to the subject data extracted from the second image captured later in time than the first image related to the input subject data is higher than the first quality.
  • the determination unit 4 determines to use the subject data to which the subject data is input for analysis. Thereby, the accuracy of the analysis process can be maintained.
  • each component of the primary analysis device 100 and the video analysis device 2 and each component of the subject data determination unit 140 of the primary analysis device 100 indicate a functional unit block.
  • Some or all of the above-described components are realized by any combination of an information processing apparatus 900 and a program as shown in FIG. 19, for example.
  • FIG. 19 is a block diagram illustrating an example of a hardware configuration of the information processing apparatus 900 that realizes each component of each apparatus.
  • the information processing apparatus 900 includes the following configuration as an example.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • a program 904 loaded into the RAM 903
  • a storage device 905 that stores the program 904
  • a drive device 907 that reads / writes data from / to the recording medium 906
  • a communication interface 908 connected to the communication network 909
  • the constituent elements of the primary analysis apparatus 100 and the video analysis apparatus 2 and the constituent elements of the subject data determination unit 140 of the primary analysis apparatus 100 acquire and execute a program 904 that realizes these functions by the CPU 901. Realized.
  • the program 904 that realizes the function of each component is stored in advance in the storage device 905 or the ROM 902, for example, and is loaded into the RAM 903 and executed by the CPU 901 as necessary.
  • the program 904 may be supplied to the CPU 901 via the communication network 909, or may be stored in the recording medium 906 in advance, and the drive device 907 may read the program and supply it to the CPU 901.
  • each device may be realized by an arbitrary combination of an information processing device 900 and a program that are different for each component.
  • a plurality of constituent elements included in each device may be realized by an arbitrary combination of one information processing device 900 and a program.
  • each device is realized by other general-purpose or dedicated circuits, processors, etc., or combinations thereof. These may be configured by a single chip or may be configured by a plurality of chips connected via a bus.
  • each device may be realized by a combination of the above-described circuit and the like and a program.
  • each device When some or all of the constituent elements of each device are realized by a plurality of information processing devices and circuits, the plurality of information processing devices and circuits may be centrally arranged or distributedly arranged. Also good.
  • the information processing apparatus, the circuit, and the like may be realized as a form in which each is connected via a communication network, such as a client and server system and a cloud computing system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Geometry (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

少ない遅延量で、解析処理の精度を維持したまま出力するデータ量を削減する。映像解析装置は、入力される被写体に関連する被写体データから被写体の位置および大きさを推定するための状態モデルを用いて得られる、被写体データに関連する第1画像とは異なる第2画像における被写体の状態、および、被写体データに関連する被写体に関する第1品質から、被写体に関する第2品質を推定するための品質モデルを用いて、第2画像における被写体に関する第2品質を推定する推定部と、推定された第2品質に基づいて、被写体データを解析に用いるか否かを決定する決定部と、を備える。

Description

映像解析装置、映像解析方法および記録媒体
 本開示は、映像解析装置、映像解析方法および記録媒体に関する。
 映像解析では、フレーム画像に含まれる被写体ごとに特徴量の抽出の処理が行われることがある。撮像装置の高解像度化により、検出される被写体の数が増えたため、特徴量の抽出処理の量が増大する傾向にある。したがって、処理溢れなく全てのフレーム画像における被写体に対して、解析処理を行うには、高性能な装置等が必要になってしまい、コストがかかってしまう。また、処理量が増えることにより遅延量が増える可能性がある。
 特許文献1には、ストリームデータに対し、処理する或いは処理しない構成要素を示すクエリ情報に基づいて、処理しない構成要素を間引いたストリームデータを生成する方法が記載されている。
 また、非特許文献1には、間引くデータ量を最適化することが記載されている。
特許第4992945号公報
Nesime Tatbul他、「Load Shedding in a Data Stream Manager」、Proceedings of the 29th international conference on VLDB、VLDB Endowment、2003年9月、vol.29、p.309-320
 しかしながら、特許文献1に記載の技術では、処理する構成要素が増えると、間引く量が減ってしまい、ストリームデータのデータ量の削減が十分に行えない可能性がある。
 また、撮影品質が刻々と変化する映像データでは、フレーム画像の間引きによって、解析処理に使用される画像の品質の低下の度合いが一定ではない可能性が高くなる。よって、非特許文献1に記載の技術を適用して得られたデータを用いて解析処理を行った場合、解析結果の精度が低くなる可能性がある。
 本開示は、上記課題に鑑みてなされたものであり、その目的は、少ない遅延量で、解析処理の精度を維持したまま出力するデータ量を削減する技術を提供することにある。
 本開示の一態様に係る映像解析装置は、入力される被写体に関連する被写体データから前記被写体の位置および大きさを推定するための状態モデルを用いて得られる、前記被写体データに関連する第1画像とは異なる第2画像における前記被写体の状態、および、前記被写体データに関連する前記被写体に関する第1品質から、前記被写体に関する第2品質を推定するための品質モデルを用いて、前記第2画像における前記被写体に関する第2品質を推定する推定手段と、前記推定された第2品質に基づいて、前記被写体データを解析に用いるか否かを決定する決定手段と、を備える。
 また、本開示の一態様に係る映像解析方法は、入力される被写体に関連する被写体データから前記被写体の位置および大きさを推定するための状態モデルを用いて得られる、前記被写体データに関連する第1画像とは異なる第2画像における前記被写体の状態、および、前記被写体データに関連する前記被写体に関する第1品質から、前記被写体に関する第2品質を推定するための品質モデルを用いて、前記第2画像における前記被写体に関する第2品質を推定し、前記推定された第2品質に基づいて、前記被写体データを解析に用いるか否かを決定する。
 なお、上記各装置または方法を、コンピュータによって実現するコンピュータプログラム、およびそのコンピュータプログラムが格納されている、コンピュータ読み取り可能な非一時的記録媒体も、本開示の範疇に含まれる。
 本開示によれば、少ない遅延量で、解析処理の精度を維持したまま出力するデータ量を削減することができる。
本開示の第1の実施の形態に係る画像処理システムの全体構成の一例を示す図である。 第1の実施の形態に係る画像処理システムの一次解析装置の機能構成の一例を示す機能ブロック図である。 第1の実施の形態における一次解析装置の被写体データ決定部の機能構成の一例を示す機能ブロック図である。 第1の実施の形態における被写体データ決定部の記憶部に格納される決定履歴情報の一例を示す図である。 第1の実施の形態における被写体データ決定部の記憶部に格納される状態モデルの一例を説明するための図である。 第1の実施の形態における被写体データ決定部の記憶部に格納される品質モデルの一例を説明するための図である。 第1の実施の形態における被写体データ決定部の推定部における推定処理の結果の一例を示す図である。 第1の実施の形態における被写体データ決定部の記憶部に格納される状態モデルの他の一例を説明するための図である。 第1の実施の形態における被写体データ決定部の記憶部に格納される品質モデルの他の一例を説明するための図である。 第1の実施の形態における被写体データ決定部の推定部における推定処理の結果の他の一例を示す図である。 第1の実施の形態における被写体データ決定部の決定部における決定処理の結果の一例を示す図である。 第1の実施の形態における被写体データ決定部の決定部における決定処理の結果の他の一例を示す図である。 第1の実施の形態における一次解析装置の処理の流れの一例を示すフローチャートである。 第1の実施の形態における一次解析装置の被写体データ決定部の処理の流れの一例を示すフローチャートである。 第1の実施の形態における被写体データ決定部が出力する出力データの一例を示す図である。 第1の実施の形態における画像処理システムの構成の他の一例を示す図である。 本開示の第2の実施の形態に係る映像解析装置の機能構成の一例を示す機能ブロック図である。 第2の実施の形態に係る映像解析装置の処理の流れの一例を示すフローチャートである。 本開示の各実施の形態を実現可能なコンピュータ(情報処理装置)のハードウェア構成を例示的に説明する図である。
 <第1の実施の形態>
 本開示の第1の実施の形態について図面を参照して詳細に説明する。図1は、本実施の形態に係る画像処理システム1の全体構成の一例を示す図である。図1に示す通り、本実施の形態に係る画像処理システム1は、一次解析装置100と、映像配信装置200と、二次解析装置300と、表示装置400とを含む。なお、画像処理システム1の構成は一例であり、図1に示す構成に限定されない。例えば、画像処理システム1は、図1に示す構成以外の装置を含んでもよい。
 映像配信装置200は、映像データを一次解析装置100に配信する。映像配信装置200は、被写体を撮像する、例えば、ビデオカメラや監視カメラ、ネットワークカメラ、インテリジェントカメラ等の撮像装置(撮像部)で実現される。映像配信装置200は、撮像した映像データを、一次解析装置100に配信する。
 一次解析装置100は、映像配信装置200から受信した映像データから、二次解析装置300が行う解析に対して有効なデータである有効データを決定するための処理を行う。一次解析装置100については、図面を変えて後述する。一次解析装置100は、決定した有効データに含まれる被写体の特徴量を抽出し、抽出した被写体の特徴量を二次解析装置300に供給する。
 二次解析装置300は、一次解析装置100から出力された、被写体の特徴量を用いて、解析を行う。二次解析装置300が行う解析の種類は、特に限定されず、例えば、顔認証、車体認証等、が挙げられる。二次解析装置300は、解析結果を表示装置400に送信する。
 表示装置400は、二次解析装置300における解析結果を表示部に表示する。表示装置400は、例えば、液晶ディスプレイ等によって実現される。
 図2は、本実施の形態に係る画像処理システム1の一次解析装置100の機能構成の一例を示す機能ブロック図である。図2に示す通り、一次解析装置100は、取得部110と、検出部120と、追跡部130と、被写体データ決定部140と、抽出部150と、送信部160とを備える。
 取得部110は、一次解析装置100に入力される映像データを取得する。なお、本実施の形態において、映像データは、複数のフレーム画像を含む動画像データであるとして説明を行うが、映像データは、複数のフレーム画像の夫々を表してもよい。
 取得部110は、映像データを、映像配信装置200から取得してもよいし、映像配信装置200によって配信された映像データが記録された記録部から取得してもよい。取得部110は、取得した映像データを複数のフレーム画像に分割し、該フレーム画像を検出部120に供給する。
 検出部120は、複数のフレーム画像の夫々から被写体を検出する。検出部120は、取得部110から供給されたフレーム画像を受け取る。検出部120は、受け取ったフレーム画像から、1つまたは複数の被写体を検出する。検出部120は、フレーム画像に被写体が含まれる場合、検出した被写体の該フレーム画像上における領域を被写体領域として該フレーム画像から抽出する。本実施の形態では、検出部120は、被写体領域の中心座標を、被写体領域の位置を表す位置情報とするが、位置情報は中心座標ではなく、例えば、被写体領域の左上の座標であってもよいし、その他の位置を表す座標であってもよい。なお、被写体領域の座標で表現される位置情報は、フレーム画像における被写体の位置を表しているため、被写体の位置を表す位置情報であると言える。また本実施の形態では、被写体領域の大きさを被写体の大きさであるとして説明を行う。
 本実施の形態では、被写体は人物であり、検出部120が検出する被写体領域は人物の顔の領域であるとして説明を行う。なお、被写体領域は、人物全体の領域であってもよい。また、被写体は、人物以外の物体であってもよい。
 検出部120は、更に、被写体の向きを検出してもよい。なお、被写体の検出方法および被写体の向きの検出方法は特に限定されず、任意の方法を採用してもよい。また、被写体領域の抽出方法は特に限定されず、任意の方法を採用してもよい。また、検出部120がフレーム画像から抽出する被写体領域の形状は、矩形であってもよいし、円形であってもよいし、その他の形状であってもよい。
 このように、検出部120は、被写体の位置、該被写体の大きさ、および向きを、検出対象のフレーム画像における被写体の状態として検出する。
 また、検出部120は、検出した被写体に関する品質(第1品質とも呼ぶ)を表す品質スコアを、抽出した被写体領域毎に算出する。被写体に関する品質とは、二次解析装置300が行う解析の種類に応じて定められるものである。例えば、二次解析装置300が顔認証を行う装置の場合、検出部120は、被写体領域の画像(被写体画像と呼ぶ)が顔認証に用いる特徴量がより多く抽出できるような画像であるほど、該被写体領域の品質がより高くなるように、品質スコアを算出する。また、二次解析装置300が被写体全体の特徴点を用いて解析を行う装置の場合、検出部120は、被写体領域に被写体全体が含まれる場合に、該被写体領域の品質が被写体の一部が含まれる場合よりも高くなるように、品質スコアを算出する。また、検出部120は、フレーム画像に含まれる被写体の撮影時の条件やカメラパラメータに基づいて、品質スコアを算出してもよい。撮影時の条件とは、例えば、撮影時の明るさ、被写体との距離、時刻等、品質に関連する条件であればどのような条件であってもよい。つまり、検出部120は、フレーム画像における被写体の画質などを考慮した品質スコアを算出してもよい。なお、品質スコアの算出方法は特に限定されず、どのような方法を採用してもよい。
 検出部120は、被写体を検出したフレーム画像を表すフレーム番号、被写体の状態(被写体の位置、被写体の大きさ、および被写体の向き)、被写体画像および品質スコアを関連付け、検出結果として出力する。検出結果は、図示されないメモリ等に被写体ごとに記憶されることが望ましい。なお、検出部120は、被写体画像の代わりにまたは被写体画像に加えて、該被写体画像の抽出元であるフレーム画像を出力してもよい。
 追跡部130は、検出部120が出力した検出結果を受け取り、受け取った検出結果に含まれる被写体の状態を用いて、該被写体の追跡を行う。追跡部130は、検出結果に含まれるフレーム番号が表すフレーム画像よりも、メモリに記憶された過去のフレーム画像に含まれる被写体の位置、大きさおよび向きと、受け取った検出結果に含まれる被写体の位置、大きさおよび向きとを用いて、各フレーム画像に含まれる被写体同士が、同一の被写体か否かを判定することにより、被写体を追跡する。追跡部130は、同一の被写体であると判定した場合、被写体同士を対応付ける。追跡部130は、検出結果に含まれるフレーム番号が表すフレーム画像よりも過去のフレーム画像に含まれる被写体(過去の被写体と呼ぶ)と対応付けが行われた被写体に関連する検出結果に、過去の被写体と同様の被写体番号を付し、追跡結果として出力する。被写体番号は、被写体を識別するための番号である。なお、追跡部130は、過去の被写体と対応付けが行われなかった被写体に関連する検出結果には、新たな被写体番号を付し、追跡結果として出力する。なお、追跡部130が行う被写体の追跡方法は、特に限定されず、任意の方法を採用してもよい。
 被写体データ決定部140は、追跡部130から追跡結果を受け取る。追跡結果は、上述した通り、互いに関連付けられた、被写体番号、フレーム番号、被写体の状態、被写体画像および品質スコアを含むため、被写体に関連する被写体データとも呼ぶ。被写体データ決定部140は、被写体番号ごとに、所定の時間幅(ウインドウと呼ぶ)に含まれる複数のフレーム画像の夫々に関連付けられた被写体の状態および品質スコアを参照し、解析に用いる被写体データを決定する。被写体データ決定部140の具体的な処理については図面を変えて説明する。被写体データ決定部140は、決定した被写体データを抽出部150に出力する。なお、被写体データ決定部140は、決定した被写体データのうち、被写体画像を抽出部150に出力してもよい。
 被写体データ決定部140が決定する被写体データは、二次解析装置300が行う解析に対して有効な有効データである。したがって、被写体データ決定部140は有効データを決定する処理を行うとも言える。
 抽出部150は、被写体データ決定部140から出力された被写体データを受け取り、被写体データに含まれる該被写体画像から特徴量を抽出する。抽出部150が抽出する特徴量は、二次解析装置300が行う解析に応じたものであればよく、特徴量の種類は特に限定されない。また、抽出部150が特徴量を抽出する方法は特に限定されず、任意の方法を採用してもよい。抽出部150は抽出した特徴量を送信部160に出力する。なお、抽出部150は、抽出した特徴量を、特徴量の抽出元である被写体画像を含む被写体データと共に送信部160に出力してもよい。
 送信部160は、抽出部150から受け取った特徴量を二次解析装置300に送信する。送信部160が送信する特徴量には、被写体データとして、被写体画像、該被写体画像に関連付けられた被写体番号、フレーム番号、被写体の状態および品質スコアの少なくとも何れかが関連付けられていてもよい。
 図3は、本実施の形態における一次解析装置100の被写体データ決定部140の機能構成の一例を示す機能ブロック図である。図3に示す通り、被写体データ決定部140は、選択部141と、第1決定部(出力候補決定部)142と、推定部143と、第2決定部144と、記憶部145とを備える。なお、記憶部145は、被写体データ決定部140とは別個の部材で構成されてもよい。
 選択部141は、被写体データ決定部140に入力される被写体データ(追跡結果)を受け取る。選択部141は、ウインドウ内において同じ被写体番号を含む被写体データを互いに比較する。具体的には、選択部141は、ウインドウに含まれる複数のフレーム画像の夫々に含まれる被写体のうち、同じ被写体番号に関連付けられた品質スコアを比較し、最も高い品質スコアを含む被写体データを選択する。選択部141は、例えば、1秒ごとに、1秒間に含まれる複数のフレーム画像の夫々に含まれる被写体画像のうち、最も品質スコアが高い被写体画像を、被写体番号ごとに選択する。
 例えば、ウインドウサイズが1秒であり、1秒間には10枚のフレーム画像が含まれるとする。そして、フレーム画像の夫々には一人の被写体が含まれ、この夫々の被写体は同じ被写体番号を有しているとする。この場合、選択部141は、10枚のフレーム画像の夫々に含まれる被写体画像の夫々に関連付けられた品質スコアを比較し、最も高い品質スコアを含む被写体データを選択する。そして、選択部141は、選択した被写体データを選択結果として、第1決定部142に供給する。
 選択部141は、ウインドウごとに被写体の被写体データを選択する選択処理を、被写体番号ごとに行う。これにより、あるウインドウに含まれる被写体が複数の場合、選択部141は、複数の被写体の夫々に関連する選択結果を出力する。なお、選択部141は、ウインドウを識別するウインドウ番号を選択結果に関連付けて出力してもよい。
 なお、ウインドウサイズは、映像配信装置200によって撮像された映像データを、表示装置400が画面に出力するまでにかかる遅延量に応じて設定されるものであり、1秒に限定されない。
 記憶部145は、決定履歴情報146、状態モデル147、品質モデル148および出力ポリシー149を記憶する。記憶部145は、この他に、被写体データ決定部140に含まれる各部が出力する出力データを記憶してもよい。決定履歴情報146、状態モデル147、品質モデル148および出力ポリシー149の夫々については、後述する。
 第1決定部142は、選択結果に含まれる品質スコアに基づいて、該選択結果が、出力候補の被写体データか否かを決定する。第1決定部142は、選択結果を受け取る。選択結果は、あるウインドウに含まれる複数のフレーム画像の夫々に関連する被写体データ(追跡結果)のうち、最も高い品質スコアを含む被写体データである。
 第1決定部142は、決定履歴情報146を参照して、選択結果である被写体データが出力候補の被写体データか否かを決定する。ここで、図4を参照して、決定履歴情報146について説明する。図4は、本実施の形態における被写体データ決定部140の記憶部145に格納される決定履歴情報146の一例を示す図である。決定履歴情報146は、図4に示す通り、被写体番号41と、最高品質スコア42とを含む。被写体番号41は、被写体データに含まれる被写体番号と同様の番号であり、被写体を識別するための番号である。最高品質スコア42は、後述する第2決定部144が過去に決定した、被写体番号41を含む被写体データに含まれる品質スコアのうち、最も高い品質スコアを示す。決定履歴情報146は、後述する第2決定部144によって更新される。
 第1決定部142は、決定履歴情報146を参照し、被写体データに含まれる品質スコアが、該被写体データに含まれる被写体番号と同じ番号の被写体番号41に関連付けられた最高品質スコア42よりも大きいか否かを判定する。第1決定部142は、被写体データに含まれる品質スコアが、最高品質スコア42よりも大きい場合、該被写体データを出力候補として決定する。
 一方、第1決定部142は、被写体データに含まれる品質スコアが、最高品質スコア42以下の場合、該被写体データを出力しないと決定する。被写体データに含まれる品質スコアが、最高品質スコア42以下の場合、該被写体データは過去に出力した被写体データ(過去の被写体データと呼ぶ)よりも品質が低いまたは同じ品質であることがわかる。過去の被写体データと同じ品質または過去の被写体データよりも低い品質の被写体データは、過去の被写体データよりも有効なデータとなる可能性が低い。第1決定部142は、このような過去の被写体データと同じ品質または過去の被写体データよりも低い品質の被写体データを出力しないと決定することにより、被写体データ決定部140が抽出部150に出力するデータ量を削減することができる。また、品質が良い過去の被写体データが出力されているため、入力された被写体データを出力しなくとも、被写体データに関連する被写体に対する解析の精度は高い状態で維持される。また、第1決定部142は、過去の被写体データの最高品質スコア42と、入力された被写体データの品質スコアとの比較という少ない計算量で、出力候補の被写体データを決定するため、処理にかかる負荷を小さくすることができる。そのため、画像処理システム1は、映像配信装置200が映像データを取得してから、表示装置400に該映像データに関連する情報が表示されるまでの遅延量を少なくすることができる。
 第1決定部142は、出力候補として決定した被写体データを推定部143に供給する。
 推定部143は、第1決定部142から供給された出力候補である被写体データから、状態モデル147を用いて、被写体の次の状態を推定する。被写体の次の状態とは、入力される被写体データに関連する被写体の、被写体データの抽出元のフレーム画像(第1フレーム画像と呼ぶ)とは異なるフレーム画像(第2フレーム画像と呼ぶ)における被写体の位置および大きさである。第2フレーム画像は、第1フレーム画像よりも時間的に後に映像配信装置200によって撮像される。なお、次の状態は、被写体の向きを含んでもよい。上述した通り、選択部141によって、あるウインドウ内からは1つのフレーム画像が選択されるため、第1フレーム画像と第2フレーム画像とは異なるウインドウに含まれる。
 状態モデル147は、上記被写体の次の状態を推定するためのモデルである。状態モデル147は、予めユーザによって生成されたものであってもよいし、学習データを用いて学習した結果であってもよい。例えば、フレーム画像を所定の大きさのグリッドに分割し、学習データを用いて、あるグリッドの位置に存在する被写体が、該被写体が含まれるフレーム画像よりも時間的に後のフレーム画像において、どの位置のグリッドに存在するかを計数し、グリッドごとに確率を算出することにより、状態モデル147を生成してもよい。また、状態モデル147はどのような形式で表現されてもよく、数式であってもよいし、表形式であってもよい。また、状態モデル147は、確率分布を用いたものであってもよい。つまり、状態モデル147は、推定部143によって推定される次の状態が確率分布に応じた状態になるようなモデルであってもよい。
 本実施の形態では、状態モデル147は、次の状態として次の位置および次の大きさを算出するための数式であるとする。
 例えば、フレーム画像の左上端を原点とし、フレーム画像の横軸をX軸、縦軸をY軸とした場合において、映像配信装置200が、被写体の移動方向がY軸正方向となるような場所を撮像していると仮定する。この場合において映像配信装置200がY軸正方向側に設置されているとした場合、Y軸正方向側に移動する(映像配信装置200に近づく)と、映像配信装置200が撮像するフレーム画像上に含まれる被写体の大きさが大きくなる。
 このような場合において、例えば、図5に示すような状態モデル147が記憶部145に格納されているとする。図5において、Ycurは現在の被写体の位置のY座標であり、入力された被写体データに含まれる被写体の位置のY座標を示す。また、Ynextは、推定部143によって推定される被写体の位置であり、第2フレーム画像上において、被写体が存在すると推定される位置(例えば、推定される被写体領域の中心座標)のY座標を示す。Scurは、現在の被写体の大きさであり、入力された被写体データに含まれる被写体領域の大きさを示す。また、Snextは、推定部143によって推定される被写体の大きさであり、第2フレーム画像上において、推定される被写体領域の大きさを示す。
 推定部143は、このような状態モデル147と第1決定部142から供給された被写体データと、を用いて、第2フレーム画像における被写体の状態(位置(Ynext)および大きさ(Snext))を推定する。
 なお、推定部143が推定する被写体の位置は、一カ所に限定されず、所定の幅を有した範囲内であってもよい。例えば、図5に示す状態モデル147を用いて推定されるYnextは、Ycur+150からYcur+250までの位置であればよい。
 そして、推定部143は、品質モデルを用いて、推定した被写体の状態と被写体データに含まれる品質スコアとから、推定した被写体の状態に関連する第2フレーム画像上における該被写体に関する第2品質を推定する。
 品質モデル148は、上記被写体の次の品質(第2品質)を推定するためのモデルである。品質モデル148は状態モデル147と同様に、予めユーザによって生成されたものであってもよいし、学習データを用いて学習した結果であってもよい。また、品質モデル148はどのような形式で表現されてもよく、数式であってもよいし、表形式であってもよい。また、品質モデル148は、確率分布を用いたものであってもよい。本実施の形態では、品質モデル148は、第2品質を算出するための数式であるとする。
 図6は、品質モデル148の一例を説明するための図である。図6に示すような品質モデル148が記憶部145に格納されているとする。図6において、Ymaxは、フレーム画像のY座標の最大値であり、例えば、1080である。また、Smaxは検出される被写体画像の最大の大きさであり、例えば、400×400(つまり、160000)であるとする。なお、Smaxは、Ymaxやフレーム画像が撮像される位置に応じて変更される値であってもよい。Qcurは、現在の被写体に関する品質スコア(第1品質)であり、入力された被写体データに含まれる品質スコアを示す。また、Qnextは、推定部143によって推定される被写体に関する品質スコア(第2品質)であり、第2フレーム画像上における被写体に関する品質スコアを示す。
 被写体の大きさと、被写体の品質とは、比例関係になる可能性が多い。よって、推定部143は、品質モデル148を用いて、推定された被写体の大きさに応じて、品質スコアQnextを推定する。なお、例えば、フレーム画像のサイズが1920×1080であり、被写体領域の中心座標のY座標が0に近い値およびY座標が1080に近い値の場合、該被写体領域には被写体の顔全体が含まれない可能性が高い。このような被写体画像から抽出された特徴量は、解析を行う対象として、有効ではない可能性が高い。よって、このような被写体画像に関連する品質スコアが低くなるように、推定部143は、品質スコアQnextを推定してもよい。
 図7は、本実施の形態における推定部143の推定処理の結果の一例を示す図である。図7では、説明の便宜上、同じ被写体番号74が含まれる被写体データのうち、被写体の位置71、大きさ72および品質スコア(第1品質)73を併せて記載している。推定結果70は、被写体番号74、位置75、大きさ76および品質スコア77を含む。
 例えば、推定部143は、被写体番号74が「1」の大きさ(Scur)72である100×100から、図5に示す状態モデル147の「Snext=Scur×2」を用いて、Snext=20000≒141×141を算出することにより、被写体の次のフレーム画像における大きさである大きさ76を推定する。このように、推定部143は、Snextを、近似値を用いて「X軸方向の大きさ×Y軸方向の大きさ」で表現される値で推定してもよいし、状態モデル147を用いて得られる値(上述の場合、20000)で推定してもよい。
 なお、上述した通り、推定される位置(Ynext)が図7に示す通り、所定の幅を有した範囲内である場合、位置によって複数の品質スコアが算出される可能性がある。図7に示す被写体番号74が「3」の被写体に関する品質スコア77は、「0.1」および「1.0」であり、夫々、70%および30%の割合で算出される。このような場合、推定部143は、算出される割合が高い方の品質スコア77を推定結果70に含めてもよいし、割合と共に両方の品質スコア77を推定結果70に含めてもよいし、品質スコア77が低い方を推定結果70に含めてもよい。
 また、推定部143は、品質スコアQcurと品質スコアQnextとを用いて、推定される品質スコアQnextによって示される第2品質が第1品質よりも向上する(品質スコアQnextが品質スコアQcurよりも高くなる)可能性を示す尤度を算出してもよい。例えば、図7に示す被写体番号74が「3」の被写体に関する品質スコア77は、「0.1」および「1.0」であり、夫々、70%および30%の割合であるため、推定部143は上記尤度を0.3と算出してもよい。
 推定部143は、このような推定結果70を、被写体番号74に関連する被写体データと共に、第2決定部144に供給する。なお、推定部143は、推定結果70のうち、推定した品質スコア77と被写体番号74とを、該被写体番号74に関連する被写体データと共に、第2決定部144に供給してもよい。
 なお、状態モデル147および品質モデル148は、映像配信装置200が映像データを取得する場所や時間帯に応じて変化するものであってもよい。例えば、被写体の移動方向がY軸の所定の位置(例えば、Y=800)までは、Y軸正方向であり、Y軸の所定の位置からはX軸正方向になるような場所を、映像配信装置200が撮像していると仮定する。この場合において映像配信装置200がY軸正方向側に設置されているとした場合、所定の位置までは、被写体がY軸正方向側に移動する(映像配信装置200に近づく)と、映像配信装置200が撮像するフレーム画像上に含まれる被写体の大きさが大きくなり、所定の位置からは被写体の向きがX軸正方向側を向く。
 このような場合において、例えば、図8に示すような状態モデル147が記憶部145に格納されているとする。図8における、Ycur、Ynext、ScurおよびSnextは、図5と同様の値を示す。Fは、被写体の正面度合いを表す。被写体の向きは、例えば、被写体が映像を撮像する映像配信装置200に正対している場合を基準としたときの、被写体の、水平方向の回転の度合いを表す。例えば、被写体を人物の顔とした場合、人物の顔が映像配信装置200に正対している場合を0度とし、人物の顔の垂直方向(例えば、額の中央部分から鼻の中央を通過し顎に至るまでの線分)を軸にしたときの、人物の顔の左回りの回転角を、被写体の向きとする。人物の顔の左半分を捉える角度が-90度、人物の顔の右半分を捉える角度が90度となる。なお、向きは、被写体が映像配信装置200に正対している場合を基準したときの、被写体の、垂直方向の回転の度合い、撮影装置の光軸に対する回転方向の回転の度合い、あるいはそれらの回転の度合いの組合せであってもよい。なお、本実施の形態では、被写体の向きから得られる正面度合いFは、向きが0度の場合1.0とし、向きが-90度および90度を0.5として算出される値であるとする。
 推定部143は、図8に示すような状態モデル147と第1決定部142から供給された被写体データとを用いて、第2フレーム画像における被写体の状態(位置(Ynext)、大きさ(Snext)および正面度合い(F))を推定してもよい。なお、以降の説明において、推定部143が推定する被写体の向きとは、正面度合いFを示すとする。
 そして、推定部143は、図9に示すような品質モデル148を用いて、推定した被写体の状態と被写体データに含まれる品質スコアとから、推定した被写体の状態に関連する第2フレーム画像上における該被写体に関する第2品質を推定する。図9における、Smax、Qcur、およびQnextは、図6と同様の値を示す。
 例えば、二次解析装置300が顔画像から得られる特徴量を用いて顔認証を行う場合、正面を向いた顔画像の方が、左右を向いた顔画像よりも認証精度が高くなる。また、左右を向いた顔画像からは顔認証に用いる特徴量が十分に抽出できない可能性がある。よって、図9に示す品質モデル148は、正面度合いFが所定の閾値(図9の場合は0.7)以下の場合、低い品質スコアが推定されるように、設定されている。
 なお、図9では、品質モデル148は、推定した被写体の状態のうち、推定した向きのみを用いて品質スコアを推定するためのモデルであるが、品質モデル148は、推定した位置および大きさを用いて品質スコアを推定するためのモデルであってもよい。
 図10は、本実施の形態における推定部143の推定処理の結果の他の一例を示す図である。図10は、図7と同様に、同じ被写体番号74が含まれる被写体データのうち、被写体の位置71、大きさ72および品質スコア(第1品質)73を併せて記載している。推定結果70は、被写体番号74、位置75、大きさ76および品質スコア77を含む。このように、推定部143は、図8に示す状態モデル147を用いて、被写体の次の状態として向きも推定し、図9に示す品質モデル148を用いて、推定した次の状態と被写体データの品質スコアとから図10に示す推定結果70を出力してもよい。このように、被写体の向きを考慮して、被写体の状態を推定することにより、推定された被写体の状態の精度を上げることができる。また、推定部143は、向きを考慮した品質スコアを推定することができる。
 第2決定部144は、推定部143から、推定結果70を、被写体番号74に関連する被写体データと共に受け取る。第2決定部144は、推定結果70に含まれる品質スコア77に基づいて、推定結果70に含まれる被写体番号74と同じ被写体番号を含む被写体データを解析に用いるか否かを決定する。そして、第2決定部144は決定した被写体データに含まれる被写体番号と同じ番号の被写体番号41の最高品質スコア42を更新する。
 第2決定部144は、記憶部145に格納された出力ポリシー149に基づいて、被写体データを解析に用いるか否かを決定する。
 出力ポリシー149は、被写体データを解析に用いるか否かを決定するための方針を表すものである。出力ポリシー149は、例えば、「Qnext<=Qcurの場合、被写体データを出力する」である。
 図11は、第1の実施の形態における被写体データ決定部140の第2決定部144における決定処理の結果を説明するための図である。決定処理の結果は、決定結果115として出力される。決定結果115は、被写体番号111毎且つウインドウ番号112毎に出力される。被写体番号111は、被写体データに含まれる被写体番号と同様の番号である。図11は、被写体番号111が「1」の被写体データに対するウインドウごとの決定結果115の履歴を表す図である。
 品質スコア113は、被写体データ決定部140に入力された被写体データに含まれる品質スコアであり、上述した第1品質(Qcur)である。推定品質スコア114は、上述した第2品質(Qnext)であり、推定部143によって推定された品質スコアである。
 図11に示す通り、ウインドウ番号112が「1」の品質スコア113は、推定品質スコア114よりも小さい値である。第2決定部144は、「Qnext<=Qcurの場合、被写体データを出力する」という出力ポリシー149に基づいて、被写体データを解析に用いないと決定する。つまり、第2決定部144は、二次解析装置300に被写体データを出力しないと決定する。よって、ウインドウ番号112が「1」に関連する決定結果115は、決定した結果を表す「出力しない」となる。
 同様に、ウインドウ番号112が「2」~「4」の夫々に関連する被写体データに対しても、第2決定部144は出力しないと決定する。
 ウインドウ番号112が「5」の品質スコア113は、推定品質スコア114よりも大きい値である。よって、第2決定部144は、「Qnext<=Qcurの場合、被写体データを出力する」という出力ポリシー149に基づいて、被写体データを出力すると決定する。
 被写体データに関連する第1フレーム画像よりも時間的に後に撮像される第2フレーム画像上における被写体に関する品質(第2品質)が第1品質よりも高いと推定される場合、第2フレーム画像上から抽出された被写体領域(第2被写体データ)に関連するデータ(例えば、特徴量)は、第1フレーム画像上から抽出された被写体領域に関連するデータ(第1被写体データ)よりも有効なデータである可能性が高い。したがって、第1被写体データを解析に用い、第2被写体データを解析に用いなかった場合、第2被写体データを解析に用いた場合に比べ解析の精度が低下してしまう可能性がある。また、第1被写体データと第2被写体データとの両方を解析に用いる場合、被写体データ決定部140が出力する被写体データの量が増えるため、抽出部150における抽出処理の処理量が増え、遅延が大きくなってしまう可能性がある。
 しかしながら、上述した通り、第1被写体データに関連する第1品質よりも第2被写体データに関連する第2品質の方が高いと推定される場合、第2決定部144は、第1被写体データを出力しない。よって、第2決定部144は、第1品質よりも高い品質である第2品質を有する第2被写体データを出力することができる。これにより、被写体データ決定部140は、解析処理の精度の維持したまま出力するデータ量を削減することができる。また、出力するデータ量を削減することにより、被写体データ決定部140は、処理における遅延量を少なくすることができる。
 なお、例えば、図7の被写体番号74が「3」の被写体に関する品質スコア77のように、推定された品質スコア77が割合と共に第2決定部144に供給された場合、第2決定部144は、値が小さい方の推定品質スコア114を用いて、被写体データを解析に用いるか否かを決定してもよいし、割合が大きい方の推定品質スコア114を用いて、被写体データを解析に用いるか否かを決定してもよい。また、推定部143から出力される推定結果70に尤度が含まれる場合、第2決定部144は、尤度と所定の閾値とを比較し、比較結果と、出力ポリシー149とに基づいて、被写体データを解析に用いるか否かを決定してもよい。
 なお出力ポリシー149は上述したものに限定されない。例えば、出力ポリシー149は、『「Qnext<=Qcurの場合」または「Qcur>Qpmax×1.1の場合」、被写体データを出力する』であってもよい。ここで、Qpmaxは、過去に出力した被写体データの最高品質スコアであり、図4に示した最高品質スコア42である。
 この出力ポリシー149に基づいて第2決定部144が被写体データに対して決定した決定結果を図12に示す。図12は、本実施の形態における被写体データ決定部140の第2決定部144における決定処理の他の結果を説明するための図である。図12と図11との異なる点は、決定結果の欄である。図12に示す決定結果125は、『「Qnext<=Qcurの場合」または「Qcur>Qpmax×1.1の場合」、被写体データを出力する』という出力ポリシー149に基づいて決定された結果である。これにより、図12に示す通り、第2決定部144は、ウインドウ番号112が「1」に関連する被写体データ、ウインドウ番号112が「4」に関連する被写体データおよびウインドウ番号112が「5」に関連する被写体データを出力すると決定する。
 これにより、第2決定部144は、過去に出力した被写体データの品質よりも、所定以上品質が向上している被写体データを、出力すると決定することができる。これにより、例えば、二次解析装置300における解析に用いる有効なデータを一次解析装置100が出力することができるため、解析処理の精度の低下を防ぐことができる。
 図13は、本実施の形態における一次解析装置100の処理の流れの一例を示すフローチャートである。図13に示す通り、取得部110が、映像データを取得する(ステップS131)。そして、検出部120が、映像データに含まれる複数のフレーム画像の夫々から被写体を検出する(ステップS132)。
 その後、追跡部130が各フレーム画像に含まれる被写体同士が、同一の被写体か否かを判定することにより、被写体を追跡する(ステップS133)。そして、被写体データ決定部140が被写体データ決定処理を行う(ステップS134)。その後、抽出部150が、被写体データ決定処理において決定された被写体データに含まれる被写体画像から特徴量を抽出する(ステップS135)。そして、送信部160が、ステップS135において抽出された特徴量を二次解析装置300に送信する(ステップS136)。
 図14は、図13に示したステップS134の被写体データ決定処理の流れの一例を示すフローチャートである。図14に示す通り、選択部141が、ウインドウ内に含まれる複数のフレーム画像の夫々に関連する被写体データのうち、最も品質スコアが高い被写体データを、被写体番号ごとに選択する(ステップS141)。
 そして、第1決定部142が、選択された被写体データの品質スコアが、該被写体データの被写体番号と同じ番号の被写体番号41に関連付けられた過去の品質スコアである最高品質スコア42よりも大きいか否かを判定する(ステップS142)。そして、被写体データに含まれる品質スコアが、最高品質スコア42以下の場合(ステップS142にてNO)、処理を終了する。これにより、被写体データ決定部140から被写体データが出力されないため、上述したステップS135およびステップS136は行われない。
 被写体データに含まれる品質スコアが、最高品質スコア42よりも大きい場合(ステップS142にてYES)、推定部143は、状態モデル147を用いて、被写体データから第2フレーム画像における被写体の状態を推定する(ステップS143)。
 そして、推定部143は、品質モデル148を用いて、推定した被写体の状態と、被写体データに含まれる第1品質とから、第2品質を推定する(ステップS144)。
 そして、第2決定部144は、第2品質に基づいて、出力ポリシー149を参照し、入力された被写体データを解析に用いるか否かを決定する(ステップS145)。第2決定部144が入力された被写体データを解析に用いないと決定した場合(ステップS145にてNO)、処理を終了する。第2決定部144が入力された被写体データを解析に用いると決定した場合(ステップS145にてYES)、第2決定部144は、決定した被写体データを抽出部150に出力する(ステップS146)。そして、第2決定部144は、決定履歴情報146の最高品質スコア42を更新する(ステップS147)。
 以上により、被写体データ決定部140は、ステップS134の処理を終了する。
 図15は、本実施の形態における被写体データ決定部140が出力する出力データ151の一例を示す図である。図15に示す通り、出力データ151は、被写体データに含まれる、被写体番号152、フレーム番号153、被写体の位置155、被写体の大きさ156、被写体の向き157、被写体画像158および品質スコア159を含む。なお、出力データ151は、ウインドウ番号154を含んでもよい。被写体データ決定部140は、図15に示すような被写体画像158を含む出力データ151を出力する。これにより、抽出部150は、出力データ151に含まれる被写体画像158から特徴量を抽出することができる。
 以上のように、本実施の形態における一次解析装置100の被写体データ決定部140は、推定部143が入力された被写体データから状態モデル147を用いて得られる第2画像上における被写体の状態および被写体データに含まれる第1品質から、品質モデル148を用いて、第2画像上における被写体に関する第2品質を推定する。そして、第2決定部144が推定された第2品質に基づいて、解析に用いる被写体データを決定する。これにより、被写体データ決定部140は、例えば、第1品質が推定された第2品質と同じまたは第2品質よりも高い品質を有する場合に、該第1品質に関連する被写体データを解析に用いると決定し、第1品質が推定された第2品質よりも低い品質を有する場合に、該第1品質に関連する被写体データを解析に用いないと決定する。つまり、被写体データ決定部140は、第1品質よりも、入力された被写体データに関連する第1画像よりも時間的に後に撮像された第2画像から抽出された被写体データに関連する品質の方が高いと推定される場合、入力された被写体データを解析に用いないと決定する。これにより、被写体データ決定部140は、後から入力される被写体データよりも品質が低い被写体データを出力しないため、出力するデータ量を削減することができる。よって、一次解析装置100によるデータ処理による遅延量を少なくすることができる。また、被写体データの第1品質が第2画像から抽出された被写体データに関連する品質以上の場合に、第2決定部144は、被写体データを入力された被写体データを解析に用いると決定する。これにより、解析処理の精度を維持することができる。
 例えば、画像処理システム1が、店舗に侵入した不審者を特定するシステムであるとする。この場合、映像配信装置200が映像データを撮像してから表示装置400に特定された不審者に関する情報を表示するまでにかかる時間が少ない方が好ましい。本実施の形態に係る一次解析装置100によれば、二次解析装置300による解析処理の精度を維持したままで、被写体データ決定部140が出力するデータ量を削減することができるため、表示装置400は、映像配信装置200が取得した映像データから特定された不審者に関する情報をほぼリアルタイムで表示することができる。また、二次解析装置300による解析処理の精度が維持されているため、画像処理システム1は、不審者の侵入を好適に検知することができる。
 なお、本実施の形態では、図1に示す通り、画像処理システム1に含まれる各装置が夫々別の装置であることについて説明したが、画像処理システム1の各装置の構成はこれに限定されない。画像処理システム1に含まれる一次解析装置100、映像配信装置200、二次解析装置300および表示装置400は、全てが一体となっていてもよいし、組み合わせられてもよい。
 図16は、本実施の形態における画像処理システム1の構成の他の一例を示す図である。図16に示す通り、画像処理システム1に含まれる一次解析装置100、映像配信装置200および二次解析装置300は、撮像装置500として実装されてもよい。撮像装置500は、例えば、インテリジェントカメラやネットワークカメラと呼ばれる撮像装置である。なお、撮像装置500は、一次解析装置100と映像配信装置200とを含む構成であってもよい。この場合、二次解析装置300と表示装置400とは一体形成された装置であってもよいし、別々の装置であってもよい。
 撮像装置500に含まれる映像配信装置200は、例えば、CCD(Charge Coupled Device)センサ、CMOS(Complementary Metal Oxide Semiconductor)センサを用いて、撮像処理を行い、複数のフレームを含む映像データを生成する撮像部である。そして、映像配信装置200は、生成した映像データを一次解析装置100に供給する。これにより、一次解析装置100は、映像データから有効データを抽出することができる。なお、この場合、取得部110は、映像配信装置200と一体形成されてもよい。このように、一次解析装置100と、映像配信装置200とは、一体となって実装されている場合、撮像した映像データを、該映像データに対する処理を撮像した撮像装置500自身で行うことができる。このような構成であっても、画像処理システム1は、上述した効果を得ることができる。
 <第2の実施の形態>
 本開示の第2の実施の形態について、図面を参照して説明する。本実施の形態は、本開示の課題を解決する最小の構成について説明する。
 図17は、本実施の形態に係る映像解析装置2の機能構成の一例を示す機能ブロック図である。映像解析装置2は、第1の実施の形態における被写体データ決定部140に相当する機能を有する。
 映像解析装置2は、図17に示す通り、推定部3と、決定部4とを備える。推定部3は、上述した第1の実施の形態における推定部143の機能を有する。推定部3は、状態モデルを用いて入力される被写体データから得られる被写体の状態と、第1品質とから、品質モデルを用いて、第2品質を推定する。被写体データは、映像解析装置2に入力される、被写体に関連するデータであり、例えば、第1画像における被写体の位置および大きさ、第1画像における被写体に関する第1品質が含まれる。第1品質および第2品質は、解析処理に対して有効なデータであることを表す指標であり、例えば、被写体の位置、大きさ、向き、該被写体に対する撮影時の条件などに応じて求められる指標である。
 状態モデルは第2画像上における被写体の位置および大きさを推定するためのモデルである。第1画像と第2画像とは異なる画像である。例えば、第2画像は第1画像よりも時間的に後に撮像された画像である。品質モデルは、第2画像における被写体に関する第2品質を推定するためのモデルである。
 決定部4は、上述した第1の実施の形態における第2決定部144の機能を有する。決定部4は、推定された第2品質に基づいて、被写体データを解析に用いるか否かを決定する。例えば、決定部4は、第2品質が第1品質と同じまたは第1品質よりも低い品質を示す場合、被写体データを解析に用いると決定し、第2品質が第1品質よりも高い品質を示す場合、第1画像データを解析に用いないと決定する。
 図18は、本実施の形態に係る映像解析装置2の処理の流れの一例を示すフローチャートである。図18に示す通り、映像解析装置2の推定部3が、第2画像における被写体の状態および第1品質から、品質モデルを用いて第2画像における被写体に関する第2品質を推定する(ステップS1)。上述した通り、第2画像は、第1画像とは異なる画像である。第2画像は、例えば、第1画像よりも後に取得される。また、第2画像における被写体の状態は、第2画像における、被写体の位置および大きさであり、状態モデルを用いて推定される。品質モデルは、第2画像における被写体に関する第2品質を推定するためのモデルである。
 その後、決定部4が、ステップS1において推定された第2品質に基づいて、被写体データを解析に用いるか否かを決定する。
 以上により、本実施の形態に係る映像解析装置2は、少ない遅延量で、解析処理の精度の維持したまま出力するデータ量を削減することができる。なぜならば、決定部が、推定部3によって推定された第2品質に基づいて、解析に用いる被写体データを決定するからである。これにより、映像解析装置2は、例えば、第1品質が推定された第2品質と同じまたは第2品質よりも高い品質を有する場合に、該第1品質に関連する被写体データを解析に用いると決定し、第1品質が推定された第2品質よりも低い品質を有する場合に、該第1品質に関連する被写体データを解析に用いないと決定することができる。これにより、第1品質よりも、入力された被写体データに関連する第1画像よりも時間的に後に撮像された第2画像から抽出された被写体データに関連する品質の方が高いと推定される場合、入力された被写体データを解析に用いないと決定する。よって、後から入力される被写体データよりも品質が低い被写体データを出力しないため、出力するデータ量を削減することができる。よって、映像解析装置2によるデータ処理による遅延量を少なくすることができる。また、被写体データの第1品質が第2画像から抽出された被写体データに関連する品質以上の場合に、決定部4は、被写体データを入力された被写体データを解析に用いると決定する。これにより、解析処理の精度を維持することができる。
 (ハードウェア構成について)
 本開示の各実施形態において、一次解析装置100および映像解析装置2の各構成要素、並びに、一次解析装置100の被写体データ決定部140の各構成要素は、機能単位のブロックを示している。上記各構成要素の一部又は全部は、例えば図19に示すような情報処理装置900とプログラムとの任意の組み合わせにより実現される。図19は、各装置の各構成要素を実現する情報処理装置900のハードウェア構成の一例を示すブロック図である。情報処理装置900は、一例として、以下のような構成を含む。
  ・CPU(Central Processing Unit)901
  ・ROM(Read Only Memory)902
  ・RAM(Random Access Memory)903
  ・RAM903にロードされるプログラム904
  ・プログラム904を格納する記憶装置905
  ・記録媒体906の読み書きを行うドライブ装置907
  ・通信ネットワーク909と接続する通信インタフェース908
  ・データの入出力を行う入出力インタフェース910
  ・各構成要素を接続するバス911
 一次解析装置100および映像解析装置2の各構成要素、並びに、一次解析装置100の被写体データ決定部140の各構成要素は、これらの機能を実現するプログラム904をCPU901が取得して実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
 一次解析装置100および映像解析装置2の実現方法には、様々な変形例がある。例えば、各装置は、構成要素毎にそれぞれ別個の情報処理装置900とプログラムとの任意の組み合わせにより実現されてもよい。また、各装置が備える複数の構成要素が、一つの情報処理装置900とプログラムとの任意の組み合わせにより実現されてもよい。
 また、各装置の各構成要素の一部又は全部は、その他の汎用または専用の回路、プロセッサ等やこれらの組み合わせによって実現される。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。
 各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
 各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 なお、上述した各実施の形態は、本開示の好適な実施の形態であり、上記各実施の形態にのみ本開示の範囲を限定するものではなく、本開示の要旨を逸脱しない範囲において当業者が上記各実施の形態の修正や代用を行い、種々の変更を施した形態を構築することが可能である。
 1  画像処理システム
 2  映像解析装置
 3  推定部
 4  決定部
 100  一次解析装置
 110  取得部
 120  検出部
 130  追跡部
 140  被写体データ決定部
 141  選択部
 142  第1決定部
 143  推定部
 144  第2決定部
 145  記憶部
 146  決定履歴情報
 147  状態モデル
 148  品質モデル
 149  出力ポリシー
 150  抽出部
 160  送信部
 200  映像配信装置
 300  二次解析装置
 400  表示装置
 500  撮像装置

Claims (9)

  1.  入力される被写体に関連する被写体データから前記被写体の位置および大きさを推定するための状態モデルを用いて得られる、前記被写体データに関連する第1画像とは異なる第2画像における前記被写体の状態、および、前記被写体データに関連する前記被写体に関する第1品質から、前記被写体に関する第2品質を推定するための品質モデルを用いて、前記第2画像における前記被写体に関する第2品質を推定する推定手段と、
     前記推定された第2品質に基づいて、前記被写体データを解析に用いるか否かを決定する決定手段と、
     を備える映像解析装置。
  2.  前記状態モデルは、前記被写体の位置、大きさおよび向きを推定するためのモデルであり、
     前記推定手段は、前記第2画像における前記被写体の位置、大きさおよび向きの少なくとも何れかに基づいて、前記第2品質を推定する、
     請求項1に記載の映像解析装置。
  3.  前記決定手段は、前記第1品質が前記推定された第2品質がよりも高い品質である場合、前記被写体データを解析に用いると決定する、
     請求項1または2に記載の映像解析装置。
  4.  前記決定手段は、更に、前記第1品質が、前記入力された被写体データを解析に用いるか否かを決定するより前に該決定手段が解析に用いると決定した被写体データに関連する品質よりも所定の値以上高い品質である場合に、前記入力された被写体データを解析に用いると決定する、
     請求項3に記載の映像解析装置。
  5.  前記第1品質が、前記入力された被写体データを解析に用いるか否かを決定するより前に前記決定手段が解析に用いると決定した被写体データに関連する品質よりも高い品質の場合、前記入力された被写体データを、解析に用いる出力候補の被写体データとして決定する出力候補決定手段を更に備え、
     前記推定手段は、前記出力候補の被写体データから得られる前記被写体の状態および前記第1品質から、前記品質モデルを用いて、前記第2品質を推定し、
     前記決定手段は、前記第2品質に基づいて、前記出力候補の被写体データを解析に用いる被写体データとして決定する、
     請求項1から4の何れか1項に記載の映像解析装置。
  6.  入力される被写体に関連する被写体データから前記被写体の位置および大きさを推定するための状態モデルを用いて得られる、前記被写体データに関連する第1画像とは異なる第2画像における前記被写体の状態、および、前記被写体データに関連する前記被写体に関する第1品質から、前記被写体に関する第2品質を推定するための品質モデルを用いて、前記第2画像における前記被写体に関する第2品質を推定し、
     前記推定された第2品質に基づいて、前記被写体データを解析に用いるか否かを決定する、映像解析方法。
  7.  前記状態モデルは、前記被写体の位置、大きさおよび向きを推定するためのモデルであり、
     前記第2画像における前記被写体の位置、大きさおよび向きの少なくとも何れかに基づいて、前記第2品質を推定する、
     請求項6に記載の映像解析方法。
  8.  入力される被写体に関連する被写体データから前記被写体の位置および大きさを推定するための状態モデルを用いて得られる、前記被写体データに関連する第1画像とは異なる第2画像における前記被写体の状態、および、前記被写体データに関連する前記被写体に関する第1品質から、前記被写体に関する第2品質を推定するための品質モデルを用いて、前記第2画像における前記被写体に関する第2品質を推定する処理と、
     前記推定された第2品質に基づいて、前記被写体データを解析に用いるか否かを決定する処理と、
     をコンピュータに実行させるプログラムを記録する、コンピュータ読み取り可能な非一時的な記録媒体。
  9.  前記状態モデルは、前記被写体の位置、大きさおよび向きを推定するためのモデルであり、
     前記推定する処理は、前記第2画像における前記被写体の位置、大きさおよび向きの少なくとも何れかに基づいて、前記第2品質を推定する、
     請求項8に記載の記録媒体。
PCT/JP2017/012817 2017-03-29 2017-03-29 映像解析装置、映像解析方法および記録媒体 WO2018179119A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019508411A JP6798609B2 (ja) 2017-03-29 2017-03-29 映像解析装置、映像解析方法およびプログラム
US16/495,465 US11132778B2 (en) 2017-03-29 2017-03-29 Image analysis apparatus, image analysis method, and recording medium
PCT/JP2017/012817 WO2018179119A1 (ja) 2017-03-29 2017-03-29 映像解析装置、映像解析方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/012817 WO2018179119A1 (ja) 2017-03-29 2017-03-29 映像解析装置、映像解析方法および記録媒体

Publications (1)

Publication Number Publication Date
WO2018179119A1 true WO2018179119A1 (ja) 2018-10-04

Family

ID=63674667

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/012817 WO2018179119A1 (ja) 2017-03-29 2017-03-29 映像解析装置、映像解析方法および記録媒体

Country Status (3)

Country Link
US (1) US11132778B2 (ja)
JP (1) JP6798609B2 (ja)
WO (1) WO2018179119A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210390712A1 (en) * 2020-06-16 2021-12-16 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020217369A1 (ja) * 2019-04-25 2020-10-29 日本電気株式会社 オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及び非一時的なコンピュータ可読媒体
CN111414387B (zh) * 2020-03-18 2021-11-12 威讯柏睿数据科技(北京)有限公司 一种基于全内存计算对流数据进行查询的方法和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012173879A (ja) * 2011-02-18 2012-09-10 Toyota Central R&D Labs Inc 信号機検出装置及びプログラム
JP2015219681A (ja) * 2014-05-16 2015-12-07 日本放送協会 顔画像認識装置及び顔画像認識プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4992945B2 (ja) 2009-09-10 2012-08-08 株式会社日立製作所 ストリームデータ生成方法、ストリームデータ生成装置及びストリームデータ生成プログラム
JP2015104016A (ja) * 2013-11-26 2015-06-04 キヤノン株式会社 被写体検出装置、撮像装置、被写体検出装置の制御方法、被写体検出装置の制御プログラムおよび記憶媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012173879A (ja) * 2011-02-18 2012-09-10 Toyota Central R&D Labs Inc 信号機検出装置及びプログラム
JP2015219681A (ja) * 2014-05-16 2015-12-07 日本放送協会 顔画像認識装置及び顔画像認識プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210390712A1 (en) * 2020-06-16 2021-12-16 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
US12067734B2 (en) * 2020-06-16 2024-08-20 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium

Also Published As

Publication number Publication date
JPWO2018179119A1 (ja) 2020-01-09
US20200074612A1 (en) 2020-03-05
US11132778B2 (en) 2021-09-28
JP6798609B2 (ja) 2020-12-09

Similar Documents

Publication Publication Date Title
US10867166B2 (en) Image processing apparatus, image processing system, and image processing method
RU2607774C2 (ru) Способ управления в системе захвата изображения, устройство управления и машиночитаемый носитель данных
US10810438B2 (en) Setting apparatus, output method, and non-transitory computer-readable storage medium
US20200050873A1 (en) People flow estimation device, display control device, people flow estimation method, and recording medium
JP6494253B2 (ja) 物体検出装置、物体検出方法、画像認識装置及びコンピュータプログラム
US10445887B2 (en) Tracking processing device and tracking processing system provided with same, and tracking processing method
JP5991224B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP6555906B2 (ja) 情報処理装置、情報処理方法、およびプログラム
EP2858008A2 (en) Target detecting method and system
US11132538B2 (en) Image processing apparatus, image processing system, and image processing method
JP7272024B2 (ja) 物体追跡装置、監視システムおよび物体追跡方法
US20150146006A1 (en) Display control apparatus and display control method
JP7354767B2 (ja) 物体追跡装置および物体追跡方法
JP6822482B2 (ja) 視線推定装置、視線推定方法及びプログラム記録媒体
US10872268B2 (en) Information processing device, information processing program, and information processing method
CN110490910A (zh) 目标检测方法、装置、电子设备及存储介质
JP2011234314A (ja) 画像処理装置、画像処理方法及びプログラム
US20180307896A1 (en) Facial detection device, facial detection system provided with same, and facial detection method
CN108229281B (zh) 神经网络的生成方法和人脸检测方法、装置及电子设备
CN110781712A (zh) 一种基于人脸检测与识别的人头空间定位方法
JP4821355B2 (ja) 人物追跡装置、人物追跡方法および人物追跡プログラム
WO2018179119A1 (ja) 映像解析装置、映像解析方法および記録媒体
WO2018128138A1 (ja) 画像処理装置、映像監視システム、画像処理方法およびプログラムを格納した記録媒体
US20170084047A1 (en) System and method for determining colors of foreground, and computer readable recording medium therefor
JP2019040592A (ja) 情報処理装置、情報処理プログラム、及び、情報処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17904233

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019508411

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17904233

Country of ref document: EP

Kind code of ref document: A1