[go: up one dir, main page]

JP7568595B2 - Foreground extraction device and program - Google Patents

Foreground extraction device and program Download PDF

Info

Publication number
JP7568595B2
JP7568595B2 JP2021139425A JP2021139425A JP7568595B2 JP 7568595 B2 JP7568595 B2 JP 7568595B2 JP 2021139425 A JP2021139425 A JP 2021139425A JP 2021139425 A JP2021139425 A JP 2021139425A JP 7568595 B2 JP7568595 B2 JP 7568595B2
Authority
JP
Japan
Prior art keywords
foreground
image
region
video
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021139425A
Other languages
Japanese (ja)
Other versions
JP2023032996A (en
Inventor
敬介 野中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2021139425A priority Critical patent/JP7568595B2/en
Publication of JP2023032996A publication Critical patent/JP2023032996A/en
Application granted granted Critical
Publication of JP7568595B2 publication Critical patent/JP7568595B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、画像から前景を抽出する前景抽出装置及びプログラムに関する。 The present invention relates to a foreground extraction device and program for extracting foreground from an image.

映像から人物などの前景物体領域を抽出する技術(前景抽出技術)は、人物追跡、物体認識、3次元空間再構成などの映像処理アプリケーションの要素技術として広く用いられている。これまで多くの前景抽出技術が提案されているが、その中でも最新の技術である非特許文献1では、セマンティックセグメンテーションなどの領域分割(抽出)技術とグラフ構造に基づく機械学習を利用した高精度な前景抽出技術を提案している。 Technology for extracting foreground object regions such as people from video (foreground extraction technology) is widely used as a component technology for video processing applications such as person tracking, object recognition, and 3D space reconstruction. Many foreground extraction technologies have been proposed so far, but the latest technology, "Foreground Extraction Technology," in Non-Patent Document 1, proposes a highly accurate foreground extraction technology that utilizes region division (extraction) technology such as semantic segmentation and machine learning based on graph structures.

図1は、この既存手法による前景抽出技術の説明図であり、当該技術において扱われる各データD1~D5と、これらデータに対して適用される各処理P1~P4の関係を模式的に示している。 Figure 1 is an explanatory diagram of this existing foreground extraction technology, and shows a schematic diagram of the relationship between the data D1 to D5 handled by the technology and the processes P1 to P4 applied to these data.

前景抽出対象の入力映像データD1の一部(またはすべて)において、セグメンテーション(処理P1)結果の分割後の各画像領域(セグメント)D2から画素値のヒストグラムや最大値などを特徴量ベクトルとして算出(処理P2)する。それを複数のフレームに対して行った結果得られる特徴量ベクトル群に対して、それぞれのベクトル間の距離を指標として、各セグメントがノードに対応するグラフD3を構築(グラフD3を構築する処理P3のうち一部P31)する。加えて、正解ラベルデータ(正解の前景領域を含む2値画像)があらかじめ付与されている異なる映像D4から一定数のフレームを選択し、上記同様にセグメントから得られるノードをグラフD3に追加(グラフD3を構築する処理P3の残りの一部P32)する。 For part (or all) of the input video data D1 from which foreground extraction is to be performed, feature vectors such as histograms and maximum values of pixel values are calculated (process P2) from each image region (segment) D2 resulting from segmentation (process P1). This is then performed for multiple frames, and a graph D3 is constructed (P31, part of process P3 for constructing graph D3) in which each segment corresponds to a node, using the distance between each vector as an index for the group of feature vectors obtained. In addition, a certain number of frames are selected from a different video D4 to which correct label data (binary image containing the correct foreground region) has been added in advance, and nodes obtained from the segments in the same manner as above are added to graph D3 (P32, the remaining part of process P3 for constructing graph D3).

ここで、グラフD3を構築する処理P3は、図1中の説明欄にも示されるように、未定ラベルのノードを構築する処理P31及び正解ラベルのノードを構築する処理P32で構成される。正解ラベルに関する処理P32では、正解ラベルデータが付与された映像D4に対応するノードについて、正解の前景領域と各セグメントを比較することで、当該セグメントについて前景(または背景)の判定を行い、正解ラベルとしての前景/背景ラベルを付与してノード構築する。一方、未定ラベルに関する処理P31では、対応する正解データがない、入力映像D1のフレームに含まれるセグメントに関して、ラベル未定としてノード構築する。(図1では未定ラベルとなるノードを白色ノード、正解ラベルが付与されたノードをグレー色としてグラフD3を模式的に示している。) Here, the process P3 for constructing the graph D3 is composed of a process P31 for constructing nodes with undetermined labels and a process P32 for constructing nodes with correct labels, as shown in the explanatory column in FIG. 1. In the process P32 for correct labels, for nodes corresponding to the video D4 to which correct label data has been assigned, the correct foreground region is compared with each segment to determine whether the segment is foreground (or background), and a foreground/background label is assigned as the correct label to construct the node. On the other hand, in the process P31 for undetermined labels, nodes are constructed with an undetermined label for segments included in the frames of the input video D1 that do not have corresponding correct data. (In FIG. 1, graph D3 is diagrammatically shown with nodes with undetermined labels as white nodes and nodes with correct labels assigned as gray.)

次に、前記グラフD3からノードの一部(またはすべて)をサンプリングし、グラフ構造に基づく補間処理(半教師あり学習)によって未定のラベルを決定(処理P4)する。このとき、補間処理によって決定されるのはセグメントごとの前景/背景のラベルのみであり、それぞれのセグメントの画素値(領域のサイズなど)は変更しないことに注意されたい。これらの処理を、抽出対象とする映像データD1すべてに対して実行することで高精度な前景抽出結果D5を得るようにしている。 Next, some (or all) of the nodes are sampled from the graph D3, and the undetermined labels are determined (process P4) by an interpolation process (semi-supervised learning) based on the graph structure. Note that at this time, only the foreground/background labels for each segment are determined by the interpolation process, and the pixel values of each segment (such as the size of the area) are not changed. By performing these processes on all of the video data D1 to be extracted, a highly accurate foreground extraction result D5 is obtained.

J. H. Giraldo, S. Javed and T. Bouwmans, "Graph Moving Object Segmentation," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.J. H. Giraldo, S. Javed and T. Bouwmans, "Graph Moving Object Segmentation," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020. R.Achanta, A.Shaji, K.Smith, A.Lucchi, P.Fua, and S.Susstrunk, "SLIC superpixels compared to state-of-the-art superpixel methods", IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011.R.Achanta, A.Shaji, K.Smith, A.Lucchi, P.Fua, and S.Susstrunk, "SLIC superpixels compared to state-of-the-art superpixel methods", IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011.

前記既存手法では処理P1として様々なセグメンテーション手法を利用することができるが、画面全体を細かく分割した場合はセグメントの数ひいてはノードの数が爆発的に増えるため、グラフ構造に基づく補間処理P4の計算量が膨大になる。そのため、非特許文献1では主にMask-RCNNといった大まかな物体認識および抽出を行うインスタンスセグメンテーション(またはセマンティックセグメンテーション)を利用している。従って、得られる前景抽出結果D5も大まかなものとなってしまう。 In the existing method, various segmentation methods can be used for process P1, but if the entire screen is divided into small parts, the number of segments and therefore the number of nodes will increase explosively, resulting in a huge amount of calculations for the graph structure-based interpolation process P4. For this reason, Non-Patent Document 1 mainly uses instance segmentation (or semantic segmentation) such as Mask-RCNN, which performs rough object recognition and extraction. Therefore, the obtained foreground extraction result D5 will also be rough.

ここで、前景抽出結果D5を精密化するためには処理P1のセグメンテーションを大まかなものではなく過分割とすることが考えられるが、当該過分割したとする場合の計算量を抑える方策は非特許文献1では検討されていない。 Here, in order to refine the foreground extraction result D5, it is possible to over-segment the segmentation in process P1 rather than roughly, but non-patent document 1 does not consider any measures to reduce the amount of calculations required in the case of over-segmentation.

以上の議論から、非特許文献1の既存手法には、次のような点(1)~(3)で改良の余地が残っている。 From the above discussion, there is still room for improvement in the existing method of Non-Patent Document 1 in the following areas (1) to (3).

(1) 最終的な前景抽出結果D5はセグメンテーションの結果D2に強く依存するため、インスタンスセグメンテーションP1において抽出されなかった領域は最終的な出力D5においても抽出できない。すなわち、処理の対象とならずフレーム毎に前景領域が消失することがある。 (1) The final foreground extraction result D5 is highly dependent on the segmentation result D2, so areas that are not extracted in the instance segmentation P1 cannot be extracted in the final output D5. In other words, foreground areas may disappear from each frame without being processed.

(2) 同様に、インスタンスセグメンテーションP1のように物体境界を粗く抽出するセグメンテーションを用いた場合、最終的な出力D5においても物体境界は正確に抽出されない。 (2) Similarly, if a segmentation method that roughly extracts object boundaries, such as instance segmentation P1, is used, the object boundaries will not be accurately extracted even in the final output D5.

(3) 上記2点を解決するために、画像全体を細かく分割するセグメンテーション(過分割)を用いたとすると、グラフD3のノード数が爆発的に増えるため、半教師あり学習の処理P4の際に膨大な計算量を要する。 (3) If segmentation (over-segmentation) were used to finely divide the entire image in order to solve the above two problems, the number of nodes in graph D3 would increase explosively, requiring an enormous amount of calculations during the semi-supervised learning process P4.

上記従来技術の課題に鑑み、本発明は、グラフ構造に基づく映像からの前景抽出を効率的に行うことのできる前景抽出装置及びプログラムを提供することを第1の目的とする。また、当該第1の目的を達成する前景抽出装置の一部分のみを備える新規な構成により、入力画像から簡素かつ効率的に前景抽出を行うことができる前景抽出装置及びプログラムを提供することを第2の目的とする。 In view of the problems with the conventional technology described above, the first object of the present invention is to provide a foreground extraction device and program capable of efficiently extracting foreground from video based on a graph structure. The second object of the present invention is to provide a foreground extraction device and program capable of simply and efficiently extracting foreground from an input image using a new configuration that includes only a portion of the foreground extraction device that achieves the first object.

上記第1の目的を達成するため、本発明は、前景または背景の区別が付与されていない第1映像と、当該区別が付与された第2画像群と、を入力として、第1映像の各フレームにおける前景を抽出する前景抽出装置であって、前記第1映像及び前記第2画像群の各画像に対して、第1手法を適用することで前景候補領域を抽出し、前記前景候補領域と、対応する画像に対して前記第1手法よりも細分化された領域分割を実現する第2手法を適用した領域分割結果と、を照合して、前記前景候補領域を修正した対象領域を求め、対象領域の各々をノードとし、各ノードが前記第2画像群に起因する場合に前景または背景の区別をラベルとして付与したグラフを構築し、前記グラフのコストを最小化する ように、前記グラフの各ノードのうち前記第1映像に起因するノードに対して前景または背景の区別をラベルとして推定することで、前記第1映像の各フレームにおける前景抽出結果を得ることを第1の特徴とする。 In order to achieve the first object, the present invention provides a foreground extraction device that extracts the foreground in each frame of a first video image that is not assigned a distinction between foreground and background and a second group of images that are assigned the distinction, and applies a first method to each image of the first video image and the second group of images to extract a foreground candidate region. The foreground candidate region is compared with a region segmentation result obtained by applying a second method that achieves a finer region segmentation than the first method to the corresponding image to obtain a target region in which the foreground candidate region is corrected. Each of the target regions is a node, and a graph is constructed in which the distinction between foreground and background is assigned as a label when each node originates from the second group of images. The first feature of the present invention is to obtain a foreground extraction result in each frame of the first video image by estimating the distinction between foreground and background as a label for each node of the graph that originates from the first video image so as to minimize the cost of the graph.

また、上記第2の目的を達成するため、本発明は、入力画像における前景を抽出する前景抽出装置であって、前記入力画像に対して第1手法を適用することで前景候補領域を抽出し、前記前景候補領域と、前記入力画像に対して前記第1手法よりも細分化された領域分割を実現する第2手法を適用した領域分割結果と、を照合して、前記前景候補領域を修正した対象領域として、前記入力画像における前景を抽出することを第2の特徴とする。また、コンピュータを前記前景抽出装置として機能させるプログラムであることを特徴とする。 To achieve the second object, the present invention is characterized in that it is a foreground extraction device that extracts the foreground in an input image, which applies a first method to the input image to extract a foreground candidate region, compares the foreground candidate region with a region segmentation result obtained by applying a second method to the input image that achieves a finer region segmentation than the first method, and extracts the foreground in the input image as a target region obtained by correcting the foreground candidate region. The present invention is also characterized in that it is a program that causes a computer to function as the foreground extraction device.

前記第1の特徴によれば、セグメンテーション手法としての第1手法と第2手法を併用して、領域抽出の個数を抑制したうえで且つ適切な領域形状として抽出することにより、グラフ構造に基づく映像からの前景抽出を効率的に行うことができる。前記第2の特徴によれば、セグメンテーション手法としての第1手法と第2手法を併用して、画像から簡素且つ効率的に前景抽出を行うことができる。 According to the first feature, by using the first and second segmentation methods in combination to reduce the number of extracted regions and extract them as appropriate regions, it is possible to efficiently extract foreground from an image based on a graph structure. According to the second feature, by using the first and second segmentation methods in combination to simply and efficiently extract foreground from an image.

既存手法による前景抽出技術の説明図である。FIG. 1 is an explanatory diagram of a foreground extraction technique according to an existing method. 一実施形態に係る前景抽出装置の機能ブロック図である。1 is a functional block diagram of a foreground extraction device according to an embodiment. 映像上において前景抽出が不正確となっている例を示す図である。FIG. 13 is a diagram showing an example in which foreground extraction is inaccurate on an image. 和集合として前景候補領域を求める例を示す図である。FIG. 13 is a diagram showing an example of determining a foreground candidate region as a union; 多重分割部での処理の模式例を示す図である。FIG. 13 is a diagram showing a schematic example of processing in a multiplexing division unit. 図2の構成の一部のみを備える、別の一実施形態に係る前景抽出装置の機能ブロック図である。3 is a functional block diagram of a foreground extraction device according to another embodiment, which includes only a part of the configuration of FIG. 2 . 一般的なコンピュータにおけるハードウェア構成を示す図である。FIG. 1 is a diagram illustrating a hardware configuration of a typical computer.

図2は、一実施形態に係る前景抽出装置10の機能ブロック図である。前景抽出装置10は、映像入力部1、背景画像生成部2、前景候補領域決定部3、多重分割部4、特徴量抽出部5、グラフ構築部6、ラベル推定部7、映像出力部8及び正解DB(データベース)9を備える。 Figure 2 is a functional block diagram of a foreground extraction device 10 according to one embodiment. The foreground extraction device 10 includes a video input unit 1, a background image generation unit 2, a foreground candidate region determination unit 3, a multiple division unit 4, a feature extraction unit 5, a graph construction unit 6, a label estimation unit 7, a video output unit 8, and a correct answer DB (database) 9.

前景抽出装置10は、その全体的な動作として図1の既存手法を踏襲しつつ、既存手法に対して改良された手法により効率的な前景抽出を行うことができる。すなわち、前景抽出装置10は既存手法と同様の枠組みとして、映像入力部1において前景抽出の対象となる入力映像(正解ラベルなし)を第1入力として読み込み、正解DB9に予め用意しておく前景/背景の区別が付与された映像(正解ラベルあり)を第2入力として読み込み、これら第1入力及び第2入力からグラフ構築を行って半教師あり学習を行うことにより、第1入力の前景抽出結果を映像出力部8において出力する。(すなわち、これら第1入力、第2入力及び出力は、図1に示したデータD1,D4,D5にそれぞれ対応するものである。) The foreground extraction device 10 follows the existing method of FIG. 1 as its overall operation, but can perform efficient foreground extraction by an improved method of the existing method. That is, the foreground extraction device 10 reads the input video (without correct answer label) to be subjected to foreground extraction as the first input in the video input unit 1, reads the video (with correct answer label) with the foreground/background distinction prepared in advance in the correct answer DB 9 as the second input, and constructs a graph from these first and second inputs to perform semi-supervised learning, thereby outputting the foreground extraction result of the first input at the video output unit 8. (That is, these first input, second input, and output correspond to the data D1, D4, and D5 shown in FIG. 1, respectively.)

以下、前景抽出装置10の各機能部の処理の詳細について説明する。 The processing of each functional unit of the foreground extraction device 10 is described in detail below.

<<映像入力部1>>
映像入力部1では、ユーザ等によって準備される前景抽出対象の映像を入力として受け取り、この入力映像を背景画像生成部2及び前景候補領域決定部3へと出力する。すなわち、抽出対象とする映像の連続するフレームIt(t=1,2,…)を前景抽出装置10における入力(第1入力)として受け取り、背景画像生成部2及び前景候補領域決定部3に出力する。
<<Video input section 1>>
Video input unit 1 receives as input a video to be subjected to foreground extraction prepared by a user or the like, and outputs this input video to background image generation unit 2 and foreground candidate area determination unit 3. That is, successive frames I t (t=1, 2, ...) of the video to be subjected to extraction are received as input (first input) in foreground extraction device 10, and are output to background image generation unit 2 and foreground candidate area determination unit 3.

なお、以後、特に断りがない限り映像フレーム(画像)は輝度などの1チャネルのみをもつものとして記述するが、カラー画像などの複数のチャネルをもつ場合は「各チャネルの最終的な出力(画像領域ごとの前景/背景ラベル)の多数決により対応する画像領域のラベルを決定する」、「複数の中から1チャネル(Greenチャネルなど)を入力として用いる、もしくは平均値などの代表値を入力として用いる」ことで、同様に色チャネルごとに処理を行うことでカラー画像にも適用可能である。 In the following, unless otherwise specified, video frames (images) will be described as having only one channel such as brightness. However, in the case of multiple channels such as color images, the label of the corresponding image region is determined by majority vote of the final output of each channel (foreground/background label for each image region) and one channel from multiple channels (such as the Green channel) is used as input, or a representative value such as the average value is used as input. This allows the method to be applied to color images as well by performing processing for each color channel in the same way.

<<正解DB9>>
正解DB9は、映像入力部1に入力された映像とは異なる映像と、当該映像に対応する事前に準備された前景である画像領域が示されたデータ(すなわち、当該映像の各フレームにおける正解ラベルとしての前景領域データ)と、を前景抽出装置10における入力(第2入力)として保持する。当該第2入力のデータはユーザ等が予め準備しておき、正解DB9に記録しておく。ここで、映像データ(複数の画像フレーム)とそれに対応する正解ラベルデータ(対応するフレームの2値画像)は組で保持される。また正解ラベルデータの2値画像については、例えば人物領域などの前景と思われる画像領域にのみ1の値が付与され、それ以外の背景領域については0の値が付与されているような画像を想定する。
<<The correct answer is DB9>>
The correct answer DB9 holds, as inputs (second inputs) to the foreground extraction device 10, an image different from the image input to the image input unit 1 and data indicating an image area that is a foreground prepared in advance corresponding to the image (i.e., foreground area data as a correct answer label in each frame of the image). The data of the second input is prepared in advance by a user or the like and recorded in the correct answer DB9. Here, the image data (multiple image frames) and the corresponding correct answer label data (binary images of the corresponding frames) are held in pairs. In addition, for the binary image of the correct answer label data, an image is assumed in which a value of 1 is assigned only to image areas that are thought to be foreground, such as a person area, and a value of 0 is assigned to other background areas.

正解DB9に記録されているデータは、映像に関して背景画像生成部2及び前景候補領域決定部3へ出力され、当該映像に対応する正解ラベルデータに関してグラフ構築部6へ出力され、当該出力された各部において利用される。 The data recorded in the correct answer DB9 is output to the background image generation unit 2 and the foreground candidate area determination unit 3 regarding the image, and is output to the graph construction unit 6 regarding the correct answer label data corresponding to the image, and is used in each unit to which it is output.

<<背景画像生成部2>>
背景画像生成部2は、映像入力部1から得た映像と正解DB9から得た映像とのそれぞれを入力として、当該各映像における背景画像を生成し、特徴量抽出部5へと出力する。具体的には、例えば非特許文献1のように、ある一つの映像を入力として、連続する複数のフレームにおける各画素の中央値や平均値を取ることにより、背景画像を生成することができる。
<<Background image generation unit 2>>
The background image generating unit 2 receives as input the video obtained from the video input unit 1 and the video obtained from the answer DB 9, generates a background image for each video, and outputs the generated image to the feature extraction unit 5. Specifically, as in Non-Patent Document 1, for example, a certain video is received as input, and a background image can be generated by taking the median or average value of each pixel in multiple consecutive frames.

なお、本実施形態は背景画像に関して次のように構成される場合を想定する。映像入力部1の第1入力としての映像は、単一のシーンで構成され単一の背景画像が対応するものとして、背景画像生成部2において背景画像を生成する。(シーンが異なる映像の前景抽出結果を得たい場合は、シーンごとに映像を区切って、共通のシーンで構成される映像を第1入力部1へと入力し、前景抽出装置10全体の動作を共通シーン映像ごとに複数回行うようにすればよい。)一方で、映像内容によっては、単一のシーンで構成される第1入力の映像について、映像内の区間ごとに異なる背景画像を背景画像生成部2において生成してもよい。例えば、第1入力の映像が長尺となる場合、照明の変化などを吸収するために、抽出対象映像の近傍の一定区間の時刻の平均値をとるなどして複数の背景画像を生成してもよい。あるいは、長尺の映像の場合は、短尺の映像に分割してそれぞれの小区間の映像につき一つの背景画像を生成してもよい。 In this embodiment, the background image is assumed to be configured as follows. The video as the first input of the video input unit 1 is composed of a single scene and corresponds to a single background image, and the background image is generated in the background image generation unit 2. (If you want to obtain a foreground extraction result for videos with different scenes, you can divide the video into scenes, input the video composed of a common scene to the first input unit 1, and perform the operation of the entire foreground extraction device 10 multiple times for each common scene video.) On the other hand, depending on the video content, the background image generation unit 2 may generate different background images for each section in the video for the first input video composed of a single scene. For example, if the first input video is long, multiple background images may be generated by taking the average value of a certain section of time near the video to be extracted in order to absorb changes in lighting, etc. Alternatively, in the case of a long video, it may be divided into short videos and one background image may be generated for each short section of the video.

また、正解DB9に用意しておく第2入力の映像は、半教師あり学習のための適切なグラフを構築する観点から、多様なシーンで構成され多様な背景画像が対応するものとして、背景画像生成部2において背景画像を生成する。予めマニュアル作業で第2入力の映像の全部または一部について背景画像も用意されている場合には、背景画像生成部2における背景画像の自動生成を省略して、当該用意されている背景画像を用いてもよい。 In addition, from the viewpoint of constructing an appropriate graph for semi-supervised learning, the second input video prepared in the answer DB9 is composed of a variety of scenes and corresponds to a variety of background images, and background images are generated in the background image generation unit 2. If background images have been prepared in advance manually for all or part of the second input video, the automatic generation of background images in the background image generation unit 2 may be omitted and the prepared background images may be used.

<<前景候補領域決定部3>>
前景候補領域決定部3では、映像入力部1から得た映像と正解DB9から得た映像を入力として、当該各映像の各フレームに対して、前景抽出の候補となる領域(前景候補領域)を決定し、当該決定した前景候補領域を多重分割部4へと出力する。(なお、図2の構成にも示されているように、以降のグラフ構築部6までの処理においては、正解ラベルデータは利用されない。)具体的に、前景候補領域は以下のように決定することができる。
<<Foreground candidate area determination unit 3>>
The foreground candidate region determination unit 3 receives the image obtained from the image input unit 1 and the image obtained from the correct answer DB 9 as input, and determines the region that is a candidate for foreground extraction (foreground candidate region) for each frame of each image. The foreground candidate region is determined and output to the multiple division unit 4. (Note that, as shown in the configuration of FIG. 2, in the subsequent processing up to the graph construction unit 6, the correct label data is not utilized.) Specifically, the foreground candidate regions can be determined as follows.

まず、抽出対象の映像のある時刻tのフレームItに対して、Mask-RCNNのようなインスタンスセグメンテーション(またはセマンティックセグメンテーション)により前景物体と認識された画像領域(または当該領域を含むバウンディングボックス(矩形形状の囲み枠))をIS(インスタンスセグメンテーション(またはセマンティックセグメンテーション))領域It sとし、このIS領域It sに対応する画素インデックスの集合をΘ(It s)とする。なお、IS領域It sは時刻tのフレームにおいて抽出されたすべての領域(独立した複数の領域)を包含することに注意されたい。 First, for a frame I t at time t in a video to be extracted, an image region (or a bounding box (rectangular surrounding frame) containing the region) recognized as a foreground object by instance segmentation (or semantic segmentation) such as Mask-RCNN is defined as IS (instance segmentation (or semantic segmentation)) region I t s , and a set of pixel indices corresponding to this IS region I t s is defined as Θ(I t s ). Note that the IS region I t s includes all regions (multiple independent regions) extracted in the frame at time t.

なお、以後でも上記と同様の関数表記を以下のように用いる。
Θ(・) …入力変数の画像領域に対応する画素インデックスの集合を返す関数
Θx -1(・) …画素インデックスの集合を入力とし、画像xの画像領域を返す関数
In the following description, the same function notation as above will be used as follows.
Θ(・) ... A function that returns a set of pixel indices corresponding to the image region of the input variable Θ x -1 (・) ... A function that takes a set of pixel indices as input and returns the image region of image x

この画素インデックスの集合Θ(It s)(IS領域It sの情報と同一)を得た時点ですべての前景物体が精度よく抽出されていることが望ましいが、インスタンスセグメンテーションの学習データの不足や対象映像のノイズなどにより、抽出されるべき候補領域が実際には抽出できないことがある。すなわち、本来の前景物体が領域として抽出されているが、その境界に過不足があって物体領域が正確でないことや、前景物体として抽出されるべき領域がそもそも全く抽出されていない(完全に背景のみとして抽出されている)場合や、この逆に、背景であるべき箇所が前景として抽出されていることがありうる。 It is desirable that all foreground objects are extracted with high accuracy when this pixel index set Θ(I t s ) (same as the information of IS region I t s ) is obtained, but there are cases where candidate regions that should be extracted cannot actually be extracted due to a lack of learning data for instance segmentation, noise in the target image, etc. In other words, there are cases where the original foreground object is extracted as a region, but the object region is inaccurate due to an excess or deficiency in its boundary, or a region that should be extracted as a foreground object is not extracted at all (extracted completely as background), or conversely, a part that should be background is extracted as foreground.

図3に、当該抽出が不正確となっている例を示す。映像上で時刻が連続するフレームI1,I2,I3の抽出結果I1 S,I2 S,I3 Sに関して、2枚のフレームI1及びI3では前景物体(例として車)が抽出できているが、その境界が不正確な状況にある。一方で、その真ん中のフレームI2については、映像上で連続している両隣の2枚のフレームI1及びI3での抽出結果と類似する抽出結果が本来であれば得られるべきであるが、全く前景領域を抽出できていない状況にある。(なお、図3の例では画像上の白色領域を前景、黒色領域を背景として抽出結果を示している。) Figure 3 shows an example of inaccurate extraction. With regard to the extraction results I1S , I2S , and I3S of frames I1 , I2 , and I3 that are consecutive in time on the video, foreground objects (for example, cars) are extracted in two frames I1 and I3 , but the boundaries are inaccurate. On the other hand, for the middle frame I2 , extraction results similar to the extraction results in the two adjacent frames I1 and I3 that are consecutive on both sides of the video should be obtained, but no foreground area is extracted at all. (Note that in the example of Figure 3, the extraction results are shown with the white area on the image as the foreground and the black area as the background.)

これを解消するために、前景候補領域決定部3では各フレームItのIS領域It sに対してさらに次の処理を行ったものを前景候補領域の結果ftとする。 To solve this problem, the foreground candidate region determining unit 3 performs the following process on the IS region I t s of each frame I t, and determines the result as the foreground candidate region f t .

すなわち、時刻tのフレームItの前後λフレームIt-λ,It-λ+1,…,It,…,It+λ-1,It+λ(λを所定数として、フレームItの前のλ枚のフレームとフレームItの後のλ枚のフレームとを加えた、フレームIt周辺の2λ+1枚のフレーム)における抽出結果を利用して、当該時刻の前景候補領域として出力する画素インデックス集合を算出する。具体的には、次の式(1)のように、前後λフレームのIS領域に対応する画素インデックスの和集合を対象フレームの前景候補領域ftとして出力採用する。 That is, the pixel index set to be output as the foreground candidate region at time t is calculated using the extraction results for λ frames I t-λ , I t-λ+1 , ..., I t , ..., I t +λ-1 , I t+λ (2λ+1 frames around frame It, which is the sum of λ frames before frame I t and λ frames after frame I t , where λ is a predetermined number) before and after frame I t. Specifically, the union of pixel indexes corresponding to the IS regions of the preceding and following λ frames is output and adopted as the foreground candidate region f t of the target frame, as shown in the following formula (1).

Figure 0007568595000001
Figure 0007568595000001

なお、ftは時刻tのフレーム内の前景候補領域すべてを示し、複数の独立した前景候補領域を含む可能性がある。以後、これら独立した画像領域(またはそれを含むバウンディングボックス)をft,i(i∈{1,…,N})とする。(すなわち、ft={ft,i|i∈{1,…,N}}(ここで、Nは当該独立した画像領域(要素領域)の個数)であり、領域ft,iの各々が他の領域ft,j (j≠i)と重複しない連結領域である。) Note that f t denotes all foreground candidate regions in the frame at time t, and may include multiple independent foreground candidate regions. Hereinafter, these independent image regions (or bounding boxes containing them) are referred to as f t,i (i ∈ {1, ..., N}). (That is, f t = {f t,i |i ∈ {1, ..., N}} (where N is the number of independent image regions (element regions)), and each region f t,i is a connected region that does not overlap with other regions f t,j (j ≠ i).)

図4は、式(1)により和集合として前景候補領域を求める例を示す図であり、図3と同様の状況で得られている映像上で時刻が連続するフレームI1,I2,I3の抽出結果I1 S,I2 S,I3 Sに関して、真ん中の抽出結果I2 Sについてλ=1として、前後1フレームずつの抽出結果I1 S,I3 Sも加えた和集合∪(I1 S,I2 S,I3 S)として前景候補領域f2を得ている。抽出結果I2 Sでは前景が全く存在しなかったのに対し、和集合を取った前景候補領域f2では前景が存在する状態となっている。 Fig. 4 is a diagram showing an example of finding a foreground candidate region as a union using formula (1), in which foreground candidate region f2 is obtained as the union ∪( I1S , I2S , I3S ) of extraction results I1S , I2S , and I3S of consecutive frames I1 , I2 , and I3 obtained under the same circumstances as in Fig . 3 , with λ=1 set for the middle extraction result I2S , and the extraction results I1S and I3S of one frame before and after it . Whereas no foreground was present in extraction result I2S , the foreground candidate region f2 obtained by taking the union shows that the foreground is present.

前景オブジェクトが動いている場合、実際の時刻tの画像It内の前景オブジェクトと前述の通り求めた前景候補領域ftとの間には、空間的な位置ずれが発生することが考えられる。しかしながら、後段の多重分割部4において、画像Itを過分割した結果も利用することで実際の時刻tの画像内容に沿った前景抽出が可能となることが期待されるため、前景抽出の精度に大きな影響は及ぼさないことを想定している。 When a foreground object is moving, it is considered that a spatial positional shift occurs between the foreground object in the image I t at the actual time t and the foreground candidate region f t obtained as described above. However, it is expected that the accuracy of the foreground extraction will not be significantly affected because it is expected that the result of over-segmenting the image I t will be used in the multiple division unit 4 at the subsequent stage to enable foreground extraction according to the image content at the actual time t.

変形例として、空間的な位置ずれを可能な限り解決する方法として、式(1)内の和集合を取る要素としてΘ(It+k s)を利用する代わりに、それぞれの画像における空間移動量をオプティカルフロー等を用いて推定し、前後λ枚のそれぞれの画像It+kの画素位置を時刻tへとシフトすることで、時刻tのフレームIt内の前景オブジェクト位置を模擬したΘ(I't+k s)を利用してもよい。(ここで、領域I't+k sは領域It+k sに時刻t+k,t間のオプティカルフロー分の移動を適用して、時刻t+kの領域It+k sを時刻tに相当する位置へと移動したものである。なお、オプティカルフローは画素単位で適用してもよいし、画像範囲を分割したブロック単位で適用してもよいし、画像範囲全体での平均値を適用してもよい。) As a modified example, instead of using Θ(I t+k s ) as an element for taking the union in formula (1), the spatial movement amount in each image may be estimated using optical flow or the like, and the pixel positions of each of the λ previous and next images I t+k may be shifted to time t to use Θ(I' t+k s ) simulating the foreground object position in frame I t at time t. (Here, region I' t+k s is obtained by applying the movement of the optical flow between times t+ k , t to region I t+k s , and moving region I t+k s at time t+k to a position equivalent to time t. Note that optical flow may be applied in pixel units, or in block units obtained by dividing the image range, or the average value over the entire image range may be applied.)

なお、正解DB9内の第2入力としての映像が連続するフレームによって構成されない場合(すなわち、独立した画像群(複数の個別の静止画)によってのみ構成される場合)は、映像としての近接時刻フレーム画像間での空間的な相関が存在しないため、前景候補領域決定部3では正解DB9内の各画像について、Mask-RCNNのようなインスタンスセグメンテーションの出力結果を単純に前景候補領域として出力すればよい。第1入力及び第2入力の両方が映像として構成される場合、当該両方について空間相関を考慮して上記オプティカルフローの手法を利用(Θ(It+k s)に代えてΘ(I't+k s)の利用)し、第2入力が映像ではなく個別の静止画で構成される場合、第2入力についてはインスタンスセグメンテーションの結果を単純に前景候補領域としてもよい。 Note that, when the video as the second input in the correct answer DB9 is not composed of consecutive frames (i.e., when it is composed only of an independent group of images (multiple individual still images)), there is no spatial correlation between adjacent time frame images as video, so the foreground candidate region determination unit 3 may simply output the output result of instance segmentation such as Mask-RCNN for each image in the correct answer DB9 as a foreground candidate region. When both the first input and the second input are composed of video, the above optical flow method may be used (Θ(I' t+k s ) is used instead of Θ(I t+k s )) taking into account spatial correlation for both, and when the second input is composed of individual still images rather than a video, the result of instance segmentation for the second input may simply be used as the foreground candidate region.

<<多重分割部4>>
多重分割部4では、前景候補領域決定部3の出力である各フレームItの前景候補領域ftに対して、複数のセグメンテーション技術を適用することによって得られたセグメントを多重化することによって、後段の特徴量抽出部5における、画像特徴量抽出に利用される画像領域を決定する。(なお、図2のデータ処理の流れにも示されるように、前景候補領域決定部3及び多重分割部4の処理は第1入力の正解ラベルなしの映像と、第2入力の正解ありの映像(及び/又は静止画像群)との両方に適用される。これにより、後段側のグラフ構築部6におけるグラフ構築での画像領域の分布を、第1入力と第2入力とで近いものにする効果が期待される。一方で、第2入力の正解ラベルとして付与されている前景領域が、第2入力について多重分割部4で得る画像領域(第1入力の場合には前景領域の候補に相当)と違っていることもありうる。第2入力について多重分割部4で得られた画像領域のうち、第2入力の正解ラベルでも大部分が前景となる領域はグラフ構築の際に前景ラベルが付与され、第2入力の正解ラベルでは大部分が背景となる領域はグラフ構築の際に背景ラベルが付与されることとなる。)
<<Multiplex division section 4>>
The multiple segmentation unit 4 multiplexes the segments obtained by applying a plurality of segmentation techniques to the foreground candidate region f t of each frame I t , which is the output of the foreground candidate region determination unit 3, to determine the image region to be used for image feature extraction in the downstream feature extraction unit 5. (Note that, as shown in the data processing flow of FIG. 2, the processes of the foreground candidate region determination unit 3 and the multiple division unit 4 are applied to both the image without the correct answer label of the first input and the image (and/or still image group) with the correct answer of the second input. This is expected to have the effect of making the distribution of image regions in the graph construction in the graph construction unit 6 at the latter stage closer between the first input and the second input. On the other hand, the foreground region assigned as the correct answer label of the second input may differ from the image region obtained by the multiple division unit 4 for the second input (corresponding to the foreground region candidate in the case of the first input). Of the image regions obtained by the multiple division unit 4 for the second input, the region that is mostly foreground even in the correct answer label of the second input is assigned a foreground label when the graph is constructed, and the region that is mostly background in the correct answer label of the second input is assigned a background label when the graph is constructed.)

多重分割部4では具体的には、前景候補領域決定部3にて得られた領域ft,i(前景候補領域ftの構成要素としての各々の独立領域)を含む矩形画像に対して、前景候補領域決定部3にて利用されたセグメンテーションとは異なるセグメンテーション技術を用いて領域分割を行う。一例として、非特許文献2にて開示されているSLIC (Simple Linear Iterative Clustering)などのスーパーピクセルセグメンテーションを利用して、矩形画像を小領域(SS領域)に分割する。この操作により、分割されたそれぞれのセグメントはオブジェクトや背景画像を過分割したものとなり、ひとつのSS領域のみで前景オブジェクトを表すことはできなくなるが、一方でオブジェクト境界にて正確に分割された領域群を得ることが期待される。(すなわち、分割対象となる矩形画像は1個の前景オブジェクトの候補として1個のみの個別領域ft,iを包含することにより個別領域ft,iと同程度の大きさであるため、当該同程度の大きさの矩形画像をスーパーピクセルセグメンテーションにより分割した複数の小領域(SS領域)は自ずと、前景オブジェクトの領域をさらに細分化した状態として得られるものとなる。なお、スーパーピクセルセグメンテーションは領域分割であって、得られる複数の小領域(SS領域)には、領域の区別の情報が含まれるが、前景/背景の区別の情報は含まれない。) Specifically, the multiple division unit 4 performs region division on a rectangular image including the region f t,i (each independent region as a component of the foreground candidate region f t ) obtained by the foreground candidate region determination unit 3, using a segmentation technique different from the segmentation used by the foreground candidate region determination unit 3. As an example, the rectangular image is divided into small regions (SS regions) using superpixel segmentation such as SLIC (Simple Linear Iterative Clustering) disclosed in Non-Patent Document 2. By this operation, each divided segment becomes an over-segmentation of the object or background image, and it becomes impossible to represent the foreground object with only one SS region, but on the other hand, it is expected to obtain a group of regions accurately divided at the object boundary. (That is, since the rectangular image to be segmented contains only one individual region f t,i as a candidate for one foreground object, and thus has a size similar to that of the individual region f t,i , the multiple small regions (SS regions) obtained by segmenting the rectangular image of similar size by superpixel segmentation are naturally obtained as a state in which the foreground object region is further subdivided. Note that superpixel segmentation is a region segmentation method, and the multiple small regions (SS regions) obtained contain information on the distinction between regions, but do not contain information on the distinction between foreground and background.)

次に、前景オブジェクトの概形を表す前景候補領域ftの各要素領域ft,iとSS領域群st,j(j∈{1,…,M})(Mは当該SS領域の個数)を比較し、次の式(2),(3)の通りv∈{1,…V}番目の特徴量抽出対象の領域Iv(特徴量抽出対象領域)を決定する。(なお、大文字Vは当該決定された領域Ivの個数であり、当該「領域Iv」等の記載における小文字vは全て(V個)の前景抽出対象フレームにおける特徴量抽出対象領域の通しインデックスであり、特に時刻tフレームの特徴量抽出対象領域を示す場合はIv tとすることに注意されたい。また同様に、以上では入力画像の時刻tのフレームをItとしていたが、この領域IvやIv tと(用いる添え字t,Vの区別以外でも)より明確に区別すべく、フレームItに関して以降では上付き添え字でフレームItとして表記する。)式(3)の1行目に該当する、要素領域ft,iに重複しないようなSS領域st,jについては領域Ivの構成要素とせず、要素領域ft,iに重複するSS領域st,jについては領域Ivの構成要素とすることで、要素領域ft,iの各々について、境界部でSS領域st,jと部分的に重複している箇所(st,j∩ft,i)について、当該SS領域st,jが重複していない残りの部分(st,j\ft,i、ここで「\」は差集合)を追加したものとして、領域Iv tを得ることができる。(すなわち一般に、前景候補領域ftを拡張することで修正したものとして、領域Iv tを得ることができる。) Next, each element region f t,i of the foreground candidate region f t, which represents the general shape of the foreground object, is compared with the SS region set s t,j (j ∈ {1, … , M}) (where M is the number of SS regions), and the region I v (feature extraction target region) for feature extraction, v ∈ {1, … V}-th, is determined according to the following equations (2) and (3). (Note that the capital letter V is the number of the determined regions Iv , and the lower case letter v in the description of "region Iv " etc. is a continuous index of the feature extraction target regions in the (V) foreground extraction target frames, and in particular, note that Ivt is used to indicate the feature extraction target region of the frame at time t . Similarly, in the above, the frame at time t of the input image is referred to as It , but in order to more clearly distinguish this from regions Iv and Ivt (besides the distinction between the subscripts t and V used), frame It will be written as frame It using a superscript.) The SS region s t,j that does not overlap element region f t,i , which corresponds to the first line of formula (3), is not considered to be a component of region Iv , and the SS region s t, j that overlaps element region f t, i is considered to be a component of region Iv . By doing so, for each element region f t,i , the part that partially overlaps with SS region s t,j at the boundary (s t,j ∩f For SS region s t,j, t ,i, the remaining part of the SS region s t,j that does not overlap (s t,j \f t,i , where \ is the difference set) is added to obtain region I v t . (That is, in general, region I v t can be obtained by modifying the foreground candidate region f t by expanding it.)

Figure 0007568595000002
Figure 0007568595000002

式(2),(3)において、i∈{1,2,…,N}であり、このインデクスiは、時刻tのフレームを固定したうえで、当該フレーム内における合計N個(N=N(t))の各々の要素領域ft,i及びこれを拡張して修正した領域Iiを表す。一方で、式(2)の「Iv t=Ii」は、ある時刻tのフレームに固定して用いられた領域Iiのインデクスiを、第1入力の映像全体(任意の時刻t)における領域Iv tのインデクスvに拡張したものである。(例えば第1入力が2フレームで構成され、時刻t=1のフレームに2領域i∈{1,2}が存在し、時刻t=2のフレームに3領域i∈{1,2,3}が存在する場合、この2フレーム映像全体での5領域のインデクスがv∈{1,2,3,4,5}等の形で得られることとなる。)一方、j∈{1,2,…,M}については既に説明した通り、ある時刻tのフレームのある要素領域ft,iに注目した際に、この要素領域ft,iの包含領域(バウンディングボックス等)をスーパーピクセルセグメンテーションにより分割した各SS領域st,jのインデクスである。(従って、その総数MについてM=M(t,i)となる。) In formulas (2) and (3), i∈{1,2,...,N}, and the index i represents each of the N element regions f t,i (N=N(t)) in a frame at time t that is fixed, and the region I i that is an extension and correction of the element regions f t,i . On the other hand, "I v t =I i " in formula (2) represents the extension of the index i of the region I i that is fixed and used in a frame at time t to the index v of the region I v t in the entire video of the first input (any time t). (For example, if the first input is composed of two frames, and there are two regions i∈{1,2} in the frame at time t=1, and there are three regions i∈{1,2,3} in the frame at time t=2, then the indexes of the five regions in the entire two-frame video will be obtained in the form of v∈{1,2,3,4,5}, etc.) On the other hand, as already explained, j∈{1,2,...,M} is the index of each SS region s t,j obtained by dividing the containing region (such as a bounding box) of a certain element region f t,i in a frame at a certain time t by superpixel segmentation. (Therefore, for the total number M, M=M(t,i).)

図5に多重分割部4での処理の模式例を上段、中段及び下段側に分けて示す。上段側の前景候補領域ftについて、中段側に示すようにその各要素領域ft,iの各々(図5の例では、前景候補領域ftに要素領域ft,iが3個存在するうちの1つを例示している)が過分割の対象となり、その分割結果{st,j}が得られる。上記式(2),(3)により要素領域ft,iと分割結果のSS要素領域st,jとを照合し、要素領域ft,iに少なくとも一部が重複するSS要素領域st,jについては追加して要素領域ft,iの境界部において拡張が行われることにより、図5の下段側に例示する式(2)の特徴量抽出対象の領域Iv(=Iv t)が得られる。 5 shows a schematic example of the processing in the multiple division unit 4, divided into upper, middle and lower parts. For the foreground candidate region f t in the upper part, as shown in the middle part, each of its element regions f t,i (in the example of FIG. 5, one of three element regions f t,i in the foreground candidate region f t is illustrated) is subject to over-division, and the division result {s t,j } is obtained. The element region f t,i is compared with the SS element region s t,j of the division result by the above formulas (2) and (3), and the SS element region s t,j that at least partially overlaps with the element region f t , i is added and the boundary of the element region f t,i is expanded, thereby obtaining the region I v (=I v t ) of the feature extraction target of formula (2) illustrated in the lower part of FIG. 5.

このように、多重分割部4で得る領域Iv tは、間違いを含むものの前景候補領域決定部3と多重分割部4により、可能な限り正解を包含するように処理されており(従って同様に、逆に、可能な限り正解を取りこぼすことがないように処理されており)、余分なものを含んでいる(しかし、境界だけは綺麗に分割されている)ことが想定されるものとなる。本実施形態の前景抽出装置10ではさらに、多重分割部4よりも後の処理により、この領域Iv tの中からグラフコスト最適化により不要な部分(背景と判定された領域Iv t)を取り除いたものとして、前景抽出結果を得ることができる。(なお、図6を参照して後述するように、図2の構成の前景抽出装置10の一部分として前景候補領域決定部3及び多重分割部4のみを抽出した構成により、図5に例示される手法で1枚の静止画のみから前景抽出を行うことも可能である。) In this way, the region I v t obtained by the multiple division unit 4 is assumed to be processed by the foreground candidate region determination unit 3 and the multiple division unit 4 so as to include as many correct answers as possible, although it may contain errors (and therefore, conversely, it is processed so as not to miss as many correct answers as possible), and to contain unnecessary parts (however, only the boundaries are neatly divided). In the foreground extraction device 10 of this embodiment, further, by processing after the multiple division unit 4, it is possible to obtain a foreground extraction result by removing unnecessary parts (regions I v t determined to be background) from this region I v t by graph cost optimization. (Note that, as will be described later with reference to FIG. 6, it is also possible to extract the foreground from only one still image by the method exemplified in FIG. 5 using a configuration in which only the foreground candidate region determination unit 3 and the multiple division unit 4 are extracted as part of the foreground extraction device 10 configured in FIG. 2.)

その他、スーパーピクセルセグメンテーション以外の分割手法として、矩形グリッドで小領域に分割して、小領域ごとに前景/背景を判定したものを上記SS領域群st,jに代わるものとして利用する等の手法を用いてもよい。(上記の式(2),(3)の手法では、要素領域ft,iの境界部においてSS領域st,jが重複する場合に、重複していない部分の拡張のみが行われることで、要素領域ft,iから削られて削除される部分は存在しないが、小領域ごとに前景/背景を判定する場合、要素領域ft,iの境界部に位置する小領域においてこの判定結果に従って、背景となる場合は削除するようにしてもよい。)また、背景差分法などの「ノイズに弱いなどの欠点があるものの比較的物体境界を正確に表現可能である前景物体技術」によって得られた前景領域をSS領域として利用してもよい。 As a segmentation method other than superpixel segmentation, a method of dividing into small regions by a rectangular grid, determining whether each small region is foreground/background, and using the determined small regions as a replacement for the above SS region group s t,j may be used. (In the method of the above formulas (2) and (3), when the SS region s t,j overlaps with the boundary of the element region f t,i , only the non-overlapping portion is expanded, and no portion is removed from the element region f t ,i. However, when determining whether each small region is foreground/background, the small region located at the boundary of the element region f t,i may be deleted if it is background according to the determination result.) Also, a foreground region obtained by a "foreground object technology that has drawbacks such as being weak against noise but can represent object boundaries relatively accurately" such as background subtraction may be used as the SS region.

上記のように、前景候補領域ftを構成する各独立領域ft,iといった限られた領域においてセグメンテーションによる再分割を行い、また、それらのうち特徴量抽出対象となるものを絞り込むことで、特徴量抽出対象領域の増加を抑えることが可能となり、ひいてはグラフ構築におけるノードの増加を抑える効果が期待できる。 As described above, by performing re-division by segmentation in limited regions such as each of the independent regions f t,i that make up the foreground candidate region f t and then narrowing down those regions from which features are to be extracted, it is possible to suppress an increase in the regions subject to feature extraction, which is expected to have the effect of suppressing an increase in the number of nodes in graph construction.

<<特徴量抽出部5>>
特徴量抽出部5では、多重分割部4で得た特徴量抽出の対象となる領域Ivの各々(及びこの領域Ivに対応するものとして背景画像生成部2で得られている背景画像)を入力として画像特徴量(特徴ベクトル)を抽出し、グラフ構築部6へと出力する。具体的には、v番目の特徴量抽出対象領域Iv tに対して、非特許文献1の手法に則り、次のように特徴量ベクトルを算出することができる。
<<Feature Extraction Unit 5>>
The feature extraction unit 5 extracts image features (feature vectors) using as input each of the regions Iv (obtained by the background image generation unit 2 as corresponding to each region Iv ) that are subject to feature extraction obtained by the multiple division unit 4 , and outputs the extracted image features to the graph construction unit 6. Specifically, for the v-th feature extraction subject region Ivt , a feature vector can be calculated as follows, in accordance with the method of Non-Patent Document 1.

Bvを背景画像生成部2から出力された、抽出対象の領域Iv tに対応する背景画像領域(またはその矩形画像)とし、vx t(Θ(Iv t))およびvy t(Θ(Iv t))を、それぞれ水平方向(画像x軸方向)および垂直方向(画像y軸方向)のインデックスΘ(Iv t)に対応する、現在のフレームIt(⊃Iv t)のオプティカルフローベクトルとする。これらIv t、Iv t-1、Bv、|Iv t-Bv|、vx t(Θ(Iv t))およびvy t(Θ(Iv t))について、テクスチャパターン、強度ヒストグラム、最大値・最小値・標準偏差などの統計量、深層学習の隠れ層における特徴量などを算出、結合することでIv tに対応する特徴ベクトルxvを出力する。 Let Bv be the background image region (or its rectangular image) corresponding to the region Ivt to be extracted, output from the background image generator 2, and let vxt ( Θ ( Ivt )) and vyt (Θ( Ivt )) be the optical flow vectors of the current frame It ( ⊃Ivt ) corresponding to the horizontal (image x-axis direction) and vertical (image y-axis) indexes Θ( Ivt ) , respectively. For these Ivt, Ivt-1, Bv, |Ivt -Bv|, vxt(Θ(Ivt)), and vyt ( Θ ( Ivt ) ) , texture patterns , intensity histograms , statistics such as maximum values, minimum values, and standard deviations, features in the hidden layer of deep learning, etc. are calculated and combined to output the feature vector xv corresponding to Ivt .

<<グラフ構築部6>>
グラフ構築部6は、特徴量抽出部5にて算出された特徴ベクトルxvを用いて、v番目の特徴量抽出対象領域に対応するノードをもつグラフを構築し、ラベル推定部7へと出力する。具体的にはまず、2つの特徴量抽出対象領域間(ノード間)の類似度距離d(i,j)(通常の距離とは逆に、類似度が高いほど大きくなる距離であって、当該距離が大きいほどより類似していることを表し、エッジ重みd(i,j)に相当する)を次の式(4),(5),(6)のとおり算出する。
<<Graph Construction Part 6>>
The graph construction unit 6 uses the feature vector xv calculated by the feature extraction unit 5 to construct a graph having a node corresponding to the v-th feature extraction target region, and outputs the graph to the label estimation unit 7. Specifically, first, the similarity distance d(i,j) between the two feature extraction target regions (between nodes) (contrary to normal distances, this distance increases as the similarity increases, and the greater the distance, the more similar the regions are, and corresponds to the edge weight d(i,j)) is calculated according to the following formulas (4), (5), and (6).

Figure 0007568595000003
Figure 0007568595000003

ここで、g(Ii)は当該特徴量抽出対象領域Iiの重心座標(もしくは類する画像座標の代表値)をベクトルとして返す関数であり、σx、σgはそれぞれxiおよびg(Ii)に対応する標準偏差である。dg(i,j)は特徴量抽出対象領域IiおよびIjが同一のフレーム(ある1つのフレームIt)に含まれる時、且つ、一定距離内に含まれる場合(当該共通の1フレームIt内に存在する当該2つの領域IiおよびIjの空間的な距離が一定距離β内である場合)にのみ、領域間の類似度を高める働きをする。また、αは特徴量抽出対象領域の特徴ベクトルの類似性と、画像平面上での空間的な距離とのバランスを調整するユーザ設定の変数である。この類似度の距離指標d(i,j)を用いて、K近傍法により最近傍ノード(最類似ノード)からK番目のノードまでを近接ノード(類似ノード)として接続する。この際、K番目までの近傍に含まれていてもある閾値以上の類似度距離をもつものを接続しない方法をとってもよい。その他、既存の類似度(距離)指標に基づくグラフ構築を広く利用可能である。 Here, g(I i ) is a function that returns the centroid coordinates (or the representative value of similar image coordinates) of the feature extraction target region I i as a vector, and σ x and σ g are the standard deviations corresponding to x i and g(I i ), respectively. d g (i,j) works to increase the similarity between regions only when the feature extraction target regions I i and I j are included in the same frame (a certain frame I t ) and are included within a certain distance (when the spatial distance between the two regions I i and I j that exist in the common frame I t is within a certain distance β). In addition, α is a user-set variable that adjusts the balance between the similarity of the feature vectors of the feature extraction target regions and the spatial distance on the image plane. Using this similarity distance index d(i,j), the nearest node (most similar node) to the Kth node are connected as neighboring nodes (similar nodes) by the K-nearest neighbor method. In this case, a method may be used in which nodes that are included in the Kth neighbors but have a similarity distance equal to or greater than a certain threshold are not connected. In addition, graph construction based on existing similarity (distance) indices can be widely used.

本実施形態では特に、式(4)のdg(i,j)の項の導入により、画像平面上において近い距離にある特徴量抽出対象領域を近接ノードとして接続することが可能となり、後段のラベル推定部の処理によって過分割された複数の特徴量抽出対象領域をまとめて前景として抽出することが可能となる。 Particularly in this embodiment, by introducing the term d g (i, j) in equation (4), it becomes possible to connect feature extraction target regions that are close to each other on the image plane as neighboring nodes, and it becomes possible to collectively extract multiple feature extraction target regions that have been over-segmented by the processing of the label estimation unit at a subsequent stage as the foreground.

グラフ構築部6では、以上のようにして異なるノードi,j間の距離d(i,j)を定めることでノードi,j間にエッジを設けるか否か(ノードi,jが隣接するか否か)を決定し、且つ、エッジが設けられたノードi,j間ではその類似度距離d(i,j)(類似度が高いほど大きい)をエッジ重みd(i,j)としてグラフを定め、且つ、グラフの各ノードについて、映像入力部1の第1入力の映像に該当するノードである場合はラベル(前景/背景の区別を表すラベル)を付与せず、正解DB9の第2入力の映像に該当するノードである場合はラベルを付与して、当該グラフをラベル推定部7へと出力する。なお、正解DB9の第2入力の映像に該当するノードvである場合、当該ノードvに対応する特徴量xvが抽出される対象となった領域Ivにおける前景/背景の区別状況に応じて前景/背景である旨のラベルを付与すればよい。領域Ivが背景のみで構成される場合には、当該ノードvは背景である旨のラベルを付与すればよい。 In the graph construction unit 6, by determining the distance d(i,j) between different nodes i,j as described above, it is determined whether to provide an edge between nodes i,j (whether nodes i,j are adjacent or not), and a graph is determined between nodes i,j between which an edge is provided, with the similarity distance d(i,j) (the higher the similarity, the larger the edge weight d(i,j) is), and for each node in the graph, if the node corresponds to the first input image of the image input unit 1, a label (a label indicating the distinction between foreground and background) is not given, and if the node corresponds to the second input image of the correct answer DB9, a label is given, and the graph is output to the label estimation unit 7. Note that, if a node v corresponds to the second input image of the correct answer DB9, a label indicating that the node v is foreground/background may be given according to the foreground/background distinction situation in the region I v from which the feature x v corresponding to the node v is extracted. If the region I v is composed of only the background, the node v may be given a label indicating that the node v is background.

すなわち、グラフ構築部6にて構築されたグラフのノードの一部は正解DB9の映像から算出されたものであり、正解ラベルデータをもつ。ラベル付与に関して、正解ラベルデータ(前景に1が、背景に0が付与された2値画像)とそれに対応する時刻の映像の特徴量抽出対象領域Iv(ノードvに対応)を比較し、当該領域Ivが前景にあたるかどうかを判定した結果をノードvの前景判定結果とし、グラフにおける正解ラベルとする。具体的には、正解ラベルデータとIvの画素インデックスの積集合を算出し、その画素数をIvの画素数で正規化した値ξvや、同積集合の画素数を正解ラベルデータとIvの画素インデックスの和集合の画素数で割った値μv(Intersection over union)などを用いて、正解ラベルデータとの重複度合いを判定し、閾値以上の重複度をもつIvについては、対応するノードに前景ラベルを割り当て、閾値未満の重複度をもつIvについては、対応するノードに背景ラベルを割り当てる。 That is, some of the nodes of the graph constructed by the graph construction unit 6 are calculated from the image of the correct answer DB 9 and have correct answer label data. Regarding label assignment, the correct answer label data (binary image with 1 assigned to the foreground and 0 assigned to the background) is compared with the feature extraction target region I v (corresponding to node v) of the image at the corresponding time, and the result of judging whether the region I v is in the foreground is regarded as the foreground judgment result of node v, and is regarded as the correct answer label in the graph. Specifically, the intersection set of the correct answer label data and the pixel index of I v is calculated, and the degree of overlap with the correct answer label data is judged using a value ξ v normalized by the number of pixels of I v or a value μ v (Intersection over union) obtained by dividing the number of pixels of the intersection set by the number of pixels of the union of the pixel index of the correct answer label data and I v , and for I v with an overlap degree equal to or greater than a threshold, a foreground label is assigned to the corresponding node, and for I v with an overlap degree less than the threshold, a background label is assigned to the corresponding node.

<<ラベル推定部7>>
ラベル推定部7では、グラフ構築部6で得たグラフのうち、映像入力部1の映像入力に起因するノードはラベルが未付与の状態であるため、非特許文献1に則りグラフのノードごとに前景背景のラベルを推定し、映像出力部8へと出力する。すなわち、グラフ構築部6で得た、一部のノードにラベルが割り当てられたグラフについて、その一部(またはすべて)を用いて、半教師あり学習によって次の式(7)のようにラベル未定のノード(Iv)のラベルを推定する。
<<Label Estimation Unit 7>>
In the label estimation unit 7, since the nodes in the graph obtained by the graph construction unit 6 resulting from the video input by the video input unit 1 are in an unlabeled state, the label estimation unit 7 estimates the foreground/background labels for each node in the graph in accordance with Non-Patent Document 1 and outputs the result to the video output unit 8. That is, for the graph obtained by the graph construction unit 6 in which labels are assigned to some nodes, some (or all) of the graph are used to estimate the labels of the unlabeled nodes (I v ) by semi-supervised learning as shown in the following equation (7).

Figure 0007568595000004
Figure 0007568595000004

ここで、zはすべてのノードに対応するラベルをもつ変数であり、yは正解ラベルデータをもつノードを示すベクトルであり、y(x)はyの中から一部(または全部)のノードを抽出する関数である。xは、(多くの場合ランダムに)ノードを選択するためのインデックス集合であり(学習の際の利用サンプル指定等において一般的に行われるように、)別操作によって決定され、ユーザ入力なども想定する。すなわち、すでに確定している定数yというベクトルから引数xによって指定されたインデックスに対応する値を抽出しベクトルとして返す、「yによって変わる関数f_y(x)」を「y(x)」として簡潔に表記する。また、Mはすべてのノードからy(x)に対応するノードを抽出する行列である。(すなわち、式(7)の制約式「s.t.(such that~;~を満たす) Mz=y(x)」は、変数zにおいて正解ラベルを固定することを表す。) Here, z is a variable with labels corresponding to all nodes, y is a vector indicating nodes with correct label data, and y(x) is a function that extracts some (or all) of the nodes from y. x is a set of indexes for selecting nodes (often randomly) and is determined by a separate operation (as is commonly done when specifying samples to be used during learning), and user input is also assumed. In other words, "function f_y(x) that changes depending on y" extracts values corresponding to the index specified by the argument x from a vector called a constant y that has already been determined and returns them as a vector, and is written simply as "y(x)". Also, M is a matrix that extracts the nodes corresponding to y(x) from all nodes. (In other words, the constraint equation "s.t.(such that~;~satisfies) Mz=y(x)" in equation (7) indicates that the correct label is fixed in the variable z.)

加えて、||z||TVはグラフ構造に基づき定義されるTotal variation(全変動、正則化項、コスト項の一種)であり、式(7)により正解ラベルを固定したうえで未定ラベルを変動させて当該コスト項が最小化されるような結果を未定ラベルに対する前景/背景の推定結果として求める。なお、Total variation以外にもSobolev Norm(ソボレフノルム)など他のノルムを用いてもよい。また、Mおよびy(x)はグラフ上の一部のノードを抽出するのではなくすべてのノードを抽出するように設計してもよい。この最適化問題(近接ノード群(当該ノード群に属する任意の2つの領域(ノード)IiとIjの距離d(i,j)(類似度距離ではない通常の距離)が小さい(すなわち、類似度(または類似度距離)が大きく、エッジ重みd(i,j)が大きい)と判定される2つ以上のノード群)ではラベル付与結果が似ている(当該ノード群内のノードのラベル付与結果の同一割合が高い)ほどコストが下がる)を解くことですべてのノードのラベルデータを推定することができる。ここで、ラベル推定は入力映像(第1入力としての映像入力部1から得た映像)すべてのフレーム対して同時に行われ、フレームごとの処理ではないことに注意されたい。 In addition, ||z|| TV is a total variation (total variation, regularization term, a type of cost term) defined based on the graph structure, and the correct answer label is fixed according to formula (7), and the undetermined label is varied to minimize the cost term, and the foreground/background estimation result for the undetermined label is obtained. Note that other norms such as Sobolev Norm may be used in addition to total variation. M and y(x) may be designed to extract all nodes rather than extracting some nodes on the graph. By solving this optimization problem (in a group of adjacent nodes (two or more groups of nodes that are determined to have a small distance d(i,j) (normal distance, not a similarity distance) between any two regions (nodes) I i and I j belonging to the group of nodes) (i.e., a large similarity (or similarity distance) and a large edge weight d(i,j)), the more similar the labeling results are (the higher the rate of identical labeling results for the nodes in the group of nodes), the lower the cost), the label data of all nodes can be estimated. It should be noted that label estimation is performed simultaneously for all frames of the input video (video obtained from the video input unit 1 as the first input) and is not a frame-by-frame process.

ここで、半教師あり学習において一般的に行われているように、式(7)においてノード選択インデクスx等の設定により、例えば1回目は第1入力の半分をラベル推定し、これを正解に追加して2回目は第1入力の残りの半分をラベル推定する等の手順を取ってもよい。一部のデータに対してラベル分類を行い、それを教師データとして利用するといった処理を繰り返すことで、ラベル未定の全部のデータについて一括でラベル推定する場合よりも少量のデータを少しずつ推定していくことで誤りを可能な限り抑えながら推定する効果が期待できる。 As is commonly done in semi-supervised learning, by setting the node selection index x in formula (7), for example, half of the first input may be label-estimated in the first pass, and this may be added to the correct answer, and the remaining half of the first input may be label-estimated in the second pass. By repeating the process of label-classifying some of the data and using it as training data, it is expected that the effect of estimating errors as little as possible by gradually estimating a small amount of data, rather than estimating the labels of all unlabeled data at once, can be expected.

<<映像出力部8>>
映像出力部8では、ラベル推定部7において前記最適化式から推定されたすべてのノードに対応するラベルデータから、前景領域を画像として出力する。例えば、前記推定ラベルデータから前景とラベル付されたノードに対応する画像領域Ivについて、前景として判別される1として画素値を割り当て、背景のラベルが付与されたノードに対応する画像領域については0を割り当てる。それらを入力映像(映像入力部1の第1入力の映像)のすべてのフレームに対して行うことによって、前景抽出装置10における最終的な結果として、前景抽出の結果を得る。こうして、本実施形態では、第1入力の映像の各フレームについて複数の画像領域Ivを多重分割部4において(前景候補として)得て、この各々の画像領域Ivについてグラフ上のノードとしてラベルを推定することで、実際に前景であったか否かという形で前景抽出結果を得ることができる。換言すれば、第1入力の映像の各フレームについて多重分割部4において得た複数の画像領域Ivの全てうち、グラフ上のノードとして背景ではなく前景としてラベル付与された一部分のみが、前景抽出結果10における前景抽出結果となる。
<<Video output section 8>>
The video output unit 8 outputs the foreground region as an image from the label data corresponding to all nodes estimated from the optimization formula in the label estimation unit 7. For example, for the image region I v corresponding to the node labeled as foreground from the estimated label data, a pixel value of 1, which is determined as foreground, is assigned, and for the image region corresponding to the node labeled as background, a pixel value of 0 is assigned. By performing these operations for all frames of the input video (the video of the first input of the video input unit 1), the foreground extraction result is obtained as the final result in the foreground extraction device 10. Thus, in this embodiment, a plurality of image regions I v are obtained in the multiple division unit 4 (as foreground candidates) for each frame of the video of the first input, and a label is estimated for each of these image regions I v as a node on a graph, thereby obtaining a foreground extraction result in the form of whether or not it was actually foreground. In other words, of all the plurality of image regions I v obtained in the multiple division unit 4 for each frame of the video of the first input, only a portion that is labeled as foreground, not background, as a node on the graph becomes the foreground extraction result in the foreground extraction result 10.

以上、本発明の実施形態によれば、インスタンスセグメンテーションとグラフ構造を組み合わせた前景抽出技術の問題点である、(A)「フレーム毎の前景領域の消失」や(B)「境界の不正確さ」を解決した高精度な前景抽出が可能となる。(A)について、図4に例示したように、前景候補領域決定部3において複数フレームの利用による前景対象領域の抽出で対処することができる。(B)について、図5に例示したように、多重分割部4(及び前景候補領域決定部3)においてセグメンテーション手法の組み合わせによる抽出領域境界の高精度化で対処することができる。 As described above, according to the embodiment of the present invention, it is possible to perform highly accurate foreground extraction by solving the problems of foreground extraction technology that combines instance segmentation and graph structure, namely (A) "disappearance of foreground regions for each frame" and (B) "inaccuracy of boundaries." As shown in FIG. 4, (A) can be addressed by extracting the foreground target region using multiple frames in the foreground candidate region determiner 3. As shown in FIG. 5, (B) can be addressed by improving the accuracy of the extracted region boundary by combining segmentation techniques in the multiple division unit 4 (and foreground candidate region determiner 3).

本発明の実施形態の前景抽出装置10では、以上の問題点を解消した高精度な前景抽出により、自由視点映像などの前景物体の三次元復元や、物体認識・追跡などのアプリケーションにおける精度向上が期待できる。 The foreground extraction device 10 according to the embodiment of the present invention is expected to improve the accuracy of applications such as 3D reconstruction of foreground objects in free viewpoint video and object recognition/tracking by providing highly accurate foreground extraction that solves the above problems.

以下、種々の補足例、追加例、代替例などについて説明する。 Below, we explain various supplementary, additional, and alternative examples.

(1) 本発明の前景抽出技術は、要素技術として様々な用途に適用可能であり、例えば、ユーザの動作に連動して動くアバタの動作抽出や、スポーツ選手の動作の様子を自由視点映像として生成する際に利用可能である。これらは、例えば、アバタを用いた遠隔コミュニケーションや、スポーツ映像を自由視点映像として臨場感を持って遠隔配信することに利用可能であるため、コミュニケーションやスポーツ観戦等のために現地へとユーザが移動することを必須とせず、ユーザ移動に必要となるエネルギー資源を節約することで二酸化炭素排出量を抑制できることから、国連が主導する持続可能な開発目標(SDGs)の目標13「気候変動とその影響に立ち向かうため、緊急対策を取る」に貢献することが可能となる。 (1) The foreground extraction technology of the present invention can be applied to various applications as a component technology, and can be used, for example, to extract the movements of an avatar that moves in conjunction with the user's movements, or to generate free viewpoint video of the movements of athletes. These can be used, for example, for remote communication using avatars, or for remotely distributing sports videos as free viewpoint video with a sense of realism, so that users do not need to travel to the site for communication or watching sports, etc., and carbon dioxide emissions can be reduced by saving the energy resources required for user movement, which can contribute to Goal 13 of the United Nations-led Sustainable Development Goals (SDGs), "Take urgent action to combat climate change and its impacts."

(2) 図2の構成の前景抽出装置10は、非特許文献1の枠組みに即したものとして、前景/背景の正解ラベルが未付与の第1入力の映像と、正解ラベルを付与した第2入力の映像と、を用いて第1入力に対するラベル付与結果を前景抽出結果として得るものであった。別の一実施形態として、この図2の前景抽出装置10から一部分のみを抜粋した構成として、図6に示されるように前景抽出装置10が前景候補領域決定部3及び多重分割部4のみを備える構成で、1枚のみの静止画入力から、その前景抽出結果を得るようにすることも可能である。図6の構成では、図5に例示して説明したように、前景候補領域決定部3が正しく前景候補領域を抽出している前提(抽出されたある1つの前景候補領域の全体または大部分が、実際の正解は前景ではなく背景であったいう形での間違いが発生していない前提)で、この前景候補領域の境界が必ずしも正確でない場合に、多重分割部4の処理によって、境界をより正確にしたものとして、各領域Iv(入力の静止画の前景抽出結果)を得ることができる。 (2) The foreground extraction device 10 in Fig. 2 conforms to the framework of Non-Patent Document 1, and obtains the labeling result for the first input as the foreground extraction result by using a first input image to which no correct foreground/background labels have been assigned and a second input image to which correct labels have been assigned. As another embodiment, it is possible to obtain the foreground extraction result from only one input still image by configuring the foreground extraction device 10 in Fig. 2 as only a part of the configuration excerpted from the foreground extraction device 10 in Fig. 2, as shown in Fig. 6, in which the foreground extraction device 10 includes only the foreground candidate region determination unit 3 and the multiple division unit 4. In the configuration of Figure 6, as illustrated in Figure 5, it is assumed that the foreground candidate region determination unit 3 correctly extracts foreground candidate regions (that is, there is no error in that the whole or most part of an extracted foreground candidate region is actually the background and not the foreground, as the correct answer), but if the boundaries of these foreground candidate regions are not necessarily accurate, the boundaries can be made more accurate through processing by the multi-division unit 4, and each region Iv (the foreground extraction result of the input still image) can be obtained.

(3) 図7は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。前景抽出装置10は、このような構成を有する1台以上のコンピュータ装置70として実現可能である。なお、2台以上のコンピュータ装置70で前景抽出装置10を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU(中央演算装置)71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU(グラフィックス演算装置)72、CPU71(及びGPU72)にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77、カメラ78と、これらの間でデータを授受するためのバスBSと、を備える。 (3) FIG. 7 is a diagram showing an example of the hardware configuration of a general computer device 70. The foreground extraction device 10 can be realized as one or more computer devices 70 having such a configuration. When the foreground extraction device 10 is realized by two or more computer devices 70, information required for processing may be sent and received via a network. The computer device 70 includes a CPU (Central Processing Unit) 71 that executes predetermined instructions, a GPU (Graphics Processing Unit) 72 as a dedicated processor that executes some or all of the execution instructions of the CPU 71 in place of the CPU 71 or in cooperation with the CPU 71, a RAM 73 as a main storage device that provides a work area for the CPU 71 (and the GPU 72), a ROM 74 as an auxiliary storage device, a communication interface 75, a display 76, an input interface 77 that accepts user input via a mouse, keyboard, touch panel, etc., a camera 78, and a bus BS for transmitting and receiving data between them.

前景抽出装置10の各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び/又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置(プロセッサ)の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。前景抽出装置10による処理結果等はディスプレイ76で表示して出力してよい。前景抽出装置10への入力として用いる映像の全部又は一部をカメラ78で撮影して得るようにしてもよい。 Each functional unit of the foreground extraction device 10 can be realized by a CPU 71 and/or a GPU 72 that reads from a ROM 74 a predetermined program corresponding to the function of each unit and executes it. Both the CPU 71 and the GPU 72 are a type of arithmetic device (processor). Here, when display-related processing is performed, a display 76 also operates in conjunction with the GPU 72, and when communication-related processing related to data transmission and reception is performed, a communication interface 75 also operates in conjunction with the GPU 72. The processing results by the foreground extraction device 10 may be displayed and output on the display 76. All or part of the image used as input to the foreground extraction device 10 may be obtained by capturing the image with a camera 78.

10…前景抽出装置、1…映像入力部、2…背景画像生成部、3…前景候補領域決定部、4…多重分割部、5…特徴量抽出部、6…グラフ構築部、7…ラベル推定部、8…映像出力部、9…正解DB 10...Foreground extraction device, 1...Video input unit, 2...Background image generation unit, 3...Foreground candidate region determination unit, 4...Multiple division unit, 5...Feature extraction unit, 6...Graph construction unit, 7...Label estimation unit, 8...Video output unit, 9...Correct answer DB

Claims (7)

前景または背景の区別が付与されていない第1映像と、当該区別が付与された第2画像群と、を入力として、第1映像の各フレームにおける前景を抽出する前景抽出装置であって、
前記第1映像及び前記第2画像群の各画像に対して、第1手法を適用することで前景候補領域を抽出し、
前記前景候補領域と、対応する画像に対して前記第1手法よりも細分化された領域分割を実現する第2手法を適用した領域分割結果と、を照合して、前記前景候補領域を修正した対象領域を求め、
対象領域の各々をノードとし、各ノードが前記第2画像群に起因する場合に前景または背景の区別をラベルとして付与したグラフを構築し、
前記グラフのコストを最小化するように、前記グラフの各ノードのうち前記第1映像に起因するノードに対して前景または背景の区別をラベルとして推定することで、前記第1映像の各フレームにおける前景抽出結果を得ており、
前記前景候補領域を抽出することは、前記第1映像の各フレームについて、前景抽出手法としての前記第1手法を適用した結果の前景領域について、各フレームの近傍時間のフレーム群での当該前景領域の和を取ることによって行われることを特徴とする前景抽出装置。
A foreground extraction device that receives a first video in which no distinction between foreground and background is given and a second image group in which the distinction is given, and extracts a foreground in each frame of the first video, the foreground extraction device comprising:
extracting a foreground candidate region by applying a first method to the first image and each image of the second image group;
a second method for realizing a finer region division than the first method is applied to the corresponding image by comparing the foreground candidate region with the region division result to obtain a target region obtained by correcting the foreground candidate region;
constructing a graph in which each region of interest is a node and each node is labeled with a distinction between foreground and background when the node originates from the second set of images;
obtaining a foreground extraction result for each frame of the first image by estimating a foreground or background distinction as a label for each node of the graph that originates from the first image so as to minimize a cost of the graph ;
The foreground extraction device is characterized in that the extraction of the foreground candidate area is performed by taking the sum of the foreground area resulting from applying the first method as a foreground extraction method for each frame of the first video, in a group of frames in the vicinity of each frame in time .
前記和を取ることは、当該和を取る対象フレームの近傍時間のフレーム群での前景領域を、当該対象フレームの時刻に該当する位置に移動させたうえで行われることを特徴とする請求項に記載の前景抽出装置。 2. The foreground extraction device according to claim 1, wherein the sum is calculated by moving a foreground area in a group of frames in the vicinity of a target frame for which the sum is to be calculated to a position corresponding to the time of the target frame. 前景または背景の区別が付与されていない第1映像と、当該区別が付与された第2画像群と、を入力として、第1映像の各フレームにおける前景を抽出する前景抽出装置であって、
前記第1映像及び前記第2画像群の各画像に対して、第1手法を適用することで前景候補領域を抽出し、
前記前景候補領域と、対応する画像に対して前記第1手法よりも細分化された領域分割を実現する第2手法を適用した領域分割結果と、を照合して、前記前景候補領域を修正した対象領域を求め、
対象領域の各々をノードとし、各ノードが前記第2画像群に起因する場合に前景または背景の区別をラベルとして付与したグラフを構築し、
前記グラフのコストを最小化するように、前記グラフの各ノードのうち前記第1映像に起因するノードに対して前景または背景の区別をラベルとして推定することで、前記第1映像の各フレームにおける前景抽出結果を得ており、
前記グラフを構築することは、ノードとされる対象領域の各々について画像特徴量を抽出し、異なるノード間において画像特徴量が類似しているほど異なるノード同士が類似しているものとして評価して、異なるノード間にエッジを設けるか否かを決定することによって行われ、
前記ノード同士の類似を評価することはさらに、
ノードとされる対象領域のペアについて、当該対象領域のペアが映像における同一時刻のフレームに属しており、且つ、当該対象領域のペアの当該同一時刻フレーム内での空間位置が近いと判定される場合にのみ、
当該対象領域のペアについて画像特徴量がより類似しているほど当該ノードのペアがより類似しているものとして追加で評価することを特徴とする前景抽出装置。
A foreground extraction device that receives a first video in which no distinction between foreground and background is given and a second image group in which the distinction is given, and extracts a foreground in each frame of the first video, the foreground extraction device comprising:
extracting a foreground candidate region by applying a first method to the first image and each image of the second image group;
a second method for realizing a finer region division than the first method is applied to the corresponding image by comparing the foreground candidate region with the region division result to obtain a target region obtained by correcting the foreground candidate region;
constructing a graph in which each region of interest is a node and each node is labeled with a distinction between foreground and background when the node originates from the second set of images;
obtaining a foreground extraction result for each frame of the first image by estimating a foreground or background distinction as a label for each node of the graph that originates from the first image so as to minimize a cost of the graph ;
The graph is constructed by extracting image features for each of the target regions that are to be nodes, evaluating the different nodes as being more similar to each other as the image features between the different nodes are more similar, and determining whether or not to provide edges between the different nodes;
Evaluating the similarity between the nodes further comprises:
Only when it is determined that the pair of object regions to be regarded as nodes belong to frames at the same time in the video and that the spatial positions of the pair of object regions within the frames at the same time are close to each other,
A foreground extraction device characterized in that the more similar the image features of the pair of target regions are, the more similar the pair of nodes is additionally evaluated .
前記グラフのコストは、ノード同士が類似していると判定されるノード群について、前景または背景を区別するラベル付与結果がより似ているほどより小さいものとして評価されることを特徴とする請求項に記載の前景抽出装置。 4. The foreground extraction device according to claim 3 , wherein the cost of the graph is evaluated as being smaller for a group of nodes that are determined to be similar to each other, as the labeling results for distinguishing between the foreground and the background are more similar. 前記第1手法はインスタンスセグメンテーションまたはセマンティックセグメンテーションであり、前記第2手法はスーパーピクセルセグメンテーションであることを特徴とする請求項1ないしのいずれかに記載の前景抽出装置。 5. The foreground extraction device according to claim 1 , wherein the first technique is instance segmentation or semantic segmentation, and the second technique is superpixel segmentation. 前記前景候補領域を修正した対象領域を求めることは、前記細分化された領域分割結果の各領域について、前記前景候補領域との重複の有無を判定し、重複している場合に当該細分化された領域が修正した対象領域に属し、重複していない場合に当該細分化された領域が修正した対象領域に属していないものとして行われることを特徴とする請求項1ないしのいずれかに記載の前景抽出装置。 6. The foreground extraction device according to claim 1, wherein the determination of the target area resulting from the correction of the foreground candidate area is performed by determining whether or not each area of the subdivided area division result overlaps with the foreground candidate area, and if there is an overlap, the subdivided area is deemed to belong to the corrected target area, and if there is no overlap, the subdivided area is deemed not to belong to the corrected target area. コンピュータを請求項1ないしのいずれかに記載の前景抽出装置として機能させることを特徴とするプログラム。 7. A program for causing a computer to function as the foreground extraction device according to claim 1.
JP2021139425A 2021-08-27 2021-08-27 Foreground extraction device and program Active JP7568595B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021139425A JP7568595B2 (en) 2021-08-27 2021-08-27 Foreground extraction device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021139425A JP7568595B2 (en) 2021-08-27 2021-08-27 Foreground extraction device and program

Publications (2)

Publication Number Publication Date
JP2023032996A JP2023032996A (en) 2023-03-09
JP7568595B2 true JP7568595B2 (en) 2024-10-16

Family

ID=85415868

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021139425A Active JP7568595B2 (en) 2021-08-27 2021-08-27 Foreground extraction device and program

Country Status (1)

Country Link
JP (1) JP7568595B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014206926A (en) 2013-04-15 2014-10-30 オムロン株式会社 Image processor, method for controlling image processor, image processing program and recording medium therefor
US20170236290A1 (en) 2016-02-16 2017-08-17 Disney Enterprises, Inc. Methods and systems of performing video object segmentation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014206926A (en) 2013-04-15 2014-10-30 オムロン株式会社 Image processor, method for controlling image processor, image processing program and recording medium therefor
US20170236290A1 (en) 2016-02-16 2017-08-17 Disney Enterprises, Inc. Methods and systems of performing video object segmentation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Giraldo, Jhony H. and Javed, Sajid and Bouwmans, Thierry,"Graph Moving Object Segmentation",IEEE Transactions on Pattern Analysis and Machine Intelligence,2020年,44,pp.2485-2503
Li, Yao and Ma, Lizhuang,"A Super-pixel based Method for Instance Segmentation Post-processing",2020 13th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI),2020年,pp.175-180

Also Published As

Publication number Publication date
JP2023032996A (en) 2023-03-09

Similar Documents

Publication Publication Date Title
US11595737B2 (en) Method for embedding advertisement in video and computer device
US10275653B2 (en) Primary video objects with neighborhood reversibility
US8605795B2 (en) Video editing methods and systems
CN109919122A (en) A time-series behavior detection method based on 3D human body key points
US10037610B1 (en) Method for tracking and segmenting a target object in an image using Markov Chain, and device using the same
CN111428765B (en) Target detection method based on global convolution and local depth convolution fusion
CN108629783B (en) Image segmentation method, system and medium based on image feature density peak search
Lee et al. Temporally coherent video matting
US20050286758A1 (en) Color segmentation-based stereo 3D reconstruction system and process employing overlapping images of a scene captured from viewpoints forming either a line or a grid
WO2019071976A1 (en) Panoramic image saliency detection method based on regional growth and eye movement model
JP2011034178A (en) Apparatus and method for image processing, and program
US20210012503A1 (en) Apparatus and method for generating image
CN111931603B (en) Human action recognition system and method based on two-stream convolution network of coopetition network
CN114445618A (en) A cross-modal interactive RGB-D image salient region detection method
CN114049531B (en) A person re-identification method based on weakly supervised human collaborative segmentation
Liu et al. Stereo video object segmentation using stereoscopic foreground trajectories
CN118411285A (en) Video portrait matting method, device, storage medium and equipment
JP3716455B2 (en) Region extraction method and region extraction device
JP7568595B2 (en) Foreground extraction device and program
JP7144384B2 (en) Object detection device, method and program
CN112085025B (en) Object segmentation method, device and equipment
JP7062611B2 (en) Area extraction device and program
JP6962662B2 (en) Detection device and program
Ye et al. Real-Time Smoke Detection in Video Based on Two-Step Selection of Regions of Interest and Directional Movement Analysis
CN118887714B (en) An automatic target locking algorithm for video face swapping based on target tracking

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20241003

R150 Certificate of patent or registration of utility model

Ref document number: 7568595

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150