[go: up one dir, main page]

JP4553300B2 - Content identification device - Google Patents

Content identification device Download PDF

Info

Publication number
JP4553300B2
JP4553300B2 JP2004286620A JP2004286620A JP4553300B2 JP 4553300 B2 JP4553300 B2 JP 4553300B2 JP 2004286620 A JP2004286620 A JP 2004286620A JP 2004286620 A JP2004286620 A JP 2004286620A JP 4553300 B2 JP4553300 B2 JP 4553300B2
Authority
JP
Japan
Prior art keywords
content
identification
learning
teacher
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004286620A
Other languages
Japanese (ja)
Other versions
JP2006099565A (en
Inventor
晴久 加藤
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2004286620A priority Critical patent/JP4553300B2/en
Publication of JP2006099565A publication Critical patent/JP2006099565A/en
Application granted granted Critical
Publication of JP4553300B2 publication Critical patent/JP4553300B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、コンテンツ識別装置に関し、特に、コンテンツの特徴量を用いて高速かつ高精度にコンテンツを識別することができるコンテンツ識別装置に関する。   The present invention relates to a content identification device, and more particularly to a content identification device that can identify content at high speed and with high accuracy using the feature amount of the content.

従来、複数のコンテンツの中から希望するコンテンツを検索するために、予め各コンテンツにそれぞれの特徴量を表すメタデータを付与しておくことが行われている。コンテンツの検索は、コンテンツそのものではなくメタデータを介して行われる。   2. Description of the Related Art Conventionally, in order to search for a desired content from a plurality of contents, it has been performed that metadata indicating a feature amount is assigned to each content in advance. The search for content is performed via metadata, not the content itself.

各コンテンツへのメタデータの付与は、原始的には、各コンテンツに対し手動で説明文を記述して付与することにより行われる。また、コンテンツの検索は、検索に際して入力されたテキストと一致する説明文が付与されたコンテンツを提示することにより行われるのが一般的である。   The provision of metadata to each content is originally performed by manually describing and giving the description to each content. In addition, the content search is generally performed by presenting content to which an explanatory note that matches the text input at the time of search is presented.

一方、コンテンツに付与するメタデータの抽出を自動化する方法も提案されている。例えば、特許文献1には、色を複数の色グループに分類し、画像全体に占める各色グループの画素の割合である占有率を算出し、算出された色グループの画素の占有率とその色グループ名または色グループの代表色をメタデータとすることが記載されている。検索時にはメタデータ同士のユークリッド距離によって画像間の類似度を計算し、類似度が大である画像を検索結果として提示できる。   On the other hand, a method for automating extraction of metadata to be added to content has also been proposed. For example, Patent Literature 1 classifies colors into a plurality of color groups, calculates an occupancy ratio that is a ratio of pixels of each color group in the entire image, and calculates the pixel occupancy ratio of the calculated color group and the color group. It is described that the representative color of the name or color group is used as metadata. At the time of search, the similarity between images can be calculated based on the Euclidean distance between metadata, and an image with a high similarity can be presented as a search result.

また、特許文献2には、顔領域を含む濃淡画像をモザイク化し、顔領域の内外でモザイクパタンが異なることを利用して顔領域のモザイクをメタデータとして抽出することが記載され、特許文献3には、画像から罫線以外の部分を除去することにより抽出した罫線パターンを数量化したものをメタデータとすることが記載されている。これらでは、正規化したメタデータ同士の内積を距離として画像検索あるいは画像分類できる。   Patent Document 2 describes that a grayscale image including a face area is made into a mosaic, and the mosaic of the face area is extracted as metadata using the fact that the mosaic pattern is different inside and outside the face area. Describes that a ruled line pattern extracted by removing a part other than a ruled line from an image is quantified as metadata. In these, image search or image classification can be performed by using the inner product of normalized metadata as distances.

また、特許文献4には、色のヒストグラムおよびエッジ画素情報と2つのフレームのエッジ画素変化情報をメタデータとし、自己組織化マップを用いて類似画像を検索することが記載され、特許文献5には、異なる解像度の画像ごとに抽出したカラーヒストグラム、ブロックごとの輝度平均、エッジ量をメタデータとして用い、クラスタ解析で類似画像を検索することが記載されている。   Patent Document 4 describes that a color histogram, edge pixel information, and edge pixel change information of two frames are used as metadata, and a similar image is searched using a self-organizing map. Describes searching for similar images by cluster analysis using the color histogram extracted for each image of different resolution, the luminance average for each block, and the edge amount as metadata.

さらに、特許文献6には、annealing M-estimatorで求めた代表色とその配置をメタデータとして用い、判別分析法を利用して類似画像を検索することが記載されている。
特開平11−96364号公報 特開平8−221547号公報 特開平7−160844号公報 特開平11−39325号公報 特開2003−256427号公報 特開2003−67764号公報
Further, Patent Document 6 describes that similar images are searched using a discriminant analysis method using the representative colors obtained by annealing M-estimator and their arrangement as metadata.
Japanese Patent Laid-Open No. 11-96364 JP-A-8-221547 JP-A-7-160844 JP 11-39325 A JP 2003-256427 A JP 2003-676764 A

しかしながら、上記原始的な方法では、個々のコンテンツに手動でメタデータを付与しなければならず、コンテンツが膨大な量に達している場合にはメタデータ付与の作業負荷が発散し現実的でない。また、各コンテンツに付与する説明文は客観的なものである必要があるが、主観的な判断が入り込まざるを得ず、異なるコンテンツに同じような説明文が付与されたり、同じようなコンテンツに異なる説明文が付与されたりする恐れがあるという課題がある。   However, in the above-mentioned primitive method, metadata must be manually assigned to each content, and when the amount of content has reached a huge amount, the workload of adding metadata spreads and is not realistic. In addition, the explanatory text given to each content needs to be objective, but subjective judgment must be entered, and similar content is given to different content, There is a problem that a different explanation may be given.

特許文献1〜6に記載された方法によれば、客観的なメタデータを自動的に抽出できるので上記の問題点は解消される。しかし、特許文献1に記載された方法で抽出される各色グループの画素の占有率という単純なヒストグラムは、コンテンツの特徴を的確に捉えているとは言い切れず、コンテンツの識別精度の低下をもたらすという課題を抱える。また、識別には個々のメタデータのユークリッド距離を測る必要があるため、コンテンツの数が増えるに従って処理時間が問題となってくる。   According to the methods described in Patent Documents 1 to 6, objective metadata can be automatically extracted, and thus the above-described problems are solved. However, the simple histogram of the pixel occupancy ratio of each color group extracted by the method described in Patent Document 1 cannot be said to accurately capture the feature of the content, resulting in a decrease in content identification accuracy. I have a problem. Further, since it is necessary to measure the Euclidean distance of individual metadata for identification, processing time becomes a problem as the number of contents increases.

また、特許文献2,3に記載された方法は、画像の特徴量を特に顔領域のモザイクパタンや罫線パタンとするものであるため、処理対象が画像の中の更に顔画像や文書画像に限定され、汎用性が乏しいという課題がある。   In addition, the methods described in Patent Documents 2 and 3 are such that the feature amount of an image is a mosaic pattern or ruled line pattern of a face area in particular, so that the processing target is further limited to a face image or a document image in the image. There is a problem that versatility is poor.

さらに、特許文献4〜6の方法は、それぞれ大量のメタデータを算出により抽出する必要があるため、処理時間が掛かるという課題がある。また、識別に際してはカラーヒストグラムやエッジなどの異なる種類のメタデータを一括して用いるため、相互のメタデータを考慮したパラメータの設定が困難であるという課題もある。   Furthermore, the methods of Patent Documents 4 to 6 each have a problem that it takes a long processing time because it is necessary to extract a large amount of metadata by calculation. Further, since different types of metadata such as color histograms and edges are collectively used for identification, there is a problem that it is difficult to set parameters in consideration of mutual metadata.

本発明の目的は、上記課題を解決し、任意の未知のコンテンツが識別対象のコンテンツ(正例コンテンツ)であるか識別対象外のコンテンツ(負例コンテンツ)であるかを高速かつ高精度に識別することができるコンテンツ識別装置を提供することにある。   The object of the present invention is to solve the above-mentioned problems and identify whether any unknown content is content to be identified (positive example content) or non-identification content (negative example content) with high speed and high accuracy. It is an object of the present invention to provide a content identification device that can do this.

上記課題を解決するために、本発明は、未知のコンテンツが識別対象のコンテンツであるか否かを識別するコンテンツ識別装置において、予め用意された識別対象のコンテンツ(以下、正例教師コンテンツと記す。)の特徴量と予め用意された識別対象外のコンテンツ(以下、負例教師コンテンツと記す。)の特徴量をもとにした学習を行うことにより、負例教師コンテンツの分類ごと、および特徴量ごとの複数の学習モデルを構築する学習処理手段と、前記未知のコンテンツの特徴量と前記学習処理手段により構築された複数の習モデルから選定した学習モデルに基づいて前記未知のコンテンツが識別対象のコンテンツ(以下、正例コンテンツと記す。)であるか否かを識別する負例教師コンテンツの分類ごとの複数の識別手段を有し、前記複数の識別手段による識別結果から前記未知のコンテンツが正例コンテンツであるか否かを識別する識別処理手段とを備え、前記学習処理手段は、正例教師コンテンツの特徴量を抽出する第1の抽出手段、負例教師コンテンツの特徴量を抽出する第2の抽出手段、前記第2の抽出手段により抽出された特徴量に応じて前記負例教師コンテンツを分類する分類手段、前記分類手段での分類の各々に対応して設けられ、各々が、前記第1の抽出手段により抽出された特徴量と前記分類手段により分類された個々の負例教師コンテンツの特徴量に基づいて正例教師コンテンツと負例教師コンテンツを最適に分類する、特徴量ごとの学習モデルを構築する複数の学習手段、および前記複数の学習手段の各々に対応して設けられ、前記分類手段により分類された個々の負例教師コンテンツに応じた最適な特徴量の学習モデルを、前記学習手段により構築された特徴量ごとの学習モデルから選定して前記複数の学習手段の各々に対応して設けられた識別手段に与える選定手段を有することを基本的特徴としている。 In order to solve the above problems, the present invention provides a content identification device for identifying whether the unknown content is content identification target, the content of the identification target prepared in advance (hereinafter, referred to as a positive sample teacher content .) of the feature with a prepared identification-target content (hereinafter, by performing learning based on feature amounts of referred to as negative examples teacher content.), each category of negative examples teacher content, and wherein a learning processing means for constructing a plurality of learning models for each amount, the unknown feature quantity and the learning process the unknown content identified based on the learning model selected from a plurality of learning models built by means of the content A plurality of identification means for each classification of negative example teacher content for identifying whether or not the content is a target content (hereinafter referred to as positive example content); The unknown content from the identification result by the serial plurality of identification means and an identifying identification processing means whether a positive cases content, the learning processing means, first of extracting a feature quantity of positive cases teacher content Extraction means , second extraction means for extracting feature values of negative example teacher contents, classification means for classifying the negative example teacher contents according to the feature values extracted by the second extraction means, and classification means The positive teacher content is provided based on the feature amount extracted by the first extraction means and the feature amount of each negative example teacher content classified by the classification means. and optimally classify negative example teacher content, a plurality of learning means for constructing a learning model for each feature value, and provided corresponding to each of the plurality of learning means, said classification means The optimal feature amount of the learning model corresponding to the classified individual negative examples teacher content was, provided corresponding to each of the selection to the plurality of learning means from learning model for each feature value that is constructed by the learning means It has a basic feature of having a selection means to be given to the identified identification means .

本発明によれば、未知のコンテンツが正例コンテンツであるか負例コンテンツであるかの識別を高精度に行うことができる。また、分類された負例教師コンテンツごとに識別に使用する特徴量を適応的に選択することにより、識別時に未知のコンテンツから抽出する特徴量を必要最小限に抑えることができる。また、特徴量間の距離が最大化されるように階層的に識別処理を配置し、識別処理ごとに必要な特徴量を抽出して段階的な識別処理を行うことにより、識別の精度を損なうことなく処理の高速化を実現できる。   According to the present invention, it is possible to identify with high accuracy whether unknown content is positive content or negative content. Further, by adaptively selecting the feature amount used for identification for each classified negative example teacher content, the feature amount extracted from the unknown content at the time of identification can be minimized. In addition, the identification processing is arranged in a hierarchical manner so that the distance between the feature amounts is maximized, and the identification amount is deteriorated by extracting the necessary feature amounts for each identification processing and performing the stepwise identification processing. The processing speed can be increased without any problems.

以下、図面を参照して本発明を説明する。図1は、本発明に係るコンテンツ識別装置の一実施形態を示す機能ブロック図である。以下では、コンテンツが静止画像であり、静止画像のメタデータとしての特徴量が主に色合い、色の分布・構図・模様などの静止画像の色情報および形状情報であるとして説明するが、本発明はこれらに限定されるものではなく、音声や動画像など任意のコンテンツを処理対象とし、任意の特徴量をメタデータとして実施できる。   The present invention will be described below with reference to the drawings. FIG. 1 is a functional block diagram showing an embodiment of a content identification apparatus according to the present invention. In the following description, it is assumed that the content is a still image, and the feature amount as metadata of the still image is mainly color information and shape information of the still image such as hue, color distribution, composition, and pattern. However, the present invention is not limited to these, and any content such as audio or moving images can be processed, and any feature can be implemented as metadata.

本発明は、教師コンテンツを用いて学習を行うことにより学習モデルを構築する学習処理手段10と未知コンテンツに対する識別処理手段20を基本的構成として備える。これらの処理手段はソフトウエアで構成できるがハードウエアで構成してもよい。
(1)学習処理手段10
The present invention includes a learning processing unit 10 that constructs a learning model by performing learning using teacher content and an identification processing unit 20 for unknown content as basic configurations. These processing means can be configured by software, but may be configured by hardware.
(1) Learning processing means 10

まず、学習処理手段10について説明する。学習処理に際しては、予め識別対象内であることが分かっている画像と識別対象外であることが分かっている画像を教師コンテンツとして用意する。本明細書では、識別対象の画像を正例教師コンテンツと称し、識別対象外の画像を負例教師コンテンツと称する。例えば、未知の画像が人物の画像であるか否かを識別したい場合、人物の画像は正例教師コンテンツであり、人物の画像以外の画像は全て負例教師コンテンツとなる。   First, the learning processing means 10 will be described. In the learning process, an image that is known to be within the identification target and an image that is known to be outside the identification target are prepared as teacher content. In this specification, an image to be identified is referred to as positive example teacher content, and an image that is not to be identified is referred to as negative example teacher content. For example, when it is desired to identify whether an unknown image is a person image, the person image is a positive example teacher content, and all images other than the person image are negative example teacher contents.

次に、正例教師コンテンツ、負例教師コンテンツをそれぞれ抽出手段11、12に入力し、それぞれの教師コンテンツから特徴量を抽出してメタデータとする。メタデータは任意の特徴量でよいが、国際標準規格であるMPEG-7で規定されたデスクリプタ、つまりColor Layout、Scalable Color、Domiant Color、Color StructureやEdge Histgramを利用するとメタデータに互換性を持たせることができ、汎用性に富んだ装置を実現できるので都合がよい。   Next, positive example teacher contents and negative example teacher contents are input to the extraction means 11 and 12, respectively, and feature quantities are extracted from the respective teacher contents to form metadata. The metadata can be any feature amount, but it is compatible with the descriptors defined by the international standard MPEG-7, that is, Color Layout, Scalable Color, Dominant Color, Color Structure and Edge Histgram. This is convenient because it can realize a versatile device.

負例教師コンテンツは、例えば人物の画像が正例コンテンツである場合、人物の画像以外の様々な種類の画像を含んでいるので、負例教師コンテンツのメタデータについては分類手段13でメタデータの距離に応じてクラスタ分けを行う。このクラスタ分けには、K-mean法や自己組織化マップなどを利用することができる。また、学習処理で用意される負例教師コンテンツの種類は予め分かっているので、ここで用意された負例教師コンテンツとそれから抽出されたメタデータの対応をとるなどして手動操作によってクラスタ分けすることもできる。   The negative example teacher content includes, for example, various types of images other than the person image when the person image is the positive example content. Perform clustering according to distance. For this clustering, a K-mean method or a self-organizing map can be used. Also, since the types of negative example teacher content prepared in the learning process are known in advance, the negative example teacher content prepared here and the metadata extracted from it are clustered by manual operation, for example. You can also.

分類手段13でのクラスタ分けにより負例教師コンテンツの中から、例えば海の画像のメタデータはクラスタAとして分類され、山の画像のメタデータはクラスタBとして分類される。   From the negative example teacher contents by the clustering by the classification means 13, for example, the metadata of the sea image is classified as cluster A, and the metadata of the mountain image is classified as cluster B.

学習手段(1)〜(3)14〜16は、抽出手段11で抽出された正例教師コンテンツのメタデータと分類手段12でクラスタ分けされた個々の負例教師コンテンツのメタデータを使用して正例教師コンテンツと負例教師コンテンツの2群に最適に分離する分離超平面を算出する。例えば、学習手段(1)は、抽出手段11により抽出された人物の画像のメタデータと抽出手段12で抽出され分類手段13で分類された海の画像のメタデータを使用して、正例コンテンツである人物の画像と負例コンテンツである海の画像を分離する分離超平面を算出する。メタデータが複数ある場合には、メタデータごとに分離超平面を算出する。分離超平面の算出には、例えばサポートベクタマシン(SVM)あるいは判別分析を利用することができる。   The learning means (1) to (3) 14 to 16 use the metadata of the positive example teacher contents extracted by the extraction means 11 and the metadata of the individual negative example teacher contents clustered by the classification means 12. A separation hyperplane that is optimally separated into two groups of positive example teacher content and negative example teacher content is calculated. For example, the learning means (1) uses the metadata of the person image extracted by the extracting means 11 and the metadata of the sea image extracted by the extracting means 12 and classified by the classifying means 13, and uses the example content. A separation hyperplane that separates an image of a person and a sea image as negative example content is calculated. When there are a plurality of metadata, a separation hyperplane is calculated for each metadata. For example, a support vector machine (SVM) or discriminant analysis can be used to calculate the separation hyperplane.

サポートベクタマシン(SVM)については、例えば「Vapnik:Statistical learning theory, A Wiley-Interscience Publication, 1998」や「C-C.CHANG, C-W.IISU AND C-J LIN, The analysis of decomposition methods for support vector machines, IEEE Transaction on Neural Networks, 11(4) pp.1003-1008」に記載されている。   For support vector machines (SVM), for example, “Vapnik: Statistical learning theory, A Wiley-Interscience Publication, 1998”, “CC.CHANG, CW.IISU AND CJ LIN, The analysis of decomposition methods for support vector machines, IEEE Transaction” on Neural Networks, 11 (4) pp.1003-1008 ”.

図2は、SVMの概念を示す説明図であり、同図に示すように、あるメタデータにおける異なる要素a、bの量をそれぞれ縦軸、横軸に取り、各画像から抽出したメタデータの位置をプロットする。例えばメタデータがScalable Color(HSV色ヒストグラムのスケーラブル表現)である場合、赤、青をそれぞれ縦軸、横軸にとると、人物の各画像のメタデータは「○」の位置にプロットされ、海の各画像のメタデータは「×」の位置にプロットされる。なお、図2は、あるメタデータにおける要素が2種a,bの場合であるが、それ以上の場合にはそれに対応した次元位置でのプロットとなる。    FIG. 2 is an explanatory diagram showing the concept of SVM. As shown in FIG. 2, the amounts of different elements a and b in a given metadata are plotted on the vertical and horizontal axes, respectively. Plot the position. For example, if the metadata is Scalable Color (HSV color histogram scalable representation), taking red and blue on the vertical and horizontal axes respectively, the metadata of each image of the person is plotted at the position of “ The metadata of each image is plotted at the position of “x”. Note that FIG. 2 shows a case where there are two types of elements a and b in a certain metadata.

図2に示すように、SVMは分離の閾値となる分離超平面hを有する。分離超平面hは、上述したように、正例教師コンテンツと負例教師コンテンツのメタデータをSVMに与え、各メタデータについて学習を行わせ、この学習結果に基づいて正例教師コンテンツと負例教師コンテンツが最適に分離されるように設定される。学習モデルの識別精度は、種々の正例教師コンテンツおよび負例教師コンテンツのメタデータをSVMに与えたときに得られる分離超平面hとそれに最接近するプロット位置との間の離間距離に依存する。   As shown in FIG. 2, the SVM has a separation hyperplane h that serves as a separation threshold. As described above, the separation hyperplane h gives the metadata of the positive example teacher content and the negative example teacher content to the SVM, performs learning for each metadata, and based on the learning result, the positive example teacher content and the negative example It is set so that teacher content is optimally separated. The identification accuracy of the learning model depends on the separation distance between the separation hyperplane h obtained when the metadata of various positive example teacher contents and negative example teacher contents is given to the SVM and the closest plot position. .

以上により、正例コンテンツか負例コンテンツかを分類するための学習モデルが、クラスタごと、メタデータごとに構築される。例えば、分類手段13によりクラスタA(海の画像)と分類された負例教師コンテンツについて、人物の画像(正例コンテンツ)か海の画像(負例コンテンツ)かを識別するColor Layoutの学習モデル、Scalable Colorの学習モデル、Domiant Colorの学習モデル、Color Structureの学習モデル、Edge Histgramの学習モデルなどが構築される。同様に、クラスタB(山の画像)と分類された負例教師コンテンツについても、人物の画像(正例コンテンツ)か山の画像(負例コンテンツ)かを識別するColor Layoutの学習モデル、Scalable Colorの学習モデル、Domiant Colorの学習モデル、Color Structureの学習モデル、Edge Histgramの学習モデルなどが構築される。   As described above, a learning model for classifying positive content or negative content is constructed for each cluster and each metadata. For example, for a negative example teacher content classified as cluster A (sea image) by the classification means 13, a learning model of Color Layout for identifying whether a person image (positive example content) or a sea image (negative example content), Scalable Color learning model, Dominant Color learning model, Color Structure learning model, Edge Histgram learning model, etc. are built. Similarly, with regard to negative example teacher content classified as cluster B (mountain image), a Color Layout learning model for identifying whether a human image (positive example content) or a mountain image (negative example content), Scalable Color Learning model, Dominant Color learning model, Color Structure learning model, Edge Histgram learning model, etc. are constructed.

選定手段(1)〜(3)17〜19は、正例教師コンテンツおよび負例教師コンテンツから抽出された複数のメタデータ対して、負例教師コンテンツの種類に応じてメタデータを適応的に利用するため、クラスタごとに正例教師コンテンツとの識別性能が最適なメタデータおよびその学習モデルを選定する。例えばクラスタA(海の画像)についてはColor Layoutのメタデータおよびその学習モデルを選定し、クラスタB(山の画像)についてはEdge Histgramのメタデータおよびその学習モデルを選定する。   Selection means (1) to (3) 17 to 19 adaptively use metadata according to the type of negative example teacher content for a plurality of metadata extracted from positive example teacher content and negative example teacher content. Therefore, the metadata and the learning model having the optimum discrimination performance with the positive teacher content are selected for each cluster. For example, for the cluster A (sea image), Color Layout metadata and its learning model are selected, and for the cluster B (mountain image), Edge Histgram metadata and its learning model are selected.

各選定手段(1)〜(3)17〜19により選定された各クラスタごとのメタデータおよびその学習モデルは、識別処理手段20の対応する識別手段(1)〜(3)21〜23にそれぞれ与えられる。   The metadata for each cluster selected by the selection means (1) to (3) 17 to 19 and the learning model thereof are respectively stored in the corresponding identification means (1) to (3) 21 to 23 of the identification processing means 20. Given.

なお、あるクラスタにおける最適なメタデータが予め分かっている場合、例えば海の画像を負例コンテンツとして識別するのに最適なメタデータがScalable Colorであることが予め、あるいは先の海の画像での学習から分かっている場合、その後の学習に供される海の画像についてはメタデータとしてScalable Colorのみを抽出し、海の画像全体に対する学習モデルを生成あるいは修正するようにすることができる。
(2)識別処理手段20
In addition, when the optimal metadata in a certain cluster is known in advance, for example, the optimal metadata for identifying an ocean image as negative example content is Scalable Color in advance, or in the previous ocean image If it is known from learning, only a scalable color can be extracted as metadata for a sea image for subsequent learning, and a learning model for the entire sea image can be generated or modified.
(2) Identification processing means 20

次に、識別処理手段20について説明する。識別処理手段20は、選定手段(1)〜(3)17〜19、つまりクラスタと同数の複数の識別手段(1)〜(3)21〜23を有する。未知コンテンツは識別処理手段20に与えられ、正例コンテンツか負例コンテンツかが識別される。   Next, the identification processing means 20 will be described. The identification processing means 20 includes selection means (1) to (3) 17 to 19, that is, a plurality of identification means (1) to (3) 21 to 23 as many as the clusters. Unknown content is given to the identification processing means 20, and positive content or negative content is identified.

ここで、識別手段(1)〜(3)21〜23での識別処理を独立して行うことも考えられるが、識別手段(1)〜(3)21〜23を互いに連結させて、例えば、後述するように、未知コンテンツに対して段階的な識別処理が行われるようにするのがよい。未知コンテンツは、全ての識別手段(1)〜(3)21〜23で正例コンテンツと識別されれたとき正例コンテンツと判断される。また、識別手段(1)〜(3)21〜23の1つにおいてでも負例コンテンツと識別されれば負例コンテンツと判断され、その段階で識別処理は中断されてそれ以上の処理は行われない。   Here, it is conceivable to perform the identification processing in the identification means (1) to (3) 21 to 23 independently, but the identification means (1) to (3) 21 to 23 are connected to each other, for example, As will be described later, stepwise identification processing is preferably performed on unknown content. An unknown content is determined to be a positive content when it is identified as a positive content by all the identification means (1) to (3) 21 to 23. Further, if any of the identification means (1) to (3) 21 to 23 is identified as negative example content, it is determined as negative example content, and at that stage, the identification process is interrupted and further processing is performed. Absent.

図3は、識別処理手段20での識別処理の手順の一例を示すフローチャートである。識別処理手段20における個々の識別手段(1)〜(3)21〜23は、選定手段(1)〜(3)17〜19によって選定されたそれぞれのクラスタごとの最適なメタデータだけを未知コンテンツから抽出する。なお、このメタデータが他の識別手段で既に抽出されていればそのメタデータを再利用でき、新たにメタデータを抽出する処理は不要である。   FIG. 3 is a flowchart showing an example of the procedure of identification processing in the identification processing means 20. The individual identification means (1) to (3) 21 to 23 in the identification processing means 20 use only the optimum metadata for each cluster selected by the selection means (1) to (3) 17 to 19 as unknown content. Extract from Note that if this metadata has already been extracted by other identifying means, the metadata can be reused, and a process for extracting new metadata is not necessary.

各識別手段(1)〜(3)21〜23は、学習手段(1)〜(3)14〜16によってクラスタごとに導かれた学習モデルをもとに、SVMあるいは判別分析などによって未知コンテンツが正例コンテンツに属するか負例コンテンツに属するかを識別する。各識別手段(1)〜(3)21〜23での識別処理は、正例コンテンツか負例コンテンツかを分離する学習モデルによるものであるので、教師コンテンツの数に依存せず高速に行うことができる。   Each of the identification means (1) to (3) 21 to 23 has an unknown content generated by SVM or discriminant analysis based on the learning model derived for each cluster by the learning means (1) to (3) 14 to 16. Whether the content belongs to positive content or negative content is identified. The identification processing in each of the identification means (1) to (3) 21 to 23 is based on a learning model that separates positive example contents or negative example contents, and therefore should be performed at high speed without depending on the number of teacher contents. Can do.

図3は、未知コンテンツを正例コンテンツであるクラスタX、負例コンテンツであるクラスタA,B,Cに識別する例を示している。未知コンテンツは、まず、識別手段(1)21に与えられてクラスタAとクラスタA以外に識別される。ここでクラスタAと識別されたコンテンツは負例コンテンツと判断される。クラスタA以外と識別されたコンテンツは、識別手段(2)22に与えられてクラスタBとクラスタB以外に識別される。ここでクラスタBと識別されたコンテンツは負例コンテンツと判断される。次に、クラスタB以外と識別されたコンテンツは、識別手段(3)23に与えられてクラスタXとクラスタCに識別される。クラスタXと識別されたコンテンツは正例コンテンツと判断され、クラスタCと識別されたコンテンツは負例コンテンツと判断される。   FIG. 3 shows an example in which unknown content is identified as cluster X, which is positive example content, and clusters A, B, and C, which are negative example content. The unknown content is first given to the identification means (1) 21 to be identified other than the cluster A and the cluster A. Here, the content identified as cluster A is determined as negative example content. The content identified as other than the cluster A is given to the identification means (2) 22 to be identified other than the cluster B and the cluster B. Here, the content identified as cluster B is determined to be a negative example content. Next, the contents identified as other than the cluster B are given to the identification means (3) 23 and identified as the cluster X and the cluster C. The content identified as cluster X is determined as positive example content, and the content identified as cluster C is determined as negative example content.

未知コンテンツ中での各クラスタの出現頻度に応じて識別手段の適用順序を設定したり、学習モデルごとの識別精度に応じて識別手段の適用順序を設定したりすることにより、識別処理の負担低減や高速化、高精度化を図ることができる。   Reduce the burden of identification processing by setting the application order of identification means according to the appearance frequency of each cluster in unknown content, or by setting the application order of identification means according to the identification accuracy of each learning model And high speed and high accuracy.

例えば未知コンテンツ中で出現頻度が大きいことが分かっているクラスタを負例コンテンツとして識別する識別処理を優先させるより、未知コンテンツ中の多くのクラスタを早い段階で負例コンテンツと識別し、後段処理の対象から除くことができる。早い段階の識別で除かれたコンテンツは後段での処理対象外となり、それからのメタデータの抽出を省略することができるので、全体的に見て未知コンテンツから最小限のメタデータを抽出することで識別が可能になり、高速の識別処理を実現できる。また、例えば識別精度が高い学習モデルによる識別処理を優先させることにより、負例コンテンツに含まれるコンテンツをクラスタごとに高精度に識別できる。   For example, rather than prioritizing identification processing for identifying clusters that are known to have a high appearance frequency in unknown content as negative example content, many clusters in unknown content are identified as negative example content at an early stage. Can be excluded from the subject. Content removed by early identification is not subject to processing in later stages, and extraction of metadata from it can be omitted, so by extracting the minimum metadata from unknown content as a whole, Identification becomes possible, and high-speed identification processing can be realized. In addition, for example, by giving priority to the identification process using a learning model with high identification accuracy, the content included in the negative example content can be identified with high accuracy for each cluster.

未知コンテンツの識別結果を再学習に利用することもできる。例えば未知コンテンツが負例コンテンツであるにも拘わらず正例コンテンツであると識別された場合、該未知コンテンツをそのクラスタに対する学習手段あるいは抽出手段に与え、該未知コンテンツが負例コンテンツと識別されるように再学習を行わせる。この場合、未知コンテンツのクラスタやそれに最適なメタデータは識別処理において既知であるので、メタデータが保存されていればそのメタデータを再学習に利用できるし、保存されていなくても未知コンテンツに最適なメタデータのみを抽出すればよいので、抽出するメタデータは必要最小限に抑えることができる。   The identification result of unknown content can also be used for relearning. For example, when an unknown content is identified as a positive example content even though it is a negative example content, the unknown content is given to the learning means or extraction means for the cluster, and the unknown content is identified as a negative example content Let them learn again. In this case, the cluster of unknown content and the optimal metadata are known in the identification process. Therefore, if the metadata is stored, the metadata can be used for relearning. Since only the optimal metadata needs to be extracted, the metadata to be extracted can be minimized.

本発明に係るコンテンツ識別装置の一実施形態を示す機能ブロック図である。It is a functional block diagram which shows one Embodiment of the content identification device based on this invention. サポートベクタマシン(SVM)の概念を示す説明図である。It is explanatory drawing which shows the concept of a support vector machine (SVM). 識別処理手段での識別処理の手順の一例を示すフローチャートである。It is a flowchart which shows an example of the procedure of the identification process in an identification process means.

符号の説明Explanation of symbols

10・・・学習処理手段、11,12・・・抽出手段、13・・・分類手段、14,15,16・・・学習手段、17,18,19・・・選定手段、20・・・識別処理手段、21,22,23・・・識別手段 DESCRIPTION OF SYMBOLS 10 ... Learning processing means 11,12 ... Extraction means, 13 ... Classification means, 14, 15, 16 ... Learning means, 17, 18, 19 ... Selection means, 20 ... Identification processing means 21, 22, 23... Identification means

Claims (12)

未知のコンテンツが識別対象のコンテンツであるか否かを識別するコンテンツ識別装置において、
予め用意された識別対象のコンテンツ(以下、正例教師コンテンツと記す。)の特徴量と予め用意された識別対象外のコンテンツ(以下、負例教師コンテンツと記す。)の特徴量をもとにした学習を行うことにより、負例教師コンテンツの分類ごと、および特徴量ごとの複数の学習モデルを構築する学習処理手段と、
前記未知のコンテンツの特徴量と前記学習処理手段により構築された複数の習モデルから選定した学習モデルに基づいて前記未知のコンテンツが識別対象のコンテンツ(以下、正例コンテンツと記す。)であるか否かを識別する負例教師コンテンツの分類ごとの複数の識別手段を有し、前記複数の識別手段による識別結果から前記未知のコンテンツが正例コンテンツであるか否かを識別する識別処理手段とを備え、
前記学習処理手段は、正例教師コンテンツの特徴量を抽出する第1の抽出手段、負例教師コンテンツの特徴量を抽出する第2の抽出手段、前記第2の抽出手段により抽出された特徴量に応じて前記負例教師コンテンツを分類する分類手段、前記分類手段での分類の各々に対応して設けられ、各々が、前記第1の抽出手段により抽出された特徴量と前記分類手段により分類された個々の負例教師コンテンツの特徴量に基づいて正例教師コンテンツと負例教師コンテンツを最適に分類する、特徴量ごとの学習モデルを構築する複数の学習手段、および前記複数の学習手段の各々に対応して設けられ、前記分類手段により分類された個々の負例教師コンテンツに応じた最適な特徴量の学習モデルを、前記学習手段により構築された特徴量ごとの学習モデルから選定して前記複数の学習手段の各々に対応して設けられた識別手段に与える選定手段を有することを特徴とするコンテンツ識別装置。
In a content identification device for identifying whether unknown content is content to be identified,
Advance content of provided identification target (hereinafter, referred to as positive cases teacher content.) Of the feature with a prepared identification-target content (hereinafter, referred to as negative examples teacher content.) Based on the feature amount of Learning processing means for constructing a plurality of learning models for each classification of the negative example teacher content and for each feature amount ,
The unknown feature quantity and the learning processing unit by constructed plurality of learning the unknown content based on the selected learning model from the model identification target content of the content (hereinafter, referred to as positive cases content.) Is Identification processing means for identifying whether or not the unknown content is positive example content from the identification results by the plurality of identification means And
The learning processing means, first extraction means for extracting a feature quantity of positive cases teacher content, a second extraction means for extracting a feature value of the negative examples teacher content feature amount extracted by said second extraction means And classifying means for classifying the negative example teacher content according to each of the classification means and the classification means by the classification means, each of which is classified by the feature means extracted by the first extraction means and the classification means A plurality of learning means for constructing a learning model for each feature amount, which optimally classifies the positive example teacher content and the negative example teacher content based on the feature amount of each negative example teacher content, and the plurality of learning means provided corresponding to each of the features optimal learning model corresponding to the classified individual negative examples teacher content was by the classification means, for each feature quantity constructed by the learning means learning Content identification device, characterized in that it comprises a selection means to select from Dell gives the identification means provided corresponding to each of the plurality of learning means.
前記学習処理手段は、MPEG-7で規定されたデスクリプタを前記特徴量とすることを特徴とする請求項1に記載のコンテンツ識別装置。   The content identification apparatus according to claim 1, wherein the learning processing unit uses a descriptor defined by MPEG-7 as the feature amount. 前記分類手段は、K-mean法あるいは自己組織マップを利用して前記負例教師コンテンツをその特徴量に応じて分類する、あるいは手動操作によって分類可能なように構成されていることを特徴とする請求項1に記載のコンテンツ識別装置。   The classifying means is configured to classify the negative example teacher content according to the feature amount using a K-mean method or a self-organizing map, or to be classified by a manual operation. The content identification device according to claim 1. 前記複数の学習手段は、前記分類手段により分類された負例教師コンテンツごとに正例教師コンテンツとの分離を最適に行う分離超平面を設定するように構成されていることを特徴とする請求項1に記載のコンテンツ識別装置。   The plurality of learning units are configured to set a separation hyperplane that optimally separates from negative example teacher content for each negative example teacher content classified by the classification unit. 2. The content identification device according to 1. 前記分離超平面は、サポートベクタマシンあるいは判別分析を用いて設定されることを特徴とする請求項4に記載のコンテンツ識別装置。   5. The content identification apparatus according to claim 4, wherein the separation hyperplane is set using a support vector machine or discriminant analysis. 前記複数の識別手段は、前記未知のコンテンツに対して段階的に識別処理を実行するように連結されていることを特徴とする請求項1に記載のコンテンツ識別装置。 The content identification apparatus according to claim 1, wherein the plurality of identification units are connected so as to execute identification processing in stages on the unknown content. 前記識別手段の各々は、未知のコンテンツを、前記分類手段による分類に応じた負例コンテンツとそれ以外のコンテンツの2群に識別することを特徴とする請求項6に記載のコンテンツ識別装置。   7. The content identification apparatus according to claim 6, wherein each of the identification means identifies unknown content into two groups, a negative example content corresponding to classification by the classification means and other content. 未知のコンテンツは、複数のコンテンツからなり、
前記識別処理手段は、前記分類手段での分類に従って各々に分類されるコンテンツが未知のコンテンツ中に出現する度合いを示す、各々の分類での出現頻度あるいは前記複数の識別手段の識別精度に応じて前記複数の識別手段の適用順序が変更可能に構成されていることを特徴とする請求項6に記載のコンテンツ識別装置。
Unknown content consists of multiple content,
The identification processing means indicates the degree of appearance of the content classified into each unknown content according to the classification by the classification means , according to the appearance frequency in each classification or the identification accuracy of the plurality of identification means The content identification apparatus according to claim 6, wherein the application order of the plurality of identification units is configured to be changeable.
前記識別処理手段は、未知のコンテンツを前記複数の識別手段の全てが正例コンテンツと識別したときに該未知のコンテンツを正例コンテンツと識別することを特徴とする請求項6に記載のコンテンツ識別装置。   7. The content identification according to claim 6, wherein the identification processing unit identifies the unknown content from the example content when all of the plurality of identification units identify the example content as the example content. apparatus. 前記識別処理手段は、未知のコンテンツを前記複数の識別手段のうちの1つでも負例コンテンツと識別したときには該未知のコンテンツを負例コンテンツと識別するとともに処理を中断することを特徴とする請求項6に記載のコンテンツ識別装置。   The identification processing unit identifies the unknown content as negative example content and interrupts the processing when the unknown content is identified as negative example content by at least one of the plurality of identification units. Item 7. The content identification device according to Item 6. 前記識別処理手段は、各識別手段に与えられた学習モデルの構築に用いられた特徴量と同じ特徴量を未知のコンテンツから個々の識別手段が識別処理を実行する際に抽出することを特徴とする請求項6に記載のコンテンツ識別装置。 The identification processing means extracts the same feature quantity as that used for construction of the learning model given to each identification means from unknown content when each identification means executes the identification process. The content identification device according to claim 6. 前記識別処理手段は、個々の識別手段が識別処理で用いる特徴量が他の識別手段で既に抽出済みであればそれを再利用することを特徴とする請求項6に記載のコンテンツ識別装置。   7. The content identification apparatus according to claim 6, wherein the identification processing unit reuses the feature quantity used by each identification unit in the identification process if it has already been extracted by another identification unit.
JP2004286620A 2004-09-30 2004-09-30 Content identification device Expired - Fee Related JP4553300B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004286620A JP4553300B2 (en) 2004-09-30 2004-09-30 Content identification device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004286620A JP4553300B2 (en) 2004-09-30 2004-09-30 Content identification device

Publications (2)

Publication Number Publication Date
JP2006099565A JP2006099565A (en) 2006-04-13
JP4553300B2 true JP4553300B2 (en) 2010-09-29

Family

ID=36239291

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004286620A Expired - Fee Related JP4553300B2 (en) 2004-09-30 2004-09-30 Content identification device

Country Status (1)

Country Link
JP (1) JP4553300B2 (en)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4703487B2 (en) * 2006-05-29 2011-06-15 日本電信電話株式会社 Image classification method, apparatus and program
JP5120254B2 (en) * 2006-07-06 2013-01-16 旭硝子株式会社 Clustering system and defect type determination apparatus
US8085995B2 (en) 2006-12-01 2011-12-27 Google Inc. Identifying images using face recognition
KR100931785B1 (en) 2007-11-19 2009-12-14 주식회사 오피엠에스 Device and method for discriminating illegal content
JP5083033B2 (en) * 2008-05-23 2012-11-28 株式会社豊田中央研究所 Emotion estimation device and program
JP5258506B2 (en) * 2008-10-24 2013-08-07 キヤノン株式会社 Information processing device
JP5283267B2 (en) * 2009-02-12 2013-09-04 Kddi株式会社 Content identification method and apparatus
US8385632B2 (en) * 2010-06-01 2013-02-26 Mitsubishi Electric Research Laboratories, Inc. System and method for adapting generic classifiers for object detection in particular scenes using incremental training
JP5460887B2 (en) 2011-01-13 2014-04-02 三菱電機株式会社 Classification rule generation device and classification rule generation program
JP2014096086A (en) * 2012-11-12 2014-05-22 Hitachi Solutions Ltd Document classification system and method
JP2017146840A (en) 2016-02-18 2017-08-24 富士ゼロックス株式会社 Image processing device and program
JP6549500B2 (en) * 2016-02-26 2019-07-24 トヨタ自動車株式会社 Topic estimation learning apparatus and topic estimation learning method
JP6890382B2 (en) 2016-05-23 2021-06-18 ルネサスエレクトロニクス株式会社 Production system
JP6679448B2 (en) * 2016-09-14 2020-04-15 ヤフー株式会社 Generation device, generation method, and generation program
JP7289658B2 (en) * 2018-09-07 2023-06-12 株式会社フジクラ Classification device, classification method, classification program, and inspection device
JP7273293B2 (en) * 2019-03-28 2023-05-15 キヤノンマーケティングジャパン株式会社 Information processing device, control method, program
US11817216B2 (en) 2019-04-09 2023-11-14 Genomedia Inc. Search method and information processing system
JP7328915B2 (en) * 2020-02-12 2023-08-17 株式会社日立ハイテク Image classification device and method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6490320B1 (en) * 2000-02-02 2002-12-03 Mitsubishi Electric Research Laboratories Inc. Adaptable bitstream video delivery system
JP2003044853A (en) * 2001-05-22 2003-02-14 Matsushita Electric Ind Co Ltd Face detection device, face direction detection device, partial image extraction device, and methods thereof
JP2003256801A (en) * 2002-02-27 2003-09-12 National Institute Of Advanced Industrial & Technology A storage medium storing a data classification method, a data classification device, and a data classification program.
KR100442834B1 (en) * 2002-07-19 2004-08-02 삼성전자주식회사 Method and system for face detecting using classifier learned decision boundary with face/near-face images

Also Published As

Publication number Publication date
JP2006099565A (en) 2006-04-13

Similar Documents

Publication Publication Date Title
JP4553300B2 (en) Content identification device
CN110543892A (en) A Parts Recognition Method Based on Multi-layer Random Forest
CN105095884B (en) A kind of pedestrian's identifying system and processing method based on random forest support vector machines
WO2018107760A1 (en) Collaborative deep network model method for pedestrian detection
JP2022027473A5 (en)
CN106650690A (en) Night vision image scene identification method based on deep convolution-deconvolution neural network
CN102622589A (en) Multispectral face detection method based on graphics processing unit (GPU)
WO2017181892A1 (en) Foreground segmentation method and device
CN107729812B (en) A method suitable for vehicle color recognition in surveillance scenes
CN106156777A (en) Textual image detection method and device
JP2017168057A (en) Device, system, and method for sorting images
JP2015187759A (en) Image searching device and image searching method
CN109145964B (en) A method and system for realizing image color clustering
CN109086772A (en) A kind of recognition methods and system distorting adhesion character picture validation code
CN107886110A (en) Method for detecting human face, device and electronic equipment
CN107492084A (en) Typical packed cell core image combining method based on randomness
Said et al. Comparison of color-based feature extraction methods in banana leaf diseases classification using SVM and K-NN
CN105138975A (en) Human body complexion area segmentation method based on deep belief network
CN105893956B (en) A kind of online target matching method for adaptively estimating study based on multiple features
CN102521610B (en) Image filtering method and device
CN112446417A (en) Spindle-shaped fruit image segmentation method and system based on multilayer superpixel segmentation
CN111860656A (en) Classifier training method, device, equipment and storage medium
CN114037868B (en) Image recognition model generation method and device
CN120014341A (en) Intelligent image recognition and analysis system
Liu et al. Classification of traditional Chinese paintings based on supervised learning methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100707

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100709

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4553300

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees