[go: up one dir, main page]

JP4949307B2 - Moving image scene dividing apparatus and moving image scene dividing method - Google Patents

Moving image scene dividing apparatus and moving image scene dividing method Download PDF

Info

Publication number
JP4949307B2
JP4949307B2 JP2008093239A JP2008093239A JP4949307B2 JP 4949307 B2 JP4949307 B2 JP 4949307B2 JP 2008093239 A JP2008093239 A JP 2008093239A JP 2008093239 A JP2008093239 A JP 2008093239A JP 4949307 B2 JP4949307 B2 JP 4949307B2
Authority
JP
Japan
Prior art keywords
moving image
cluster
scene
clusters
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008093239A
Other languages
Japanese (ja)
Other versions
JP2009246829A (en
Inventor
俊晃 上向
啓一郎 帆足
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2008093239A priority Critical patent/JP4949307B2/en
Publication of JP2009246829A publication Critical patent/JP2009246829A/en
Application granted granted Critical
Publication of JP4949307B2 publication Critical patent/JP4949307B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Description

本発明は、動画像シーン分割装置および動画像シーン分割方法に関する。   The present invention relates to a moving image scene dividing device and a moving image scene dividing method.

近年、動画像共有サービスが注目されている。この動画像共有サービスでは、一般のユーザがデジタルカメラやビデオカメラ、あるいは、携帯電話機に内蔵されたカメラを利用して撮影した動画像データを、インターネット経由で動画像共有サーバに投稿(アップロード)することにより、他のユーザに対して該動画像データを公開することができる。動画像データの投稿者は、該動画像データに関するジャンルを表すカテゴリ情報や内容を表すタイトルやコメント文、「タグ」と呼ばれる投稿者が自由に付与できるキーワードも動画像データと併せて動画像共有サーバに登録する。一方、視聴者は、そのように登録されたさまざまな動画像データをいつでも自由に視聴することができる。このとき、視聴者は、投稿者が登録したカテゴリ情報、タイトル、コメント、タグに対してテキスト検索したり、視聴回数や人気度などのランキング一覧を利用したり、動画像データから切り出された1枚の静止画像を見るなどして、視聴したい動画像データを検索する。   In recent years, video sharing services have attracted attention. In this moving image sharing service, a general user posts (uploads) moving image data shot using a digital camera, a video camera, or a camera built in a mobile phone to the moving image sharing server via the Internet. Thus, the moving image data can be disclosed to other users. The contributor of the moving image data shares the moving image data with the category information indicating the genre related to the moving image data, the title and comment text indicating the content, and the keyword that can be freely assigned by the contributor called “tag” together with the moving image data. Register with the server. On the other hand, the viewer can freely view various registered moving image data at any time. At this time, the viewer performs text search for the category information, title, comment, and tag registered by the contributor, uses a ranking list such as the number of views and popularity, or is extracted from moving image data 1 Search the moving image data you want to view by looking at the still images.

ところが、動画像共有サーバに登録された動画像データは大量に存在するため、その中から所望の動画像データを効率的に検索することは容易ではない。視聴者は、各動画像データに付与されたわずかなテキスト情報と1枚の静止画像を元に、その内容を推測しなくてはならず、一般には実際に動画像データを再生してみないと、それが所望の内容の動画像データであるかどうかを確認することができない。一般的に、動画像共有サーバに投稿される動画像データの再生時間は、数秒から10分以上までさまざまであるが、例えば再生時間が1分の動画像データに対して、数秒でその内容を理解できるようになると、検索効率は格段に向上すると考えられる。   However, since there is a large amount of moving image data registered in the moving image sharing server, it is not easy to efficiently search for desired moving image data. The viewer must guess the content based on a small amount of text information attached to each moving image data and one still image, and generally does not actually reproduce the moving image data. And, it cannot be confirmed whether or not it is moving image data having a desired content. In general, the playback time of moving image data posted to a moving image sharing server varies from several seconds to 10 minutes or more. For example, for moving image data having a playback time of 1 minute, the content can be changed in several seconds. When it becomes possible to understand, it is thought that the search efficiency will be greatly improved.

そのため、動画像データの内容を理解できるように、動画像データを要約する技術に対するニーズが高い。既存の動画像共有サービスで提示される1枚の静止画として、元の動画像データの内容を最も象徴的に表している1枚を選択することは、動画像要約技術の1つである。しかし、1秒間に15枚や30枚の静止画像が存在する動画像データにおいて、最適な1枚を選択することは非常に難しく、一般的な動画像共有サービスでは、動画像データに対してフレーム番号が先頭から一定数番目(例えば、30番目など)といった、すべての動画像データに対して一定の位置の静止画像を選択することが殆どである。このため、動画像データの内容理解のためには、動画像データの要約コンテンツに対して複数枚の静止画像を含めることが望ましい。ただし、要約コンテンツに利用する複数枚の静止画像を動画像データから抽出するにあたって、その抽出する範囲をどのようにして決定するかが課題となる。   Therefore, there is a high need for a technique for summarizing moving image data so that the contents of moving image data can be understood. Selecting one image that most symbolically represents the content of the original moving image data as one still image presented by an existing moving image sharing service is one of moving image summarization techniques. However, it is very difficult to select an optimal one of moving image data having 15 or 30 still images per second. In a general moving image sharing service, a frame for moving image data is used. In most cases, a still image at a certain position is selected for all moving image data, such as a certain number from the beginning (for example, the 30th). For this reason, in order to understand the content of moving image data, it is desirable to include a plurality of still images in the summary content of moving image data. However, when extracting a plurality of still images to be used for summary content from moving image data, how to determine the extraction range is a problem.

ここで、一般のユーザが動画像共有サーバに投稿する動画像データは、カメラで撮影したままの特に何も加工されていない場合が殆どである。このような撮影時から特に何も加工されていない動画像データのことを以下、「コンシューマ生成動画像」と称する。コンシューマ生成動画像には、明確なシーン切り替えなどの編集が施されていないという特徴がある。一方、プロフェッショナルが放送用機材を利用して撮影・制作したTV番組などの映像を「プロフェッショナル生成動画像」と称する。これらは、きれいな画質で、手ブレがなく、字幕付加やカット割りなど丁寧に編集されている。   Here, in most cases, moving image data posted by a general user to a moving image sharing server is not particularly processed as it is captured by a camera. The moving image data that has not been particularly processed since such shooting is hereinafter referred to as “consumer-generated moving image”. A consumer-generated moving image has a feature that editing such as clear scene switching is not performed. On the other hand, a video such as a TV program shot and produced by a professional using broadcasting equipment is referred to as a “professional generated moving image”. These are beautifully edited, with no camera shake, and carefully edited to include subtitles and cuts.

特許文献1に記載の従来技術1では、動画像データとしてプロフェッショナル生成動画像の一つである字幕付き映像を対象とし、字幕が表示される箇所を意味的に重要なシーンとしてその箇所に該当する静止画像を切り出し、その切り出した静止画像を一覧表示可能な要約コンテンツを生成している。   In the prior art 1 described in Patent Document 1, a video with subtitles, which is one of professionally generated moving images, is targeted as moving image data, and a portion where subtitles are displayed corresponds to that portion as a semantically important scene. A summary content is generated in which still images are cut out and a list of the cut out still images can be displayed.

非特許文献1に記載の従来技術2では、コンシューマ生成動画像を対象とし、動画像データを構成する静止画像群の時間的な順序は考慮せず、静止画像の色配置特徴量のみを利用して静止画像のクラスタリングを行い、その分類した各クラスタ内の静止画群を1つのショットとして抽出し、その抽出したショット群を元の動画像データの類似度判定用画像データとして動画像データ間の類似度を判定している。
特開平7−192003号公報 帆足啓一郎、上向俊晃、松本一則、菅谷 史昭,“フレームクラスタリングを利用したCGM動画像コンテンツ検索手法の提案”,社団法人電子情報通信学会,電子情報通信学会技術研究報告,Vol.107,No.281,pp.87-92,2007年10月18日
In the prior art 2 described in Non-Patent Document 1, only a color arrangement feature amount of a still image is used for consumer-generated moving images, without considering the temporal order of the still images constituting the moving image data. Then, still images are clustered, a group of still images in each classified cluster is extracted as one shot, and the extracted shot group is used as image data for similarity determination of the original moving image data. Similarity is determined.
Japanese Patent Laid-Open No. 7-192003 Keiichiro Hoashi, Toshiaki Kamiko, Kazunori Matsumoto, Fumiaki Sugaya, “Proposal of CGM video content retrieval method using frame clustering”, The Institute of Electronics, Information and Communication Engineers, IEICE Technical Report, Vol.107, No .281, pp. 87-92, October 18, 2007

しかし、上述した従来技術1では、字幕付き映像であるプロフェッショナル生成動画像を対象としており、字幕が挿入されていないコンシューマ生成動画像に対して適用することができない。
従来技術2では、コンシューマ生成動画像を対象として動画像データ間の類似度を判定することはできるが、要約コンテンツに適用する点が考慮されていない。また、従来技術2によって分類した各クラスタは、時間情報を考慮せず、色配置特徴量のみに基づいてクラスタリングされたものであるため、各クラスタ内には、元の動画像データでは時間的に離散している静止画像が混在する。このため、それぞれのクラスタを元の動画像データの内容に合致した1つのシーンとみなすには不十分である。さらに、要約用コンテンツ生成用として各クラスタから一体どの静止画像を抽出すればよいのかの判断も難しい。
However, the above-described conventional technique 1 targets a professional-generated moving image that is a video with captions, and cannot be applied to a consumer-generated moving image in which no caption is inserted.
In the related art 2, the similarity between moving image data can be determined for a consumer-generated moving image, but it is not considered to be applied to summary content. In addition, since each cluster classified by the conventional technique 2 is clustered based only on the color arrangement feature amount without considering time information, the original moving image data is temporally included in each cluster. Discrete still images are mixed. For this reason, each cluster is insufficient to be regarded as one scene that matches the content of the original moving image data. Further, it is difficult to determine which still image should be extracted from each cluster for generating summary content.

本発明は、このような事情を考慮してなされたもので、その目的は、静止画像から抽出した色配置特徴量等の映像特徴量に基づいたクラスタリングと静止画像の時系列に基づいたクラスタリングを併用することにより、明確なシーン切り替えなどの編集が施されていないコンシューマ生成動画像であっても、元の動画像データの内容に合った静止画像クラスタリングを行うことのできる動画像シーン分割装置および動画像シーン分割方法を提供することにある。   The present invention has been made in consideration of such circumstances, and its purpose is to perform clustering based on video feature amounts such as color arrangement feature amounts extracted from still images and clustering based on time series of still images. A video scene segmentation device capable of performing still image clustering according to the content of the original video data even if it is used together even with consumer-generated video that has not been clearly edited such as scene switching It is to provide a moving image scene dividing method.

上記の課題を解決するために、本発明に係る動画像シーン分割装置は、映像データから静止画像を抽出する静止画抽出手段と、静止画像から映像特徴量を抽出する静止画特徴量抽出手段と、前記映像データのシーン分割数を決定するシーン分割数決定手段と、前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像を複数の上位クラスタのいずれかに分類する特徴量クラスタリング手段と、前記映像データから抽出された静止画像の時系列に従って、前記上位クラスタを下位クラスタに分割する時系列情報クラスタリング手段と、前記映像データから抽出された静止画像の時系列に従って前記下位クラスタを統合し、前記シーン分割数分のクラスタを生成するクラスタ統合手段と、を備えたことを特徴とする。   In order to solve the above-described problem, a moving image scene dividing apparatus according to the present invention includes a still image extraction unit that extracts a still image from video data, and a still image feature amount extraction unit that extracts a video feature amount from the still image. A feature for classifying the still image into one of a plurality of upper clusters based on the scene feature number determining means for determining the number of scene divisions of the video data and the video feature amount of the still image extracted from the video data. Quantity clustering means, time series information clustering means for dividing the upper cluster into lower clusters according to the time series of still images extracted from the video data, and the lower order according to the time series of still images extracted from the video data Cluster integrating means for integrating clusters and generating clusters corresponding to the number of scene divisions.

本発明に係る動画像シーン分割装置においては、前記特徴量クラスタリング手段は、前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像をクラスタに分類する手段と、該クラスタの特徴を表す代表ベクトルを生成する手段と、前記代表ベクトルに基づいてクラスタ間の類似度を算出する手段と、該類似度の高いクラスタ同士を統合する手段と、を有することを特徴とする。   In the moving image scene segmentation device according to the present invention, the feature amount clustering means classifies the still image into a cluster based on the video feature amount of the still image extracted from the video data; And a means for generating a representative vector representing a feature, a means for calculating a similarity between clusters based on the representative vector, and a means for integrating clusters having a high similarity.

本発明に係る動画像シーン分割装置においては、前記時系列情報クラスタリング手段は、上位クラスタ内の静止画像群に対して、時系列順で隣接している静止画像同士を同じ下位クラスタに含めることを特徴とする。   In the moving image scene dividing device according to the present invention, the time-series information clustering means includes, in the same lower cluster, still images that are adjacent to each other in the time-series order with respect to the still image group in the upper cluster. Features.

本発明に係る動画像シーン分割装置においては、前記クラスタ統合手段は、下位クラスタの特徴を表す代表ベクトルを生成する手段と、該代表ベクトルに基づいて下位クラスタ間の類似度を算出する手段と、類似度の高い下位クラスタ同士を統合する手段とを有することを特徴とする。   In the moving image scene segmentation device according to the present invention, the cluster integration unit generates a representative vector representing the characteristics of the lower cluster, a unit for calculating the similarity between the lower clusters based on the representative vector, And means for integrating lower clusters having a high degree of similarity.

本発明に係る動画像シーン分割装置においては、前記クラスタ統合手段は、元々同じ上位クラスタに属していた2つの下位クラスタに挟まれている下位クラスタが存在する場合、それら3つの下位クラスタを同じクラスタに統合することを特徴とする。   In the moving image scene segmentation device according to the present invention, the cluster integration unit, when there is a lower cluster sandwiched between two lower clusters originally belonging to the same upper cluster, It is characterized by being integrated into.

本発明に係る動画像シーン分割装置においては、前記クラスタ統合手段は、前記隣接する3つの下位クラスタ内の全ての静止画像の総数に対して、それら隣接する3つの下位クラスタの中で異なる上位クラスタに属していた下位クラスタ内の静止画像数の割合が一定値以下である場合にのみ、前記3つの下位クラスタの統合を行なうことを特徴とする。   In the moving image scene segmentation device according to the present invention, the cluster integration unit is configured such that, for the total number of all the still images in the three adjacent lower clusters, the upper cluster that is different among the three adjacent lower clusters. The three subordinate clusters are integrated only when the ratio of the number of still images in the subordinate clusters belonging to is less than or equal to a certain value.

本発明に係る動画像シーン分割装置においては、前記類似度は前記代表ベクトル間の距離に基づいて求められ、該距離が近いものほど類似度が高いと判定することを特徴とする。   In the moving image scene dividing device according to the present invention, the similarity is obtained based on a distance between the representative vectors, and it is determined that the closer the distance is, the higher the similarity is.

本発明に係る動画像シーン分割装置においては、前記シーン分割数は、前記映像データ内の静止画像の総数に対する割合で規定されることを特徴とする。   In the moving image scene dividing apparatus according to the present invention, the number of scene divisions is defined as a ratio to the total number of still images in the video data.

本発明に係る動画像シーン分割装置においては、前記下位クラスタ同士を統合する際、静止画像の映像特徴量に応じてシーン分割数を変更する手段を設けたことを特徴とする。   The moving image scene dividing apparatus according to the present invention is characterized in that means for changing the number of scene divisions according to the video feature amount of a still image is provided when the lower clusters are integrated.

本発明に係る動画像シーン分割装置においては、時系列的に連続する静止画間の映像特徴量の変化量を求め、その変化量が一定量より大きい場合にシーン分割数を増加させることを特徴とする。   In the moving image scene dividing apparatus according to the present invention, a change amount of the video feature amount between time-series continuous still images is obtained, and the number of scene divisions is increased when the change amount is larger than a certain amount. And

本発明に係る動画像シーン分割装置においては、時系列的に連続する静止画間の映像特徴量の変化量を求め、その変化量が一定量より小さい場合にシーン分割数を減少させることを特徴とする。   In the moving image scene dividing device according to the present invention, the amount of change in the video feature amount between time-series continuous still images is obtained, and the number of scene divisions is reduced when the amount of change is smaller than a certain amount. And

本発明に係る動画像シーン分割装置においては、前記映像特徴量は色配置特徴量であることを特徴とする。   In the moving image scene segmentation device according to the present invention, the video feature amount is a color arrangement feature amount.

本発明に係る動画像シーン分割方法は、映像データを複数のシーンに分割する動画像シーン分割方法であって、映像データから静止画像を抽出する静止画抽出ステップと、静止画像から映像特徴量を抽出する静止画特徴量抽出ステップと、前記映像データのシーン分割数を決定するシーン分割数決定ステップと、前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像を複数の上位クラスタのいずれかに分類する特徴量クラスタリングステップと、前記映像データから抽出された静止画像の時系列に従って、前記上位クラスタを下位クラスタに分割する時系列情報クラスタリングステップと、前記映像データから抽出された静止画像の時系列に従って前記下位クラスタを統合し、前記シーン分割数分のクラスタを生成するクラスタ統合ステップとを含むことを特徴とする。   A moving image scene dividing method according to the present invention is a moving image scene dividing method for dividing video data into a plurality of scenes, a still image extracting step for extracting a still image from the video data, and a video feature amount from the still image. A still image feature extraction step to extract, a scene division number determination step to determine the number of scene divisions of the video data, and a plurality of still images based on video feature values of still images extracted from the video data. A feature amount clustering step for classifying the upper cluster into any one of the upper clusters, a time series information clustering step for dividing the upper cluster into lower clusters according to the time series of the still images extracted from the video data, and extracted from the video data The lower clusters are integrated according to the time series of the still images, and clusters corresponding to the number of scene divisions are generated. Characterized in that it comprises a cluster integration step.

本発明によれば、静止画像から抽出した色配置特徴量等の映像特徴量に基づいたクラスタリングと静止画像の時系列に基づいたクラスタリングを併用することにより、明確なシーン切り替えなどの編集が施されていないコンシューマ生成動画像であっても、元の動画像データの内容に合った静止画像クラスタリングを行うことができるという効果が得られる。   According to the present invention, a combination of clustering based on video feature quantities such as color arrangement feature quantities extracted from still images and clustering based on time series of still images enables clear scene switching and other editing. Even if it is not a consumer-generated moving image, the effect that still image clustering suitable for the content of the original moving image data can be performed is obtained.

以下、図面を参照し、本発明の実施形態について説明する。
図1は、本発明の一実施形態に係る動画像シーン分割装置1の概略構成を示すブロック図である。図1において、映像入力部3は、動画像データベース(動画像DB)2から、動画像シーン分割処理の対象となる映像データ(以下、元動画像データと称する)を読み出す。映像解析部4は、元動画像データから、映像の特徴を表す映像特徴量を抽出し、解析する。動画像分割部5は、映像解析部4による解析結果に基づいて元動画像データをシーンに分割する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a schematic configuration of a moving image scene dividing apparatus 1 according to an embodiment of the present invention. In FIG. 1, a video input unit 3 reads video data (hereinafter referred to as original video data) that is a target of a video scene division process from a video database (video DB) 2. The video analysis unit 4 extracts and analyzes video feature amounts representing video features from the original moving image data. The moving image dividing unit 5 divides the original moving image data into scenes based on the analysis result by the video analyzing unit 4.

なお、動画像DB2は、動画像シーン分割装置1に具備されていてもよく、或いは、外部の記憶装置に設けられていてもよい。例えば、動画像シーン分割装置1が、外部の動画像データベースサーバから通信回線を介して動画像シーン分割処理の対象となる映像データをダウンロードするように構成してもよい。   The moving image DB 2 may be provided in the moving image scene dividing device 1 or may be provided in an external storage device. For example, the moving image scene dividing device 1 may be configured to download video data to be subjected to moving image scene dividing processing from an external moving image database server via a communication line.

次に、本実施形態に係る動画像シーン分割装置1の動作を説明する。   Next, the operation of the moving image scene dividing device 1 according to this embodiment will be described.

本実施形態では特にコンシューマ生成動画像を動画像シーン分割処理の対象とした場合に、より顕著な効果が得られるようにしている。コンシューマ生成動画像は、撮影時から特に何も加工されていない映像データであり、テレビ番組などのプロフェッショナル生成動画像のように、複数の動画像を結合するなどのシーン切り替えや、キャプション(文字列)やロゴ等の挿入などの編集がまったく行われていない。つまり、コンシューマ生成動画像は、プロフェッショナル生成動画像の生成時の映像解析処理などで利用されているシーン1つ分に相当する。又、コンシューマ生成動画像は、高機能なビデオカメラではなく、携帯電話機のカメラやデジタルカメラなどの撮影機器で撮影されたものが多いため、解像度が低い、画質が悪い、手ブレが多いという問題がある。また、テレビ番組などのプロフェッショナル生成動画像のように、シーン切り替えがあったり、キャプションが挿入されていたりすれば、そのシーンごと、あるいは、キャプションが表示されている箇所を判別する方法が利用できるが、コンシューマ生成動画像ではそのような基点となる付加情報が少ない。   In this embodiment, particularly when a consumer-generated moving image is a target of moving image scene division processing, a more remarkable effect is obtained. Consumer-generated video is video data that has not been processed in particular since the time of shooting. Like professional-generated video such as TV programs, scene switching such as combining multiple video images and captions (character strings) ) And logos are not inserted at all. That is, the consumer-generated moving image corresponds to one scene used in video analysis processing or the like when generating the professional-generated moving image. In addition, consumer-generated moving images are not high-performance video cameras, but are often taken by shooting devices such as mobile phone cameras and digital cameras, resulting in low resolution, poor image quality, and many camera shakes. There is. In addition, when a scene is switched or a caption is inserted as in a professionally generated moving image such as a TV program, a method of determining each scene or a portion where a caption is displayed can be used. In consumer-generated moving images, there is little additional information as such a base point.

本実施形態では、コンシューマ生成動画像の要約コンテンツを以下の基準で生成することを前提にしている。
・元動画像データから抽出した静止画像(以下、要約用静止画と称する)を利用する。
・要約コンテンツの視聴時間は短く、データサイズは小さい。つまり、要約用静止画の枚数は少ない方がよい。
・要約用静止画は、時間的に離散している箇所から抽出する。つまり、要約コンテンツは、元動画像データのある区間から抜き出した連続した静止画像ではなく、元動画像データを分割したシーンから抽出した静止画像のみを利用する。
・元動画像データの内容に応じて、要約用静止画数、又は、シーン分割数を変動させる。
・要約コンテンツを視聴するだけで元動画像データの内容をある程度理解できるようにするため、元動画像データの内容をよく表している箇所、注目すべき箇所が要約用静止画に含まれるようにする。
In the present embodiment, it is assumed that summary content of consumer-generated moving images is generated based on the following criteria.
A still image extracted from the original moving image data (hereinafter referred to as a summary still image) is used.
・ Summary content viewing time is short and data size is small. In other words, the number of summary still images should be small.
• Extract summary still images from locations that are temporally discrete. That is, the summary content uses only a still image extracted from a scene obtained by dividing the original moving image data, not a continuous still image extracted from a certain section of the original moving image data.
The number of summary still images or the number of scene divisions is changed according to the contents of the original moving image data.
・ In order to make it possible to understand the contents of the original moving image data to some extent just by viewing the summary content, the summary still image includes a portion that clearly represents the content of the original moving image data and a noteworthy portion. To do.

本実施形態では、コンシューマ生成動画像に対して動画像シーン分割処理を行う際に、上記の基準を考慮する。その分割された各シーンは要約用静止画を抽出する範囲となり、各シーンから要約用静止画が抽出される。   In the present embodiment, the above criteria are taken into account when performing the moving image scene division process on the consumer generated moving image. Each of the divided scenes is a range for extracting a summary still image, and a summary still image is extracted from each scene.

本実施形態では、非特許文献1に開示されるフレームクラスタリング処理に基づいて、静止画像群を分類する。該フレームクラスタリング処理は、候補静止画像群の時間的な順序を排除して、色配置特徴量のみを利用して静止画像群を分類する。要約用静止画を抽出する場合においても、離散的に静止画像を抽出する際、その抽出範囲をある程度決めた上で、その範囲内でより適した静止画像を抽出することが有効である。そこで、本実施形態においても、色配置特徴量を利用することで、元々編集されておらず、範囲分割されていないコンシューマ生成動画像に対して、大まかな範囲分割を行うことができる。   In this embodiment, still image groups are classified based on the frame clustering process disclosed in Non-Patent Document 1. In the frame clustering process, the temporal order of the candidate still image groups is excluded, and the still image groups are classified using only the color arrangement feature amount. Even in the case of extracting a summary still image, it is effective to extract a still image more suitable within the range after the extraction range is determined to some extent when the still image is extracted discretely. Therefore, also in the present embodiment, by using the color arrangement feature amount, it is possible to perform rough range division on a consumer-generated moving image that has not been originally edited and range-divided.

以下、本実施形態に係る動画像シーン分割装置1が行う動画像シーン分割処理について詳細に説明する。図2は、本実施形態に係る動画像シーン分割処理の手順を示すフローチャートである。   Hereinafter, the moving image scene dividing process performed by the moving image scene dividing device 1 according to the present embodiment will be described in detail. FIG. 2 is a flowchart showing a procedure of moving image scene division processing according to the present embodiment.

図2において、ステップS1では、映像入力部3が動画像DB2から動画像シーン分割処理の対象となる映像データ(元動画像データ)を読み出す。   In FIG. 2, in step S <b> 1, the video input unit 3 reads out video data (original moving image data) to be subjected to moving image scene division processing from the moving image DB 2.

ステップS2では、映像解析部4がシーン分割数を決定する。本実施形態では、「シーン分割数=要約用静止画数」とし、元動画像データの全フレーム数αに対してフレーム数β(但し、β≧1)だけ要約用静止画を選択するものとする。   In step S2, the video analysis unit 4 determines the number of scene divisions. In this embodiment, it is assumed that “the number of scene divisions = the number of still images for summarization”, and the number of frames for summation β is selected with respect to the total number of frames α of the original moving image data (where β ≧ 1). .

ここで、元動画像データのフレームレート(フレーム/秒:fps)がθ(例えば、30fps)である場合、元動画像データの再生時間はα/θ[秒]となる。さらに、要約コンテンツ再生時に、要約用静止画の1枚1枚をω[秒](例えば、2秒)ずつ表示する場合、β枚の要約用静止画の再生時間はβ×ω[秒]となる。このとき、「α×θ」と「β×ω」の間で次式の関係が成り立つように、βの値を決定する。
(β×ω)/(α/θ)=1/R
但し、Rは定数である。
例えば、R=6、θ=30、ω=2とすると、αとβの関係は次式で表される。
β/α=1/360
この関係式から、元動画像データの全フレーム数αに対して要約用静止画数β(シーン分割数)が算出される。
Here, when the frame rate (frame / second: fps) of the original moving image data is θ (for example, 30 fps), the reproduction time of the original moving image data is α / θ [seconds]. Further, when each summary still image is displayed at ω [seconds] (for example, 2 seconds) during summary content playback, the playback time of β summary still images is β × ω [seconds]. Become. At this time, the value of β is determined so that the relationship of the following equation is established between “α × θ” and “β × ω”.
(Β × ω) / (α / θ) = 1 / R
However, R is a constant.
For example, if R = 6, θ = 30, and ω = 2, the relationship between α and β is expressed by the following equation.
β / α = 1/360
From this relational expression, the summary still image number β (scene division number) is calculated with respect to the total number of frames α of the original moving image data.

ステップS3では、映像解析部4が元動画像データから候補静止画像を抽出する。候補静止画像は、後述する特徴量抽出処理の対象となる。元動画像データの特徴量抽出にあたって、元動画像データに含まれる全静止画像を使用すると、計算量が非常に多くなる。そこで、本実施形態では、元動画像データから一定間隔で候補静止画像を抽出する。例えば、フレーム数が10の間隔で候補静止画像を抽出する。   In step S3, the video analysis unit 4 extracts candidate still images from the original moving image data. The candidate still image is a target of feature amount extraction processing described later. In extracting the feature amount of the original moving image data, if all the still images included in the original moving image data are used, the calculation amount becomes very large. Therefore, in the present embodiment, candidate still images are extracted from the original moving image data at regular intervals. For example, candidate still images are extracted at intervals of 10 frames.

ステップS4では、映像解析部4が候補静止画像を対象にして色配置特徴量を抽出する。色配置特徴量抽出処理では、候補静止画像毎に、静止画像の色配置特徴量を算出する。色配置特徴量は、静止画像内の色の空間的な分布を表す。   In step S <b> 4, the video analysis unit 4 extracts a color arrangement feature amount for the candidate still image. In the color arrangement feature amount extraction process, the color arrangement feature amount of the still image is calculated for each candidate still image. The color arrangement feature amount represents a spatial distribution of colors in the still image.

ステップS5,S6では、動画像分割部5がステップS4で求めた候補静止画像の色配置特徴量と候補静止画像の時系列に基づいて候補静止画像のクラスタリング(分類)を行う。このクラスタリングによって、最終的に、クラスタ数をステップS2で求めたシーン分割数βにする。該クラスタリング処理については後述する。   In steps S5 and S6, the moving image dividing unit 5 performs clustering (classification) of the candidate still images based on the color arrangement feature amounts of the candidate still images obtained in step S4 and the time series of the candidate still images. By this clustering, the number of clusters is finally set to the scene division number β obtained in step S2. The clustering process will be described later.

ステップS7では、動画像分割部5がステップS5,S6による候補静止画像の分類結果を出力する。   In step S7, the moving image dividing unit 5 outputs the result of classification of candidate still images in steps S5 and S6.

次に、上記ステップS5,S6に係るクラスタリング処理を説明する。   Next, the clustering process according to steps S5 and S6 will be described.

まず、ステップS4で求めた候補静止画像の色配置特徴量に基づいて候補静止画像を分類する。ここでのクラスタ数は、ステップS2で求めたシーン分割数βである。この色配置特徴量に基づいた特徴量クラスタリング処理の手順が図3に示されている。この特徴量クラスタリング処理は、非特許文献1に開示されるフレームクラスタリング処理に相当する。   First, the candidate still images are classified based on the color arrangement feature amount of the candidate still image obtained in step S4. The number of clusters here is the number of scene divisions β obtained in step S2. FIG. 3 shows a procedure of feature amount clustering processing based on the color arrangement feature amount. This feature clustering process corresponds to the frame clustering process disclosed in Non-Patent Document 1.

図3において、ステップS11からS14では、全ての候補静止画像の色配置特徴量を対象にして、各色配置特徴量のクラスタと該クラスタの特徴を表すクラスタ代表ベクトルを生成する。各クラスタには該当する1つの色配置特徴量のみが所属データとなる。従って、この時点のクラスタ代表ベクトルは、該当する1つの色配置特徴量を表している。   In FIG. 3, in steps S11 to S14, a cluster of each color arrangement feature value and a cluster representative vector representing the feature of the cluster are generated for the color arrangement feature values of all candidate still images. For each cluster, only one corresponding color arrangement feature amount becomes the belonging data. Therefore, the cluster representative vector at this time represents one corresponding color arrangement feature amount.

次いで、ステップS15では、クラスタの全組合せについて、クラスタ間距離を算出する。クラスタC,C間の距離d(C,C)は次式で表される。
d(C,C)=E(C∪C)−E(C)−E(C
但し、E(C)はクラスタCの全ての所属データとクラスタCのクラスタ代表ベクトルとの距離の二乗の総和である。
Next, in step S15, the inter-cluster distance is calculated for all combinations of clusters. A distance d (C i , C j ) between the clusters C i and C j is expressed by the following equation.
d (C i , C j ) = E (C i ∪C j ) −E (C i ) −E (C j )
However, E (C i) is the sum of the square of the distance between the cluster representative vectors all belonging data and cluster C i Cluster C i.

次いで、ステップS16では、クラスタ間の距離d(C,C)が最小である2つのクラスタを1つのクラスタに統合する。ステップS17では、該統合されたクラスタのクラスタ代表ベクトルを生成する。ステップS18では、クラスタが1つに集約されたか否かを判定する。ステップS15からS18の処理はクラスタが1つに集約されるまで繰り返し行われる。 Next, in step S16, the two clusters having the smallest distance d (C i , C j ) between the clusters are integrated into one cluster. In step S17, a cluster representative vector of the integrated cluster is generated. In step S18, it is determined whether or not the clusters are consolidated into one. Steps S15 to S18 are repeated until the clusters are integrated into one.

クラスタが1つに集約された場合、ステップS19でクラスタを抽出する。ここでは、ステップS2で求めたシーン分割数βだけ(つまり、クラスタ数=β)クラスタを抽出する。抽出するクラスタは、クラスタ統合時の距離の閾値を設定しておき、該閾値以下の距離で統合されたクラスタの内からβ個を選択する。この結果、β個のクラスタが得られる。   When clusters are aggregated into one, clusters are extracted in step S19. Here, clusters are extracted by the number of scene divisions β obtained in step S2 (that is, the number of clusters = β). As the clusters to be extracted, a distance threshold value at the time of cluster integration is set, and β clusters are selected from the clusters integrated at a distance equal to or less than the threshold value. As a result, β clusters are obtained.

図4に、特徴量クラスタリング処理の結果として得られたβ個(ここではβ=3)の要約用クラスタの例(#1,#2,#3)が示されている。図4中の各要約用クラスタの所属データに付された番号は、候補静止画像の識別番号である。該識別番号は候補静止画像の時系列の順番で付されている。図4の例では、特徴量クラスタリング処理によって、30枚の候補静止画像(識別番号が1番から30番)が、3つの要約用クラスタ#1,#2,#3に分類されている。この特徴量クラスタリング処理結果のクラスタを以下、「上位クラスタ」と称する。   FIG. 4 shows an example (# 1, # 2, # 3) of summary clusters (# 1, # 2, # 3) obtained as a result of the feature amount clustering process. The numbers assigned to the data belonging to each summary cluster in FIG. 4 are the identification numbers of the candidate still images. The identification numbers are assigned in order of time series of candidate still images. In the example of FIG. 4, thirty candidate still images (identification numbers 1 to 30) are classified into three summary clusters # 1, # 2, and # 3 by the feature amount clustering process. The cluster resulting from the feature amount clustering process is hereinafter referred to as “upper cluster”.

次に、候補静止画像の時系列に基づいて上位クラスタを分類しなおす(時系列情報クラスタリング処理)。上位クラスタ内には、元動画像データにおいて時間的に離散している静止画像が混在する。そこで、上位クラスタに対して、全ての候補静止画像を時系列順に並べ直す。このとき、同じ上位クラスタに所属していた静止画像群が離散する場合は、別々のクラスタとして割り当て直す。具体的には、各上位クラスタ内の静止画像群に対して、時系列順で隣接している静止画像同士を同じクラスタ(以下、「下位クラスタ」と称する)に分類し、下位クラスタを生成する。そして、全ての下位クラスタに対して時系列順に並べ直す。   Next, the upper cluster is reclassified based on the time series of the candidate still images (time series information clustering process). In the upper cluster, still images that are temporally discrete in the original moving image data are mixed. Therefore, all candidate still images are rearranged in time series with respect to the upper cluster. At this time, if still image groups belonging to the same upper cluster are dispersed, they are reassigned as separate clusters. Specifically, for still image groups in each upper cluster, still images adjacent in time series are classified into the same cluster (hereinafter referred to as “lower cluster”), and a lower cluster is generated. . Then, all the lower clusters are rearranged in chronological order.

図4の例に対して時系列情報クラスタリング処理を行った結果が図5に示されている。図5において、図4の要約用クラスタ#1内の静止画像群が6個の下位クラスタ101,103,105,109,111及び113に分類し直されている。又、要約用クラスタ#2内の静止画像群が5個の下位クラスタ102,106,108,110及び115に分類し直されている。又、要約用クラスタ#3内の静止画像群が4個の下位クラスタ104,107,112及び114に分類し直されている。この結果、合計15個の下位クラスタ101〜115が生成されている。そして、その下位クラスタ101〜115は候補静止画像の時系列順に並べられている。   The result of performing the time series information clustering process on the example of FIG. 4 is shown in FIG. In FIG. 5, the group of still images in the summary cluster # 1 in FIG. 4 is reclassified into six lower clusters 101, 103, 105, 109, 111, and 113. In addition, the still image group in the summary cluster # 2 is reclassified into five lower clusters 102, 106, 108, 110, and 115. In addition, the still image group in the summary cluster # 3 is reclassified into four lower clusters 104, 107, 112, and 114. As a result, a total of 15 subordinate clusters 101 to 115 are generated. Then, the lower clusters 101 to 115 are arranged in order of time series of candidate still images.

次に、下位クラスタを統合する(下位クラスタ統合処理)。時系列情報クラスタリング処理の結果、下位クラスタの個数はシーン分割数βよりも多くなる。このため、クラスタ数がシーン分割数βになるまで、下位クラスタを統合する。この下位クラスタ統合処理では、隣接する下位クラスタ間で類似度を算出し、その類似関係に基づいて下位クラスタを統合していく。具体的には、全ての下位クラスタに対して、類似度の高い下位クラスタ同士から順番に統合していき、最終的にβ個のクラスタが形成されるまで統合を繰り返す。   Next, lower clusters are integrated (lower cluster integration processing). As a result of the time-series information clustering process, the number of lower clusters is larger than the scene division number β. Therefore, lower clusters are integrated until the number of clusters reaches the number of scene divisions β. In this lower cluster integration process, the similarity is calculated between adjacent lower clusters, and the lower clusters are integrated based on the similarity relationship. Specifically, for all the lower clusters, the lower clusters having high similarity are integrated in order, and the integration is repeated until β clusters are finally formed.

例えば、ある下位クラスタに属する候補静止画像の特徴量と、該下位クラスタの特徴量を求める。候補静止画像の特徴量は、当該候補静止画像の色配置特徴量をベクトル化した特徴量ベクトルとする。下位クラスタの特徴量は、当該下位クラスタに属する静止画像の特徴量ベクトルの代表ベクトルとする。代表ベクトルとしては、例えば、下位クラスタに属する全ての静止画像の特徴量ベクトルを平均したベクトルが利用できる。次いで、全ての隣接する下位クラスタの組を対象にして、隣接する下位クラスタの各代表ベクトル間の類似度を算出する。類似度は、例えば、2つの代表ベクトルに対するcos関数などにより算出する。次いで、その類似度が最小である2つの代表ベクトルに対応する下位クラスタ同士を統合する。これをクラスタ数がβとなるまで繰り返す。   For example, the feature amount of a candidate still image belonging to a certain lower cluster and the feature amount of the lower cluster are obtained. The feature amount of the candidate still image is a feature amount vector obtained by vectorizing the color arrangement feature amount of the candidate still image. The feature quantity of the lower cluster is a representative vector of the feature quantity vectors of the still images belonging to the lower cluster. As the representative vector, for example, a vector obtained by averaging feature quantity vectors of all still images belonging to the lower cluster can be used. Next, the similarity between the representative vectors of adjacent lower clusters is calculated for all adjacent lower cluster sets. The similarity is calculated by, for example, a cos function for two representative vectors. Next, the lower clusters corresponding to the two representative vectors having the smallest similarity are integrated. This is repeated until the number of clusters reaches β.

なお、下位クラスタ統合処理の具体例として、上記した下位クラスタの代表ベクトルを利用する方法の他には、例えば、3つ以上隣接する下位クラスタが元々属していた上位クラスタに関する情報、および、下位クラスタに属する静止画像に関する情報に基づいて統合する方法が挙げられる。この方法では、元々同じ上位クラスタに属していた2つの下位クラスタに挟まれている下位クラスタが存在する場合、それら3つの下位クラスタは同じクラスタに統合する。例えば、図5において、元々同じ上位クラスタ(要約用クラスタ#1)に属していた2つの下位クラスタ101及び103に挟まれている下位クラスタ102が存在するので、それら3つの下位クラスタ101,102及び103を統合して1つのクラスタとする。但し、隣接する3つの下位クラスタ内の全ての候補静止画像の総数に対して、それら隣接する3つの下位クラスタの中で異なる上位クラスタに属していた下位クラスタ内の静止画像数の割合が一定値以下である場合にのみ適用することとする。   As a specific example of the lower cluster integration processing, in addition to the above-described method using the representative vector of the lower cluster, for example, information on the upper cluster to which three or more adjacent lower clusters originally belonged, and the lower cluster And a method of integrating them based on information about still images belonging to. In this method, when there is a lower cluster sandwiched between two lower clusters originally belonging to the same upper cluster, these three lower clusters are integrated into the same cluster. For example, in FIG. 5, since there is a lower cluster 102 sandwiched between two lower clusters 101 and 103 that originally belonged to the same upper cluster (summary cluster # 1), these three lower clusters 101, 102 and 103 are integrated into one cluster. However, with respect to the total number of all candidate still images in the three adjacent lower clusters, the ratio of the number of still images in the lower cluster belonging to a different upper cluster among the three adjacent lower clusters is a constant value. Applicable only when:

また、下位クラスタ統合処理において、シーン分割数βを変更するようにしてもよい。シーン分割数βは、図2のステップS2において要約コンテンツのフレーム数(再生時間)に応じて決定されるが、下位クラスタ同士を統合する際、候補静止画像の特徴量に応じてβの値を変更する処理を設ける。このシーン分割数変更処理では、時系列的に連続する候補静止画間の色配置特徴量の変化量を求め、その変化量が一定量より大きい場合にβの値を増加させる。一方、その変化量が一定量より小さい場合にはβの値を減少させる。これにより、例えば、カメラや被写体が大きく動く場面など、変化の激しい箇所における要約用静止画数を比較的多くし、一方、風景の場面など、殆ど変化のない箇所における要約用静止画数を比較的少なくすることができ、要約コンテンツに対して効果的に元動画像データの内容を盛り込むことができる。この結果、ユーザが要約コンテンツを視聴した際に、元動画像データの内容の理解を深めることに寄与することができる。なお、シーン分割数変更処理は、候補静止画の全てに対して適用してもよいし、或いは、一部の下位クラスタに含まれる候補静止画像のみに適用してもよい。   In the lower cluster integration process, the scene division number β may be changed. The scene division number β is determined according to the number of frames (reproduction time) of the summary content in step S2 of FIG. 2, but when integrating the lower clusters, the β value is set according to the feature amount of the candidate still image. Provide a process to change. In this scene division number changing process, the amount of change in color arrangement feature amount between candidate still images that are continuous in time series is obtained, and the value of β is increased when the amount of change is larger than a certain amount. On the other hand, if the amount of change is smaller than a certain amount, the value of β is decreased. As a result, for example, the number of still images for summarization is relatively large in places where the change is rapid, such as a scene where the camera or the subject moves greatly, while the number of still images for summarization is relatively small in places where there is almost no change such as a scene in a landscape Therefore, the contents of the original moving image data can be effectively incorporated into the summary content. As a result, it is possible to contribute to deepening the understanding of the contents of the original moving image data when the user views the summary content. Note that the scene division number changing process may be applied to all candidate still images, or may be applied only to candidate still images included in some lower clusters.

以上が図2のステップS5,S6に係るクラスタリング処理の詳細な説明である。上述の下位クラスタ統合処理の結果として得られたβ個のクラスタが、元動画像データを分割した各シーン(β個)にそれぞれ対応する。   The above is the detailed description of the clustering processing according to steps S5 and S6 of FIG. The β clusters obtained as a result of the above-described lower cluster integration process correspond to scenes (β) obtained by dividing the original moving image data.

次に、本実施形態に係る動画像シーン分割処理によって分割された各シーンから、要約コンテンツに利用する静止画像を抽出する方法についていくつかの実施例を挙げる。
[静止画像選択方法の実施例1]
シーン内の中央位置にある静止画像を要約用静止画として抽出する。
[静止画像選択方法の実施例2]
シーン内で、人物の顔が映っている静止画像を要約用静止画として抽出する。このとき、複数の静止画像が候補となる場合には最も顔らしい静止画像を抽出する。
[静止画像選択方法の実施例3]
シーン内の静止画像群に対して代表となる静止画像を要約用静止画として抽出する。例えば、シーン内の全ての静止画像の特徴量ベクトルについての平均ベクトルを求め、該平均ベクトルに最も近い特徴量ベクトルを有する静止画像を抽出する。
Next, some examples will be given regarding a method of extracting a still image used for summary content from each scene divided by the moving image scene division processing according to the present embodiment.
[Embodiment 1 of Still Image Selection Method]
A still image at the center position in the scene is extracted as a summary still image.
[Embodiment 2 of still image selection method]
In the scene, a still image showing a person's face is extracted as a summary still image. At this time, when a plurality of still images are candidates, a still image that is most likely to be a face is extracted.
[Third embodiment of still image selection method]
A still image that is representative of a group of still images in the scene is extracted as a summary still image. For example, an average vector is obtained for the feature vectors of all still images in the scene, and a still image having a feature vector closest to the average vector is extracted.

上述したように本実施形態によれば、静止画像から抽出した色配置特徴量に基づいたクラスタリングと静止画像の時系列に基づいたクラスタリングを併用することにより、明確なシーン切り替えなどの編集が施されていないコンシューマ生成動画像であっても、元動画像データの内容に合った静止画像クラスタリングを行うことができるという効果が得られる。   As described above, according to the present embodiment, a combination of clustering based on the color arrangement feature amount extracted from the still image and clustering based on the time series of the still image enables editing such as clear scene switching. Even if it is not a consumer-generated moving image, an effect that still image clustering suitable for the content of the original moving image data can be performed is obtained.

又、本実施形態によれば以下に示すような効果が得られる。
(1)コンシューマ生成動画像から意味的に価値のあるシーンに分割できる。
(2)分割されたシーンに含まれる静止画像を抽出するなどにより、コンシューマ生成動画像に対する要約コンテンツを生成することができる。この結果、コンシューマ生成動画像を大量に蓄積した動画像共有システムにおいて、コンシューマ生成動画像そのものを再生することなく、要約コンテンツを再生するだけで、該コンシューマ生成動画像の内容を理解できることができ、コンシューマ生成動画像の効率的な検索の実現に寄与することができる。
(3)元動画像データに対して、少数の静止画像を利用したデータサイズの小さい要約コンテンツを生成することができるので、携帯電話機など、通信速度の遅い通信機器であっても、要約コンテンツを高速にダウンロードして視聴することができる。
Further, according to the present embodiment, the following effects can be obtained.
(1) It is possible to divide a consumer-generated moving image into semantically valuable scenes.
(2) The summary content for the consumer-generated moving image can be generated by extracting a still image included in the divided scene. As a result, in a moving image sharing system in which a large amount of consumer-generated moving images are accumulated, it is possible to understand the contents of the consumer-generated moving images only by playing the summary content without playing the consumer-generated moving images themselves, This can contribute to the realization of efficient retrieval of consumer-generated moving images.
(3) Since a summary content with a small data size using a small number of still images can be generated for the original moving image data, the summary content can be stored even in a communication device with a low communication speed such as a cellular phone. You can download and watch at high speed.

なお、上述した実施形態では、映像特徴量として色配置特徴量を利用したが、動き情報、音声情報などの他の映像特徴量を利用することも可能である。   In the above-described embodiment, the color arrangement feature quantity is used as the video feature quantity. However, other video feature quantities such as motion information and audio information may be used.

また、本実施形態に係る動画像シーン分割装置1は、専用のハードウェアにより実現されるものであってもよく、あるいはパーソナルコンピュータ等のコンピュータシステムにより構成され、図1に示される動画像シーン分割装置1の各部の機能を実現するためのプログラムを実行することによりその機能を実現させるものであってもよい。   Further, the moving image scene dividing apparatus 1 according to the present embodiment may be realized by dedicated hardware, or may be configured by a computer system such as a personal computer, and the moving image scene dividing device shown in FIG. You may implement | achieve the function by running the program for implement | achieving the function of each part of the apparatus 1. FIG.

また、その動画像シーン分割装置1には、周辺機器として入力装置、表示装置等(いずれも図示せず)が接続されるものとする。ここで、入力装置とはキーボード、マウス等の入力デバイスのことをいう。表示装置とはCRT(Cathode Ray Tube)や液晶表示装置等のことをいう。
また、上記周辺機器については、動画像シーン分割装置1に直接接続するものであってもよく、あるいは通信回線を介して接続するようにしてもよい。
In addition, an input device, a display device, and the like (none of which are shown) are connected to the moving image scene dividing device 1 as peripheral devices. Here, the input device refers to an input device such as a keyboard and a mouse. The display device refers to a CRT (Cathode Ray Tube), a liquid crystal display device or the like.
The peripheral device may be directly connected to the moving image scene dividing device 1 or may be connected via a communication line.

以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。   As mentioned above, although embodiment of this invention was explained in full detail with reference to drawings, the specific structure is not restricted to this embodiment, The design change etc. of the range which does not deviate from the summary of this invention are included.

本発明の一実施形態に係る動画像シーン分割装置1の概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the moving image scene division | segmentation apparatus 1 which concerns on one Embodiment of this invention. 同実施形態に係る動画像シーン分割処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the moving image scene division | segmentation process which concerns on the embodiment. 同実施形態に係る特徴量クラスタリング処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the feature-value clustering process which concerns on the embodiment. 同実施形態に係る特徴量クラスタリング処理の結果の例である。It is an example of the result of the feature-value clustering process which concerns on the embodiment. 同実施形態に係る時系列情報クラスタリング処理の結果の例である。It is an example of the result of the time series information clustering process concerning the embodiment.

符号の説明Explanation of symbols

1…動画像シーン分割装置、2…動画像データベース、3…映像入力部、4…映像解析部、5…動画像分割部 DESCRIPTION OF SYMBOLS 1 ... Moving image scene division | segmentation apparatus, 2 ... Moving image database, 3 ... Video input part, 4 ... Video analysis part, 5 ... Moving image division part

Claims (13)

映像データから静止画像を抽出する静止画抽出手段と、
静止画像から映像特徴量を抽出する静止画特徴量抽出手段と、
前記映像データのシーン分割数を決定するシーン分割数決定手段と、
前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像を複数の上位クラスタのいずれかに分類する特徴量クラスタリング手段と、
前記映像データから抽出された静止画像の時系列に従って、前記上位クラスタを下位クラスタに分割する時系列情報クラスタリング手段と、
前記映像データから抽出された静止画像の時系列に従って前記下位クラスタを統合し、クラスタ数が前記シーン分割数になるまで前記下位クラスタの統合を行うクラスタ統合手段と、
を備えたことを特徴とする動画像シーン分割装置。
Still image extraction means for extracting still images from video data;
A still image feature amount extracting means for extracting a video feature amount from a still image;
Scene division number determining means for determining the number of scene divisions of the video data;
Feature quantity clustering means for classifying the still image into any one of a plurality of upper clusters based on the video feature quantity of the still image extracted from the video data;
Time series information clustering means for dividing the upper cluster into lower clusters according to the time series of still images extracted from the video data;
Cluster integration means for integrating the lower clusters according to the time series of still images extracted from the video data, and integrating the lower clusters until the number of clusters reaches the number of scene divisions ;
A moving image scene dividing apparatus comprising:
前記特徴量クラスタリング手段は、
前記映像データから抽出された全ての静止画像の映像特徴量を対象にして、各映像特徴量のクラスタを生成する手段と、
クラスタに所属する映像特徴量を表すクラスタ代表ベクトルを生成する手段と、
クラスタ代表ベクトルに基づいてクラスタ間の類似度を算出する手段と、を有し、
クラスタ間の類似度が最大である2つのクラスタを統合すること及び統合した結果のクラスタのクラスタ代表ベクトルを生成することを繰り返し、一定以上の類似度を有する2つのクラスタが統合されたクラスタの中から前記シーン分割数個を上位クラスタとして選択し、上位クラスタに所属する映像特徴量に対応する静止画像を当該上位クラスタに分類する、
ことを特徴とする請求項1に記載の動画像シーン分割装置。
The feature amount clustering means includes:
Means for generating a cluster of each video feature amount, targeting the video feature amount of all still images extracted from the video data;
Means for generating a cluster representative vector representing video features belonging to a cluster;
Means for calculating the similarity between clusters based on the cluster representative vector,
It integrates two clusters with the highest similarity between clusters and generates a cluster representative vector of the cluster as a result of the integration. Selecting the number of scene divisions as an upper cluster from, and classifying still images corresponding to video features belonging to the upper cluster into the upper cluster,
The moving image scene dividing apparatus according to claim 1, wherein:
前記時系列情報クラスタリング手段は、上位クラスタ内の静止画像群に対して、時系列順で隣接している静止画像同士を同じ下位クラスタに含めることを特徴とする請求項1又は請求項2に記載の動画像シーン分割装置。   3. The time series information clustering unit includes still images adjacent in a time series order in a same lower cluster with respect to a group of still images in the upper cluster. Video scene segmentation device. 前記クラスタ統合手段は、
下位クラスタの特徴を表す代表ベクトルを生成する手段と、
該代表ベクトルに基づいて下位クラスタ間の類似度を算出する手段と、
前記映像データから抽出された静止画像の時系列に従って類似度の高い下位クラスタ同士を統合する手段と、
を有することを特徴とする請求項1から請求項3のいずれか1項に記載の動画像シーン分割装置。
The cluster integration means includes
Means for generating a representative vector representing the characteristics of the lower cluster;
Means for calculating a similarity between lower clusters based on the representative vector;
Means for integrating lower clusters having high similarity according to the time series of still images extracted from the video data ;
The moving image scene dividing device according to any one of claims 1 to 3, wherein the moving image scene dividing device is provided.
前記クラスタ統合手段は、元々同じ上位クラスタに属していた2つの下位クラスタに挟まれている下位クラスタが存在する場合、それら3つの下位クラスタを同じクラスタに統合することを特徴とする請求項1から請求項4のいずれか1項に記載の動画像シーン分割装置。   The cluster integration means integrates the three lower clusters into the same cluster when there is a lower cluster sandwiched between two lower clusters originally belonging to the same upper cluster. The moving image scene dividing device according to claim 4. 前記クラスタ統合手段は、前記隣接する3つの下位クラスタ内の全ての静止画像の総数に対して、それら隣接する3つの下位クラスタの中で異なる上位クラスタに属していた下位クラスタ内の静止画像数の割合が一定値以下である場合にのみ、前記3つの下位クラスタの統合を行なうことを特徴とする請求項5に記載の動画像シーン分割装置。   The cluster integration means calculates the number of still images in lower clusters belonging to different upper clusters among the three adjacent lower clusters, with respect to the total number of all still images in the three adjacent lower clusters. 6. The moving image scene dividing apparatus according to claim 5, wherein the integration of the three subordinate clusters is performed only when the ratio is equal to or less than a predetermined value. 前記類似度は前記代表ベクトル間の距離に基づいて求められ、該距離が近いものほど類似度が高いと判定することを特徴とする請求項2又は請求項4に記載の動画像シーン分割装置。   5. The moving image scene dividing apparatus according to claim 2, wherein the similarity is obtained based on a distance between the representative vectors, and the similarity is determined to be higher as the distance is closer. 前記シーン分割数は、前記映像データ内の静止画像の総数に対する割合で規定されることを特徴とする請求項1から請求項7のいずれか1項に記載の動画像シーン分割装置。   The moving image scene dividing apparatus according to claim 1, wherein the number of scene divisions is defined by a ratio to a total number of still images in the video data. 前記下位クラスタ同士を統合する際、静止画像の映像特徴量に応じてシーン分割数を変更する手段を設けたことを特徴とする請求項1から請求項7のいずれか1項に記載の動画像シーン分割装置。   The moving image according to any one of claims 1 to 7, further comprising means for changing a number of scene divisions according to a video feature amount of a still image when the lower clusters are integrated. Scene division device. 時系列的に連続する静止画間の映像特徴量の変化量を求め、その変化量が一定量より大きい場合にシーン分割数を増加させることを特徴とする請求項9に記載の動画像シーン分割装置。   10. The moving image scene division according to claim 9, wherein a change amount of a video feature amount between still images that are continuous in time series is obtained, and the number of scene divisions is increased when the change amount is larger than a predetermined amount. apparatus. 時系列的に連続する静止画間の映像特徴量の変化量を求め、その変化量が一定量より小さい場合にシーン分割数を減少させることを特徴とする請求項9又は請求項10に記載の動画像シーン分割装置。   11. The change amount of the video feature amount between time-sequential still images is obtained, and when the change amount is smaller than a certain amount, the number of scene divisions is reduced. Video scene segmentation device. 前記映像特徴量は色配置特徴量であることを特徴とする請求項1から請求項11のいずれか1項に記載の動画像シーン分割装置。   12. The moving image scene dividing device according to claim 1, wherein the video feature amount is a color arrangement feature amount. 映像データを複数のシーンに分割する動画像シーン分割方法であって、
映像データから静止画像を抽出する静止画抽出ステップと、
静止画像から映像特徴量を抽出する静止画特徴量抽出ステップと、
前記映像データのシーン分割数を決定するシーン分割数決定ステップと、
前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像を複数の上位クラスタのいずれかに分類する特徴量クラスタリングステップと、
前記映像データから抽出された静止画像の時系列に従って、前記上位クラスタを下位クラスタに分割する時系列情報クラスタリングステップと、
前記映像データから抽出された静止画像の時系列に従って前記下位クラスタを統合し、クラスタ数が前記シーン分割数になるまで前記下位クラスタの統合を行うクラスタ統合ステップと、
を含むことを特徴とする動画像シーン分割方法。
A moving image scene dividing method for dividing video data into a plurality of scenes,
A still image extraction step for extracting a still image from video data;
A still image feature extraction step for extracting a video feature from a still image;
A scene division number determining step for determining the number of scene divisions of the video data;
A feature amount clustering step of classifying the still image into one of a plurality of upper clusters based on the video feature amount of the still image extracted from the video data;
A time series information clustering step for dividing the upper cluster into lower clusters according to the time series of still images extracted from the video data;
A cluster integration step of integrating the lower clusters according to a time series of still images extracted from the video data, and integrating the lower clusters until the number of clusters reaches the number of scene divisions ;
A moving image scene dividing method.
JP2008093239A 2008-03-31 2008-03-31 Moving image scene dividing apparatus and moving image scene dividing method Expired - Fee Related JP4949307B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008093239A JP4949307B2 (en) 2008-03-31 2008-03-31 Moving image scene dividing apparatus and moving image scene dividing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008093239A JP4949307B2 (en) 2008-03-31 2008-03-31 Moving image scene dividing apparatus and moving image scene dividing method

Publications (2)

Publication Number Publication Date
JP2009246829A JP2009246829A (en) 2009-10-22
JP4949307B2 true JP4949307B2 (en) 2012-06-06

Family

ID=41308237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008093239A Expired - Fee Related JP4949307B2 (en) 2008-03-31 2008-03-31 Moving image scene dividing apparatus and moving image scene dividing method

Country Status (1)

Country Link
JP (1) JP4949307B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187556B (en) * 2021-12-14 2023-12-15 华策影视(北京)有限公司 Intelligent high-definition video segmentation method based on picture characteristics

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2721107B2 (en) * 1993-02-23 1998-03-04 日本電信電話株式会社 Video feature processing method
JP3936666B2 (en) * 2003-02-20 2007-06-27 日本電信電話株式会社 Representative image extracting device in moving image, representative image extracting method in moving image, representative image extracting program in moving image, and recording medium of representative image extracting program in moving image

Also Published As

Publication number Publication date
JP2009246829A (en) 2009-10-22

Similar Documents

Publication Publication Date Title
US8316301B2 (en) Apparatus, medium, and method segmenting video sequences based on topic
US6964021B2 (en) Method and apparatus for skimming video data
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
US8457469B2 (en) Display control device, display control method, and program
Jeannin et al. MPEG-7 visual motion descriptors
US7826709B2 (en) Metadata editing apparatus, metadata reproduction apparatus, metadata delivery apparatus, metadata search apparatus, metadata re-generation condition setting apparatus, metadata delivery method and hint information description method
US9271035B2 (en) Detecting key roles and their relationships from video
JP5005154B2 (en) Apparatus for reproducing an information signal stored on a storage medium
US8068678B2 (en) Electronic apparatus and image processing method
WO2007020897A1 (en) Video scene classification device and video scene classification method
Takahashi et al. Video summarization for large sports video archives
CN103200463A (en) Method and device for generating video summary
KR20030026529A (en) Keyframe Based Video Summary System
US8634708B2 (en) Method for creating a new summary of an audiovisual document that already includes a summary and reports and a receiver that can implement said method
Chu et al. On broadcasted game video analysis: event detection, highlight detection, and highlight forecast
KR101536930B1 (en) Method and Apparatus for Video Summarization and Video Comic Book Service using it or the method
JP5116017B2 (en) Video search method and system
KR100436828B1 (en) Video-on-demand service compression system
JP4949307B2 (en) Moving image scene dividing apparatus and moving image scene dividing method
KR20050033075A (en) Unit for and method of detection a content property in a sequence of video images
JP2014130536A (en) Information management device, server, and control method
US8732759B2 (en) Method of browsing recorded news program and browsing apparatus for performing the method
Dong et al. Automatic and fast temporal segmentation for personalized news consuming
Bailer et al. Skimming rushes video using retake detection
Koźbiał et al. Collection, Analysis and Summarization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100716

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20111026

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120307

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4949307

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees