[go: up one dir, main page]

JP4725690B2 - 映像識別子抽出装置 - Google Patents

映像識別子抽出装置 Download PDF

Info

Publication number
JP4725690B2
JP4725690B2 JP2010547434A JP2010547434A JP4725690B2 JP 4725690 B2 JP4725690 B2 JP 4725690B2 JP 2010547434 A JP2010547434 A JP 2010547434A JP 2010547434 A JP2010547434 A JP 2010547434A JP 4725690 B2 JP4725690 B2 JP 4725690B2
Authority
JP
Japan
Prior art keywords
picture
information
region
change
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010547434A
Other languages
English (en)
Other versions
JPWO2010084739A1 (ja
Inventor
亮磨 大網
浩太 岩元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010547434A priority Critical patent/JP4725690B2/ja
Application granted granted Critical
Publication of JP4725690B2 publication Critical patent/JP4725690B2/ja
Publication of JPWO2010084739A1 publication Critical patent/JPWO2010084739A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • H04N21/8352Generation of protective data, e.g. certificates involving content or source identification data, e.g. Unique Material Identifier [UMID]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は数多くの動画像の中から、類似あるいは同一の動画像区間を検出する映像検索用の映像識別子抽出装置、方法、およびプログラムに関する。
動画像特徴量抽出・照合装置の一例が、非特許文献1に記載されている。図14は、非特許文献1に記された動画像特徴量抽出装置を表すブロック図である。
ブロック単位特徴量抽出手段1000は、入力される第1の映像からブロック単位で特徴量を抽出し、第1の特徴量を照合手段1030へ出力する。ブロック単位特徴量抽出手段1010は、入力される第2の映像からブロック単位で特徴量を抽出し、第2の特徴量を照合手段1030へ出力する。重み付け係数算出手段1020は、入力される学習用映像に基づいて各ブロックの重みの値を算出し、重み付け係数を照合手段1030へ出力する。照合手段1030は、重み付け係数算出手段1020から出力される重み付け係数を用いて、ブロック単位特徴量抽出手段1000から出力される第1の特徴量と、ブロック単位特徴量抽出手段1010から出力される第2の特徴量とを照合し、照合結果を出力する。
次に、図14に示す装置の動作について説明する。
ブロック単位特徴量抽出手段1000では、入力される第1の映像の各フレームをブロック単位に分割し、各ブロックから映像を識別するための特徴量を算出する。具体的には、ブロックごとにエッジのタイプを判定し、そのタイプを各ブロックの特徴量として算出する。そして、各フレームに対して、各ブロックのエッジタイプからなる特徴量ベクトルを構成する。この特徴量ベクトルを各フレームに対して算出し、得られた特徴量を第1の特徴量として照合手段1030へ出力する。
ブロック単位特徴量抽出手段1010の動作もブロック単位特徴量抽出手段1000と同様であり、入力される第2の映像から第2の特徴量を算出し、得られた第2の特徴量を照合手段1030へ出力する。
一方、重み付け係数算出手段1020では、事前に学習用映像を用いて、フレーム内の各ブロックにおいてテロップが挿入される確率を算出する。そして、算出された確率に基づいて、各ブロックの重み付け係数を算出する。具体的には、テロップ重畳に対しての頑健性を高めるために、テロップが重畳される確率が低いほど、重みが高くなるようにして重み付け係数を算出する。得られた重み付け係数は、照合手段1030へ出力される。
照合手段1030では、重み付け係数算出手段1020から出力される重み付け係数を用いて、ブロック単位特徴量抽出手段1000から出力される第1の特徴量とブロック単位特徴量抽出手段1010から出力される第2の特徴量とを照合する。具体的には、フレームごとに、同じ位置にあるブロックの特徴量を比較し、同じであれば1、そうでなければ0としてブロック単位のスコアを算出する。得られたブロック単位のスコアを重み付け係数を用いて加重して合計し、フレームの照合スコア(フレーム単位の類似度)を算出する。これを各フレームに対して行い、第1の映像と第2の映像の照合結果を算出する。
このようにすることで、テロップ重畳の影響が大きいところの影響を抑えて動画像の照合を行うことが可能となり、テロップ重畳がある場合であっても高い照合精度を達成できる。
また、ブロック単位の平均値やDCT係数などの画像の特徴量と、前後フレーム間で求めた動きベクトル情報を用いて、動画像の検索を行う装置が特許文献1に記載されている。特許文献1に記載の動画像検索装置では、まず、入力された画像から各フレームの輝度や色差情報、色情報などの物理的な動画像特徴量情報の値、その平均値、その値の合計値、またはその値の差分値のうち少なくとも1つを各フレームに対して抽出する。次に、抽出した値を時間軸上に配列し、その並びの全部、その配列した並びから一定間隔または変則間隔で抜き出した値を動画識別情報として抽出する。あるいは、フレームのDCT係数と動き補償情報を圧縮された動画像データから抽出し、DCT係数の平均値、その値の合計値、またはその値の差分値を求め、動き補償情報からは動きベクトル、前後フレーム間の平均動きベクトル、合計動きベクトル、差分ベクトル、またはフレーム全体としての動きベクトルなどのうち少なくとも1つを求める。そして、求めた値を時間軸上に配列し、その並びの全部、その配列した並びから一定間隔または変則間隔で抜き出した値を動画識別情報として抽出する。
特開2000−194727号公報
Kota Iwamoto, Eiji Kasutani, Akio Yamada, 「ImageSignature Robust to Caption Superimposition for Video Sequence Identification」,Proceedings of International Conference on Image Processing(ICIP2006),2006. Eiji Kasutani, Ryoma Oami, Akio Yamada, Takami Sato and Kyoji Hirata「Video Material Archive System for Efficient Video Editing Based onMedia Identification」,Proceedings of InternationalConference on Multimedia and Expo (ICME2004),pp.727--730,2004.
上述した技術の問題点は、時間的な変化が乏しいシーンでの時間方向の識別精度を高めることが困難である点である。その理由は、非特許文献1の場合には、照合時の重み付けをテロップの重畳される確率で決定しており、時間的な変化が乏しいシーンの照合に合わせた制御になっていないためである。時間的な変化が乏しいシーンの場合には、画面上の大半は動きがなく、局所的な領域のみに動きや輝度変化などの画像の変化が生じている場合が多い。このような場合の識別精度を向上させるには、ブロック単位で特徴量を抽出するなど、より細かな特徴量を抽出しておけばよいが、このようにすると特徴量サイズが大きくなってしまうという問題があった。特許文献1の場合も、動き情報は用いており、動きを考慮した特徴量にはなっているものの、動き情報から求める特徴量と輝度値やDCT係数から求める特徴量とを独立に用いており、より細かなレベルまで抽出すると、特徴量サイズが大きくなってしまうという、同様の問題が存在する。
[発明の目的]
本発明の目的は、時間的な変化の乏しい動画像から生成される映像記述子では識別精度が低下する、という課題を解決する映像識別子抽出装置を提供することにある。
本発明の一形態にかかる映像識別子抽出装置は、入力される映像から、フレームまたはフィールドであるピクチャ毎の特徴量をピクチャ毎視覚特徴量として抽出するピクチャ毎特徴量抽出手段と、上記映像から、ピクチャ内の予め定められた領域に対して、時間方向の画像変化を解析し、画像変化が大きい領域を求めてその領域を指定する情報である変化領域情報を生成する時間軸方向変化領域抽出手段と、上記変化領域情報に対応する領域の特徴量を、上記映像から領域毎視覚特徴量として抽出する領域毎特徴量抽出手段と、上記ピクチャ毎視覚特徴量と上記領域毎視覚特徴量と上記変化領域情報とを多重化して映像識別子を生成する多重化手段とを有する。
本発明は上述のように構成されているため、時間的な変化が乏しいシーンでも、時間方向の識別精度を高めることができる効果がある。
本発明にかかる映像識別子抽出装置の第1の実施の形態の領域図である。 時間軸方向変化領域抽出手段100の構成例を示すブロック図である。 変化領域抽出手段410の処理例を説明するための図である。 ピクチャ内の予め定められた複数の領域が、ブロックである場合を示した図である。 ピクチャ内の予め定められた複数の領域が、形状の異なる局所領域である場合を示した図である。 時間軸方向変化領域抽出手段100の他の構成例を示すブロック図である。 変化領域抽出手段510の処理例を説明するための図である。 第1の実施の形態の映像識別子抽出装置によって生成された映像識別子を照合する映像識別子照合装置の構成例を示すブロック図である。 2つの映像の照合処理を説明するための図である。 領域照合手段230の処理を説明するための図である。 本発明にかかる映像識別子抽出装置の第2の実施の形態のブロック図である。 第2の実施の形態の映像識別子抽出装置によって生成された映像識別子を照合する映像識別子照合装置の構成例を示すブロック図である。 特徴量の一例を示す図である。 本発明に関連する技術を説明するためのブロック図である。
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
図1を参照すると、本発明の第1の実施の形態の映像識別子抽出装置が示されており、時間軸方向変化領域抽出手段100と、領域毎特徴量抽出手段110と、ピクチャ毎特徴量抽出手段130と、多重化手段120とからなる。
ピクチャ毎特徴量抽出手段130は、入力される映像からピクチャ毎特徴量を抽出し、多重化手段120へ出力する。時間軸方向変化領域抽出手段100は、映像から変化領域情報を求め、領域毎特徴量抽出手段110と多重化手段120へ出力する。領域毎特徴量抽出手段110は、時間軸方向変化領域抽出手段100から出力される変化領域情報に基づいて、映像から領域毎視覚特徴量を抽出し、多重化手段120へ出力する。多重化手段120は、ピクチャ毎特徴量抽出手段130から出力されるピクチャ毎視覚特徴量と、時間軸方向変化領域抽出手段100から出力される変化領域情報と、領域毎特徴量抽出手段110から出力される領域毎視覚特徴量とを多重化して、映像識別子を生成、出力する。
なお、本実施の形態の映像識別子抽出装置は、コンピュータにより実現可能であり、その場合には例えば次のようにする。コンピュータを映像識別子抽出装置として機能させるためのプログラムを記録したディスク、半導体メモリなどを用意し、コンピュータに上記プログラムを読み取らせる。コンピュータは読み取ったプログラムに従って自身の動作を制御することにより、自コンピュータ上に、時間軸方向変化領域抽出手段100、領域毎特徴量抽出手段110、多重化手段120、および、ピクチャ毎特徴量抽出手段130を実現する。
次に、図1に示す第一の実施の形態の動作について詳細に説明する。
まず、映像はピクチャ毎特徴量抽出手段130へ入力される。元の映像が符号化されている場合には、復号器によって復号されてから、フレームあるいはフィールドからなるピクチャ単位でデータが入力されるものとする。
ピクチャ毎特徴量抽出手段130では、ピクチャ毎の特徴量ベクトルを算出する。ピクチャを1枚の静止画とみなし、この色や模様、形などの特徴を示す視覚特徴量のベクトルを抽出する。この特徴量として、特徴量ベクトルの各次元に対応付けられた局所領域対に対して領域間における特徴量の差を算出し(例えば、領域対の各領域に対して領域内での画素値の平均値を求め、領域間で平均値の差を算出する)、差を量子化して得られる量子化値を各次元の値とする特徴量ベクトルを用いても良い。ピクチャ毎に算出された特徴量ベクトルは、ピクチャ毎視覚特徴量として多重化手段120へ出力される。
また、映像は、時間軸方向変化領域抽出手段100へも入力される。時間軸方向変化領域抽出手段100では、時間方向の画像の変化量が算出される。現在対象となっているピクチャとその前後のピクチャを用いて、ピクチャ中の予め定められた複数の領域それぞれの変化量を求める。そして、画面内で変化量が相対的に大きくなる領域を求める。ここで、変化量を求める領域は、ピクチャを分割することにより得られる、図4に示すような複数のブロックであってもよいし、ピクチャ内に定めた、図5に示すようなそれぞれが形状の異なる複数の局所領域であってよい。また、ブロックの形状は、矩形に限られるものではない。時間方向の変化が大きい領域ほど、映像の識別に寄与する可能性が高いことから、変化量が大きい順に複数の領域を選択する。選択方法としては、大きい順に一定個数の領域を選択してもよいし、変化量が閾値以上になった領域を選択するようにしてもよい。変化量の算出方法の詳細については、後述する。選択された領域のインデックス情報などの選択された領域を特定するための情報を、変化領域情報として出力する。例えば、ニュースでアナウンサーが話している場面においては、アナウンサーの顔付近以外は殆ど動きがない場合がある。このような場合には、アナウンサーの顔に対応する領域のみが時間方向の変化が画面の他の領域に比べて相対的に大きくなるため、顔に対応する領域を指定する情報が変化領域情報として出力される。
なお、変化領域情報は、各ピクチャに対して算出するようになっていてもよいし、数ピクチャまとめて算出し、出力するようになっていてもよい。例えば、ショット内で動きがある部分が特定の領域のみに限定されている場合には、そのショット全体に対して共通の変化領域情報を算出し、出力するようになっていてもよい。より具体的には、ショット内のある1枚のピクチャを処理対象として求めた変化領域情報を、ショット内の他のピクチャに対しても使用するようになっていても良い。あるいは、ショット内の全てあるいは複数のピクチャに対して時間軸方向変化を算出し、その代表値(平均、メディアンなど)によって、ショット全体の変化領域情報を求めて記述するようにし、ショット内の全てのピクチャに対して使用するようになっていてもよい。
ただし、変化領域情報を出力する単位はショットに限らず、数ピクチャおきなど、固定の時間間隔であってもよい。あるいは、同じ変化領域情報が適用可能な時間区間を時間方向の変化量から算出し、その時間区間に含まれるピクチャに対して変化領域情報をまとめて算出し、出力するようになっていてもよい。この場合、まとめられるピクチャ数が毎回変化するため、そのピクチャ数も一緒に記述するようにする。同じ変化領域情報が適用可能な時間区間の算出は、時間軸方向の変化量のピクチャ間での変化を閾値処理することによって算出できる。すなわち、時間区間の先頭のピクチャにおける時間軸方向の変化量と現在のピクチャの時間軸方向の変化量とを比較し、その変化の度合いが閾値を上回る場合に、その前のピクチャまでの区間を一つのまとまりとみなし、その区間に対する変化領域情報を算出するようにする。上記区間に対する変化領域情報は、区間内の任意の1枚のピクチャの変化領域情報あるいは区間内のピクチャの変化領域情報の代表値とすることができる。このようにすることにより、処理対象とする映像がどのようなものであっても、時間方向の識別精度を高く保った状態で変化領域情報の情報量を削減することができる。
このようにして算出された変化領域情報は、領域毎特徴量抽出手段110と多重化手段120へ出力される。
領域毎特徴量抽出手段110では、時間軸方向変化領域抽出手段100から出力される変化領域情報で指定される領域に対して、領域単位の特徴量抽出を行う。ここで、領域単位の特徴量は、ピクチャ毎特徴量抽出手段130で算出する画面全体の特徴量と同じであってもよいし、違っていても良い。例えば、上述の、特徴量ベクトルの各次元に対応付けられた局所領域対に対して領域間における特徴量の差を算出して特徴量ベクトルの各次元の値とする特徴量を用いてもよい。変化領域情報によって指定された領域の特徴量は、領域毎視覚特徴量として多重化手段120へ出力される。
多重化手段120では、ピクチャ毎特徴量抽出手段130から出力されるピクチャ毎視覚特徴量と、領域毎特徴量抽出手段110から出力される領域毎視覚特徴量と、時間軸方向変化領域抽出手段100から出力される変化領域情報とを多重化して映像識別子を生成し、出力する。ここでは、これらの情報が照合時に分離可能な形で多重化して映像識別子を生成する。多重化の方法としては、ピクチャごとに3つの情報をインターリーブして多重化してもよいし、ピクチャ毎視覚特徴量、領域毎視覚特徴量、変化領域情報をそれぞれ別々にまとめて、最後につなげることによって多重化してもよい。あるいは、一定の区間ごと(例えば、変化領域情報を算出する時間区間単位ごと)にピクチャ毎視覚特徴量、領域毎視覚特徴量、変化領域情報とを多重化するようになっていてもよい。
次に、時間軸方向変化領域抽出手段100の実施の形態について図2を参照して述べる。
図2を参照すると、時間軸方向変化領域抽出手段100の実施の形態が示されており、ピクチャ間差分算出手段400と変化領域抽出手段410とからなる。
ピクチャ間差分算出手段400は、入力される映像からピクチャ間差分情報を算出し、変化領域抽出手段410へ出力する。変化領域抽出手段410は、ピクチャ間差分算出手段400から出力されるピクチャ間差分情報と特徴量抽出パラメータ(特徴量の各次元と抽出対象となる領域を記述する情報)とを用いて変化領域情報を算出し、出力する。
次に、図2に示す時間軸方向変化領域抽出手段100の動作について説明する。
まず、映像はピクチャ間差分算出手段400へ入力される。ピクチャ間差分算出手段400では、ピクチャ間で画素値の差分を求める。差分の算出は、画素単位で行ってもよいし、ある程度の画素をまとめてできる領域(例えばブロック)単位で差分を算出するようにしてもよい。例えば、各領域に対する代表値(平均やメディアンなど)を求めておき、ピクチャ間で同じ位置にある領域の代表値と差分を取るといった方法でもよい。また、画素値の差分は、輝度値同士の差であってもよいし、画素値としてR、G、Bの色成分を用い、それらの差分の少なくとも1つ求めて、画素値の差分としてもよい。もちろん、色空間はRGBではなく、HSVやL*a*b*など、任意の色空間でよい。また、差分としては、単に画素値を引くのみではなく、絶対値演算を行い、差分の絶対値を出すようにしてもよい。算出されたピクチャ間の差分データは、ピクチャ間差分情報として変化領域抽出手段410へ出力される。
変化領域抽出手段410では、ピクチャ間差分情報から、各領域における差分情報を算出する。このために、まず、処理対象となっているピクチャにおいて、動いている物体に対応する領域において大きくなる値を算出する。これは、これを処理対象となっているピクチャとひとつ前のピクチャ間、さらに、処理対象となっているピクチャと一つ後のピクチャ間で算出された差分値の積をとることによって得られる。
これを図で示したのが図3である。図3において、Tピクチャは処理対象となっているピクチャであり、T−1ピクチャ、T+1ピクチャは、それぞれ処理対象ピクチャの一つ前、一つ後のピクチャを表している。そして、これらのピクチャ間では、長方形の斜線オブジェクトは静止しており、丸い黒色のオブジェクトのみが動いているものとする。この場合、前述のピクチャ間差分算出手段400において、処理対象であるTピクチャと1つ前のT−1ピクチャ間で差分が算出されている。この場合、図に示すように、丸いオブジェクトの動きによって生じた差分のみが出てくる。ただし、差分値自体は、Tピクチャにおける丸いオブジェクトの位置、およびT−1ピクチャにおける同オブジェクトの位置の両方で大きな値となる傾向にある。同様に、1つ後のT+1ピクチャとTピクチャの差分を算出することで、Tピクチャにおける丸いオブジェクトの位置、およびT+1ピクチャにおける丸いオブジェクトの位置で差分が大きくなる。そこで、両差分画像の積を算出する。両方の差分画像においてともに差分値が大きくなるのは、Tピクチャにおける丸いオブジェクトの位置のみであるから、これによりTピクチャでの動オブジェクト領域の差分のみを大きくすることができる。ここでは、処理対象のピクチャの一つ前、一つ後のピクチャを用いて算出する方法について述べたが、数ピクチャ前、数ピクチャ後のピクチャを用いても同様に算出可能である。すなわち、T-mピクチャ、T+nピクチャを用いて、同様にして動オブジェクト領域の差分のみを大きくすることができる。そこで、このようにして得られた結果を、領域毎に集計することによって領域内の変化量を算出する。
より具体的には、[数1]によって領域内の変化量を計算する。
Figure 0004725690
[数1]において、fT(x)は、Tピクチャの位置xにおける画素値、R(i)は、i番目の領域(画素の集合)、w(i)はi番目の領域の変化量を表す。なお、ここでは単純に領域内での加算を用いたが、領域内での平均をとってもよいし、二乗して加算してもよいし、メディアンや最大値など、別の統計量を用いて領域の変化量を求めるようにしてもよい。また、領域内の全ての画素の値を用いて変化量を求めなくてもよい。例えば、1画素おきに画素を間引いて変化量を算出するようにしてもよい。
このようにして算出した各領域に対する変化量に基づいて、変化量が大きい領域を求める。具体的には、変化量が一定の閾値を超えている領域を算出したり、あるいは、変化量が大きい順に一定個数の領域を選択したりするようにしてもよい。そして、選択された領域を記述する情報(例えば領域のインデックスなど)を変化領域情報として出力する。例えば、ピクチャ上に定められた領域が、図4のように画面を16分割することにより得られるブロックであり、斜線をつけたブロックで変化量が大きくなった場合には、そのブロックのインデックス6、10、12を変化領域情報として出力する。また、例えば、ピクチャ上に定められた領域が、図5に示すような任意形状の複数の局所領域であり、斜線を付けた局所領域で変化量が大きくなった場合には、その局所領域のインデックス2を変化領域情報として出力する。
また、変化領域情報は、全てのピクチャに対して算出する必要はなく、数ピクチャおきに算出するようにしてもよい。この際、複数ピクチャで算出された領域の変化量を合計して、その数ピクチャに対応する変化領域情報を求めるようになっていてもよい。
また、画像全体での特徴量が時間的に大きく変化する場合には、領域単位の特徴量がなくても十分照合可能なため、このような映像・映像区間に対しては、領域(ブロックあるいは局所領域)に対する特徴量を算出しないようになっていてもよい。例えば、時間軸方向の変化量が小さい領域が一定個の閾値以下の場合には、ブロックあるいは局所領域に対する特徴量を算出しないようにする。具体的には、変化領域情報としては何も出力しないか、あるいは、特徴量抽出の対象となる領域がないことを示す情報を含むようにする。
これによって、無闇に領域特徴量を算出して映像識別子のサイズが不要に大きくなるのを防ぎ、必要なところのみから特徴量を算出することができる。
図2に示す時間軸方向変化領域抽出手段100は、基本的には単にピクチャ間での差分をとればよいため、処理負荷が小さく抑えられるという特徴がある。
次に、時間軸方向変化領域抽出手段100の別の実施の形態について図6を参照して述べる。
図6を参照すると、時間軸方向変化領域抽出手段100の別の実施の形態が示されており、動き情報算出手段500と、変化領域抽出手段510とからなる。
動き情報算出手段500は、映像を入力とし、動きベクトルを算出して動きベクトル情報を変化領域抽出手段510へ出力する。変化領域抽出手段510は、動き情報算出手段500から出力される動きベクトル情報と特徴量抽出パラメータとを用いて変化領域情報を算出し、出力する。
次に、図6に示す時間軸方向変化領域抽出手段100の動作について説明する。
まず、映像は動き情報算出手段500へ入力される。動き情報算出手段500では、現在の対象ピクチャとその前(または後)のピクチャ間で動き推定を行い、動きベクトルを算出する。動きベクトルの算出方法としては、従来の勾配法に基づく方法や、ブロックマッチング法に基づく方法など、任意の動きベクトル推定法を用いることができる。また、動きは画素単位で算出するようにしてもよいし、画像を複数の小領域に分割し、その領域単位で動きを求めるようにしてもよい。このようにして算出された動きベクトルの場を記述する情報は、動きベクトル情報として出力される。動きベクトル情報は、ピクチャ内で求まった個々の動きベクトルをそのまま記述する情報であってもよいし、0以外の動きベクトルが算出された領域のみの動きを、領域を特定する情報とともに記述する情報であってもよい。算出された動きベクトル記述情報は変化領域抽出手段510へ出力される。
変化領域抽出手段510では、算出された動きベクトルを領域ごとに集計し、領域内での動き量を算出する。
これを図示したものが図7である。図7では、TピクチャとT-1ピクチャの様子を示している。これに対し、動き推定処理を行うことによって図に示すように、丸いオブジェクトの動きに相当する部分で動きベクトルが算出される。ここでは、1つ前のピクチャを用いる場合について記したが、数ピクチャ前、あるいは数ピクチャ後のピクチャを用いて動き推定処理を行っても良い。また、2枚のピクチャだけでなく、数枚のピクチャを用いて動き推定処理を行っても良い。この場合も同様に、動きがある部分で動きベクトルが算出される。よって、これを用いて各領域内での動き量を算出する。例えば、領域内で動きベクトルの長さの合計を算出する。これを数式で表したものが[数2]である。
Figure 0004725690
ここで、v(x)は、xにおける動きベクトルを表している。それ以外の記号については、[数1]と同様である。なお、ここでは単純に領域内での加算を用いたが、領域内での平均をとってもよいし、二乗して加算してもよいし、メディアンや最大値など、別の統計量を用いて領域の代表的な動き量を求めるようにしてもよい。また、領域内の全ての動きベクトルを用いて動き量を求めなくてもよい。例えば、適当に間引いて動き量を算出するようにしてもよい。
図6に示す時間軸方向変化領域抽出手段100は、動きを算出するため、一般的には図2の場合よりも処理量は増えるが、実際の動きを算出するため、図2の場合に比べて、時間方向に動きがある領域を精度良く求めることが可能となる。
次に、本発明の映像識別子照合装置の実施の形態について説明する。
図8を参照すると、本発明の映像識別子照合装置の実施の形態が示されており、多重分離手段200、多重分離手段210、ピクチャ照合手段220、領域照合手段230、および、照合結果判定手段240からなる。なお、本実施の形態の映像識別子照合装置は、プログラム制御されるコンピュータによって実現可能である。
多重分離手段200は、入力される第1の映像識別子を多重分離し、第1のピクチャ毎視覚特徴量をピクチャ照合手段220へ出力し、第1の領域毎視覚特徴量と第1の変化領域情報とを領域照合手段230へ出力する。多重分離手段210も同様に、入力される第2の映像識別子を多重分離し、第2のピクチャ毎視覚特徴量をピクチャ照合手段220へ出力し、第2の領域毎視覚特徴量と第2の変化領域情報とを領域照合手段230へ出力する。ピクチャ照合手段220は、多重分離手段200から出力される第1のピクチャ毎視覚特徴量と多重分離手段210から出力される第2のピクチャ毎視覚特徴量とを照合し、ピクチャ照合結果を照合結果判定手段240へ出力するとともに、領域照合実行情報を領域照合手段230へ出力する。領域照合手段230は、ピクチャ照合手段220から出力される領域照合実行情報と、多重分離手段200から出力される第1の変化領域情報と、多重分離手段210から出力される第2の変化領域情報とに基づいて、多重分離手段200から出力される第1の領域毎視覚特徴量と多重分離手段210から出力される第2の領域毎視覚特徴量とを照合し、領域照合結果を照合結果判定手段240へ出力する。照合結果判定手段240は、ピクチャ照合手段220から出力されるピクチャ照合結果と領域照合手段230から出力される領域照合結果とから照合結果を算出し、出力する。
次に、図8に示す本発明の映像識別子照合装置の実施の形態の動作について説明する。
第1の映像識別子は、多重分離手段200へ入力される。多重分離手段200では、第1の映像識別子から第1のピクチャ毎視覚特徴量、第1の領域毎視覚特徴量、第1の変化領域情報を分離する。この際、多重化手段120において多重化のときに用いた方法に対応する分離方法によって分離する。分離によって生じた第1のピクチャ毎視覚特徴量はピクチャ照合手段220へ出力され、第1の領域毎特徴量と第1の変化領域情報は領域照合手段230へ出力される。
第2の映像識別子は、多重分離手段210に入力される。多重分離手段210の動作は多重分離手段200と同様であり、分離によって生じた第2のピクチャ毎視覚特徴量はピクチャ照合手段220へ出力され、第2の領域毎特徴量と第2の変化領域情報は領域照合手段230へ出力される。
ピクチャ照合手段220では、多重分離手段200から出力される第1のピクチャ毎視覚特徴量と多重分離手段210から出力される第2のピクチャ毎視覚特徴量とを照合する。この際、両特徴量の類似性を表す類似度によって比較してもよいし、両特徴量の差異の度合いを表す距離によって比較してもよい。距離によって比較する場合には、[数3]に基づいて比較する。
Figure 0004725690
ここで、Nは特徴量の次元数であり、v1(i), v2(i)はそれぞれ、第1、第2のピクチャ毎視覚特徴量のi番目の次元の値を表している。この比較をピクチャ単位に行い、合計することで、第1の映像と第2の映像の一定区間の照合を行うことができる。例えば、ピクチャ単位の比較で距離の値が閾値以内になるピクチャ対の数を求めて、その値が区間に含まれるピクチャ数に比して十分大きいときに同一区間であると判定し、そうでなければ、同一区間でないと判定する。これを第1の映像と第2の映像の任意の区間の組み合わせに対して行うことによって、これらの映像間に含まれる任意の長さの同一区間を全て判定することができる。また、ピクチャ単位で距離を閾値処理するかわりに、距離を区間内で合計した値が、予め定めた閾値より小さいかどうかによって判定することもできる。勿論、合計値のかわりに平均値を求めてもよい。あるいは、外れ値を除いて区間内で照合するようになっていてもよい。例えば、平均値の代わりにメディアンやM推定の結果を用いることでこのような照合を実現できる。
任意の長さの区間同士の比較法としては、[非特許文献2]に記載された照合方法を用いることもできる。図9に示すように、映像間での照合に長さLピクチャの照合窓を設け、これらを第1の映像、第2の映像間でスライドさせていき、両者を比較する。もし、照合窓内の区間同士が同一区間と判定された場合には、そこからpピクチャだけ窓を伸ばし、照合処理を継続する。同一区間と判定される限りにおいては、pピクチャだけ窓を伸ばす処理を反復し、最大長の同一区間を求める。このようにすることで、照合した区間のうち、最大長の同一区間を効率的に求めることができる。
なお、上記の説明では距離を尺度として用いる場合について記したが、類似度を用いても同様に照合可能である。具体的には、[数4]によって算出される類似度Sに基づいて比較する。
Figure 0004725690
ここで、Sim(x,y)はxとyの近さを表す関数であり、xとyの値が近いほど大きな値となる。例えば、xとyの間の距離をd(x,y)とすると、[数5]のような関数を用いることができる。
Figure 0004725690
あるいは、Sim(x,y)はクロネッカーデルタのように、xとyが一致したときのみ1、それ以外は0となる関数であってもよい。あるいは、類似度として特徴ベクトル間の角度(余弦値)を用いる場合には、[数6]によって算出される類似度Sに基づいて比較する。
Figure 0004725690
このようにして求めた類似度を用いて、距離の場合と同様にして照合を行うことが可能である。
そして得られた照合結果を照合結果判定手段240へ出力する。照合結果としては、一致する区間を特定する情報が照合結果に含まれる。例えば一致する区間のピクチャ番号や時刻情報が含まれる。一方、一致する区間が存在しない場合には、そのことを示す情報が含まれる。あるいは、照合結果に何も含まれない場合が一致する区間が存在しない場合に対応するようになっていてもよい。
このようにして照合した際、時間方向に動きが乏しい区間では、1つの区間に絞り込めず、1つの映像区間が他方の映像の複数の区間(1つに繋がった区間中の任意の部分区間とマッチする場合も含む)と一致する場合が存在する。あるいは、1つに絞り込めた場合であっても、他の候補区間との照合の距離値、あるいは類似度にそれほど大きな差がなく、実質複数の一致候補区間が存在すると見なせる場合もある。このような場合には、ピクチャ毎の照合では十分絞り込めなかったために、領域照合の実行を通知する、領域照合実行情報を領域照合手段230へ出力する。逆に、一致すると判定できる区間が全くなかった場合や、一致すると判定した区間の距離値,類似度と、他の候補区間の距離値,類似度とに大きな差がある場合には、領域毎の照合は不要と判定され、領域照合実行情報は出力されない。
一方、領域照合手段230では、多重分離手段200から出力される第1の変化領域情報と多重分離手段210から出力される第2の変化領域情報に基づいて、多重分離手段200から出力される第1の領域毎視覚特徴量と多重分離手段210から出力される第2の領域毎視覚特徴量とを照合する。ただし、この照合は、ピクチャ照合手段220から出力される領域照合実行情報に基づいて行われる。すなわち、領域照合実行情報が出力されない場合には、照合は行わず、領域照合結果を出力しない。領域照合実行情報が出力された場合には、領域照合を行う。この際、領域照合実行情報には、対象となる映像区間を特定する情報、すなわち、ピクチャ照合において絞りこめず、候補となっている区間の情報も含まれるものとし、この区間に対して領域照合を行う。
照合が行われる場合には、まず、変化領域情報を比較し、同じ位置にある領域が存在するかどうかをチェックする。もし、同じ位置にある領域が存在しない場合には、領域照合は行わない。一方、同じ位置にある領域が少なくとも1つ存在する場合には、その領域に対して、領域毎特徴量の照合を行う。領域単位での照合の方法は、画面全体で行う場合と同様である。すなわち、特徴量間の距離を算出し、それが一定の閾値よりも小さい場合に照合したと判定する。あるいは、距離の代わりに特徴量間の類似度を用い、類似度が一定の閾値よりも大きい場合に照合したと判定してもよい。同じ位置にある領域が複数存在する場合には、それらの全ての領域に対して個別に照合を行う。例えば、一方の映像の変化領域情報が図4のブロックを指定し、他方の映像の変化領域情報は図10のブロックを指定している場合、インデックスが6と10のブロックは両者で位置が一致している。よって、この場合には、ブロック6,10に対して照合を行い、一致するかどうかを判定する。
ピクチャ同士の照合の場合と同様に、一定の区間に含まれるピクチャに対する領域間で上述の照合処理を行い、その区間が一致するかどうかを求める。この際、変化領域情報の不一致により照合できないピクチャが存在する場合があるが、このようなピクチャは評価から除いて領域間照合を行う。例えば、Tピクチャ,T+1ピクチャ,T+2ピクチャのうち、TとT+2ピクチャでは照合できたが、T+1ピクチャではできなかった場合に、TとT+2ピクチャの結果のみを用いて一致するかどうかを判定する。
そして、領域照合において、一致すると判定された区間を含む照合結果を領域照合結果として照合結果判定手段240へ出力する。
照合結果判定手段240では、ピクチャ照合手段220から出力されるピクチャ照合結果とから領域照合手段230出力される領域照合結果とから最終的な照合結果を判定し、出力する。ピクチャ照合結果のみが存在する場合には、その結果によって判定する。ピクチャ照合結果と領域照合結果がともに存在する場合には、両者を比較し、ピクチャ照合結果と領域照合結果でどちらにも含まれる一致区間を出力する。あるいは、領域照合結果が変化領域情報の不一致による未照合により照合区間が存在しない場合には、ピクチャ照合結果をそのまま出力する。
以上が本発明の映像識別子照合装置の実施の形態の説明である。
[第1の実施の形態の効果]
本実施の形態により、画面全体としては時間方向の変化が乏しく、正確な時間方向の位置あわせが困難な場合であっても、局所的な変化情報を押さえ、それをコンパクトに記述することによって、映像識別子のサイズを抑えた上で、時間方向の照合精度を向上できる。つまり、時間的な変化が乏しいシーンの場合にも、動きや輝度変化などの画像の変化が生じている領域に対応する領域では特徴量を別途算出するため、動きのある領域を用いて信頼度の高い照合を行うことが可能となる。
また、本実施の形態では、変化領域情報を算出するピクチャとその前後のピクチャとの間でピクチャ間画素値差分を算出し、上記ピクチャ間画素値差分に基づいて、変化領域情報を算出するようにしているので、変化領域情報を算出するための処理負荷を小さくすることができる。
また、本実施の形態では、変化領域情報を算出するピクチャとその前または後のピクチャとの間で動き推定処理を行い、推定された動きの大きさの度合いに基づいて、上記変化領域情報を算出ようにしているので、時間方向に動きがある領域を精度良く求めることが可能となる。
次に、本願発明の第2の実施の形態について、図を参照して説明する。
図11を参照すると、本発明の第2の実施の映像識別子抽出装置が示されており、時間軸方向変化領域抽出手段100と、領域毎特徴量抽出手段110と、ピクチャ毎特徴量抽出手段630と、多重化手段620と、照合加重情報抽出手段610からなる。
時間軸方向変化領域抽出手段100、領域毎特徴量抽出手段110の接続関係は図1の場合と同様である。ピクチャ毎特徴量抽出手段630は、映像と特徴量抽出パラメータを入力とし、ピクチャ毎視覚特徴量を多重化手段620へ出力する。照合加重情報抽出手段610は、映像と特徴量抽出パラメータが入力され、照合加重情報が多重化手段620へ出力される。多重化手段620は、時間軸方向変化領域抽出手段100から出力される変化領域情報と、領域毎特徴量抽出手段110から出力される領域毎視覚特徴量と、ピクチャ毎特徴量抽出手段130から出力されるピクチャ毎視覚特徴量と、照合加重情報抽出手段610から出力される照合加重情報とを入力とし、多重化した結果を映像識別子として出力する。なお、本実施の形態の映像識別子抽出装置は、プログラム制御されるコンピュータによって実現可能である。
次に、図11に示す第2の実施の形態の動作について詳細に説明する。
時間軸方向変化領域抽出手段100,領域毎特徴量抽出手段110の動作は図1の場合と同様である。
ピクチャ毎特徴量抽出手段630の動作も、特徴量抽出パラメータに従ってピクチャ毎の特徴量を抽出することを除けば、ピクチャ毎特徴量抽出手段130の動作と同様である。ただし、視覚特徴量は、画面全体を変換することによって得られるものではなく、画面内の部分領域から算出される特徴量とする。すなわち、特徴量ベクトルの各次元は、特徴量抽出パラメータによって画面内の特定の領域と対応付けられており、その領域から抽出された特徴量の値が格納されるものとする。例えば、特徴量ベクトルの各次元を、画面をブロックに分割したときの個々のブロックから抽出される特徴量とする。あるいは、予め定められた任意形状の領域から特徴量の各次元の値を求めるようにしてもよい。そして、特徴量の各次元に対して抽出対象となる領域を記述する情報を特徴量パラメータと呼ぶことにする。具体的には、例えば特徴量ベクトルの各次元が画面内の特定のブロックから抽出される特徴量である場合には、その特徴量を抽出する特定ブロックを記述する情報(ブロックの座標値やブロックのインデックス番号など)が特徴量パラメータになる。あるいは、様々な形状の局所領域が特徴量ベクトルの各次元に対応する場合には、その局所領域を記述する情報(局所領域の位置,サイズ,形状を現す情報)が特徴量パラメータとなる。
照合加重情報抽出手段610では、特徴量抽出パラメータによって特徴量の各次元に対応付けられている領域における、時間方向の画像の変化量を算出し、それに応じて照合時に用いる各次元の加重係数を決定し、それを記述する情報を照合加重情報として出力する。
すなわち、まず、現在対象となっているピクチャとその前後のピクチャを用いて、領域ごとに変化量を求める。この変化量は、図3の方法で求まる画像の時間方向の変化量であってもよいし、図7の方法で求まる動き量であってもよい。
次に、各次元に対して求まった時間方向の変化量に応じて、照合時に用いる特徴量の各次元の重み付けの度合いを記述する情報を決定する。時間方向の変化が大きい領域ほど、映像の識別に寄与する可能性が高いことから、変化が大きいほど重要と見なされる重み付けを行う。例えば、時間方向の変化量に対して単調増加する関数によって重み付けの度合いを決定する。照合加重情報としては、重み付けの度合いを決定する係数そのものであってもよいし、重み付けの度合いを軽いものから重いものへいくつかにクラスわけしておいて、このクラスを指定するインデックスの情報であってもよい。例えば、ニュースでアナウンサーが話している場面においては、アナウンサーの顔付近以外は殆ど動きがない場合がある。このような場合には、アナウンサーの顔に対応する領域の次元のみが時間方向の変化が画面の他の領域に比べて相対的に大きくなるため、顔の領域(特に口や目に対応する領域)に対応する特徴量の次元の重みが高くなる照合加重情報が算出される。
なお、照合加重情報は、各ピクチャに対して算出するようになっていてもよいし、数ピクチャまとめて算出し、出力するようになっていてもよい。例えば、ショット内で動きがある部分が特定の領域のみに限定されている場合には、そのショット全体に対して照合加重情報を算出し、出力するようになっていてもよい。より具体的には、ショット内のある1枚のピクチャを処理対象として求めた照合加重情報を、ショット内の他のピクチャに対しても使用するようになっていても良い。このようにすることにより、照合加重情報を求める際の計算量を削減できると共に、映像識別子の情報量を削減できる。あるいは、ショット内の全てあるいは複数のピクチャに対して照合加重情報を算出し、その代表値(平均,メディアンなど)によって、ショット全体の照合加重情報を記述するようにし、ショット内の全てのピクチャに対して使用するようになていてもよい。このようにすることにより、映像識別子の情報量を削減できる。
ただし、照合加重情報を出力する単位はショットに限らず、数ピクチャおきなど、固定の時間間隔であってもよい。あるいは、同じ照合加重情報が適用可能な時間区間を時間方向変動情報から算出し、その時間区間に含まれるピクチャに対して照合加重情報をまとめて算出し、出力するようになっていてもよい。この場合、まとめられるピクチャ数が毎回変化するため、そのピクチャ数も一緒に記述するようにする。同じ照合加重情報が適用可能な時間区間の算出は、時間方向変動情報のピクチャ間での変化を閾値処理することによって算出できる。すなわち、時間区間の先頭のピクチャにおける時間方向変動情報と現在のピクチャの時間方向変動情報とを比較し、その変化の度合いが閾値を上回る場合に、その前のピクチャまでの区間を一つのまとまりとみなし、その区間に対する照合加重情報を算出するようにする。上記区間に対する照合加重情報は、区間内の任意の1枚のピクチャの照合加重情報あるいは区間内のピクチャの照合加重情報の代表値とすることができる。このようにすることにより、処理対象とする映像がどのようなものであっても、時間方向の識別精度を高く保った状態で照合加重情報の情報量を削減することができる。
また、特徴量ベクトルの次元で同じ領域に対応付けられているものが複数存在する場合には、それらをまとめて1つの加重情報として表してもよい。例えば、ISO/IEC 15938-3で規定されているEdge Histogramの場合には、5つのビンごとに同じ領域に対応付けられている。このような場合には、5つのビンごとに加重情報をまとめて記述するようになっていてもよい。
多重化手段620では、時間軸方向変化領域抽出手段100から出力される変化領域情報と、領域毎特徴量抽出手段110から出力される領域毎視覚特徴量と、ピクチャ毎特徴量抽出手段130から出力されるピクチャ毎視覚特徴量と、照合加重情報抽出手段610から出力される照合加重情報とを多重化し、映像識別子を生成して出力する。図1の多重化手段120に比べ、さらに照合加重情報抽出手段610から出力される照合加重情報をも多重化することを除けば、図1の多重化手段120の動作と同様である。
次に、本発明の第2の実施の形態に対する照合装置について述べる。
図12を参照すると、本発明の第2の実施の形態によって生成した映像識別子を照合する照合装置が示されており、多重分離手段700、多重分離手段710、ピクチャ照合手段720、加重係数算出手段730、領域照合手段230、および、照合結果判定手段240からなる。
多重分離手段700は、入力される第1の映像識別子を多重分離し、第1のピクチャ毎視覚特徴量をピクチャ照合手段720へ出力し、第1の領域毎視覚特徴量と第1の変化領域情報とを領域照合手段230へ出力し、第1の照合加重情報を加重係数算出手段730へ出力する。多重分離手段710も同様に、入力される第2の映像識別子を多重分離し、第2のピクチャ毎視覚特徴量をピクチャ照合手段720へ出力し、第2の領域毎視覚特徴量と第2の変化領域情報とを領域照合手段230へ出力し、第2の照合加重情報を加重係数算出手段730へ出力する。加重係数算出手段730は、多重分離手段700から出力される第1の照合加重情報と、多重分離手段710から出力される第2の照合加重情報とから加重係数を算出し、ピクチャ照合手段720へ出力する。ピクチャ照合手段720は、加重係数算出手段730から出力される加重係数を用いて、多重分離手段700から出力される第1のピクチャ毎視覚特徴量と多重分離手段710から出力される第2のピクチャ毎視覚特徴量とを照合し、ピクチャ照合結果を照合結果判定手段240へ出力するとともに、領域照合実行情報を領域照合手段230へ出力する。領域照合手段230は、ピクチャ照合手段720から出力される領域照合実行情報と、多重分離手段700から出力される第1の変化領域情報と、多重分離手段710から出力される第2の変化領域情報とに基づいて、多重分離手段700から出力される第1の領域毎視覚特徴量と多重分離手段710から出力される第2の領域毎視覚特徴量とを照合し、領域照合結果を照合結果判定手段240へ出力する。照合結果判定手段240は、ピクチャ照合手段720から出力されるピクチャ照合結果と領域照合手段230から出力される領域照合結果とから照合結果を算出し、出力する。なお、本実施の形態の照合装置は、プログラム制御されるコンピュータによって実現可能である。
次に、図12に示す照合装置の動作について説明する。
多重分離手段700の動作は、図8の多重分離手段200と同様であるが、さらに第1の映像識別子から第1の照合加重情報も分離する。同じく、多重分離手段710も、図8の多重分離手段210と同様であるが、さらに第2の映像識別子から第2の照合加重情報も分離する。分離された第1,第2の照合加重情報は、加重係数算出手段730へ入力される。
加重係数算出手段730では、第1の照合加重情報と第2の照合加重情報とから、特徴量の各次元に対する加重係数を算出する。第1の照合加重情報と第2の照合加重情報から加重係数を算出する方法は複数考えられるが、両方の照合加重情報が小さな重み値に対応するときに小さくなるという制約を満たしており、照合加重情報に対応する重み値の少なくとも一方が大きくなったときに増加するようになっていればよい。例えば、第1,第2の照合加重情報をから求まる重みがそれぞれw1(i),w2(i)のときに、加重係数w(i)は[数7]によって算出することができる。
Figure 0004725690
より一般的には、[数8]の式を用いることができる。
Figure 0004725690
ここで、pは任意の自然数であり、pが無限大の場合に[数7]に帰着する。
この加重係数を特徴量の各次元に対して算出し、ピクチャ照合手段720へ出力する。
ピクチャ照合手段720の動作は、基本的には、図8のピクチャ照合手段220と同様であるが、特徴量ベクトル間の照合を行う際、上述のようにして算出された加重係数を用いる点が異なる。
この際、両特徴量の類似性を表す類似度によって比較してもよいし、両特徴量の差異の度合いを表す距離によって比較してもよい。距離によって比較する場合には、[数3]のかわりに[数9]によって算出される距離dに基づいて比較する。
Figure 0004725690
ここで、w(i)は、i番目の次元に対応する加重係数を表している。同様に、類似度を用いる場合には、[数4],[数6]のかわりに、それぞれ[数10],[数11]を用いるようにする。
Figure 0004725690
Figure 0004725690
領域照合手段230と照合結果判定手段240の動作は、図8の場合と同様である。
[第2の実施の形態の効果]
本実施の形態によれば、時間方向の照合精度を第1の実施の形態よりも高いものにすることができる。その理由は、動きや輝度変化などの画像の変化が生じている領域に対応する特徴量の重みを上げることにより、符号化歪等による特徴量変化が照合に与える影響を受けにくくできるためである。例えば、スタジオでアナウンサーがニュースを読んでいるシーンの連続するピクチャが、ピクチャA、ピクチャBの2枚であるとする。ピクチャAとピクチャBとの違いは、アナウンサーの口の部分だけであり、その他は全く同じ画像とする。ピクチャAと全く同一のピクチャCが与えられ、そのピクチャCがピクチャA、Bの内の何れのピクチャと類似しているかを機械的に判定することを考える。この場合、ピクチャA〜Cに符号化歪が全く存在しなければ、ピクチャCとピクチャAとの距離が0となる。他方、ピクチャCとピクチャBとの距離は、動きのある口の部分の重みが大きくなっているので、十分大きな距離となる。ここで、例えばピクチャAの背景部分に符号化歪があった場合を考える。この符号化歪によってピクチャCとピクチャAとの距離は大きくなるが、動きのない背景部分の重みは小さいので、ピクチャCとピクチャAとの距離は、ピクチャCとピクチャBとの距離よりも大きくなることはない。
次に、本発明の第3の実施の形態を説明する。
図13は、ピクチャから特徴量を抽出する方式の一例を示している。この方式では、ピクチャ内の任意の2領域をペアとして予め定めておき、ペアとなった2領域間での特徴量の差を特徴量ベクトルとする。ここで、各領域ペアをP1,P2,P3,…と表し、n番目のペアPnから定まる特徴量をVnで表すことにする。領域ペアのとり方は、図に示すように、様々な形・位置の領域の組み合わせがあり得る。そして、PnからVnを求める方法も様々な方法が考えられる。例えば、各ペアで斜線の領域と網線をつけた各領域内で輝度の平均値を算出し、その大小関係でVnの値を決定する方法がある。具体的には、斜線の領域内で求めた平均輝度値から網線の領域内で求めた平均輝度値を引いて差を求め、差が正のときにVn=1とし、負のときにVn=−1とする。あるいは、差の絶対値が閾値より小さい場合は0とし、Vnを3値で表すようにしてもよい。なお、平均輝度値のかわりに他の代表値を用いてもよい。例えば、領域内でのメディアンの値や、輝度値を大きい順に並べたときに上位a%に相当する値を用いることもできる。あるいは、エッジ的な特徴量を表す量を代表値としてもよい。例えば、エッジを検出するフィルタを領域に対して適用し、その結果から平均などの統計処理を行って代表値を求めてよい。
時間軸方向変化領域抽出手段100は、画面をM×N分割(M,Nは自然数)してできる各領域に対して、時間方向にどれだけ変化しているかを算出する。これには、[数1]や[数2]を用いることができる。そして、時間方向の変化量が大きい領域を選択し、その領域のインデックスを変化領域情報として出力する。この際の領域の選択方法は、時間方向の変化量がある閾値以上の場合に選択する方法や、変化量の大きい順に領域を並べたときに、大きい方から一定個数分選択する方法を用いることができる。
なお、変化量の大きな領域の数が多い場合には、ピクチャ全体だけでも十分識別できる場合が多い。このようなときには、領域単位の特徴量を求めないようにしてもよい。例えば、変化量が小さい領域の数が一定の閾値以下の場合には、領域単位の特徴量は求めないようにする。すなわち、変化領域情報としては何も出力しないか、あるいは、特徴量抽出の対象となる領域がないことを示す情報を含むようにする。
求まった変化領域情報は、領域毎特徴量抽出手段110へ出力される。領域毎特徴量抽出手段110では、時間軸方向変化領域抽出手段から出力される変化領域情報で指定される領域に対して、領域毎の特徴量を抽出する。この特徴量としては、ピクチャ全体に対して算出したものと同様のものを用いることができる。すなわち、図13で示したように、ピクチャ内の任意の2領域をペアとして予め定めておき、ペアとなった2領域間での特徴量の差を特徴量ベクトルとする。この際の領域ペアのとり方や、領域内での代表値の算出法は、ピクチャに対する場合と同様であってもよいし、異なってもよい。また、領域ごとに特徴量の算出方法を変えてもよい。
このようにして、時間的変化に乏しいシーンであっても、時間軸方向に精度よく映像区間を識別可能な特徴量を構築できる。
以上、上記各実施形態を参照して本発明を説明したが、本発明は、上述した実施形態に限定されるものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解しうる様々な変更をすることができる。
なお、本発明は、日本国にて2009年1月23日に特許出願された特願2009−12815の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。
本発明によれば、類似あるいは同一の映像を多くの映像中から高精度に検索するといった用途に適用できる。特に、映像の同一区間検索については、ネットワーク上に流通する違法にコピーされた動画像を識別する用途や、実際の放送波で流されているCMを同定するといった用途に用いることができる。
100…時間軸方向変化領域抽出手段
110…領域毎特徴量抽出手段
120、620…多重化手段
130、630…ピクチャ毎特徴量抽出手段
200、210、700、710…多重分離手段
220、720…ピクチャ照合手段
230…領域照合手段
240…照合結果判定手段
400…ピクチャ間差分算出手段
410…変化領域抽出手段
500…動き情報算出手段
510…変化領域抽出手段
610…照合加重情報抽出手段
730…加重係数算出手段

Claims (27)

  1. 入力される映像から、フレームまたはフィールドであるピクチャ毎の特徴量をピクチャ毎視覚特徴量として抽出するピクチャ毎特徴量抽出手段と、
    前記映像から、ピクチャ内の予め定められた領域に対して、時間方向の画像変化を解析し、画像変化が大きい領域を求めてその領域を指定する情報である変化領域情報を生成する時間軸方向変化領域抽出手段と、
    前記変化領域情報に対応する領域の特徴量を、前記映像から領域毎視覚特徴量として抽出する領域毎特徴量抽出手段と、
    前記ピクチャ毎視覚特徴量と前記領域毎視覚特徴量と前記変化領域情報とを多重化して映像識別子を生成する多重化手段と
    を有することを特徴とする映像識別子抽出装置。
  2. 前記時間軸方向変化領域抽出手段は、変化領域情報を算出するピクチャとその前後のピクチャとの間でピクチャ間画素値差分を算出し、前記ピクチャ間画素値差分に基づいて、前記変化領域情報を算出する
    ことを特徴とする請求項1に記載の映像識別子抽出装置。
  3. 前記時間軸方向変化領域抽出手段は、変化領域情報を算出するピクチャとその前または後のピクチャとの間で動き推定処理を行い、推定された動きの大きさの度合いに基づいて、前記変化領域情報を算出する
    ことを特徴とする請求項1に記載の映像識別子抽出装置。
  4. 前記ピクチャ毎特徴量抽出手段は、前記映像に基づいて、特徴量の各次元に対応付けられた領域から複数次元の特徴量を抽出し、
    さらに、前記映像の各ピクチャに対して、特徴量の各次元に対応付けられた前記領域内において時間方向の画像変化を解析し、画像変化の度合いに応じた重みを記述する情報である照合加重情報を出力する照合加重情報抽出手段を有し、
    前記多重化手段は、さらに、前記照合加重情報をも多重化して映像識別子を生成する
    ことを特徴とする請求項1乃至3の何れか1項に記載の映像識別子抽出装置。
  5. 前記照合加重情報は、画像変化が大きい次元ほど大きくなる重みを記述するものである
    ことを特徴とする請求項4記載の映像識別子抽出装置。
  6. 前記照合加重情報抽出手段は、照合加重情報を算出するピクチャとその前後のピクチャとの間でピクチャ間画素値差分を算出し、前記ピクチャ間画素値差分に基づいて、特徴量の各次元に対応する前記照合加重情報を算出する
    ことを特徴とする請求項4または5に記載の映像識別子抽出装置。
  7. 前記照合加重情報抽出手段は、照合加重情報を算出するピクチャとその前または後のピクチャとの間で動き推定処理を行い、推定された動きの大きさの度合いに基づいて、特徴量の各次元に対応する前記照合加重情報を算出する
    ことを特徴とする請求項4または5に記載の映像識別子抽出装置。
  8. 前記時間軸方向変化領域抽出手段は、画像変化が大きい方から一定個数の領域を求める
    ことを特徴とする請求項1乃至7の何れか1項に記載の映像識別子抽出装置。
  9. 前記時間軸方向変化領域抽出手段は、画像変化が閾値以上の領域を求める
    ことを特徴とする請求項1乃至7の何れか1項に記載の映像識別子抽出装置。
  10. 前記変化領域情報で指定される領域は、ピクチャを分割することにより得られるブロックである
    ことを特徴とする請求項1乃至9の何れか1項に記載の映像識別子抽出装置。
  11. 前記ピクチャ毎視覚特徴量の各次元は、その次元に対して予め定められている、ピクチャ内の形状が異なる任意の2領域の特徴量の差分に応じた値である
    ことを特徴とする請求項1乃至10の何れか1項に記載の映像識別子抽出装置。
  12. ピクチャの特徴を表す第1のピクチャ毎視覚特徴量と、前記ピクチャの領域の内の時間方向の画像変化が大きい領域を示す第1の変化領域情報と、前記第1の変化領域情報に対応する領域の特徴を示す第1の領域毎視覚特徴量とを含んだ第1の映像識別子から、前記第1のピクチャ毎視覚特徴量と前記第1の領域毎視覚特徴量と前記第1の変化領域情報とを分離する第1の多重分離手段と、
    ピクチャの特徴を表す第2のピクチャ毎視覚特徴量と、前記ピクチャの領域の内の時間方向の画像変化が大きい領域を示す第2の変化領域情報と、前記第2の変化領域情報に対応する領域の特徴を示す第2の領域毎視覚特徴量とを含んだ第2の映像識別子から、前記第2のピクチャ毎視覚特徴量と前記第2の領域毎視覚特徴量と前記第2の変化領域情報とを分離する第2の多重分離手段と、
    前記第1のピクチャ毎視覚特徴量と、前記第2のピクチャ毎視覚特徴量とを比較し、ピクチャ照合結果を生成するとともに、ピクチャ照合結果では時間方向の照合が十分ではないと判定されるときに領域照合実行情報を出力するピクチャ照合手段と、
    前記領域照合実行情報が出力されたときに、前記第1の変化領域情報と第2の変化領域情報とを比較し、画面上の位置が同じである領域を指定する情報が含まれている場合には、前記第1の領域毎視覚特徴量と、前記第2の領域毎視覚特徴量の中で、該領域に対応する領域毎視覚特徴量同士を比較して領域照合結果を生成する領域照合手段と、
    前記ピクチャ照合結果と前記領域照合結果とから、同一映像区間を特定する照合結果判定手段と
    を有することを特徴とする映像識別子照合装置。
  13. 前記第1の映像識別子は、さらに、前記第1のピクチャ毎視覚特徴量の次元毎の照合加重情報であって、前記次元に対応する、前記ピクチャ中の領域の画像変化に応じた重みを記述する第1の照合加重情報を含み、
    前記第2の映像識別子は、さらに、前記第2のピクチャ毎視覚特徴量の次元毎の照合加重情報であって、前記次元に対応する、前記ピクチャ中の領域の画像変化に応じた重みを記述する第2の照合加重情報を含み、
    前記第1の多重分離手段は、さらに、前記第1の照合加重情報をも分離し、
    前記第2の多重分離手段は、さらに、前記第2の照合加重情報をも分離し、
    さらに、前記第1の照合加重情報と、前記第2の照合加重情報とから、特徴量の各次元に対応する加重係数を算出する加重係数算出手段を有し、
    前記ピクチャ照合手段は、前記加重係数を用いて次元ごとに重み付けし、前記第1のピクチャ毎視覚特徴量と前記第2のピクチャ毎視覚特徴量とを照合する
    ことを特徴とする請求項12に記載の映像識別子照合装置。
  14. 入力される映像から、フレームまたはフィールドであるピクチャ毎の特徴量をピクチャ毎視覚特徴量として抽出し、
    前記映像から、ピクチャ内の予め定められた領域に対して、時間方向の画像変化を解析し、画像変化が大きい領域を求めてその領域を指定する情報である変化領域情報を生成し、
    前記変化領域情報に対応する領域の特徴量を、前記映像から領域毎視覚特徴量として抽出し、
    前記ピクチャ毎視覚特徴量と前記領域毎視覚特徴量と前記変化領域情報とを多重化して映像識別子を生成する
    ことを特徴とする映像識別子抽出方法。
  15. 前記変化領域情報の生成では、変化領域情報を算出するピクチャとその前後のピクチャとの間でピクチャ間画素値差分を算出し、前記ピクチャ間画素値差分に基づいて、前記変化領域情報を算出する
    ことを特徴とする請求項14に記載の映像識別子抽出方法。
  16. 前記変化領域情報の生成では、変化領域情報を算出するピクチャとその前または後のピクチャとの間で動き推定処理を行い、推定された動きの大きさの度合いに基づいて、前記変化領域情報を算出する
    ことを特徴とする請求項14に記載の映像識別子抽出方法。
  17. 前記ピクチャ毎視覚特徴量の抽出では、前記映像に基づいて、特徴量の各次元に対応付けられた領域から複数次元の特徴量を抽出し、
    さらに、前記映像の各ピクチャに対して、特徴量の各次元に対応付けられた前記領域内において時間方向の画像変化を解析し、画像変化の度合いに応じた重みを記述する情報である照合加重情報を算出し、
    前記映像識別子の生成では、さらに、前記照合加重情報をも多重化して映像識別子を生成する
    ことを特徴とする請求項14乃至16の何れか1項に記載の映像識別子抽出方法。
  18. 前記照合加重情報は、画像変化が大きい次元ほど大きくなる重みを記述するものである
    ことを特徴とする請求項17記載の映像識別子抽出方法。
  19. 前記照合加重情報の算出では、照合加重情報を算出するピクチャとその前後のピクチャとの間でピクチャ間画素値差分を算出し、前記ピクチャ間画素値差分に基づいて、特徴量の各次元に対応する前記照合加重情報を算出する
    ことを特徴とする請求項17または18に記載の映像識別子抽出方法。
  20. 前記照合加重情報の算出では、照合加重情報を算出するピクチャとその前または後のピクチャとの間で動き推定処理を行い、推定された動きの大きさの度合いに基づいて、特徴量の各次元に対応する前記照合加重情報を算出する
    ことを特徴とする請求項17または18に記載の映像識別子抽出方法。
  21. 前記変化領域情報の生成では、画像変化が大きい方から一定個数の領域を求める
    ことを特徴とする請求項14乃至20の何れか1項に記載の映像識別子抽出方法。
  22. 前記変化領域情報の生成では、画像変化が閾値以上の領域を求める
    ことを特徴とする請求項14乃至20の何れか1項に記載の映像識別子抽出方法。
  23. 前記変化領域情報で指定される領域は、ピクチャを分割することにより得られるブロックである
    ことを特徴とする請求項14乃至22の何れか1項に記載の映像識別子抽出方法。
  24. 前記ピクチャ毎視覚特徴量の各次元は、その次元に対して予め定められている、ピクチャ内の形状が異なる任意の2領域の特徴量の差分に応じた値である
    ことを特徴とする請求項14乃至23の何れか1項に記載の映像識別子抽出方法。
  25. ピクチャの特徴を表す第1のピクチャ毎視覚特徴量と、前記ピクチャの領域の内の時間方向の画像変化が大きい領域を示す第1の変化領域情報と、前記第1の変化領域情報に対応する領域の特徴を示す第1の領域毎視覚特徴量とを含んだ第1の映像識別子から、前記第1のピクチャ毎視覚特徴量と前記第1の領域毎視覚特徴量と前記第1の変化領域情報とを分離し、
    ピクチャの特徴を表す第2のピクチャ毎視覚特徴量と、前記ピクチャの領域の内の時間方向の画像変化が大きい領域を示す第2の変化領域情報と、前記第2の変化領域情報に対応する領域の特徴を示す第2の領域毎視覚特徴量とを含んだ第2の映像識別子から、前記第2のピクチャ毎視覚特徴量と前記第2の領域毎視覚特徴量と前記第2の変化領域情報とを分離し、
    前記第1のピクチャ毎視覚特徴量と、前記第2のピクチャ毎視覚特徴量とを比較し、ピクチャ照合結果を生成するとともに、ピクチャ照合結果では時間方向の照合が十分ではないと判定されるときに領域照合実行情報を出力し、
    前記領域照合実行情報が出力されたときに、前記第1の変化領域情報と第2の変化領域情報とを比較し、画面上の位置が同じである領域を指定する情報が含まれている場合には、前記第1の領域毎視覚特徴量と、前記第2の領域毎視覚特徴量の中で、該領域に対応する領域毎視覚特徴量同士を比較して領域照合結果を生成し、
    前記ピクチャ照合結果と前記領域照合結果とから、同一映像区間を特定する
    ことを特徴とする映像識別子照合方法。
  26. 前記第1の映像識別子は、さらに、前記第1のピクチャ毎視覚特徴量の次元毎の照合加重情報であって、前記次元に対応する、前記ピクチャ中の領域の画像変化に応じた重みを記述する第1の照合加重情報を含み、
    前記第2の映像識別子は、さらに、前記第2のピクチャ毎視覚特徴量の次元毎の照合加重情報であって、前記次元に対応する、前記ピクチャ中の領域の画像変化に応じた重みを記述する第2の照合加重情報を含み、
    前記第1の映像識別子からの分離では、さらに、前記第1の照合加重情報をも分離し、
    前記第2の映像識別子からの分離では、さらに、前記第2の照合加重情報をも分離し、
    さらに、前記第1の照合加重情報と、前記第2の照合加重情報とから、特徴量の各次元に対応する加重係数を算出し、
    前記ピクチャ照合結果の生成では、前記加重係数を用いて次元ごとに重み付けし、前記第1のピクチャ毎視覚特徴量と前記第2のピクチャ毎視覚特徴量とを照合する
    ことを特徴とする請求項25に記載の映像識別子照合方法。
  27. コンピュータを、
    入力される映像から、フレームまたはフィールドであるピクチャ毎の特徴量をピクチャ毎視覚特徴量として抽出するピクチャ毎特徴量抽出手段と、
    前記映像から、ピクチャ内の予め定められた領域に対して、時間方向の画像変化を解析し、画像変化が大きい領域を求めてその領域を指定する情報である変化領域情報を生成する時間軸方向変化領域抽出手段と、
    前記変化領域情報に対応する領域の特徴量を、前記映像から領域毎視覚特徴量として抽出する領域毎特徴量抽出手段と、
    前記ピクチャ毎視覚特徴量と前記領域毎視覚特徴量と前記変化領域情報とを多重化して映像識別子を生成する多重化手段と
    して機能させることを特徴とするプログラム。
JP2010547434A 2009-01-23 2010-01-20 映像識別子抽出装置 Active JP4725690B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010547434A JP4725690B2 (ja) 2009-01-23 2010-01-20 映像識別子抽出装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009012815 2009-01-23
JP2009012815 2009-01-23
PCT/JP2010/000278 WO2010084739A1 (ja) 2009-01-23 2010-01-20 映像識別子抽出装置
JP2010547434A JP4725690B2 (ja) 2009-01-23 2010-01-20 映像識別子抽出装置

Publications (2)

Publication Number Publication Date
JP4725690B2 true JP4725690B2 (ja) 2011-07-13
JPWO2010084739A1 JPWO2010084739A1 (ja) 2012-07-12

Family

ID=42355797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010547434A Active JP4725690B2 (ja) 2009-01-23 2010-01-20 映像識別子抽出装置

Country Status (6)

Country Link
US (2) US8335251B2 (ja)
EP (1) EP2337345B1 (ja)
JP (1) JP4725690B2 (ja)
KR (1) KR101369915B1 (ja)
CN (1) CN102292726B (ja)
WO (1) WO2010084739A1 (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2492247B (en) 2008-03-03 2013-04-10 Videoiq Inc Dynamic object classification
JP5644505B2 (ja) * 2009-01-23 2014-12-24 日本電気株式会社 照合加重情報抽出装置
US10375451B2 (en) 2009-05-29 2019-08-06 Inscape Data, Inc. Detection of common media segments
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US8769584B2 (en) 2009-05-29 2014-07-01 TVI Interactive Systems, Inc. Methods for displaying contextually targeted content on a connected television
US9094715B2 (en) 2009-05-29 2015-07-28 Cognitive Networks, Inc. Systems and methods for multi-broadcast differentiation
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US10192138B2 (en) 2010-05-27 2019-01-29 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
US9838753B2 (en) 2013-12-23 2017-12-05 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
JP6153087B2 (ja) * 2011-12-16 2017-06-28 日本電気株式会社 情報処理システム、情報処理方法、情報処理装置およびその制御方法と制御プログラム、通信端末およびその制御方法と制御プログラム
KR101973464B1 (ko) * 2012-12-07 2019-04-29 엘지전자 주식회사 이동단말기 및 그 제어방법
CN103312770B (zh) * 2013-04-19 2017-05-03 无锡成电科大科技发展有限公司 一种云平台资源审核的方法
JP6281126B2 (ja) 2013-07-26 2018-02-21 パナソニックIpマネジメント株式会社 映像受信装置、付加情報表示方法および付加情報表示システム
JP6194484B2 (ja) 2013-07-30 2017-09-13 パナソニックIpマネジメント株式会社 映像受信装置、付加情報表示方法および付加情報表示システム
EP3043570B1 (en) 2013-09-04 2018-10-24 Panasonic Intellectual Property Management Co., Ltd. Video reception device, video recognition method, and additional information display system
WO2015033501A1 (ja) 2013-09-04 2015-03-12 パナソニックIpマネジメント株式会社 映像受信装置、映像認識方法および付加情報表示システム
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
EP3125567B1 (en) 2014-03-26 2019-09-04 Panasonic Intellectual Property Management Co., Ltd. Video receiving device, video recognition method, and supplementary information display system
WO2015145492A1 (ja) 2014-03-26 2015-10-01 パナソニックIpマネジメント株式会社 映像受信装置、映像認識方法および付加情報表示システム
CN106233747B (zh) * 2014-07-17 2019-07-09 松下知识产权经营株式会社 辨识数据生成装置及方法、图像辨识装置以及记录介质
CN106233746B (zh) * 2014-08-21 2019-07-09 松下知识产权经营株式会社 内容辨识装置、内容辨识方法以及记录介质
WO2016123495A1 (en) 2015-01-30 2016-08-04 Vizio Inscape Technologies, Llc Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
EP3284017B1 (en) 2015-04-17 2024-03-27 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
US10080062B2 (en) * 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
MX388673B (es) 2015-07-16 2025-03-20 Inscape Data Inc Sistemas y metodos para dividir indices de busqueda para una mayor eficiencia en la identificacion de segmentos de medios.
EP3323054A1 (en) 2015-07-16 2018-05-23 Inscape Data, Inc. Prediction of future views of video segments to optimize system resource utilization
WO2017011770A1 (en) 2015-07-16 2017-01-19 Vizio Inscape Technologies, Llc System and method for improving work load management in acr television monitoring system
CA2992319C (en) 2015-07-16 2023-11-21 Inscape Data, Inc. Detection of common media segments
JP6116765B1 (ja) * 2015-12-02 2017-04-19 三菱電機株式会社 物体検出装置及び物体検出方法
CN105812619A (zh) * 2016-03-18 2016-07-27 常州大学 针对摄像机抖动的运动目标跟踪方法
CN110546932B (zh) 2017-04-06 2022-06-10 构造数据有限责任公司 使用媒体查看数据提高设备映射图准确度的系统和方法
US10922551B2 (en) * 2017-10-06 2021-02-16 The Nielsen Company (Us), Llc Scene frame matching for automatic content recognition
JP6907888B2 (ja) * 2017-10-30 2021-07-21 富士通株式会社 情報処理システム、情報処理装置および情報処理プログラム
CN108460335B (zh) * 2018-01-26 2022-05-27 百度在线网络技术(北京)有限公司 视频细粒度识别方法、装置、计算机设备及存储介质
WO2019189210A1 (ja) * 2018-03-30 2019-10-03 株式会社ニコン 動画圧縮装置、伸張装置、電子機器、動画圧縮プログラム、および伸張プログラム
CN110191352A (zh) * 2019-05-29 2019-08-30 哈尔滨工业大学 一种面向视频内容智能处理的综合展示系统
US20240214216A1 (en) * 2021-05-25 2024-06-27 Sony Group Corporation Information processing apparatus and method, and program
CN113627534A (zh) * 2021-08-11 2021-11-09 百度在线网络技术(北京)有限公司 识别动态图像的类型的方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194727A (ja) * 1998-10-23 2000-07-14 Telecommunication Advancement Organization Of Japan 動画像検索装置、動画像検索方法、及び動画像検索プログラムを記録した記録媒体
JP2006054802A (ja) * 2004-08-16 2006-02-23 Kddi Corp 動き予測情報検出装置
JP2008040682A (ja) * 2006-08-03 2008-02-21 Matsushita Electric Works Ltd 異常監視装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5592228A (en) * 1993-03-04 1997-01-07 Kabushiki Kaisha Toshiba Video encoder using global motion estimation and polygonal patch motion estimation
WO1999045713A1 (en) * 1998-03-05 1999-09-10 Matsushita Electric Industrial Co., Ltd. Image coding method, image coding / decoding method, image coder, or image recording/reproducing apparatus
JP3657769B2 (ja) * 1998-03-19 2005-06-08 富士写真フイルム株式会社 画像処理方法および画像処理装置
US6792043B1 (en) 1998-10-23 2004-09-14 Telecommunications Advancement Organization Of Japan Method, apparatus and program products for retrieving moving image
DE60036288T2 (de) * 1999-06-30 2008-05-29 Sharp K.K. Dynamisches bildsuch-informations-aufzeichnungsgerät und dynamische bildsuchvorrichtung
JP2002117407A (ja) 2000-10-10 2002-04-19 Satake Corp 動画像検索方法及びその装置
JP3886784B2 (ja) 2001-11-21 2007-02-28 株式会社東芝 動画像内の物体識別装置及び方法
JP3951707B2 (ja) 2001-12-28 2007-08-01 日本電気株式会社 類似性判定方法および装置
JP4174279B2 (ja) 2002-09-19 2008-10-29 日本放送協会 映像オブジェクト識別・追跡装置、その方法及びそのプログラム
US8009861B2 (en) 2006-04-28 2011-08-30 Vobile, Inc. Method and system for fingerprinting digital video object based on multiresolution, multirate spatial and temporal signatures
JP4990051B2 (ja) 2007-07-05 2012-08-01 株式会社美幸軒 シート状トレー自動供給装置およびこれを用いた弁当箱への盛り付けラインシステム
CN101340551A (zh) * 2007-07-05 2009-01-07 韩庆军 一种多媒体数字签名的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194727A (ja) * 1998-10-23 2000-07-14 Telecommunication Advancement Organization Of Japan 動画像検索装置、動画像検索方法、及び動画像検索プログラムを記録した記録媒体
JP2006054802A (ja) * 2004-08-16 2006-02-23 Kddi Corp 動き予測情報検出装置
JP2008040682A (ja) * 2006-08-03 2008-02-21 Matsushita Electric Works Ltd 異常監視装置

Also Published As

Publication number Publication date
US20130070847A1 (en) 2013-03-21
US9118889B2 (en) 2015-08-25
KR20110103415A (ko) 2011-09-20
US8335251B2 (en) 2012-12-18
EP2337345B1 (en) 2014-01-08
EP2337345A4 (en) 2011-08-31
EP2337345A1 (en) 2011-06-22
KR101369915B1 (ko) 2014-03-06
WO2010084739A1 (ja) 2010-07-29
CN102292726B (zh) 2014-10-22
JPWO2010084739A1 (ja) 2012-07-12
CN102292726A (zh) 2011-12-21
US20110129017A1 (en) 2011-06-02

Similar Documents

Publication Publication Date Title
JP4725690B2 (ja) 映像識別子抽出装置
JP5573131B2 (ja) 映像識別子抽出装置および方法、映像識別子照合装置および方法、ならびにプログラム
WO2014022254A2 (en) Identifying key frames using group sparsity analysis
US8345742B2 (en) Method of processing moving picture and apparatus thereof
KR101968921B1 (ko) 강건한 낮은 복잡도 비디오 핑거프린팅을 위한 장치 및 방법
JP2011108262A (ja) 少なくとも1つの画像及び画像群を表現する方法、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体
JP4907938B2 (ja) 少なくとも1つの画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体
US20120237126A1 (en) Apparatus and method for determining characteristic of motion picture
JP5644505B2 (ja) 照合加重情報抽出装置
KR101281850B1 (ko) 영상 디스크립터 생성 장치
US7840081B2 (en) Methods of representing and analysing images
Bekhet et al. Video Matching Using DC-image and Local
EP2325801A2 (en) Methods of representing and analysing images
Mezaris et al. Compressed-domain object detection for video understanding
Ren et al. Knowledge-supported segmentation and semantic contents extraction from MPEG videos for highlight-based annotation, indexing and retrieval
Lee et al. Fast Search Method for Large Video Database Using Histogram Features and Temporal Division

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20110303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110328

R150 Certificate of patent or registration of utility model

Ref document number: 4725690

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140422

Year of fee payment: 3