[go: up one dir, main page]

JPH07192003A - Moving image retrieval apparatus and method - Google Patents

Moving image retrieval apparatus and method

Info

Publication number
JPH07192003A
JPH07192003A JP5330507A JP33050793A JPH07192003A JP H07192003 A JPH07192003 A JP H07192003A JP 5330507 A JP5330507 A JP 5330507A JP 33050793 A JP33050793 A JP 33050793A JP H07192003 A JPH07192003 A JP H07192003A
Authority
JP
Japan
Prior art keywords
image
frame
moving image
subtitle
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5330507A
Other languages
Japanese (ja)
Other versions
JP3361587B2 (en
Inventor
Akio Nagasaka
晃朗 長坂
Hirotada Ueda
博唯 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP33050793A priority Critical patent/JP3361587B2/en
Publication of JPH07192003A publication Critical patent/JPH07192003A/en
Application granted granted Critical
Publication of JP3361587B2 publication Critical patent/JP3361587B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Circuits (AREA)

Abstract

(57)【要約】 【目的】 動画像中から字幕の現われている画像を抽出
して一覧表示し、ユーザが簡単に所望のシーンを探しだ
せるようにする。 【構成】 デジタル画像として取り込んだフレーム画像
について輝度判定部1800、及びフレーム照合部1804によ
って、一連のフレーム画像において同じ位置に現われて
いる高輝度画素の存在するフレーム画像を検出する。 【効果】 字幕が現れているシーンだけが選別されて一
覧表示され、また字幕の情報を一覧表示に反映させるこ
とにより,ユーザはその中から所望のシーンを素早く探
しだすことができる。
(57) [Abstract] [Purpose] To extract the images with subtitles from the moving images and display them in a list so that the user can easily find the desired scene. [Structure] With respect to a frame image captured as a digital image, a luminance determining unit 1800 and a frame collating unit 1804 detect a frame image in which a high-luminance pixel appears at the same position in a series of frame images. [Effect] Only scenes in which subtitles appear are selected and displayed in a list, and the information of subtitles is reflected in the list display, so that the user can quickly find a desired scene among them.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、動画像中の字幕の現わ
れているシーンを検出し、そのシーンの代表画像を重要
度の高い画像として一覧表示することにより所望のシー
ンの検索を行う動画像検索装置及び方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention detects a scene in which a caption appears in a moving image and displays a representative image of the scene as a highly important image in a list to search for a desired scene. The present invention relates to an image search device and method.

【0002】[0002]

【従来の技術】近年,計算機の高速化と大容量化を背景
にして,従来は扱えなかった映画やビデオなどの動画像
情報を対象としたデータベースの構築が活発になってい
る。これに伴い,蓄積された大量の動画像の中から、所
望のシーンを効率良く選び出す検索技術の実用化が進め
られている。動画像の検索には大きく分けて2つのアプ
ローチがある。 (1) 動画像に予めシーンの特徴を記述したインデックス
やキーワードを付与し、ユーザが検索時に言葉や条件式
などで所望のシーンの特徴を指示し,計算機がそれに合
致したシーンを見つけ出す方法。 (2) 映像の概要を示すために動画像を何等かの基準で抽
出しそれらを直接ユーザに提示することで、ユーザが自
分の目で確認しながら所望のシーンを見つけ出す方法。
2. Description of the Related Art In recent years, against the backdrop of high-speed and large-capacity computers, the construction of databases for moving image information such as movies and videos, which cannot be handled in the past, has become active. Along with this, a search technique for efficiently selecting a desired scene from a large amount of accumulated moving images is being put into practical use. There are two main approaches to moving image retrieval. (1) A method in which an index or keyword that describes the characteristics of a scene is added to a moving image in advance, the user specifies the desired characteristics of the scene with words or conditional expressions when searching, and the computer finds a scene that matches the characteristics. (2) A method of extracting a moving image according to some standard to show an outline of the video and presenting them directly to the user, so that the user can find out a desired scene while checking with his / her own eyes.

【0003】(1)の方法は,見たいシーンについて曖昧
な記憶や情報しか持ち合わせていない一般ユーザにとっ
ては適切な条件設定が困難で自由な検索が妨げられると
いう問題がある。(2)の方法であれば,提示された映像
の概要を見ながら,所望のシーンかどうかを識別するだ
けでよいので,初心者にも簡単に検索を行うことができ
る。しかしながら,検索を効率良く行うためにはこうし
た概要のために抽出される画像の数は十分小さくなけれ
ばならず,膨大な動画像情報の中から重要な部分だけを
上手に選びだして概要を作成する必要がある。この概要
の作成は莫大な時間と労力を消費するため、手作業は実
用的ではない。自動的に動画像の中から代表画像を抽出
する一方法が情報処理学会論文誌 Vol.33, No.4, "カラ
ービデオ映像における自動索引付け法と物体探索法"に
示されている。この方法は動画像をシーンごとに自動的
に分割して,各シーン中の一枚の画像あるいは部分的な
動画像を縮小して一覧表示することで検索の手掛かりと
するものである。しかしこの方法においては,シーンの
重要な部分がその一覧中に含まれないことが起こりうる
一方、そもそもシーン自体が重要でない場合にも一覧に
登録されてしまうという問題がある。
The method (1) has a problem that it is difficult for a general user who has only ambiguous memory and information about a desired scene to set appropriate conditions, which hinders free search. With the method (2), it is only necessary to identify whether or not the scene is a desired scene while looking at the outline of the presented video, so that even a beginner can easily perform a search. However, the number of images extracted for such an outline must be sufficiently small in order to perform the search efficiently, and only the important part is properly selected from the huge amount of moving image information to create the outline. There is a need to. Manual work is not practical as creating this summary is time consuming and labor intensive. A method of automatically extracting a representative image from a moving image is shown in IPSJ Journal Vol.33, No.4, "Automatic Indexing Method and Object Search Method in Color Video Images". In this method, a moving image is automatically divided for each scene, and one image or a partial moving image in each scene is reduced and displayed as a list, which serves as a search clue. However, in this method, there is a possibility that an important part of a scene is not included in the list, but there is a problem in that even if the scene itself is not important, it is registered in the list.

【0004】上述の問題を解決するためには,一覧とし
て表示する画像の重要度を何らかの尺度で測り,重要度
の高いものを選ぶ必要がある。しかも,実用的であるた
めには、この作業は計算機によって自動で行えるか,あ
るいは人間の作業が最小限になるよう計算機による支援
により行えるものである必要がある。特定のシーンを自
動的に検出する方法として、字幕が現れているシーンを
検出する方法がある。このような方法として、第44回情
報処理学会全国大会予稿集,2-301, "大相撲対戦からの
認識に基づく内容識別法"に記載のものがある。
In order to solve the above problems, it is necessary to measure the importance of images displayed as a list by some scale and select the one with high importance. Moreover, in order to be practical, it is necessary that this work can be automatically performed by a computer or can be performed by a computer so as to minimize human work. As a method of automatically detecting a specific scene, there is a method of detecting a scene in which subtitles appear. One such method is described in Proceedings of the 44th Annual Conference of the Information Processing Society of Japan, 2-301, "Content Discrimination Method Based on Recognition from Grand Sumo Match".

【0005】[0005]

【発明が解決しようとする課題】この"大相撲対戦から
の認識に基づく内容識別法"に記載の字幕検出方法は,
相撲中継の対戦字幕など定まった表示形態をした特定字
幕を検出するものである。例えば、対戦字幕であれば、
白色の字幕(力士名)が画面の左半分と右半分のそれぞ
れ中央に大きく提示されることに着目し、画像を白色に
対して二値化して、その白色の画素の分布状況を検出す
ることにより実行される。従って、特定の番組の,しか
も,特定の表示形態をした字幕部分を検出することしか
できないという本質的な問題がある。そのため,この方
法をそのまま適用しても、別の番組はもとより同じ番組
でも表示形態の異なる字幕は検出できないため,一般の
映像について概要情報を作成することはできない。
[Problems to be Solved by the Invention] The caption detection method described in the "content identification method based on recognition from the sumo wrestling match" is as follows.
It detects specific subtitles that have a fixed display format, such as match-up subtitles of sumo broadcasting. For example, in the case of match subtitles,
Focusing on the fact that white subtitles (Rikishi name) are presented in the center of the left half and right half of the screen respectively, binarize the image with respect to white, and detect the distribution status of the white pixels. Executed by. Therefore, there is an essential problem that it is only possible to detect a subtitle portion of a specific program and having a specific display form. Therefore, even if this method is applied as it is, subtitles having different display forms cannot be detected not only in another program but also in the same program, and therefore general information cannot be created for a general video.

【0006】本発明の目的は,動画像中に現われる様々
な形態の字幕を検出し、字幕の現れているシーンの代表
画像を動画像中から自動的に選び出すことによって的確
な映像の概要を作成し,また、ユーザが簡単に所望のシ
ーンを探しだし、有効に活用するべく、そのようにして
抽出された代表画像を各種の字幕の特徴を利用して提示
する動画像検索装置および方法を提供することである。
An object of the present invention is to detect a variety of captions appearing in a moving image and automatically select a representative image of a scene in which the caption appears from the moving image to create an accurate video outline. In addition, in order to allow a user to easily find a desired scene and effectively utilize it, a moving image search device and method for presenting a representative image extracted in this way by using various subtitle characteristics are provided. It is to be.

【0007】[0007]

【課題を解決するための手段】動画像として取り込んだ
デジタル画像データについて、フレーム画像ごとに第一
の閾値以上の輝度を有する画素を抽出する輝度判定手段
と、その抽出された画素について、一連のフレーム画像
について同位置に現われる画素を有するフレーム画像を
抽出するフレーム照合手段を設け、抽出されたフレーム
画像を上記代表画像として出力する。
With respect to digital image data captured as a moving image, a brightness determining means for extracting a pixel having a brightness equal to or higher than a first threshold value for each frame image, and a series of the extracted pixels A frame collating means for extracting a frame image having pixels appearing at the same position with respect to the frame image is provided, and the extracted frame image is output as the representative image.

【0008】更に、輝度判定手段により抽出された画素
について、近傍がその輝度と比較して輝度の差が第二の
閾値以上である画素を抽出する輝度差判定手段と、フレ
ーム照合手段により抽出されたフレーム画像について同
位置に現われる画素が密に存在する領域を字幕の現われ
ている領域として抽出する字幕領域抽出手段を設ける。
Further, with respect to the pixels extracted by the brightness determining means, the brightness difference determining means for extracting the pixels whose brightness difference in the vicinity is greater than or equal to the second threshold value by the brightness comparing means, and the frame comparing means. A subtitle area extracting means is provided for extracting an area in which pixels appearing at the same position densely in the frame image as an area where subtitles appear.

【0009】また、検出された字幕領域の情報を使っ
て、得られた代表画像を動画像表示手段に提示する。特
に、ユーザに対してわかりやすく提示するために、字幕
の表示形態による分類に基づいて代表画像を提示する。
あるいは、字幕の存在時間によって字幕の上位・下位を
判定し代表画像を階層化して提示する。さらに、字幕の
文字認識を行い、同一文字列の存在による分類に基づき
代表画像を提示する。または文字認識した結果を分類す
るための辞書とこれを参照する手段を設け、代表画像を
字幕の意味内容により分類して提示する。また,一度に
多くのシーンの画像を一覧表示しようとして,シーン画
像の1つ1つが小さくなって字幕が読みにくくなる場合
のために,字幕部分だけを拡大して表示する手段を設け
る。
Further, the obtained representative image is presented to the moving image display means by using the information of the detected subtitle area. In particular, in order to present it to the user in an easy-to-understand manner, the representative image is presented based on the classification according to the display form of subtitles.
Alternatively, the upper and lower levels of the subtitles are determined according to the existence time of the subtitles and the representative image is hierarchically presented. Furthermore, character recognition of subtitles is performed, and a representative image is presented based on the classification based on the presence of the same character string. Alternatively, a dictionary for classifying the results of character recognition and a means for referring to the dictionary are provided, and the representative images are classified according to the meaning content of the captions and presented. Further, in order to display a list of images of many scenes at a time, and in the case where each of the scene images becomes small and the subtitles become difficult to read, a means for enlarging and displaying only the subtitle portion is provided.

【0010】[0010]

【作用】本発明によれば,字幕の表示形態に関わらず,
任意の形態をした字幕の現れているシーンだけを選別で
きる。輝度は、様々な形態についての字幕の有無の指標
として最も適切なものである。一般的に字幕は白で表わ
されることが多いが、ニュースの字幕等白色に限られな
いものも多い。輝度であれば、どのような形態の字幕で
あっても一元的な指標として判定することができる。
According to the present invention, regardless of the display form of subtitles,
Only scenes with subtitles in any form can be selected. Luminance is the most appropriate index for the presence or absence of captions for various forms. Generally, subtitles are often represented in white, but many subtitles such as news are not limited to white. As long as it has brightness, any form of subtitles can be determined as a unified index.

【0011】本発明では、字幕が輝度の高い画素で構成
されていることに注目し、輝度判定手段により高輝度画
素を抽出する。また、字幕が一定時間、一定位置に提示
されることから、輝度判定手段により抽出された画素に
ついてフレーム照合手段によりフレーム画像上に現われ
る位置を照合し、一定時間同じ位置に同じ画素が現われ
ているフレーム画像を抽出する。
In the present invention, attention is paid to the fact that the subtitle is composed of pixels having high brightness, and the brightness determining means extracts high brightness pixels. Further, since the caption is presented at a certain position for a certain period of time, the pixel extracted by the brightness determining unit is collated with the position appearing on the frame image by the frame collating unit, and the same pixel appears at the same position for a certain period of time. Extract the frame image.

【0012】更に、字幕を構成する文字は背景と接触す
る領域が大きいことから、輝度判定手段により抽出され
た画素について周辺画素との輝度差を判定する輝度差判
定手段を設けることにより、文字のエッジ部分を抽出す
る。この場合、フレームの照合は輝度差判定手段により
抽出された画素について行う。また、文字を構成する画
素は密に存在することから、字幕領域抽出手段を設け、
フレーム照合された画素について密に存在するかどうか
を判定する。
Further, since the character forming the subtitle has a large area in contact with the background, by providing a brightness difference determining means for determining the brightness difference between the pixel extracted by the brightness determining means and the surrounding pixels, Extract the edge part. In this case, frame matching is performed on the pixels extracted by the brightness difference determination means. Further, since the pixels forming the characters are densely present, a subtitle area extracting means is provided,
It is determined whether or not there are dense pixels for frame-matched pixels.

【0013】このようにして検出した字幕の現われてい
るフレーム画像を一覧にして提示することにより、ユー
ザは一覧の中から所望のシーンを素早く探しだすことが
できる。さらに字幕は映像内容に対応するものであるか
ら、このようにして検出した字幕情報を使って、単なる
代表画像の一覧表示にとどまらず、代表画像を各種の方
法で分類し、ある意味的まとまりをもたせて代表画像を
ユーザに提示することにより、動画像検索をわかりやす
く有効に活用するために資することができる。具体的に
は、字幕の種類で分類する手段を設けることによって、
探す範囲を絞り込むことができ、より素早く所望のシー
ンを探し出すことができる。また、字幕の上位・下位を
判定する手段を設けることによって、階層的な探索がで
きる。さらに、字幕を文字認識する手段を設けること
で、ユーザが直接提示した任意の文字列をキーとした検
索が可能になる。文字認識した結果を分類するための辞
書と、これを参照する手段を設けることによって、字幕
をその意味合いによって分類することができる。また,
字幕部分だけを拡大して表示する手段を設けることによ
って,一覧のシーン画像の1つ1つが小さいときでも,
文字がつぶれてユーザが読みにくくなることがない。
By presenting the frame images in which the subtitles detected in this way appear as a list, the user can quickly find a desired scene from the list. Furthermore, since subtitles correspond to the video content, using the subtitle information detected in this way, it is possible to sort representative images by various methods, rather than merely displaying a list of representative images, and to create a certain meaningful grouping. By presenting the representative image to the user, the moving image search can be used in an easy-to-understand manner and effectively. Specifically, by providing a means to classify by subtitle type,
The search range can be narrowed down, and a desired scene can be searched for more quickly. In addition, a hierarchical search can be performed by providing a means for determining the upper / lower order of subtitles. Further, by providing a means for recognizing the subtitles as characters, it is possible to perform a search using an arbitrary character string directly presented by the user as a key. By providing a dictionary for classifying the result of character recognition and a means for referring to the dictionary, subtitles can be classified according to their meaning. Also,
By providing a means for enlarging and displaying only the subtitle part, even when each of the scene images in the list is small,
Characters will not be crushed and will not be difficult for the user to read.

【0014】[0014]

【実施例】以下,本発明の一実施例を詳細に説明する。
図1は,本発明を実現するためのシステム構成の一例で
ある。1はCRT等のディスプレイ装置であり,コンピ
ュータ4の出力画面を表示する。コンピュータ4に対す
る命令は,ポインティングデバイス5を使って行うこと
ができる。10の動画像再生装置は,光ディスクやビデ
オデッキ等である。動画像再生装置から出力される映像
信号は,逐次,3のA/D変換器によってデジタル画像
データに変換され,コンピュータに送られる。コンピュ
ータ内部では,デジタル画像データは,インタフェース
8を介してメモリ9に入り,メモリ9に格納されたプロ
グラムに従って,CPU7によって処理される。10が
扱う動画像の各フレームには,動画像の先頭から順に番
号(フレーム番号)が付けられている。フレーム番号を
制御線2によって動画像再生装置に送ることで,当該場
面の動画像が再生される。処理の必要に応じて,各種情
報を外部情報記憶装置6に蓄積することができる。メモ
リ9には,以下に説明する処理によって作成される各種
のデータが格納され,必要に応じて参照される。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described in detail below.
FIG. 1 is an example of a system configuration for implementing the present invention. A display device 1 such as a CRT displays an output screen of the computer 4. Instructions to the computer 4 can be given using the pointing device 5. The moving image reproducing apparatus 10 is an optical disk, a video deck, or the like. The video signal output from the moving image reproducing apparatus is sequentially converted into digital image data by the A / D converter 3 and sent to the computer. Inside the computer, the digital image data enters the memory 9 via the interface 8 and is processed by the CPU 7 according to the program stored in the memory 9. Each frame of the moving image handled by 10 is numbered (frame number) in order from the beginning of the moving image. By sending the frame number to the moving picture reproducing apparatus via the control line 2, the moving picture of the scene is reproduced. Various types of information can be stored in the external information storage device 6 as needed for processing. The memory 9 stores various data created by the processing described below and is referred to when necessary.

【0015】図2a)は、CPU7によって実行される
処理をブロック図で示したものである。矢印は信号また
はデータの流れを示している。CPU7の処理動作は、
大きく5つの処理部分に分けられる。字幕検出処理部1
700は図1に示した動画像再生装置10からA/D変
換器3を通してデジタル画像として取り込まれ、メモリ
9及び外部情報記憶装置6に記憶された動画像情報を受
取り、字幕検出処理を実行する。その処理により得られ
る字幕の位置や大きさなどの情報、及び一覧として提示
される画像データは後述するデータ構造体の形式で記憶
される(1710,1712)。画像情報管理部170
2はそれらのデータの入出力を管理する。1706はユ
ーザ・インタフェース部であり、ユーザからの各種の指
示を受け付ける。ユーザ・インタフェース部1706か
ら画像情報管理部1702への矢印は、後述する字幕検
出修正処理の指示に対応するものである。また、映像の
概要である一連の代表画像の提示についての指示はユー
ザ・インタフェース部1706から画像提示処理部17
04に伝達される。画像提示処理部1704はその指示
に応じて画像情報管理部1702を通じて字幕属性情報
データ、画像データを受け取って解析し、一連の画像情
報をユーザからの指示に対応するフォーマットで画像表
示部1708に伝達する。画像表示部1708は、ディ
スプレイ装置1に伝達された画像を提示する。GUIを
使用すれば、ユーザ・インタフェース部1706への入
力と画像表示部1708からの出力は同じディスプレイ
装置1の画面上に実現することができる。
FIG. 2a) is a block diagram showing the processing executed by the CPU 7. Arrows indicate the flow of signals or data. The processing operation of the CPU 7 is
It is roughly divided into five processing parts. Subtitle detection processing unit 1
Reference numeral 700 is taken in as a digital image from the moving image reproducing apparatus 10 shown in FIG. 1 through the A / D converter 3, receives the moving image information stored in the memory 9 and the external information storage device 6, and executes the caption detection processing. . Information such as the position and size of subtitles obtained by the processing, and image data presented as a list are stored in a data structure format described later (1710, 1712). Image information management unit 170
2 manages the input / output of those data. A user interface unit 1706 receives various instructions from the user. An arrow from the user interface unit 1706 to the image information management unit 1702 corresponds to an instruction of a caption detection / correction process described later. Further, an instruction for presenting a series of representative images, which is an outline of video, is issued from the user interface unit 1706 to the image presentation processing unit 17.
04 is transmitted. The image presentation processing unit 1704 receives the subtitle attribute information data and the image data through the image information management unit 1702 according to the instruction, analyzes them, and transmits a series of image information to the image display unit 1708 in a format corresponding to the instruction from the user. To do. The image display unit 1708 presents the image transmitted to the display device 1. Using the GUI, the input to the user interface unit 1706 and the output from the image display unit 1708 can be realized on the screen of the same display device 1.

【0016】まず、字幕検出処理について説明する。本
実施例での方法は,動画像中のフレーム(動画像を構成
する最小単位の画像)を逐次調べ,字幕が現れているか
どうかを識別するものである。本実施例の方法は,字幕
に普遍的と考えられる特徴として, 1) 字幕の各文字は輝度の高い色で表示されること, 2) 文字の色とその背景の色との間には大きな輝度差が
あること, 3) 文字の現れている領域には,上記2)のような大きな
輝度差がある画素の対が比較的密集していること, 4) 文字は背景の変化にかかわらず一定時間同じ位置に
存在すること, の4つの特徴を用いて字幕検出を行っている。1)と2)に
ついては,字幕では,視聴者が文字を読みやすいよう背
景に比べて目立つ色が用いられることが多いことを利用
している。もちろん,文字の背景の輝度が高い場合に
は,逆に文字を輝度の低い色で表示する場合もあるの
で,そのときは,1)の条件を輝度の低い色と置き換える
必要がある。これは、輝度の高い場合の処理と輝度の低
い場合の処理を双方実行するようにすればよい。その場
合、いずれか一方はその他の字幕検出のための特徴量に
よる基準を満たさないため自動的に輝度の高い字幕も輝
度の低い字幕も検出することができる。3)は,文字が入
り組んだ複雑な形状をしているために,文字の色と背景
の色とが境界を接する部分が単位面積あたりでみると比
較的多く,その結果,輝度差が高い画素の対が多くなる
ことに着目している。本実施例では、4)について一定時
間同じ位置に存在するという条件を採用している。しか
し、字幕が同じ位置に存在せず、一定方向に移動する場
合等(例えば、文字が動画像の下部を左から右に流れる
場合)もあり、その場合には、所定の時間間隔で想定し
得る移動方向を考慮して、文字が存在するか否かを検出
する条件を加えればよい。
First, the subtitle detection processing will be described. The method according to the present embodiment sequentially checks frames in a moving image (images of the smallest unit that constitutes the moving image) and identifies whether or not a caption appears. The features of the method of this embodiment that are considered to be universal to captions are as follows: 1) Each character of the caption is displayed in a color with high brightness, 2) There is a large gap between the character color and the background color. There are differences in brightness, 3) In the area where characters appear, the pairs of pixels with large differences in brightness as in 2) above are relatively dense, and 4) characters are not affected by background changes. Caption detection is performed using the following four features: that they remain at the same position for a certain period of time. Regarding 1) and 2), we use the fact that captions often use prominent colors compared to the background to make it easier for viewers to read the characters. Of course, when the background of the character has a high brightness, the character may be displayed in a color with a low brightness, so that the condition 1) must be replaced with a color with a low brightness. This may be performed by executing both the processing when the brightness is high and the processing when the brightness is low. In that case, one of the subtitles does not satisfy the other criteria based on the feature amount for detecting subtitles, and thus a subtitle with high brightness and a subtitle with low brightness can be automatically detected. 3) has a complicated shape in which characters are intricate, so there are relatively many areas where the boundary between the character color and the background color per unit area, and as a result, pixels with a high luminance difference We pay attention to the fact that there are many pairs of. In the present embodiment, the condition 4) exists at the same position for a certain period of time. However, there are cases where subtitles do not exist at the same position and move in a certain direction (for example, when characters flow from the bottom of the moving image from left to right), and in that case, it is assumed at a predetermined time interval. Considering the obtained moving direction, a condition for detecting whether or not a character exists may be added.

【0017】図2b)に字幕検出処理部の詳細を示す。
輝度判定部1800は、フレーム画像のデジタル画素デ
ータの入力を受け、高輝度画素を抽出する(条件1))。輝
度差判定部1802は、抽出された高輝度画素に対して
近傍の画素の輝度と比較して輝度差の高い画素を抽出す
る(条件2))。この処理は、文字のエッジを構成する画素
を抽出することに相当する。次に、抽出された高輝度差
画素が一定時間同一位置にあることを判定するため、フ
レーム照合部1804において一連のフレームを照合す
る(条件4))。この照合を行うためには、照合すべき一連
のフレームの情報を記憶しておく必要がある。この情報
はメモリ9に一時的に記憶され処理にあたって参照され
る。これらの処理により得られた字幕のエッジを構成す
る画素の候補について、条件3)を適用する。字幕領域抽
出部1806では、候補画素についての存在分布をとり
候補画素が字幕であるかを判定し、字幕を構成している
領域を切り出し、後述するデータ構造体のフォーマット
で字幕に関する情報をメモリに記憶する。閾値管理部1
808は、上記の抽出、判定処理を実行するための閾値
を設定および保存する。
FIG. 2b) shows the details of the subtitle detection processing section.
The brightness determination unit 1800 receives the digital pixel data of the frame image and extracts high brightness pixels (condition 1)). The brightness difference determination unit 1802 extracts pixels with a high brightness difference by comparing the brightness of the extracted high brightness pixels with the brightness of neighboring pixels (condition 2). This process corresponds to extracting the pixels that form the edge of the character. Next, in order to determine that the extracted high-intensity difference pixels are in the same position for a certain period of time, the frame collating unit 1804 collates a series of frames (condition 4). In order to perform this matching, it is necessary to store information on a series of frames to be matched. This information is temporarily stored in the memory 9 and referred to in processing. The condition 3) is applied to the pixel candidates that form the edge of the subtitle obtained by these processes. The subtitle area extraction unit 1806 determines the existence distribution of the candidate pixels to determine whether the candidate pixels are subtitles, cuts out the area forming the subtitles, and stores information about the subtitles in a memory in a data structure format described later. Remember. Threshold management unit 1
808 sets and saves a threshold value for executing the above extraction and determination processing.

【0018】ただし、本実施例では字幕検出を最も正確
に行える構成として上記4条件による判定を実施するも
のを説明しているが、これら4つの条件には重要性に相
違がある。特に重要なものは、条件1)による高輝度画素
の検出と条件4)によるフレーム画像の照合である。この
2つの条件判定による実施例については、別の実施例と
して後述する。
However, in the present embodiment, the case in which the judgment is carried out under the above-mentioned four conditions is described as the structure capable of detecting the caption most accurately, but these four conditions are different in importance. Especially important are the detection of high-luminance pixels under condition 1) and the matching of frame images under condition 4). An embodiment based on these two condition determinations will be described later as another embodiment.

【0019】図3に示したフローチャートに即して、本
実施例の方法を詳細に説明する。上記フローチャートを
実現するプログラムはメモリ9に格納される。CPU7
はまず最初に初期化処理として,時間を表す変数tを0
にする(100)。ここでいう変数tは,フレーム番号
とほぼ同義である。次に,動画像再生装置10を制御し
て動画像を再生し,フレーム画像をA/D変換器3を使
ってw×hのサイズのデジタル画像としてメモリ9に取り
込む(102)。このサイズは任意であるが本アルゴリ
ズムの性質上,検出の信頼性を高めるためにはそのデジ
タル画像において文字を構成する線と線の間がつながら
ない程度に十分大きなサイズであることが望ましい。こ
の場合には字幕検出に必要な特徴が保持されている。そ
して,時間tの時点に対して,w×hのサイズの三次元配
列E(x, y, t)を用意する。
The method of this embodiment will be described in detail with reference to the flow chart shown in FIG. A program for realizing the above flowchart is stored in the memory 9. CPU7
First, as initialization processing, the variable t representing time is set to 0.
(100). The variable t here has almost the same meaning as the frame number. Next, the moving image reproducing apparatus 10 is controlled to reproduce the moving image, and the frame image is taken into the memory 9 as a digital image of size w × h by using the A / D converter 3 (102). Although this size is arbitrary, in view of the nature of this algorithm, in order to improve the reliability of detection, it is desirable that the size is large enough so that the lines forming the characters in the digital image are not connected. In this case, the features required for subtitle detection are retained. Then, a three-dimensional array E (x, y, t) of size w × h is prepared at the time point of time t.

【0020】取り込んだ画像の各画素について,その画
素が字幕を形成する画素の一つになっているかどうかを
見極めるため,以下の処理を行う(106)〜(12
4)。 (1) 輝度(濃度)レベルが閾値th1以上かどうかを判定
する(108)。閾値以上であれば,110に進み,さ
もなければ,字幕とは無関係の画素であるとして116
を実行し,現在の画素座標に対応する配列Eのデータ領
域に0を代入する。 (2) 8近傍の画素,すなわち,現在の画素の座標が(x,
y)のとき,(x-1, y-1),(x, y-1),(x+1, y-1),(x-1,
y),(x+1, y),(x-1, y+1),(x, y+1),(x+1, y+1)の座
標に位置する8つの画素と,現在の画素との間でそれぞ
れ輝度の差を求め,輝度の差が閾値th2以上のものがあ
るかどうかを調べる(110)。もし,一つでもあれ
ば,112に進み,なければ116に進む。
For each pixel of the captured image, the following processing is performed (106) to (12) in order to determine whether or not the pixel is one of the pixels forming a caption.
4). (1) It is determined whether the brightness (density) level is equal to or higher than the threshold value th1 (108). If it is equal to or larger than the threshold value, the process proceeds to 110. Otherwise, it is determined that the pixel is unrelated to the subtitle and 116
Is executed and 0 is assigned to the data area of the array E corresponding to the current pixel coordinate. (2) The coordinates of 8 neighboring pixels, that is, the coordinates of the current pixel are (x,
y), (x-1, y-1), (x, y-1), (x + 1, y-1), (x-1,
y), (x + 1, y), (x-1, y + 1), (x, y + 1), 8 pixels located at the coordinates (x + 1, y + 1) and the current pixel The difference in brightness between each pixel is calculated, and it is checked whether there is a difference in brightness greater than or equal to the threshold value th2 (110). If there is at least one, proceed to 112, otherwise proceed to 116.

【0021】(3) 輝度差が8近傍の画素全てで閾値を超
えているかを判定する(112)。全てで閾値を超えて
いる場合は,その画素は孤立点であり,逆にノイズであ
る可能性が高いので,これは字幕と無関係な画素である
として116に進む。そうでなければ,字幕を形成する
画素の一つであるとして114を実行し,現在の画素座
標に対応する配列Eのデータ領域に1を代入する。11
2の処理は,サンプリングした画像データのサイズによ
って不要となる場合がある。画像のサイズが小さい場合
には,1画素あたりの字幕全体に占める面積の比率は高
くなっているので,112の処理は割愛する。
(3) It is judged whether the brightness difference exceeds the threshold value in all the pixels in the vicinity of 8 (112). If all the pixels exceed the threshold value, the pixel is an isolated point and is likely to be noise on the contrary. Therefore, the pixel is unrelated to the subtitle, and the process proceeds to step 116. If not, 114 is executed as one of the pixels forming the subtitle, and 1 is assigned to the data area of the array E corresponding to the current pixel coordinates. 11
The process 2 may be unnecessary depending on the size of the sampled image data. When the size of the image is small, the ratio of the area occupied by the entire subtitles per pixel is high, and therefore the process of 112 is omitted.

【0022】(4) 現在座標を示す変数x, yを行・列に対
応して1ずつ増加させていき,最終的に画像中の全ての
画素について,(1)〜(3)の処理を行うようにする(11
8)〜(124)。
(4) The variables x and y indicating the current coordinates are increased by 1 in correspondence with the rows and columns, and finally the processes of (1) to (3) are performed for all the pixels in the image. Do it (11
8)-(124).

【0023】なお、閾値th1はシステムにおいて設定し
ておくことができる。輝度の設定値は字幕のみを抽出す
るという観点からは高めであることが望ましい。しか
し、字幕を構成する画素の輝度にはばらつきがあるた
め、その値が高すぎると字幕を構成する画素でありなが
ら、そうと判定されない画素が多くなり輝度差の判定時
に不都合が生じるため、閾値にある程度の余裕を持たせ
て設定しておく必要がある。例えば、最高階調の70%程
度であれば適切な結果が得られる。また閾値th2は、背
景の輝度の値によりある程度可変であることが望まし
い。すなわち、背景の輝度の高い場合には閾値th2を小
さく、背景の輝度の低い場合には閾値th2をより大きく
なるように設定する。背景の輝度の基準として画像全体
の輝度の値の平均値をとり、閾値th2をその関数として
定義する。閾値th1,th2,後述するth3は、図18の閾値
管理部1808で管理する。閾値th1,th3については値
が修正できるようになっているのが好ましい。閾値th2
については、輝度判定部1802より、フレーム画像の
輝度の情報を受けて、その値を設定する。比較的単純な
構成としては、閾値th1,th3および閾値th2を決定する関
数の係数については初期設定として与えた値を保持して
おけばたりる。さらに、効果的に字幕の検出を行うため
にはその値をチューニングする必要がある。例えば、検
出漏れがあっては不都合な特定字幕が存在するような場
合、その字幕の現われるフレーム画像について、閾値を
変化させながら字幕検出を行う。その結果をフィードバ
ックして最適な値を閾値として字幕検出を実行する。こ
のように閾値をカスタマイズすることにより、適切な字
幕検出処理が行える。
The threshold th1 can be set in the system. It is desirable that the brightness setting value is high from the viewpoint of extracting only subtitles. However, because the brightness of the pixels that make up the subtitles varies, if the value is too high, many pixels that make up the subtitles are not determined to be so and inconvenience occurs when determining the brightness difference. It is necessary to set it with a certain amount of margin. For example, an appropriate result can be obtained with about 70% of the highest gradation. Further, it is desirable that the threshold value th2 be variable to some extent depending on the value of the background brightness. That is, when the background brightness is high, the threshold th2 is set small, and when the background brightness is low, the threshold th2 is set larger. An average value of the luminance values of the entire image is taken as a reference of the background luminance, and the threshold value th2 is defined as its function. The thresholds th1 and th2 and th3 described later are managed by the threshold management unit 1808 in FIG. It is preferable that the threshold values th1 and th3 can be modified. Threshold th2
With respect to, the brightness determining unit 1802 receives the brightness information of the frame image and sets the value. As a relatively simple configuration, the coefficients given to the thresholds th1, th3 and the function for determining the threshold th2 may be retained as the initial values. Furthermore, in order to detect subtitles effectively, it is necessary to tune the value. For example, if there is an inconvenient specific subtitle due to omission of detection, caption detection is performed on the frame image in which the subtitle appears, while changing the threshold. The result is fed back and subtitle detection is executed with an optimum value as a threshold value. By customizing the threshold value in this way, appropriate subtitle detection processing can be performed.

【0024】次に,一定時間同じ位置に文字が存在して
いることを判定する。上記処理によって作られる二次元
配列Eを,過去nフレーム分記憶する。それらnフレーム
分の二次元配列Eについて論理積をとる。具体的には,
各配列のそれぞれ同じ座標に対応するデータを全て比
べ,それらが全て1であれば1を二次元配列E'(x, y)に
代入する。一つでも0があった場合には,0を同様に二
次元配列E'(x, y)に代入する。そして,E'(x, y)を論理
積計算結果として出力する(126)。
Next, it is determined that a character exists at the same position for a certain period of time. The two-dimensional array E created by the above processing is stored for the past n frames. The logical product of the two-dimensional array E for those n frames is calculated. In particular,
All the data corresponding to the same coordinates in each array are compared, and if they are all 1, 1 is substituted into the two-dimensional array E '(x, y). If there is at least one 0, then 0 is similarly assigned to the two-dimensional array E '(x, y). Then, E '(x, y) is output as the logical product calculation result (126).

【0025】次に,上記の処理が完了した時点で字幕の
一部と目されている画素が果たしてフレーム画像中で密
集して存在しているかどうかを判定する。まず、E'(x,
y)の行(x方向)、列(y方向)のそれぞれについて、
その値が1であるものの数をカウントする。具体的に
は、x方向については、xがiで、かつE'(x, y)の値が1
であるものの数をカウントし、頻度ヒストグラムHx(i)
を作成する。また、y方向についても同様に、yがiで、
かつE'(x, y)の値が1であるものの数をカウントし、頻
度ヒストグラムHy(i)を作成する(128)。これらの
ヒストグラムは、どの行あるいは列に字幕らしい画素が
存在しているかを示している。もし、ヒストグラムの各
度数のうち、閾値th3を超えているものがあれば(13
0)、その度数に対応する行あるいは列に字幕が現れて
いると最終的に判断する。そして、E'は論理積の結果な
ので、nフレーム前のフレームに字幕が現れていると判
断する(132)。そして,字幕検出処理132を実行
する。ここで、閾値th3は字幕として使われる最小の文
字の大きさを基準として決定できる。字幕は視聴者が見
るために提示する以上、どの映像であってもある一定以
上の大きさの文字を使用していることを利用するもので
ある。
Next, it is determined whether or not the pixels, which are regarded as a part of the subtitle, are actually densely present in the frame image when the above processing is completed. First, E '(x,
For each row (x direction) and column (y direction) of y),
The number of those whose value is 1 is counted. Specifically, in the x direction, x is i and the value of E '(x, y) is 1
The frequency histogram Hx (i)
To create. Similarly, in the y direction, y is i,
In addition, the number of E '(x, y) values of 1 is counted and a frequency histogram Hy (i) is created (128). These histograms indicate in which row or column the pixel like a subtitle exists. If some of the frequencies in the histogram exceed the threshold th3 (13
0), it is finally determined that the caption appears in the row or column corresponding to the frequency. Then, since E'is the result of the logical product, it is judged that the subtitle appears in the frame n frames before (132). Then, the caption detection processing 132 is executed. Here, the threshold th3 can be determined based on the size of the smallest character used as a subtitle. The subtitles utilize the fact that any video has characters of a certain size or more as long as it is presented for viewing by the viewer.

【0026】字幕検出処理132の詳細を図4と図5に
示す。前述の頻度ヒストグラムにより閾値th3を超えて
いる行があると判定されれば(800)、図4のフロー
チャートに従った処理を実施する。閾値th3を超えてい
る行が連続している部分を抽出する。このとき,閾値th
3を超えて度数がピークとなっている行あるいは列が複
数あり,それらピークに挟まれた行あるいは列に十分な
度数がない場合には,複数の字幕が現れているとみな
し,それらの字幕の数を求めてLnに代入する(80
2)。そして,全ての字幕について,以下の804〜8
20の処理を行う。Lnはループカウンタとして用いら
れ,1つの字幕の処理が完了するごとに1ずつ減り(8
16),0になるまでループする(820)。804は
閾値th3を超えている行が連続する部分を検出し,その
区間を求めて開始行のy座標をyo,終了行のy座標をyc
に代入する。次いで,E'(x, y)においてyがyoからycの
間である1の数をカウントしてヒストグラムH'x(i)を
作成し(806),そのヒストグラム中で閾値th4を超
えている度数が連続する部分を抽出する。そして,その
連続部分に対応する列の開始列のx座標をxoに,終了列
のx座標をxcに代入する(808)。こうして得られた
(xo, yo)および(xc, yc)によって示される矩形領域を字
幕の存在領域とする。これは横書きの字幕領域とみなす
ことができる。これは,字幕が専ら複数の文字から構成
され,その領域が行あるいは列方向に細長くなる特徴を
考慮している。もし,時間t-1において,E'から矩形領
域(xo, yo)-(xc,yc)に字幕があると判定されていたな
ら,これは以前より現れていた字幕であるとして特別な
処理はしない(812)。もし,字幕がなかったなら
ば,新規に字幕が現れたとして,その字幕の開始時間と
してnフレーム前の時間もしくはフレーム番号を記憶す
る(814)。現在時間を用いないのは,字幕がnフレ
ーム前から連続して同じ位置に現れていた場合にはじめ
てE'に現れるためである。こうして検出された字幕は,
常にプログラムの中で監視され,検出されなくなった時
間tから1を引いた時間,あるいはそれに対応するフレ
ーム番号をその字幕の終了時間として記憶する。それか
ら,E'(x, y)中の矩形領域(xo, yo)-(xc, yc)の全ての
要素を0にする(818)。
Details of the subtitle detection processing 132 are shown in FIGS. If it is determined from the frequency histogram that there is a line exceeding the threshold th3 (800), the process according to the flowchart of FIG. 4 is performed. The part where the line exceeding the threshold th3 is continuous is extracted. At this time, the threshold th
If there are multiple rows or columns with a frequency higher than 3 and there is not enough frequency in the rows or columns between the peaks, it is considered that multiple subtitles have appeared, and those subtitles are displayed. Find the number of and assign it to Ln (80
2). And for all subtitles, the following 804-8
20 processes are performed. Ln is used as a loop counter and is decremented by 1 each time one subtitle is processed (8
16), loop until 0 (820). 804 detects a portion in which lines that exceed the threshold value th3 are continuous, finds the section, and sets the y coordinate of the starting line to yo and the y coordinate of the ending line to yc.
To. Next, in E '(x, y), the number of 1s in which y is between yo and yc is counted to create a histogram H'x (i) (806), and the threshold th4 is exceeded in the histogram. Extract the part where the frequency is continuous. Then, the x coordinate of the start column of the column corresponding to the continuous portion is substituted for xo, and the x coordinate of the end column is substituted for xc (808). Thus obtained
The rectangular area indicated by (xo, yo) and (xc, yc) is the subtitle existence area. This can be regarded as a horizontal subtitle area. This takes into account the feature that subtitles are composed of multiple characters, and the area is elongated in the row or column direction. If it is determined that there is a subtitle in the rectangular area (xo, yo)-(xc, yc) from E'at time t-1, it is assumed that this is a subtitle that has appeared before, and special processing is performed. No (812). If there is no subtitle, it is determined that a new subtitle has appeared, and the time or frame number n frames before the subtitle is stored as the start time of the subtitle (814). The current time is not used because the caption appears at E ′ only when the caption appears continuously at the same position from n frames before. The subtitles detected in this way are
The time, which is constantly monitored in the program, is subtracted from the time t when it is no longer detected, or the corresponding frame number is stored as the end time of the caption. Then, all the elements of the rectangular area (xo, yo)-(xc, yc) in E '(x, y) are set to 0 (818).

【0027】一方,列について閾値th3より大きな度数
があった場合には,図5のフローチャートに示した処理
を行う(822)〜(842)。これは行について行っ
た上記の処理と同じものである。これを縦書きの字幕領
域と見なす。行と列ともに閾値th3を超えるものがあれ
ば、図4のフローチャートの処理と図5のフローチャー
トの処理を連続して行うことにより、縦書き、横書きの
字幕領域の双方を検出することができる。最後に時間t
を一つ進め、102に戻って以上の処理を繰り返す(1
34)。
On the other hand, when there is a frequency greater than the threshold value th3 for the column, the processing shown in the flowchart of FIG. 5 is performed (822) to (842). This is the same as the above process performed for rows. This is regarded as a vertically written subtitle area. If both the row and the column exceed the threshold value th3, both the vertically written and horizontally written subtitle areas can be detected by continuously performing the processing of the flowchart of FIG. 4 and the processing of the flowchart of FIG. Finally time t
One step, return to 102 and repeat the above process (1
34).

【0028】上記手段によって求められた字幕の存在す
る区間(字幕区間)の各々を図6に示すデータ構造体2
00の形式で記憶する。字幕区間の先頭のフレーム番号
は,始点フレーム番号として204に,末尾のフレーム
番号は,終点フレーム番号として206に格納される。
これは図4(図5)のフローチャート中の810〜81
4(832〜836)の処理を実行することにより得ら
れるものである。202は代表フレーム番号であり,デ
フォルトとして先頭のフレームが選ばれるが,ユーザが
任意に設定することもできる。字幕位置208は,字幕
位置を記憶する字幕位置構造体へのポインタが格納され
る。上位字幕区間210は,後述する,より上位の字幕
の字幕区間構造体へのポインタである。下位字幕区間2
12は,逆に,より下位の字幕の字幕区間構造体へのポ
インタである。同位字幕区間214は,共通の上位字幕
を持つ字幕の字幕区間構造体へのポインタで,このポイ
ンタで指定される字幕区間構造体との間で連接リストを
構成する。この同位字幕区間ポインタ214を辿ってい
くことにより共通の上位字幕を持つ字幕の字幕区間構造
体が全てリストアップできる。対応シーン216は,後
述するシーン構造体へのポインタである。218は,対
応シーンに現れる全ての字幕についての字幕区間構造体
を連接リスト形式で格納するためのポインタである。
The data structure 2 shown in FIG. 6 shows each of the sections (caption sections) in which the captions are found by the above means.
It is stored in the format of 00. The beginning frame number of the subtitle section is stored in 204 as the starting point frame number, and the ending frame number is stored in 206 as the ending point frame number.
This is 810 to 81 in the flowchart of FIG. 4 (FIG. 5).
4 (832 to 836). Reference numeral 202 is a representative frame number, and the first frame is selected as a default, but the user can arbitrarily set it. The subtitle position 208 stores a pointer to a subtitle position structure that stores the subtitle position. The upper subtitle section 210 is a pointer to a subtitle section structure of a higher subtitle, which will be described later. Subtitle section 2
Conversely, 12 is a pointer to the subtitle section structure of the lower subtitle. The same subtitle section 214 is a pointer to a subtitle section structure of subtitles having a common upper subtitle, and forms a concatenation list with the subtitle section structure designated by this pointer. By tracing this same subtitle section pointer 214, all subtitle section structures of subtitles having a common upper subtitle can be listed. The corresponding scene 216 is a pointer to a scene structure described later. Reference numeral 218 is a pointer for storing a subtitle section structure for all subtitles appearing in the corresponding scene in a concatenated list format.

【0029】前述の字幕位置構造体300の構造を図7
に示す。302は次の字幕位置へのポインタである。字
幕が,その存在する区間中ずっと定位置で表示されてい
た場合には,字幕位置は一つの構造体で表現できるので
NULLが入る。もし,後述する流れる字幕の場合には,字
幕位置は変動するので,複数の構造体が作られて,ポイ
ンタ302によって連接リストが構成され,字幕位置の
データが格納される。字幕位置構造体は,定位置に字幕
が表示されていると判定される区間ごとに1個作成され
る。この判定は,字幕の位置情報にどの程度の正確さを
求めるかによっても変化する。304は,こうした区間
の始点フレーム番号が格納され,306には同様に終点
フレーム番号が格納される。308には,字幕が現れて
いる領域を矩形領域で囲んだときの一つの頂点のx座
標,310にはそのy座標が入る。312は,その矩形
領域の幅,314はその高さが格納される。矩形領域
は,図4(図5)のフローチャート中の804〜808
(826〜830)の処理で得られるものである。
FIG. 7 shows the structure of the subtitle position structure 300 described above.
Shown in. 302 is a pointer to the next subtitle position. If the subtitle is displayed in a fixed position throughout the existing section, the subtitle position can be represented by one structure.
Contains NULL. If the caption is a flowing caption, which will be described later, the caption position changes, so a plurality of structures are created, the concatenation list is constructed by the pointer 302, and the caption position data is stored. One subtitle position structure is created for each section in which it is determined that the subtitle is displayed at the fixed position. This determination also changes depending on how accurate the position information of the caption is required. The start point frame number of such a section is stored in 304, and the end point frame number is similarly stored in 306. In 308, the x coordinate of one apex when the region in which the caption appears is surrounded by a rectangular region, and the y coordinate thereof is entered in 310. The width of the rectangular area is stored in 312, and the height thereof is stored in 314. The rectangular area is 804 to 808 in the flowchart of FIG. 4 (FIG. 5).
It is obtained by the processing of (826 to 830).

【0030】図8は,シーン構造体500の一例であ
る。シーン中に現れている字幕をシーンの再生中に即座
に呼び出すことができるようにするために、代表フレー
ム番号502,始点フレーム番号504,終点フレーム
番号506など各種属性情報の中に,対応字幕区間50
8なるポインタ格納領域を設ける。対応字幕区間508
はシーン中に現われる字幕についての情報を保持する、
具体的にはそのシーンに現れている全ての字幕を連接リ
スト形式で格納するものである。これは,字幕区間構造
体200の中の対応シーンの字幕218に対応するもの
である。
FIG. 8 is an example of the scene structure 500. In order to enable the subtitles appearing in the scene to be called immediately during the playback of the scene, the corresponding subtitle section is included in various attribute information such as the representative frame number 502, the start point frame number 504, and the end point frame number 506. Fifty
8 pointer storage areas are provided. Corresponding subtitle section 508
Holds information about the subtitles that appear in the scene,
Specifically, all subtitles appearing in the scene are stored in a linked list format. This corresponds to the subtitle 218 of the corresponding scene in the subtitle section structure 200.

【0031】上記の処理により得られる字幕に関する情
報は,計算機等により自動的に得られるが,中には誤判
定が含まれる場合もある。こうした字幕情報を一度だけ
参照する場合には,多少の誤判定はやむを得ないが,二
度三度と参照する場合に同じ誤りが繰り返されるのはユ
ーザにとって大きな不満になる。もし,複数回参照され
る需要があれば,一回目で誤りを正し,誤りのないもの
を記憶して次回の参照の際に供することが有効である。
以下、字幕検出修正処理について述べる。この処理は、
後で詳細に説明する画像提示処理中に字幕の検出に誤り
があることに気がつけば随時、画像提示処理を終了し、
字幕検出修正処理を実行することができるものである。
図10は,検出された字幕情報を修正するためのインタ
フェース例である。
The information on the subtitles obtained by the above processing is automatically obtained by a computer or the like, but there are cases in which erroneous determination is included. When referring to such subtitle information only once, some erroneous determination is unavoidable, but it is a great dissatisfaction for the user to repeat the same error when referring to the subtitle information twice or three times. If there is a demand to be referred to multiple times, it is effective to correct the error at the first time and memorize the error-free one to use for the next reference.
The caption detection / correction process will be described below. This process
If you notice that there is an error in the detection of subtitles during the image presentation process that will be described in detail later, the image presentation process is terminated at any time,
The caption detection / correction process can be executed.
FIG. 10 is an example of an interface for correcting the detected subtitle information.

【0032】修正用ウインドウ1000は,計算機画面
上に表示され,マウスカーソルによる各種操作を受け入
れる。1002は映像中の一部の区間のフレームの画像
を等時間間隔でサンプリングして,写真のネガのように
横一列に並べたものである。サンプリングの時間間隔
は,1018のスクロールバーで決定することができ
る。1018中のノブ1032をマウスでドラッグする
ことによって,時間間隔を自由に変えることができ,そ
れに応じて1002に現れるフレーム画像も変化する。
1032を左端に近付けるほど,時間間隔は短くなり,
右端に近付けるほど時間間隔は長くなる。映像中のどの
部分区間を表示するかは,1016のスクロールバー及
びボタンによって変更できる。1016中のノブ103
0の位置が表示する部分区間の位置を示し,1030を
ドラッグすることによって自由に変更できる。左端に寄
せると映像の先頭の部分を表示し,右端では映像の末尾
の部分を表示する。ノブ1030の幅は,表示されてい
る部分区間の長さに対応している。この長さは1002
で一度に表示できるフレーム画像の数と1018で決定
された時間間隔,そして映像全体の時間長とから容易に
計算される。1004と1006の矢印は,字幕が現れ
ている区間の先頭と末尾を表している。1014は検出
された字幕区間の映像全体の中での位置を表示するもの
である。検出された字幕区間1012は1014の目盛
り表示により映像全体の中での位置がわかるようになっ
ている。1012に付与された小さな矢印1010は1
004や1006の矢印に対応するものである。100
8が,各フレームにおける字幕の存在位置を示した囲み
枠である。1004や1006の矢印の位置は変更する
ことができ,マウスで矢印部分をクリックすると矢印が
消える。続けて,任意のフレームをクリックすると,そ
の位置に消した矢印と同じ向きの矢印が現れ,新しい区
間が定義される。これによって,区間が伸縮するが,伸
びたときは伸びた区間についての字幕位置構造体300
が作成され,逆に短くなった場合には,削られた区間の
字幕位置構造体が登録から抹消される。1004と10
06を続けて消すと,その区間には字幕がなかったとし
て字幕区間構造体200の登録を抹消する。同時に、こ
の字幕区間へのポインタを持つ全ての字幕区間構造体か
ら上位字幕区間,下位字幕区間などに記憶された,この
字幕区間構造体へのポインタが消去される。また、字幕
の位置の変更は,1008をドラッグすることで変更で
きる。1008の4つの頂点のいずれかをつかんでドラ
ッグすると,対角線を通して向いあう頂点を固定にして
長方形を拡大縮小できる。この変更データにより,字幕
位置構造体の字幕原点x,y座標及び字幕サイズの幅,
高さの記憶領域が更新される。
The correction window 1000 is displayed on the computer screen and accepts various operations with the mouse cursor. Reference numeral 1002 denotes a frame image of a part of the video image which is sampled at equal time intervals and arranged in a horizontal row like a negative of a photograph. The sampling time interval can be determined by 1018 scroll bars. The time interval can be freely changed by dragging the knob 1032 in 1018 with the mouse, and the frame image appearing in 1002 also changes accordingly.
The closer 1032 is to the left edge, the shorter the time interval,
The closer to the right end, the longer the time interval. Which partial section in the video is displayed can be changed by the scroll bar and button of 1016. Knob 103 in 1016
The position of 0 indicates the position of the partial section to be displayed, and can be freely changed by dragging 1030. When it is moved to the left end, the beginning part of the image is displayed, and at the right end, the end part of the image is displayed. The width of the knob 1030 corresponds to the length of the displayed partial section. This length is 1002
Can be easily calculated from the number of frame images that can be displayed at one time, the time interval determined in 1018, and the time length of the entire video. The arrows 1004 and 1006 represent the beginning and the end of the section in which the caption appears. Reference numeral 1014 indicates the position of the detected subtitle section in the entire video. The position of the detected subtitle section 1012 in the entire image can be known by the scale display of 1014. The small arrow 1010 attached to 1012 is 1
This corresponds to the arrows 004 and 1006. 100
Reference numeral 8 denotes an enclosing frame showing the position where subtitles exist in each frame. The position of the arrow 1004 or 1006 can be changed, and the arrow disappears when the arrow portion is clicked with the mouse. Then, when you click on any frame, an arrow with the same direction as the erased arrow appears at that position and a new section is defined. As a result, the section expands and contracts, but when it expands, the subtitle position structure 300 for the expanded section
Is created and conversely becomes shorter, the subtitle position structure of the deleted section is deleted from the registration. 1004 and 10
When 06 is deleted continuously, it is determined that there is no caption in the section, and the registration of the caption section structure 200 is deleted. At the same time, the pointers to this subtitle section structure stored in the upper subtitle section, the lower subtitle section, etc. are deleted from all the subtitle section structures having the pointer to this subtitle section. Further, the subtitle position can be changed by dragging 1008. If you grab any of the four vertices of 1008 and drag it, you can scale the rectangle by fixing the vertices facing each other through the diagonal line. With this change data, the subtitle origin x and y coordinates of the subtitle position structure and the width of the subtitle size,
The height storage area is updated.

【0033】これまで述べたような字幕の検出処理によ
り得られる字幕に関する情報をユーザが有効に利用でき
るよう、わかりやすく提示する方法について述べる。図
11はコンピュータのディスプレイ上への提示の一例を
示している。ウインドウ700は映像の概要を示す代表
的なフレーム画像を抽出し,それらを一覧にして表示す
る。代表フレーム画像は,字幕区間の先頭の画像を機械
的に抽出するなどして選ぶ。代表画像は,NTSC本来の解
像度でサンプリングされた映像のままの大きさでは,コ
ンピュータのディスプレイで表示しきれなかったり,表
示できる個数が限られてしまうので,間引き処理等によ
って縮小して用いる。ユーザはこれらの代表画像を確認
しつつ、見たいシーンを検索することができる。見たい
シーンを見つかったならば、そのシーンをモニタウイン
ドウ702に表示させる。この場合、再生するシーンの
選択はウインドウ700に一覧表示されているシーンへ
のクリックと連動させて行う。モニタウインドウ702
に映像を再生する方法としては、計算機に接続された動
画像再生装置が出力する映像を用いる方法と,外部情報
記憶装置に登録されたデジタル化された映像を用いる方
法とがある。動画像再生装置による場合には,シーンの
先頭のフレーム番号を動画像再生装置に送り,そのフレ
ーム番号に対応するシーンから再生を開始する。そし
て,シーン末尾のフレーム番号に到達した時点で再生を
中断する命令を動画像再生装置に送る。デジタル化され
た映像の場合は,図9に示す物理映像構造体400の形
式で記憶された映像データから,シーン先頭のフレーム
番号に対応するフレームの画像データを抽出してグラフ
ィックデータとして表示する。1フレーム分の表示処理
が終了すると,次のフレームの表示処理を連続して行う
ことで動画像の表示とする。表示処理に要する時間に合
わせて一定時間あたりに表示するフレーム画像の枚数を
調節し,動画像が早送り気味になったりスロー気味にな
ったりしないようにする。また、ボタン704は,ビデ
オ映像の再生状態を制御するためのボタンで,マウスや
タッチパネルのクリックに応じて,ビデオ映像の再生や
早送り・巻き戻しといった制御を行う。これらの操作に
より、検索したシーンの前後について容易に確認するこ
とができる。708はテキスト入出力ウインドウであ
り、後述する字幕中の文字列を検索する等に利用する。
テキストの入力にはキーボード11を用いる。これらの
ウインドウは,ポインティングデバイス5の一つである
マウスを使って自由に動かせるカーソル706を操作し
て画面上の任意の位置に移動できる。あるいは,別の種
類のポインティングデバイスであるタッチパネルを使っ
ても同様のことができる。
A method of presenting the information on the subtitles obtained by the subtitle detection processing described above in an easy-to-understand manner so that the user can effectively use the information will be described. FIG. 11 shows an example of presentation on the display of the computer. The window 700 extracts typical frame images showing an outline of video and displays them as a list. The representative frame image is selected by mechanically extracting the first image of the subtitle section. If the size of the representative image is the same as the image sampled at the original resolution of NTSC, it cannot be displayed on the computer display or the number of images that can be displayed is limited. The user can search for a desired scene while checking these representative images. When the scene to be viewed is found, the scene is displayed on the monitor window 702. In this case, the selection of the scene to be reproduced is performed in conjunction with the click on the scene displayed in the window 700. Monitor window 702
As a method of reproducing the video, there are a method of using the video output from the moving picture reproducing apparatus connected to the computer and a method of using the digitized video registered in the external information storage device. In the case of the moving picture reproducing apparatus, the frame number at the beginning of the scene is sent to the moving picture reproducing apparatus, and the reproduction is started from the scene corresponding to the frame number. Then, when the frame number at the end of the scene is reached, an instruction to suspend the reproduction is sent to the moving picture reproducing apparatus. In the case of a digitized video, the image data of the frame corresponding to the frame number at the beginning of the scene is extracted from the video data stored in the format of the physical video structure 400 shown in FIG. 9 and displayed as graphic data. When the display process for one frame is completed, the display process of the next frame is continuously performed to display the moving image. Adjust the number of frame images to be displayed per fixed time according to the time required for display processing so that the moving image does not tend to fast forward or slow. A button 704 is a button for controlling the reproduction state of the video image, and controls reproduction of the video image and fast forward / rewind according to the click of the mouse or the touch panel. By these operations, it is possible to easily confirm before and after the searched scene. Reference numeral 708 denotes a text input / output window, which is used for searching for character strings in subtitles, which will be described later.
The keyboard 11 is used to input text. These windows can be moved to arbitrary positions on the screen by operating a cursor 706 that can be freely moved using a mouse which is one of the pointing devices 5. Alternatively, the same thing can be done by using a touch panel which is another type of pointing device.

【0034】代表画像を提示するウインドウ700は、
検出した字幕の情報を利用することによりユーザの見た
いシーンを検索する作業を容易にすることができる。以
下、字幕情報を利用した代表画像の一覧提示方法につい
て説明する。一覧表示の仕方としては,ビデオ映像中に
おける出現順に時系列に並べる方法を基本とする。時系
列は代表画像のフレーム番号に基づいて決定される。図
12は,代表画像604を単純に時系列に並べたもの
で,左上がビデオ映像の先頭側,右下が同じく末尾側に
なる。1行で表示しきれない場合には,図のように折り
返して複数行に渡って表示を行い,さらに,1枚のウイ
ンドウで表示しきれなければ,スクロールバー602が
現れてスクロール表示を行う。
The window 700 for presenting the representative image is
By using the detected subtitle information, it is possible to facilitate the user's work of searching for a desired scene. Hereinafter, a method of presenting a list of representative images using subtitle information will be described. As a method of displaying the list, the method of arranging in time series in the order of appearance in the video image is basically used. The time series is determined based on the frame number of the representative image. In FIG. 12, the representative images 604 are simply arranged in time series, with the upper left being the head side of the video image and the lower right being the end side. If the data cannot be displayed in one line, the data is folded and displayed over a plurality of lines as shown in the figure. Further, if the data cannot be displayed in one window, a scroll bar 602 appears and scroll display is performed.

【0035】検出した字幕により代表画像を分類し、そ
の分類を利用して代表画像を提示することも有効であ
る。例えば、 1) 字幕の表示形態による代表画面の分類に基づく提示 2) 字幕提示時間の包含関係もしくは字幕の表示形態に
よる代表画面の階層化に基づく提示 3) 字幕の内容による代表画面の分類に基づく提示 これらの一覧表示の仕方は、画像提示処理モードにおい
て、ユーザが指定できる。これらの表示指定は、一時メ
モリに表示の情報を蓄えておくことにより、ユーザの検
索の進行にともなって、順次これらの表示方法を指定し
て代表画像を絞り込んでいくことができる。もちろん、
指定した表示方法が不適切であれば、その指定を解除し
て、新たな表示方法を指定することも可能である。
It is also effective to classify the representative images according to the detected captions and present the representative images using the classification. For example, 1) Presentation based on the classification of the representative screen based on the display form of the subtitles 2) Presentation based on the inclusion relation of the subtitle presentation time or the hierarchization of the representative screen depending on the display form of the subtitles 3) Based on the classification of the representative screen based on the contents of the subtitle Presentation The user can specify how to display the list in the image presentation processing mode. In these display designations, by storing display information in a temporary memory, it is possible to sequentially designate these display methods and narrow down representative images as the user's search progresses. of course,
If the specified display method is inappropriate, it is possible to cancel the specification and specify a new display method.

【0036】図13は,字幕の表示形態によって分類を
行い,その分類に基づいて表示した例である。分類は,
例えば,1) 文字の輝度の高低,2) 文字の配色,3) 文
字の大きさ,4) 縦書き・横書き,の4点の特徴を使う
ことによって,自動的に、またはユーザにそれらの分類
項目を指定させることにより行うことができる。すなわ
ち、代表画像についての字幕位置構造体により、字幕の
原点x ,y 座標及びサイズ幅、高さを、画素データの必
要な分類項目によっては物理映像構造体により前記のデ
ータにより決定される字幕部分の画素データを参照する
ことにより、字幕の表示形態を判定してそれにより代表
画像を分類して提示することができる。
FIG. 13 shows an example in which the captions are categorized according to the display form and displayed based on the categorization. The classification is
For example, by using the four features of 1) the brightness of the character, 2) the color of the character, 3) the size of the character, and 4) the vertical writing / horizontal writing, they can be classified automatically or by the user. This can be done by specifying the item. That is, the origin x, y coordinates and size width and height of the subtitle are determined by the subtitle position structure for the representative image, and the subtitle portion determined by the above-mentioned data by the physical video structure depending on the required classification item of pixel data. It is possible to determine the display form of the subtitles by referring to the pixel data of, and classify and present the representative image accordingly.

【0037】1)は,字幕の文字部分がその背景よりも明
るい色で表現されているのか,あるいは,背景より暗い
色で表現されているのかによる分類である。これは字幕
部分の輝度レベルで判断する。2)は,背景と文字部分と
を分けたとき,文字部分がどのような色構成で表現され
ているかで分類する。これは文字部分の色ヒストグラム
をとり,ヒストグラム間の類似性で判断する。なお、文
字部分については、字幕部分の輝度レベルが高ければ輝
度の高い画素が文字を構成する画素であり、字幕部分の
輝度レベルが低ければ輝度の低い画素が文字を構成する
画素であるとして判定することができる。3)は,字幕領
域の短辺の長さによって分類する。4)の縦書き・横書き
は,短辺がx軸に平行かy軸に平行かで判断できる。こ
れらによって,同じ種類の字幕どうしを1つのグループ
としてまとめることができる。字幕の形態が類似してい
る場合には,そのシーンの内容においても底流に共通の
ものがあることが多いので,分類されたシーンが内容上
の共通性をもって分類されていることが期待できる。
1) is a classification according to whether the character part of the subtitle is expressed in a color lighter than the background or in a color darker than the background. This is judged by the brightness level of the subtitle part. In 2), when the background and the character part are separated, it is classified by what color structure the character part is represented. This takes the color histogram of the character part and judges by the similarity between the histograms. Regarding the character portion, if the luminance level of the subtitle portion is high, it is determined that the pixel with high luminance is a pixel forming a character, and if the luminance level of the subtitle portion is low, the pixel with low luminance is a pixel forming a character. can do. 3) is classified according to the length of the short side of the subtitle area. Vertical writing / horizontal writing in 4) can be judged by whether the short side is parallel to the x-axis or the y-axis. With these, subtitles of the same type can be grouped together as one group. When the subtitles are similar in shape, the contents of the scene often have a common undercurrent, so it can be expected that the classified scenes are classified with commonality in contents.

【0038】図14は,代表画像についてある基準に基
づき階層化し、その階層化した状態を視覚的に明示して
表示した例である。その階層化の基準としては、例えば
字幕の存在する時間の包含関係または字幕の表示形態を
とる。字幕の存在する時間の包含関係とは、あるシーン
について大見出しに対応する字幕は,そのシーンの間ず
っと現れていることが多く、また,その間に時折現れる
字幕は,そのシーンの中のもっと細かな部分部分,いわ
ば小見出しに対応するものであるからそれを利用する。
字幕の存在する区間は各字幕につき字幕区間構造体の始
点フレーム番号と終点フレーム番号とを参照することに
より得られるので,その区間の相互の包含関係を調べる
ことで,字幕が大見出しなのか小見出しなのかを区別す
ることができる。図14は,シーンの代表画像604に
ついて、大見出しの字幕が現れている代表画像を上層
に,小見出しの代表画像を下層に並べ,包含関係がわか
るように線606で上層・下層の代表画像どうしを結ん
でいる。このような構造木は,包含関係のあるグループ
ごとに各々作られ,それが横方向に並ぶ。上層の字幕ど
うしをグループにして,構造木の階層数を増やすことも
できる。1枚のウインドウで表示できないときには,縦
方向・横方向それぞれについてスクロールバーが現れ
て,表示しきれない部分をスクロール表示する。代表画
像の数が多いときなどには,上層の字幕の代表画像だけ
を表示して大まかに候補を見つけてから,下層の字幕を
表示させて絞り込むといったことができる。以上の例で
は,存在時間の包含関係で上層・下層を決定したが,図
13に関して述べた分類の結果を使って上層・下層を決
定することもできる。これは,特にニュース番組などに
おいては,大見出しに相当する字幕を掲げて総論を説明
したあと,細かい事項を説明し,また別件の総論を説明
するという流れの繰り返しであることに着目している。
前述の方法により、大見出しのグループを抽出してそれ
らが現れているシーンを上層の代表画像とし,各字幕の
字幕区間構造体を参照して、そのシーンから次の大見出
しの字幕が現れているシーンまでに現われている各シー
ンの代表画像を下層に表示する。また、上層・下層の判
定はシステムが判定基準を保持して自動的に行うこと
も、先に述べた表示形態による分類表示などにおいて分
類したグループをユーザが任意に選択して上層となるシ
ーンを設定して,階層化表示を実行することも可能であ
る。
FIG. 14 shows an example in which representative images are hierarchized based on a certain standard, and the hierarchized state is visually displayed. The hierarchization criterion is, for example, the inclusion relation of the time when subtitles exist or the display form of subtitles. The inclusion relation of the time when subtitles exist means that the subtitles corresponding to the headline for a scene often appear throughout the scene, and the subtitles that occasionally appear in the meantime are more detailed within the scene. This part is used because it corresponds to subheadings, so to speak, subheadings.
The section in which a subtitle exists can be obtained by referring to the starting point frame number and the ending point frame number of the subtitle section structure for each subtitle. Therefore, by checking the mutual inclusion relation of the section, whether the subtitle is a large caption or a subtitle. You can distinguish what. FIG. 14 shows the representative image 604 of the scene in which the representative images in which the subtitles of the large headline appear are arranged in the upper layer and the representative images of the small headlines are arranged in the lower layer, and the representative images of the upper and lower layers are indicated by a line 606 so that the inclusion relation can be seen. Is tied. Such a structure tree is created for each group having a containment relationship, and is arranged in the horizontal direction. You can also increase the number of layers in the structure tree by grouping subtitles in the upper layer. When it cannot be displayed in one window, scroll bars appear in the vertical and horizontal directions to scroll the part that cannot be displayed. When the number of representative images is large, it is possible to display only the representative images of the upper layer subtitles to roughly find candidates and then display the lower layer subtitles to narrow down. In the above example, the upper layer and the lower layer are determined by the inclusion relation of the existence time, but the upper layer and the lower layer can be determined by using the result of the classification described with reference to FIG. In particular, for news programs, etc., we focus on the fact that after explaining the general description with subtitles that correspond to the main heading, we explain the detailed matters and then explain the general matter of another case. .
By the method described above, a group of major headlines is extracted, the scene in which they appear is used as a representative image in the upper layer, and the subtitle section structure of each subtitle is referenced, and the subtitle of the next major heading appears from that scene. A representative image of each scene that appears up to the current scene is displayed in the lower layer. In addition, the system holds judgment criteria automatically for upper and lower layers, or the user can arbitrarily select a group classified in the classification display according to the above-mentioned display form to select the upper layer scene. It is also possible to set and execute hierarchical display.

【0039】代表画像に現われた字幕を文字として認識
して、その情報を利用することを考える。輝度によって
判定された字幕の文字部分について,従来より広く利用
されている文字認識の技術を適用することで,代表画像
に現われた字幕をJISコード等の文字コードで表現する
ことができる。JISコードの文字は,日本語ワードプロ
セッサに用いられている仮名漢字変換等の手法により,
任意の文字列をキーボードから人間が入力することがで
きるので,そうした入力文字列をキーにした字幕の検
索,すなわち,そうした字幕の現れているシーンの検索
を行うことができる。また、字幕の文字を認識すること
により、その字幕の内容によるグループ化が可能にな
る。同じ単語を含む字幕どうしを同じグループとして分
類することもできる。さらに,単語とその意味合いを対
応づける辞書を予め作成しておくことにより,字幕文字
列中の単語が,例えば,人名なのか,あるいは,ある特
定の分野の専門用語なのかを識別することができる。人
名であれば,人名に関する字幕というグループで分類
し,政治用語があれば政治に関するグループ,医学用語
であれば,医学グループというように分類することがで
きる。その表示形式の一例を図15に示す。ウインドウ
600の左端に文字列608が表示されている。また,
単語を分類するための辞書の構造体の一例を図16に示
す。900は,単語を格納する配列,902はコード化
された単語であり,分類のための属性情報配列904へ
のポインタを合わせ持つ。906は分類記号であり,そ
の単語が人名なのか,政治用語なのかがコード化されて
格納される。単語は多義性を持つので,複数の分類記号
を持てるようにしている。
Consider recognizing a subtitle appearing in a representative image as a character and utilizing the information. By applying the character recognition technology that has been widely used in the past to the character portion of the caption determined by the brightness, the caption appearing in the representative image can be expressed by a character code such as JIS code. The characters of JIS code can be converted by Kana-Kanji conversion method used in Japanese word processor.
Since an arbitrary character string can be input by a human from the keyboard, it is possible to search for subtitles using the input character string as a key, that is, to search for a scene in which such subtitle appears. Further, by recognizing the characters of the subtitles, it becomes possible to group by the contents of the subtitles. Subtitles that contain the same words can also be classified as the same group. Furthermore, by creating a dictionary that associates words with their meanings in advance, it is possible to identify whether the words in the subtitle character string are, for example, a person's name or a technical term in a specific field. . A person's name can be classified into a group called subtitles related to a person's name, a political term can be classified into a group related to politics, and a medical term can be classified into a medical group. FIG. 15 shows an example of the display format. A character string 608 is displayed at the left end of the window 600. Also,
FIG. 16 shows an example of a structure of a dictionary for classifying words. 900 is an array for storing words, and 902 is a coded word, which also has a pointer to an attribute information array 904 for classification. A classification symbol 906 is coded and stored as to whether the word is a person's name or a political term. Since words have polysemy, I try to have multiple classification symbols.

【0040】これまで述べてきた一覧表示においては,
探索の効率を上げるために一目で確認できるシーンの数
を増やそうとすると,ディスプレイの表示の大きさや解
像度に限界があるため,シーンの代表画像を縮小して表
示しなくてはならない。しかし,縮小率を上げていくと
字幕が読めなくなるという問題がある。そこで,図17
に示すように,字幕位置構造体に記憶された字幕部分を
切り出してその部分だけを相対的に拡大して,すなわ
ち,縮小率を代表画像604より低くして,604の近
傍に表示する。このとき,横書きの字幕の場合は604
の下に表示し,縦書きの場合は右横にというように,な
るべく代表画像間の間を大きくとらなくてすむよう配慮
する。字幕の部分は代表画像全体に比べて小さな領域で
あるので,字幕部分を拡大した画像を添えても,代表画
像全体の縮小率を下げるよりも表示に必要な面積は遥か
に少なくて済む。これにより,多数の代表画像の表示と
字幕が正しく読めることとの両立を図ることができる。
この表示方法は,これまで述べてきた字幕の現れている
シーンを選択的に一覧表示するときのみならず,字幕の
出ているシーンを含む全てのシーンを単純に一覧表示す
る場合にも有効である。
In the list display described so far,
In order to increase the number of scenes that can be checked at a glance in order to improve the efficiency of search, the display size and resolution of the display are limited, so the representative image of the scene must be reduced and displayed. However, there is a problem that subtitles become unreadable when the reduction ratio is increased. Therefore, FIG.
As shown in, the subtitle portion stored in the subtitle position structure is cut out and only that portion is relatively enlarged, that is, the reduction rate is made lower than that of the representative image 604 and displayed near 604. At this time, in the case of horizontal subtitles, 604
It should be displayed below, and in the case of vertical writing, it should be placed on the right side so that there is as little space between the representative images as possible. Since the subtitle portion is a smaller area than the entire representative image, even if an image in which the subtitle portion is enlarged is added, the area required for display is much smaller than the reduction ratio of the entire representative image. This makes it possible to achieve both display of many representative images and proper reading of subtitles.
This display method is effective not only when selectively displaying a list of scenes in which subtitles have been described, but also when simply displaying a list of all scenes including scenes in which subtitles appear. is there.

【0041】以上で述べた字幕検出方法では最も効果的
な方法について説明したが、本発明の他の実施例を以下
に説明する。上記の実施例では字幕と背景の間の輝度差
を用いたが,本発明はそれに限定されるものではなく,
色情報を使うこともできる。これは、字幕を構成する画
素は色の点でも、白色など背景と比べて目立つ色が使用
されていることによる。これは図2b)の構成における
輝度についての判定を色についての判定に置き換えるこ
とで実現できる。輝度でなく、色を使う方法は表示形態
に特徴のある字幕の検出により適したものである。すな
わち、ある色を指定して字幕の検出を行うことにより選
択的に字幕を抽出できるという利点がある。従って、報
道番組の見出しのように内容によっては大きさなど変わ
りうるが、常に同じスタイルで提示される字幕を見つけ
たいときに効率的である。この場合の閾値はある特定の
色を中心とした一定範囲の色として設定される。具体的
には、例えばRGB色空間における特定色を中心とする
部分空間として定義することができる。その設定は、検
出したい字幕のある画面を呼び出して、その字幕色に対
応するRGB色空間中の座標及びそれを中心とした部分
空間を閾値管理部にテーブルとして登録しておくことが
望ましい。
Although the most effective method has been described in the above-mentioned caption detection method, another embodiment of the present invention will be described below. Although the luminance difference between the subtitle and the background is used in the above embodiment, the present invention is not limited to this.
You can also use color information. This is because the pixels forming the subtitles have a color that is more noticeable than the background, such as white. This can be realized by replacing the judgment about the brightness in the configuration of FIG. 2b) with the judgment about the color. The method of using color instead of luminance is more suitable for detecting subtitles having a characteristic display form. That is, there is an advantage that the caption can be selectively extracted by specifying a certain color and detecting the caption. Therefore, although the size and the like may change depending on the content, such as the headline of a news program, it is efficient when it is desired to always find a subtitle presented in the same style. The threshold value in this case is set as a certain range of colors centered on a specific color. Specifically, for example, it can be defined as a partial space centered on a specific color in the RGB color space. As for the setting, it is desirable to call a screen having a subtitle to be detected, and register the coordinates in the RGB color space corresponding to the subtitle color and the subspace centered on the coordinate in the threshold management unit as a table.

【0042】上記ではRGB色空間による例を示した
が、本発明はそれに限定されるものではなく、例えば C
IE 1976 Y*u*v*色空間をはじめとする均等色空間を用い
ることができる。均等色空間とは、空間中のある点から
どちらの方向への色の変化についても、色変化の感覚差
がその点からのユークリッド距離に比例するような空間
である。この場合も一定範囲の色が、その色空間に占め
る部分空間として表わされる。この場合、ユーザの視覚
に対してより忠実な色の範囲を定義することができると
いう利点がある。
Although the example using the RGB color space has been shown above, the present invention is not limited to this, and for example, C
A uniform color space such as the IE 1976 Y * u * v * color space can be used. The uniform color space is a space in which the sensory difference of color change is proportional to the Euclidean distance from a point in any direction in which the color changes. Also in this case, a certain range of colors is represented as a subspace occupying the color space. In this case, there is an advantage that it is possible to define a color range more faithful to the user's vision.

【0043】輝度による判定と色による判定を併用した
ものが図18に示したものである。輝度判定部180
0、輝度差判定部1802、フレーム照合部1804、
字幕領域抽出部1806は図2b)に関して説明したも
のである。色判定部1810と色差判定部1812が上
述した色情報による字幕検出を行うブロックである。色
判定部1810は一定範囲の色をもつ画素を検出する。
1810により検出された画素について、近傍の画素と
比較して文字のエッジ部分に当たる画素を検出するのが
色差判定部1812である。閾値管理部1808は、色
による判定をも行う関係上、上述したような色について
の閾値情報を管理する点で図2b)のものと異なる。輝
度による判定と色による判定とをセレクタ1814によ
り切り換えることができ、目的に応じた効率的な検出が
行える。検出される字幕を特定化する方法では、字幕の
出現位置によって制約することも可能である。
FIG. 18 shows a combination of the determination based on the luminance and the determination based on the color. Brightness determination unit 180
0, a brightness difference determination unit 1802, a frame matching unit 1804,
The subtitle area extraction unit 1806 has been described with reference to FIG. The color determination unit 1810 and the color difference determination unit 1812 are blocks that perform caption detection based on the color information described above. The color determination unit 1810 detects pixels having a certain range of colors.
With respect to the pixels detected by 1810, the color difference determination unit 1812 detects pixels corresponding to the edge portion of the character by comparing them with neighboring pixels. The threshold management unit 1808 is different from that of FIG. 2B) in that the threshold management unit 1808 manages the threshold information about the color as described above because the determination based on the color is also performed. It is possible to switch between the determination based on the brightness and the determination based on the color by the selector 1814, and the efficient detection according to the purpose can be performed. In the method of specifying the detected caption, it is also possible to restrict it by the appearance position of the caption.

【0044】また,字幕が一定時間静止することを検出
のための特徴量として用いたが,本発明は静止した字幕
のためだけではなく,スクロールするタイプの字幕にも
適用できる。すなわち,ある時点のフレームについて,
一定時間の静止を除く字幕検出のための特徴量を用いて
字幕らしい部位の候補を選びだす。検出された中から,
次のフレームにおいて,同じ特徴が同じ並びで現れてい
る領域が近傍にあるものに候補を絞る。そして,さらに
次のフレームにおいて,先程と同じ方向,同じ距離だけ
離れた近傍に,やはり同じ特徴が同じ並びで現れている
領域に候補を限定する。これを何フレーム分か繰り返し
ても検出され続けるものだけを字幕領域として判別す
る。
Further, although the subtitle is stationary for a certain period of time is used as a feature amount for detection, the present invention can be applied not only to a static subtitle but also to a scroll type subtitle. That is, for a frame at a certain time,
A candidate for a subtitle-like region is selected using the feature amount for detecting subtitles excluding stationary for a certain period of time. From the detected
In the next frame, the candidates are narrowed down to those in which regions in which the same features appear in the same sequence are in the vicinity. Then, in the next frame, the candidates are limited to regions in which the same features also appear in the same arrangement in the vicinity in the same direction and the same distance as in the previous frame. Even if this is repeated for several frames, only those that are continuously detected are determined as the subtitle area.

【0045】また,表示方法の観点からは、字幕の現れ
ているシーンを一覧にして表示することを述べたが,そ
れらのシーンだけを集めてモニタ画面に順に再生してい
く表示方式も有用である。これは,ビデオのダイジェス
トとして用いることができる。
From the viewpoint of the display method, it has been described that the scenes in which the subtitles appear are displayed as a list, but a display method in which only those scenes are collected and sequentially reproduced on the monitor screen is also useful. is there. It can be used as a video digest.

【0046】本発明の方法は、映像検索を行う一つの検
索モードとしてシステムに持たせ複数の検索方法と併用
すれば極めて有効に機能する。映像検索を実行する他の
方法としては本出願人による映像を連想的に検索する方
法がある。この方法は、映像中に現われる事物を予めユ
ーザが登録し、登録された事物の現われる画面を代表画
像として一覧提示するものである。ユーザは提示された
画面を追っていくことにより所望の画面を見つけ出すこ
とができる。本願発明の字幕検出は映像の主題の変化点
に対応した代表画像を切り出すことに適している。その
中で、例えば注目する人物Aを見つけ出した場合、それ
から連想検索モードに移ってその人物Aを登録し、人物
Aが映像全体でどのように現われているか調べることが
できる。このように、ユーザは各種の検索モードを選択
して順次利用することにより多面的な映像検索を実行す
ることができる。
The method of the present invention functions extremely effectively when the system has one search mode for performing video search and is used in combination with a plurality of search methods. Another method of performing video search is a method of associatively searching for video by the applicant. According to this method, a user registers in advance the objects that appear in the video, and presents a list of the screens in which the registered objects appear as representative images. The user can find a desired screen by following the presented screen. The caption detection of the present invention is suitable for cutting out a representative image corresponding to a change point of a video subject. Among them, for example, when a person A of interest is found, the person A can be moved to the associative search mode, the person A can be registered, and how the person A appears in the entire image can be examined. As described above, the user can perform a multifaceted video search by selecting various search modes and sequentially using them.

【0047】これまで述べた方法は第一の実施例に準じ
て字幕画素判定条件の1)から4)の全てを利用したものと
して説明してきた。しかし、前述したように本発明に必
須の構成は輝度(色)判定とフレーム画像の照合であ
り、判定条件をそれらのみに絞って装置の負荷を軽くす
る方が望ましい場合もある。すなわち、このような字幕
検出処理を一般のビデオ映像再生装置やビデオ映像再生
手段付きテレビジョンに適用する場合である。このよう
な場合であれば、字幕情報を蓄積して何回も利用するよ
りもむしろリアルタイム的処理により、字幕の現われて
いる場面を次々とサーチして見たい場面を探すという処
理が求められるであろう。この場合、処理速度を最重要
視するという観点から、判定条件を絞り込むことが有効
である。
The method described so far has been described as using all of the subtitle pixel determination conditions 1) to 4) according to the first embodiment. However, as described above, the indispensable configuration of the present invention is the luminance (color) determination and the frame image comparison, and it may be desirable to reduce the load on the apparatus by limiting the determination conditions only to them. That is, this is a case where such subtitle detection processing is applied to a general video image reproducing device or a television with a video image reproducing means. In such a case, rather than accumulating subtitle information and using it many times, real-time processing is required to search the scenes in which subtitles appear one after another to find a desired scene. Ah In this case, it is effective to narrow down the determination condition from the viewpoint that the processing speed is of the highest importance.

【0048】そのような場合、近傍との輝度の差または
色の差の判定を省略することができる。また、字幕領域
を確定する必要もなく、違う字幕が検出された時点でフ
レーム画像をそのまま提示していけばよいため字幕領域
抽出処理を省略することができる。その場合のユーザへ
の画像の提示方法としては、前述した画像を順に再生し
ていく表示方法や図11におけるウインドウ700とウ
インドウ702を切り換えて表示することが有効であ
る。すなわち、映像検索モードと映像再生モードを設
け、映像検索モードでは画面全体に一覧で検出した画像
を提示していき、ユーザがそれらを見ながら見たい画像
を指示すると映像再生モードの画面に切り替わり、通常
のビデオ再生と同じように、指定した場面から映像が画
面全体に映しだされる。
In such a case, it is possible to omit the determination of the difference in luminance or the difference in color from the neighborhood. Further, it is not necessary to determine the subtitle area, and the frame image may be presented as it is when a different subtitle is detected, and therefore the subtitle area extraction processing can be omitted. As a method of presenting an image to the user in that case, it is effective to display the above-described images in order or to switch and display the windows 700 and 702 in FIG. That is, the video search mode and the video playback mode are provided, and in the video search mode, the images detected in the list are presented on the entire screen, and when the user designates the image to be viewed while looking at them, the screen is switched to the video playback mode screen. As with normal video playback, the image is displayed on the entire screen from the specified scene.

【0049】[0049]

【発明の効果】本発明により,字幕が現れているシーン
だけが選別されて一覧表示されるので,ユーザはその中
から所望のシーンを素早く探しだすことができる。
According to the present invention, since only the scenes in which subtitles appear are selected and displayed in a list, the user can quickly find a desired scene from among them.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施例を実現するためのシステムブロ
ック図である。
FIG. 1 is a system block diagram for realizing an embodiment of the present invention.

【図2】CPUでの処理の流れを示すブロック図であ
る。
FIG. 2 is a block diagram showing a flow of processing in a CPU.

【図3】字幕を検出するアルゴリズムのフローチャート
である。
FIG. 3 is a flowchart of an algorithm for detecting a subtitle.

【図4】字幕検出処理の詳細を示すフローチャートであ
る。
FIG. 4 is a flowchart showing details of subtitle detection processing.

【図5】字幕検出処理の詳細を示すフローチャートであ
る。
FIG. 5 is a flowchart showing details of subtitle detection processing.

【図6】字幕区間を記憶する構造体である。FIG. 6 is a structure for storing a subtitle section.

【図7】字幕位置を記憶する構造体である。FIG. 7 is a structure for storing a subtitle position.

【図8】シーンを記憶する構造体である。FIG. 8 is a structure that stores a scene.

【図9】映像自体を記憶する構造体である。FIG. 9 is a structure that stores the image itself.

【図10】字幕検出の結果の修正を行うためのグラフィ
ックインタフェースの一例である。
FIG. 10 is an example of a graphic interface for correcting the result of subtitle detection.

【図11】字幕の一覧表示を行うためのグラフィックイ
ンタフェースの一例である。
FIG. 11 is an example of a graphic interface for displaying a list of subtitles.

【図12】字幕の現れているシーンを一覧表示した例で
ある。
FIG. 12 is an example of displaying a list of scenes in which subtitles appear.

【図13】字幕を種類によって分類表示した例である。FIG. 13 is an example in which subtitles are classified and displayed according to types.

【図14】字幕の存在区間の包含関係に従って階層表示
した例である。
FIG. 14 is an example of hierarchical display in accordance with the inclusion relationship of subtitle existence sections.

【図15】字幕の文字認識結果に従って分類を行い表示
した例である。
FIG. 15 is an example in which classification is performed and displayed according to the character recognition result of subtitles.

【図16】認識した単語を分類するための辞書の構造体
の一例である。
FIG. 16 is an example of a structure of a dictionary for classifying recognized words.

【図17】字幕の部分だけを相対的に拡大して表示した
例である。
FIG. 17 is an example in which only a subtitle portion is relatively enlarged and displayed.

【図18】字幕検出処理部の処理のブロック図である。FIG. 18 is a block diagram of processing of a caption detection processing unit.

【符号の説明】[Explanation of symbols]

1…ディスプレイ,2…制御信号線,3…A/D変換
器,4…コンピュータ,5…ポインティングデバイス,
6…外部情報記憶装置,7…CPU,8…接続インタフ
ェース,9…メモリ,10…動画像再生装置,11…キ
ーボード。
1 ... Display, 2 ... Control signal line, 3 ... A / D converter, 4 ... Computer, 5 ... Pointing device,
6 ... External information storage device, 7 ... CPU, 8 ... Connection interface, 9 ... Memory, 10 ... Moving image reproducing device, 11 ... Keyboard.

Claims (18)

【特許請求の範囲】[Claims] 【請求項1】デジタル画像データとして取り込んだ動画
像の一部を代表画像として抽出し、動画像表示手段上に
上記代表画像を出力する動画像検索装置において、 上記デジタル画像データについて、フレーム画像ごとに
第一の閾値以上の輝度を有する画素を抽出する輝度判定
手段と、 その抽出された画素について、一連のフレーム画像につ
いて同位置に現われる画素を有するフレーム画像を抽出
するフレーム照合手段を有し、 抽出されたフレーム画像を上記代表画像として出力する
ことを特徴とする動画像検索装置。
1. A moving image search apparatus for extracting a part of a moving image captured as digital image data as a representative image and outputting the representative image on a moving image display means, in the digital image data, for each frame image. A luminance determining means for extracting a pixel having a luminance equal to or higher than a first threshold value, and a frame collating means for extracting a frame image having pixels appearing at the same position in a series of frame images for the extracted pixel, A moving image search device, wherein the extracted frame image is output as the representative image.
【請求項2】請求項1記載の動画像検索装置において、 上記輝度判定手段により抽出された画素について、近傍
画素の輝度と比較して輝度の差が第二の閾値以上である
画素を抽出する輝度差判定手段と、 上記フレーム照合手段により抽出されたフレーム画像に
ついて、上記同位置に現われる画素が密に存在する領域
を字幕の現われている領域として抽出する字幕領域抽出
手段を有することを特徴とする動画像検索装置。
2. The moving image search device according to claim 1, wherein, with respect to the pixels extracted by the brightness determining means, pixels having a difference in brightness that is equal to or larger than a second threshold value are extracted as compared with the brightness of neighboring pixels. A luminance difference determination means and a subtitle area extraction means for extracting, as a subtitle appearance area, an area in which the pixels appearing at the same position are densely present in the frame image extracted by the frame matching means, Video search device.
【請求項3】請求項2記載の動画像検索装置において、 上記第二の閾値をフレーム画像の輝度の変数として設定
する閾値管理手段を有することを特徴とする動画像検索
装置。
3. The moving image search device according to claim 2, further comprising threshold management means for setting the second threshold value as a variable of the luminance of the frame image.
【請求項4】デジタル画像データとして取り込んだ動画
像の一部を代表画像として抽出し、動画像表示手段上に
上記代表画像を出力する動画像検索装置において、 上記デジタル画像データについて、フレーム画像ごとに
第一の一定範囲の色を有する画素を抽出する色判定手段
と、 その抽出された画素について、一連のフレーム画像につ
いて同位置に現われる画素を有するフレーム画像を抽出
するフレーム照合手段を有し、 抽出されたフレーム画像を上記代表画像として出力する
ことを特徴とする動画像検索装置。
4. A moving image search apparatus for extracting a part of a moving image captured as digital image data as a representative image and outputting the representative image on a moving image display means, in the digital image data, for each frame image. A color determining means for extracting pixels having a first fixed range of color, and a frame matching means for extracting frame images having pixels appearing at the same position in a series of frame images for the extracted pixels, A moving image search device, wherein the extracted frame image is output as the representative image.
【請求項5】請求項4記載の動画像検索装置において、 上記色判定手段により抽出された画素について、近傍画
素の色と比較して色の相違が第二の一定範囲以内である
画素を抽出する色差判定手段と、 上記フレーム照合手段により抽出されたフレーム画像に
ついて、上記同位置に現われる画素が密に存在する領域
を字幕の現われている領域として抽出する字幕領域抽出
手段を有することを特徴とする動画像検索装置。
5. The moving image search device according to claim 4, wherein the pixels extracted by the color determining means are pixels having a color difference within a second predetermined range as compared with colors of neighboring pixels. And a subtitle area extracting means for extracting, as a subtitled area, an area in which pixels appearing at the same position are densely present in the frame image extracted by the frame matching means. Video search device.
【請求項6】請求項5記載の動画像検索装置において、 上記第二の一定範囲をテーブルとして保持する閾値管理
手段を有することを特徴とする動画像検索装置。
6. The moving image search device according to claim 5, further comprising threshold management means for holding the second fixed range as a table.
【請求項7】デジタル画像データとして取り込んだ動画
像の一部を代表画像として抽出し、動画像表示手段上に
上記代表画像を出力する動画像検索装置において、 上記デジタル画像データについて、フレーム画像ごとに
第一の閾値以上の輝度を有する画素を抽出する輝度判定
手段と、 上記輝度判定手段により抽出された画素について、近傍
画素の輝度と比較して輝度の差が第二の閾値以上である
画素を抽出する輝度差判定手段と、 上記デジタル画像データについて、フレーム画像ごとに
第一の一定範囲の色を有する画素を抽出する色判定手段
と、 上記色判定手段により抽出された画素について、近傍画
素の色と比較して色の相違が第二の一定範囲以内である
画素を抽出する色差判定手段と、 上記第二の閾値をフレーム画像の輝度の変数として設定
し、かつ第二の一定範囲をテーブルとして保持する閾値
管理手段と、上記デジタル画像を上記輝度判定手段およ
び上記色判定手段のいずれか一方に選択的に入力するセ
レクタと、 上記輝度差判定手段および上記色差判定手段のいずれか
一方により抽出された画素について、一連のフレーム画
像について同位置に現われる画素を有するフレーム画像
を抽出するフレーム照合手段と、 上記フレーム照合手段により抽出されたフレーム画像に
ついて、上記同位置に現われる画素が密に存在する領域
を字幕の現われている領域として抽出する字幕領域抽出
手段を有し、 抽出されたフレーム画像を上記代表画像として出力する
ことを特徴とする動画像検索装置。
7. A moving image search device for extracting a part of a moving image captured as digital image data as a representative image and outputting the representative image on a moving image display means, in the digital image data, for each frame image. A luminance determination unit that extracts a pixel having a luminance equal to or higher than a first threshold value, and a pixel that has a luminance difference that is equal to or greater than a second threshold value with respect to the pixels extracted by the luminance determination unit. A brightness difference determining means for extracting a pixel, a color determining means for extracting a pixel having a color within a first fixed range for each frame image in the digital image data, and a neighboring pixel for the pixel extracted by the color determining means. Color difference determination means for extracting pixels whose color difference is within a second fixed range as compared with the color, and the second threshold as a variable of the luminance of the frame image. Threshold management means for setting a second fixed range as a table, a selector for selectively inputting the digital image to one of the brightness determination means and the color determination means, and the brightness difference determination The pixel extracted by one of the means and the color difference determination means, a frame collating means for extracting a frame image having pixels appearing at the same position in a series of frame images, and a frame image extracted by the frame collating means. A moving image characterized by having subtitle region extracting means for extracting a region in which pixels appearing at the same position are densely present as a region in which a subtitle appears, and outputting the extracted frame image as the representative image. Search device.
【請求項8】請求項1、4または7記載の動画像検索装
置において、 上記動画像表示手段は、少なくとも二つの動画像表示画
面を有し、 第一の動画像表示画面においては、映像を再生した状態
で表示し、第二の動画像表示画面においては、上記代表
画像を一覧表示する画像提示処理手段とを有することを
特徴とする動画像検索装置。
8. The moving image search device according to claim 1, 4 or 7, wherein the moving image display means has at least two moving image display screens, and a video is displayed on the first moving image display screen. A moving image search apparatus, comprising: an image presentation processing unit that displays the image in a reproduced state and displays a list of the representative images on the second moving image display screen.
【請求項9】請求項8記載の動画像検索装置において、 上記代表画像を時系列に一覧表示することを特徴とする
動画像検索装置。
9. The moving image search device according to claim 8, wherein the representative images are displayed in a time series list.
【請求項10】請求項8記載の動画像検索装置におい
て、 検出された字幕領域について、字幕に現われる文字の輝
度、配色、大きさおよび配列の全部もしくは一部を分類
条件として分類し、 分類ごとに上記代表画像を一覧表示することを特徴とす
る動画像検索装置。
10. The moving image search device according to claim 8, wherein in the detected subtitle area, all or part of the brightness, color arrangement, size, and arrangement of characters appearing in the subtitles are classified as classification conditions, and each of them is classified. A moving image search device characterized by displaying a list of the representative images on the screen.
【請求項11】請求項8記載の動画像検索装置におい
て、 検出された字幕領域について、一の字幕の存在中に他の
複数の字幕が存在する場合に、その一の字幕を上位の字
幕、他の複数の字幕を下位の字幕として判定し、 上記代表画像を階層化して一覧表示することを特徴とす
る動画像検索装置。
11. The moving image search device according to claim 8, wherein in the detected subtitle area, when one subtitle has a plurality of other subtitles, the one subtitle is an upper subtitle. A moving image search device, characterized in that a plurality of other subtitles are determined as subordinate subtitles and the representative image is hierarchically displayed as a list.
【請求項12】請求項8記載の動画像検索装置におい
て、 検出された字幕領域中の字幕を文字認識し、共通の文字
列を少なくとも部分的に含む字幕を一つのグループとし
て分類し、 分類ごとに上記代表画像を一覧表示することを特徴とす
る動画像検索装置。
12. The moving image search device according to claim 8, wherein the subtitles in the detected subtitle area are character-recognized, and subtitles at least partially including a common character string are classified into one group, and each subclass is classified. A moving image search device characterized by displaying a list of the representative images on the screen.
【請求項13】請求項8記載の動画像検索装置におい
て、 検出された字幕領域中の字幕を文字認識し、 単語とその意味により単語を分類する分類項目とを対応
付けた辞書を予め保持することにより、 分類ごとに上記代表画像を一覧表示することを特徴とす
る動画像検索装置。
13. The moving image search device according to claim 8, wherein the subtitles in the detected subtitle area are character-recognized, and a dictionary in which words are associated with classification items for classifying words according to their meanings is held in advance. As a result, the moving image search device is characterized in that the representative images are displayed in a list for each classification.
【請求項14】請求項8記載の動画像検索装置におい
て、 一覧表示された代表画像に対して、字幕領域のみを代表
画像よりも相対的に拡大して表示することを特徴とする
動画像検索装置。
14. The moving image search device according to claim 8, wherein, for the representative images displayed in a list, only the subtitle area is displayed relatively enlarged as compared with the representative image. apparatus.
【請求項15】蓄積されたビデオ映像を映像信号として
出力するビデオ映像再生装置において、 上記映像信号をデジタル画像データに変換し、 上記デジタル画像データについて、フレーム画像ごとに
第一の閾値以上の輝度を有する画素を抽出する輝度判定
手段と、 その抽出された画素について、一連のフレーム画像につ
いて同位置に現われる画素を有するフレーム画像を抽出
するフレーム照合手段を有し、 抽出されたフレーム画像を上記代表画像として出力する
ことを特徴とするビデオ映像再生装置。
15. A video image reproducing apparatus for outputting a stored video image as a video signal, the video signal being converted into digital image data, and the digital image data having a luminance of a first threshold value or more for each frame image. Brightness determining means for extracting a pixel having a pixel, and frame collating means for extracting a frame image having a pixel appearing at the same position in a series of frame images for the extracted pixel. A video image reproducing device characterized by outputting as an image.
【請求項16】蓄積されたビデオ映像を動画像表示手段
上に再生するビデオ映像再生手段付きテレビジョンにお
いて、 上記ビデオ映像再生手段による出力される映像信号をデ
ジタル画像データに変換し、 上記デジタル画像データについて、フレーム画像ごとに
第一の閾値以上の輝度を有する画素を抽出する輝度判定
手段と、 その抽出された画素について、一連のフレーム画像につ
いて同位置に現われる画素を有するフレーム画像を抽出
するフレーム照合手段を有し、 抽出されたフレーム画像を上記代表画像として出力する
ことを特徴とするビデオ映像再生手段付きテレビジョ
ン。
16. A television with a video image reproducing means for reproducing the accumulated video image on a moving image display means, converting a video signal output by the video image reproducing means into digital image data, With respect to the data, a brightness determining unit that extracts a pixel having a brightness equal to or higher than a first threshold value for each frame image, and a frame that extracts a frame image having pixels that appear at the same position in a series of frame images for the extracted pixel A television with a video image reproducing means, which has a collating means and outputs the extracted frame image as the representative image.
【請求項17】デジタル画像データとして取り込んだ動
画像の一部を代表画像として抽出し、動画像表示手段上
に上記代表画像を出力する動画像検索方法において、 上記デジタル画像データについて、フレーム画像ごとに
第一の閾値以上の輝度を有する画素を抽出し、 その抽出された画素について、一連のフレーム画像につ
いて同位置に現われる画素を有するフレーム画像を抽出
するフレーム照合し、 抽出されたフレーム画像を上記代表画像として出力する
ことを特徴とする動画像検索方法。
17. A moving image search method for extracting a part of a moving image captured as digital image data as a representative image and outputting the representative image on a moving image display means, in which the digital image data is frame image by frame image. Pixels having a luminance equal to or higher than the first threshold are extracted, and the extracted pixels are subjected to frame matching to extract frame images having pixels appearing at the same position in a series of frame images. A moving image search method characterized by outputting as a representative image.
【請求項18】デジタル画像データとして取り込んだ動
画像の一部を代表画像として抽出し、動画像表示手段上
に上記代表画像を出力する動画像検索方法において、 上記デジタル画像データについて、フレーム画像ごとに
第一の一定範囲の色を有する画素を抽出し、 その抽出された画素について、一連のフレーム画像につ
いて同位置に現われる画素を有するフレーム画像を抽出
するフレーム照合し、 抽出されたフレーム画像を上記代表画像として出力する
ことを特徴とする動画像検索方法。
18. A moving image search method for extracting a part of a moving image captured as digital image data as a representative image and outputting the representative image on a moving image display means, wherein each frame image of the digital image data is First, a pixel having a certain range of colors is extracted, and the extracted pixels are subjected to frame matching to extract a frame image having pixels that appear in the same position in a series of frame images. A moving image search method characterized by outputting as a representative image.
JP33050793A 1993-12-27 1993-12-27 Moving image search apparatus and method Expired - Fee Related JP3361587B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33050793A JP3361587B2 (en) 1993-12-27 1993-12-27 Moving image search apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33050793A JP3361587B2 (en) 1993-12-27 1993-12-27 Moving image search apparatus and method

Publications (2)

Publication Number Publication Date
JPH07192003A true JPH07192003A (en) 1995-07-28
JP3361587B2 JP3361587B2 (en) 2003-01-07

Family

ID=18233407

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33050793A Expired - Fee Related JP3361587B2 (en) 1993-12-27 1993-12-27 Moving image search apparatus and method

Country Status (1)

Country Link
JP (1) JP3361587B2 (en)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0946519A (en) * 1995-08-01 1997-02-14 Canon Inc Image processing apparatus and method
JPH0965287A (en) * 1995-08-18 1997-03-07 Hitachi Ltd Method and apparatus for detecting characteristic scene of moving image
JPH0981170A (en) * 1995-09-14 1997-03-28 Brother Ind Ltd Karaoke equipment
JPH0991453A (en) * 1995-09-21 1997-04-04 Sanyo Electric Co Ltd Image processing method and its unit
JPH1098684A (en) * 1996-07-15 1998-04-14 At & T Corp Automatic providing method for video program compressed expression with format suitable for electronic search and retrieval
JPH10112837A (en) * 1996-10-07 1998-04-28 Nippon Telegr & Teleph Corp <Ntt> Video table of contents generation display method and apparatus
JPH10112834A (en) * 1996-10-04 1998-04-28 Nippon Telegr & Teleph Corp <Ntt> Video search method and apparatus
US5818439A (en) * 1995-02-20 1998-10-06 Hitachi, Ltd. Video viewing assisting method and a video playback system therefor
JPH10304247A (en) * 1997-04-30 1998-11-13 Nippon Telegr & Teleph Corp <Ntt> Video telop detection method and apparatus
JPH11175561A (en) * 1997-12-17 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> Video database search / display method and apparatus, and recording medium storing video database search / display program
JPH11243515A (en) * 1998-02-26 1999-09-07 Nippon Telegr & Teleph Corp <Ntt> Video display method and apparatus, and recording medium storing video structuring program
JP2000182028A (en) * 1998-12-17 2000-06-30 Matsushita Electric Ind Co Ltd Caption region detection method and device, and moving image search method and device
US6219382B1 (en) 1996-11-25 2001-04-17 Matsushita Electric Industrial Co., Ltd. Method and apparatus for locating a caption-added frame in a moving picture signal
US6366699B1 (en) 1997-12-04 2002-04-02 Nippon Telegraph And Telephone Corporation Scheme for extractions and recognitions of telop characters from video data
JP2002358522A (en) * 2001-05-31 2002-12-13 Olympus Optical Co Ltd Image selection support device, image selection support method, and image selection support program
JP2006053802A (en) * 2004-08-12 2006-02-23 Ntt Communications Kk Video type determination method, video type determination device, and video type determination program
WO2006068269A1 (en) * 2004-12-24 2006-06-29 Nec Corporation Video structurizing device and method
JP2007028347A (en) * 2005-07-20 2007-02-01 Sharp Corp Image display device and OSD display position control method during telop display
JP2007336478A (en) * 2006-06-19 2007-12-27 Sharp Corp Output method and output device
JP2008004116A (en) * 2007-08-02 2008-01-10 Hitachi Ltd Character search method and apparatus in video
JP2008166988A (en) * 2006-12-27 2008-07-17 Sony Corp Information processor and information processing method, and program
JP2008288899A (en) * 2007-05-17 2008-11-27 Canon Inc Moving picture imaging apparatus and moving picture imaging method
JP2009302779A (en) * 2008-06-11 2009-12-24 Casio Hitachi Mobile Communications Co Ltd Video with caption-reproducing device, and video with caption-reproducing method and program
JP2010011395A (en) * 2008-06-30 2010-01-14 Toshiba Corp Video recording playback apparatus and video recording playback method
JP2010130394A (en) * 2008-11-28 2010-06-10 Hitachi Ltd Recording apparatus and recording method
US8279343B2 (en) 2007-09-18 2012-10-02 Kddi Corporation Summary content generation device and computer program
US8842189B2 (en) 2007-05-17 2014-09-23 Canon Kabushiki Kaisha Moving image capture apparatus and moving image capture method
JP2019105867A (en) * 2017-12-08 2019-06-27 株式会社フォトロン Telop editing apparatus and telop editing program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021018849A (en) * 2019-07-17 2021-02-15 オムロン株式会社 Prediction device, data generation device, method for controlling prediction device, method for controlling data generation device, information processing program, and recording medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05268518A (en) * 1992-03-19 1993-10-15 Nippon Telegr & Teleph Corp <Ntt> Video processor
JPH05328220A (en) * 1992-05-22 1993-12-10 Nippon Hoso Kyokai <Nhk> Superimposing method
JPH06110942A (en) * 1992-09-25 1994-04-22 Toshiba Corp Video indexing device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05268518A (en) * 1992-03-19 1993-10-15 Nippon Telegr & Teleph Corp <Ntt> Video processor
JPH05328220A (en) * 1992-05-22 1993-12-10 Nippon Hoso Kyokai <Nhk> Superimposing method
JPH06110942A (en) * 1992-09-25 1994-04-22 Toshiba Corp Video indexing device

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5818439A (en) * 1995-02-20 1998-10-06 Hitachi, Ltd. Video viewing assisting method and a video playback system therefor
JPH0946519A (en) * 1995-08-01 1997-02-14 Canon Inc Image processing apparatus and method
JPH0965287A (en) * 1995-08-18 1997-03-07 Hitachi Ltd Method and apparatus for detecting characteristic scene of moving image
JPH0981170A (en) * 1995-09-14 1997-03-28 Brother Ind Ltd Karaoke equipment
JPH0991453A (en) * 1995-09-21 1997-04-04 Sanyo Electric Co Ltd Image processing method and its unit
JPH1098684A (en) * 1996-07-15 1998-04-14 At & T Corp Automatic providing method for video program compressed expression with format suitable for electronic search and retrieval
JPH10112834A (en) * 1996-10-04 1998-04-28 Nippon Telegr & Teleph Corp <Ntt> Video search method and apparatus
JPH10112837A (en) * 1996-10-07 1998-04-28 Nippon Telegr & Teleph Corp <Ntt> Video table of contents generation display method and apparatus
US6219382B1 (en) 1996-11-25 2001-04-17 Matsushita Electric Industrial Co., Ltd. Method and apparatus for locating a caption-added frame in a moving picture signal
US6301302B1 (en) 1996-11-25 2001-10-09 Matsushita Electric Industrial Co., Ltd. Moving picture search system cross reference to related application
JPH10304247A (en) * 1997-04-30 1998-11-13 Nippon Telegr & Teleph Corp <Ntt> Video telop detection method and apparatus
US6501856B2 (en) 1997-12-04 2002-12-31 Nippon Telegraph And Telephone Corporation Scheme for extraction and recognition of telop characters from video data
US6366699B1 (en) 1997-12-04 2002-04-02 Nippon Telegraph And Telephone Corporation Scheme for extractions and recognitions of telop characters from video data
JPH11175561A (en) * 1997-12-17 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> Video database search / display method and apparatus, and recording medium storing video database search / display program
JPH11243515A (en) * 1998-02-26 1999-09-07 Nippon Telegr & Teleph Corp <Ntt> Video display method and apparatus, and recording medium storing video structuring program
JP2000182028A (en) * 1998-12-17 2000-06-30 Matsushita Electric Ind Co Ltd Caption region detection method and device, and moving image search method and device
JP2002358522A (en) * 2001-05-31 2002-12-13 Olympus Optical Co Ltd Image selection support device, image selection support method, and image selection support program
US8055030B2 (en) 2001-05-31 2011-11-08 Olympus Corporation Image selection support system for supporting selection of well-photographed image from plural images
JP2006053802A (en) * 2004-08-12 2006-02-23 Ntt Communications Kk Video type determination method, video type determination device, and video type determination program
WO2006068269A1 (en) * 2004-12-24 2006-06-29 Nec Corporation Video structurizing device and method
US8126294B2 (en) 2004-12-24 2012-02-28 Nec Corporation Video structuring device
JPWO2006068269A1 (en) * 2004-12-24 2008-08-07 日本電気株式会社 Image structuring apparatus and method
US7949207B2 (en) 2004-12-24 2011-05-24 Nec Corporation Video structuring device and method
JP2007028347A (en) * 2005-07-20 2007-02-01 Sharp Corp Image display device and OSD display position control method during telop display
JP2007336478A (en) * 2006-06-19 2007-12-27 Sharp Corp Output method and output device
JP2008166988A (en) * 2006-12-27 2008-07-17 Sony Corp Information processor and information processing method, and program
US8213764B2 (en) 2006-12-27 2012-07-03 Sony Corporation Information processing apparatus, method and program
JP2008288899A (en) * 2007-05-17 2008-11-27 Canon Inc Moving picture imaging apparatus and moving picture imaging method
US8842189B2 (en) 2007-05-17 2014-09-23 Canon Kabushiki Kaisha Moving image capture apparatus and moving image capture method
JP2008004116A (en) * 2007-08-02 2008-01-10 Hitachi Ltd Character search method and apparatus in video
US8279343B2 (en) 2007-09-18 2012-10-02 Kddi Corporation Summary content generation device and computer program
JP2009302779A (en) * 2008-06-11 2009-12-24 Casio Hitachi Mobile Communications Co Ltd Video with caption-reproducing device, and video with caption-reproducing method and program
JP2010011395A (en) * 2008-06-30 2010-01-14 Toshiba Corp Video recording playback apparatus and video recording playback method
JP2010130394A (en) * 2008-11-28 2010-06-10 Hitachi Ltd Recording apparatus and recording method
JP2019105867A (en) * 2017-12-08 2019-06-27 株式会社フォトロン Telop editing apparatus and telop editing program

Also Published As

Publication number Publication date
JP3361587B2 (en) 2003-01-07

Similar Documents

Publication Publication Date Title
JP3361587B2 (en) Moving image search apparatus and method
JP4643829B2 (en) System and method for analyzing video content using detected text in a video frame
US6608930B1 (en) Method and system for analyzing video content using detected text in video frames
JP2994177B2 (en) System and method for locating boundaries between video segments
US8316301B2 (en) Apparatus, medium, and method segmenting video sequences based on topic
US7184100B1 (en) Method of selecting key-frames from a video sequence
US6546185B1 (en) System for searching a particular character in a motion picture
US6366699B1 (en) Scheme for extractions and recognitions of telop characters from video data
US6243419B1 (en) Scheme for detecting captions in coded video data without decoding coded video data
US7339992B2 (en) System and method for extracting text captions from video and generating video summaries
EP0729117B1 (en) Method and apparatus for detecting a point of change in moving images
US6222532B1 (en) Method and device for navigating through video matter by means of displaying a plurality of key-frames in parallel
US6424744B2 (en) Video retrieval method and apparatus
Gargi et al. Indexing text events in digital video databases
US7308119B2 (en) Image retrieval apparatus and method, and image display apparatus and method thereof
US20080095442A1 (en) Detection and Modification of Text in a Image
US6606636B1 (en) Method and apparatus for retrieving dynamic images and method of and apparatus for managing images
JP3332166B2 (en) Video search device
JP3258924B2 (en) Scene management device, scene management method, and recording medium
WO1999051022A1 (en) Method of selecting key-frames from a video sequence
JP2000182053A (en) Video processing method and apparatus, and recording medium recording video processing procedure
JP3379453B2 (en) Caption region detection method and device, and moving image search method and device
US7200814B2 (en) Reproduction apparatus
JP3024574B2 (en) Video search device
KR100368324B1 (en) A apparatus of searching with semantic information in video and method therefor

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071018

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081018

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091018

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091018

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101018

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111018

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121018

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees