[go: up one dir, main page]

JP4147763B2 - Database construction apparatus, database construction method, database construction program, recording medium - Google Patents

Database construction apparatus, database construction method, database construction program, recording medium Download PDF

Info

Publication number
JP4147763B2
JP4147763B2 JP2001328332A JP2001328332A JP4147763B2 JP 4147763 B2 JP4147763 B2 JP 4147763B2 JP 2001328332 A JP2001328332 A JP 2001328332A JP 2001328332 A JP2001328332 A JP 2001328332A JP 4147763 B2 JP4147763 B2 JP 4147763B2
Authority
JP
Japan
Prior art keywords
layout area
elements
information
database
layout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001328332A
Other languages
Japanese (ja)
Other versions
JP2003131932A (en
Inventor
潤 田中
竜吾 奥田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Inc
Original Assignee
Toppan Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Inc filed Critical Toppan Inc
Priority to JP2001328332A priority Critical patent/JP4147763B2/en
Publication of JP2003131932A publication Critical patent/JP2003131932A/en
Application granted granted Critical
Publication of JP4147763B2 publication Critical patent/JP4147763B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、要素間を簡単に関連づけしてデータベースの構築および更新を行うデータベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体に関するものである。
【0002】
【従来の技術】
従来から、カタログ作成依頼者(以下、依頼者と称する)からカタログを作成依頼された場合に、印刷業者は、DTP(Desktop Publishing)が適用されたシステムを利用して、カタログを作成することが行われている。例えば、カタログに掲載するための商品の画像や、商品の名称、型式、寸法、製品紹介文などの文書等の商品情報が商品データベースに予め記憶されている。この商品データベースからDTP用コンピュータを利用して、商品情報を読み出し、画像や文書のレイアウトを決め、編集を行い、見本を印刷する。そして、印刷された見本を依頼者に確認(レイアウト、誤植の有無等)してもらい、訂正内容があれば、見本に訂正内容を記入してもらう。印刷業者は、見本に記入された訂正内容に応じて、DTP用コンピュータによってDTP上のデータを修正する。そして、修正後の見本の印刷物を依頼者に再度確認してもらい、変更がなければ、印刷し、カタログを作成する。
【0003】
一方、上述した商品データベースは、次回のカタログ制作時においては、新製品などの情報が追加され、引き続き利用される。従って、依頼者によって見本に記入された訂正内容に応じて、印刷業者は、DTP用コンピュータによってDTP上のデータが修正された場合、この修正内容を商品データベースに反映させ、商品データベースを更新する必要があるが、この商品データベースの更新作業は、印刷業者が見本に記入された訂正内容に基づいて、商品データベース用のコンピュータから商品データベースの更新作業を行っていた。
【0004】
【発明が解決しようとする課題】
上述したように、見本に記入された訂正内容を反映させる場合、DTP上のデータの修正作業を行った後に、商品データベースに対しても修正作業を行う場合、データの修正作業を2重に行う必要があり、印刷業者にとって大きな負担であるとともに、更新作業に多大な時間がかかってしまっていた。
そこで、更新されたDTP上のデータから商品データベースを構築する場合、商品カタログには、多種の商品が存在するため、商品毎に、商品の画像、名称、型式、寸法などの要素を1つの商品情報としてリンクさせて、データベースを構築し、管理することが望ましいが、DTP上のデータにおいては、これらの情報間においては、リンク付けがされていないため、画像、名称、形式、寸法などの要素を関連づけする必要がある。
【0005】
しかしながら、従来技術によれば、作業者が手作業によって関連づけを行うしかないので、関連づけ作業に多大な時間がかかってしまうとともに、作業者にとって大きな負担となってしまう。
また、作業者のミスなどにより、必要な要素が関連づけされていなかったり、異なる商品の要素を関連づけされてしまう場合が考えられる。
また、既に関連づけされている要素に対して編集作業を行うと、関連づけが外れてしまう場合が考えられるが、作業者にとって、膨大な商品カタログの全てについて、各要素間が関連づけされているか否かを確認することは困難である。
【0006】
本発明は、このような事情に鑑みてなされたもので、その目的は、各要素間を簡単にかつ、正確に関連づけを行うことができるデータベース構築システムを提供することにある。
また、本発明は、各要素間が関連づけされているか否かを簡単に確認することができるデータベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体を提供することにある。
【0007】
【課題を解決するための手段】
上記目的を達成するために、本発明は、電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素と項目情報とを対応付けてデータベース情報を生成し、データベースを構築するデータベース構築装置であって、各レイアウト領域間において既に関連付けされた情報をテンプレートリンク情報として生成し、生成したテンプレートリンク情報あるいは、予め設定されているテンプレート情報を利用して各レイアウト領域を関連づけるとともに、前記テンプレート情報を前記電子文書ページの他のページあるいは、他のレイアウト領域においても利用して各レイアウト領域を関連づける要素関係特定手段と、前記要素関係特定手段によって関連づけられるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記要素関係特定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する構成要素抽出手段と、を有することを特徴とする。
【0008】
また、本発明は、電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素と項目情報とを対応付けてデータベース情報を生成し、データベースを構築するデータベース構築装置であって、既に関連付けされた各レイアウト領域間のリンク情報を記憶するリンク情報記憶手段と、リンクされているか否かを検出する対象となる電子文書に対応するデータベース情報のリンク情報を前記リンク情報記憶手段から読み出し、読み出したデータの各要素と更新されたデータベース情報の各要素とを比較する比較手段と、前記比較手段の比較結果に基づいて、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素と、一致しない要素とを異なる表現方法によって出力する配色手段と、を有することを特徴とする。
【0009】
また、本発明は、電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素と項目情報とを対応付けてデータベース情報を生成し、データベースを構築するデータベース構築装置であって、既に関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出する矩形内レイアウト領域検出手段と、前記矩形内レイアウト領域検出手段が検出した最小外接矩形内のレイアウト領域をそれぞれ関連付けするリンク設定手段と、前記リンク設定手段によって関連づけされるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記リンク設定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する構成要素抽出手段と、を有することを特徴とする。
【0010】
また、本発明は、電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素と項目情報とを対応付けてデータベース情報を生成し、データベースを構築するデータベース構築方法であって、各レイアウト領域間において既に関連付けされた情報をテンプレートリンク情報として生成し、生成したテンプレートリンク情報あるいは、予め設定されているテンプレート情報を利用して各レイアウト領域を関連づけるとともに、前記テンプレート情報を前記電子文書ページの他のページあるいは、他のレイアウト領域においても利用して各レイアウト領域を関連づける要素関係特定手順と、前記要素関係特定手順によって関連づけられるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記要素関係特定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する構成要素抽出手順と、を有することを特徴とする。
【0011】
また、本発明は、電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素を項目情報を対応付けてデータベース情報を生成し、データベースを構築するデータベース構築方法であって、既に関連付けされた各レイアウト領域間のリンク情報を記憶するリンク情報記憶手段と、リンクされているか否かを検出する対象となる電子文書に対応するデータベース情報のリンク情報を、既に関連付けされた各レイアウト領域間のリンク情報を記憶するリンク情報記憶手段から読み出し、読み出したデータの各要素と更新されたデータベース情報の各要素とを比較し、前記比較した比較結果に基づいて、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素と、一致しない要素とを異なる表現方法によって出力することを特徴とする。
【0012】
また、本発明は、電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素と項目情報とを対応付けてデータベース情報を生成し、データベースを構築するデータベース構築方法であって、既に関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出する矩形内レイアウト領域検出手順と、前記矩形内レイアウト領域検出手段が検出した最小外接矩形内のレイアウト領域をそれぞれ関連付けするリンク設定方法手順と、前記リンク設定手段によって関連づけされるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記リンク設定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する構成要素抽出手順と、を有することを特徴とする。
【0013】
また、本発明は、電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素と項目情報とを対応付けてデータベース情報を生成し、データベースを構築するデータベース構築プログラムであって、各レイアウト領域間において既に関連付けされた情報をテンプレートリンク情報として生成し、生成したテンプレートリンク情報あるいは、予め設定されているテンプレート情報を利用して各レイアウト領域を関連づけるとともに、前記テンプレート情報を前記電子文書ページの他のページあるいは、他のレイアウト領域においても利用して各レイアウト領域を関連づける要素関係特定ステップと、前記要素関係特定ステップによって関連づけられるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記要素関係特定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する構成要素抽出ステップと、をコンピュータに実行させることを特徴とする。
【0014】
また、本発明は、電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素を項目情報を対応付けてデータベース情報を生成し、データベースを構築するデータベース構築プログラムであって、リンクされているか否かを検出する対象となる電子文書に対応するデータベース情報のリンク情報を前記リンク情報記憶手段から読み出し、読み出したデータの各要素と更新されたデータベース情報の各要素とを比較する比較ステップと、前記比較における比較結果に基づいて、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素と、一致しない要素とを異なる表現方法によって出力する配色ステップと、をコンピュータに実行させることを特徴とする。
【0015】
また、本発明は、電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素と項目情報とを対応付けてデータベース情報を生成し、データベースを構築するデータベース構築プログラムであって、既に関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出する矩形内レイアウト領域検出ステップと、前記矩形内レイアウト領域検出手段が検出した最小外接矩形内のレイアウト領域をそれぞれ関連付けするリンク設定ステップと、前記リンク設定手段によって関連づけされるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記リンク設定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する構成要素抽出ステップと、をコンピュータに実行させることを特徴とする。
【0016】
また、本発明は、電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素と項目情報とを対応付けてデータベース情報を生成し、データベースを構築するデータベース構築プログラムを記録したコンピュータ読み取り可能な記録媒体であって、各レイアウト領域間において既に関連付けされた情報をテンプレートリンク情報として生成し、生成したテンプレートリンク情報あるいは、予め設定されているテンプレート情報を利用して各レイアウト領域を関連づけるとともに、前記テンプレート情報を前記電子文書ページの他のページあるいは、他のレイアウト領域においても利用して各レイアウト領域を関連づける要素関係特定ステップと、前記要素関係特定ステップによって関連づけられるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記要素関係特定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する構成要素抽出ステップと、をコンピュータに実行させるデータベース構築プログラムを記録したことを特徴とする。
【0017】
また、本発明は、電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素を項目情報を対応付けてデータベース情報を生成し、データベースを構築するデータベース構築プログラムを記録したコンピュータ読み取り可能な記録媒体であって、リンクされているか否かを検出する対象となる電子文書に対応するデータベース情報のリンク情報を前記リンク情報記憶手段から読み出し、読み出したデータの各要素と更新されたデータベース情報の各要素とを比較する比較ステップと、前記比較における比較結果に基づいて、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素と、一致しない要素とを異なる表現方法によって出力する配色ステップと、をコンピュータに実行させるデータベース構築プログラムを記録したことを特徴とする。
【0018】
また、本発明は、電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素と項目情報とを対応付けてデータベース情報を生成し、データベースを構築するデータベース構築プログラムを記録した記録媒体であって、既に関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出する矩形内レイアウト領域検出ステップと、前記矩形内レイアウト領域検出手段が検出した最小外接矩形内のレイアウト領域をそれぞれ関連付けするリンク設定ステップと、前記リンク設定手段によって関連づけされるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記リンク設定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する構成要素抽出ステップと、をコンピュータに実行させるデータベース構築プログラムを記録したことを特徴とする。
【0019】
【発明の実施の形態】
以下、本発明の一実施形態によるデータベース構築装置を図面を参照して説明する。この実施形態においては、図2に示すような商品カタログのレイアウト構造ファイルである電子文書からデータ構造ファイルを生成し、データベースを構築する場合について説明する。ここでいうデータ構造ファイルとは、要素に意味を持たせ、その意味を指定し、表現することが可能なデータを記憶するファイルであり、例えば、DB、XML(eXtensible Markup Language)等がある。レイアウト構造ファイルとは、要素を表現する位置(レイアウト)を指定し表現することができるデータを記憶するためのファイルであり、例えば、DTPデータ、HTML(HyperText Markup Language)等がある。
図1は、この発明の一実施形態によるデータベース構築装置の構成を示す概略ブロック図である。
この図において、電子文書変換部1は、外部の装置から出力される電子ファイルをデータベース構築装置において処理可能なファイル形式のデータに変換し、変換されたデータを変換データ分析部2に出力する。例えば、電子文書変換部1は、外部から送信されるDTPドキュメントデータを中間ファイルに変換する。
【0020】
ここで、中間ファイルとは、レイアウト構造ファイルであり、文字や画像、図形などが紙や画面に出力される際の体裁情報をもつ、印刷用データ、ワープロデータ、マークアップ言語データ(HTML(Hypertext MarkupLanguage)、XML(Extensible Markup Language)、SGML(Standard Generalized Markup Language))等の形式のデータである。
【0021】
変換データ分析部2は、電子文書変換部1から出力される中間ファイルに基づく画像を変換データ表示部4の画面上に出力する。この変換データ表示部4の画面上には、例えば、図2に示すような書類をまとめる事務用ファイルのカタログに関する情報が表示される。
また、変換データ分析部2は、電子文書変換部1から出力される中間ファイルと要素名規則性定義部3から出力されるルール情報とを構成要素抽出部7に出力する。
【0022】
要素名規則性定義部3は、電子文書から抽出する要素を指定するためのルール情報を設定する。このルール情報の一例を図3に示す。この図に示すように、ルール情報のうち、文字に対するルール情報は、例えば、文字の書体名、サイズ、色、変形、字送りのうち少なくとも1つの条件を含む文字体裁に関する条件と、行頭と行末とのうち一方又は両方を含む文字が配置された文字位置に関する条件と、前後の文字または他の要素との関係を指定する関係前後関係に関する条件と、内部に含まれる文字列を指定する条件である包含文字に関する条件と、のうち、少なくともいずれか1つの条件を含む。
また、抽出する対象が文字である場合、画像に対するルール情報は、ファイル名とファイル種別との一方または両方の条件を含むファイル情報に関する条件と、画像の大きさと解像度との一方または両方の条件を含む画像属性に関する条件と、画像の回転と倍率との一方または両方の条件を含むレイアウト属性に関する条件と、のうち少なくとも1つの条件を含む。
また、文字と画像とに対する共通の条件となるルール情報は、レイアウト領域の大きさと枠線との一方または両方を含むレイアウト領域に関する条件を含む。また、要素名規則性定義部3は、ルール情報を予め記憶するルールデータベースを有し、必要に応じて、ルールデータベースからルール情報を読み出す。
【0023】
また、ここでいう要素とは、ヘッダーやフッター、見出しや本文、挿絵など文書を構成している内容となる情報であり、商品カタログの場合は、商品の品番や価格などの商品スペックの他、写真や図形、ロゴマークなどが該当する。
なお、このルール情報は、データベース構築装置の外部に接続されるキーボードやマウス等の入力デバイスから、作業者によって入力される。
【0024】
変換データ表示部4は、表示装置であり、例えば、CRT(Cathode Ray Tube)や液晶表示装置等が用いられる。
【0025】
要素関係特定部5は、入力デバイスを介して入力される作業者からの指示に基づいて、各要素間を1つのグループとして関連付けするリンク情報を生成する。このリンク情報とは、例えば、図4の符号(a)、符号(b)、符号(c)、符号(d)に示す各レイアウト領域内の文字や画像の情報が1つの商品について説明するためのデータであることの関連づけを行う情報である。これにより、画像や文字がどの商品であるかが商品毎に関連づけされる。なお、ここでいうレイアウト領域とは、1つの画像または1つの文字列などが設定される領域である。
【0026】
要素名規則性特定部6は、電子文書から抽出される文字や画像などの要素にデータベースの項目となる項目情報を設定する。この項目には、例えば、「品番」、「型式」、「寸法」、「価格」等がある。
【0027】
構成要素抽出部7は、要素名規則性定義部3によって指定されるルール情報に基づいて、電子文書から要素を抽出し、抽出した要素を要素名規則性特定部6によって設定される項目情報を対応付けてデータベース情報として構成要素出力部8に出力する。
また、構成要素抽出部7は、要素関係特定部5によって生成されたリンク情報に基づいて、電子文書から抽出される要素を関連付けるとともに、項目情報を対応付けてデータベース情報として出力する。
【0028】
構成要素出力部8は、表示装置であり、構成要素抽出部7から出力されるデータベース情報を画面上に出力する。構成要素出力部8は、変換データ表示部4と共通の表示装置を利用するようにしてもよい。また、構成要素出力部8は、データ出力装置であってもよい。
【0029】
次に、図1に示すデータベース構築装置の動作について図5から図8のフローチャートを用いて説明する。まず、図5において、外部からDTPデータの電子文書が入力されると(ステップA1)、電子文書変換部1は、入力された電子文書を中間ファイルに変換し(ステップA2)、変換後の中間ファイルを変換データ分析部2に出力する(ステップA3)。
【0030】
次に、図8を用いて図7のステップB24について説明する。要素名規則性特定部6は、作業者から入力デバイスを介して、各レイアウト領域に対して要素名が定義されると(ステップB241)、要素名規則性定義部3から入力されたルール情報と項目の対応付けを行う。ここでは、構成要素名の定義対象が画像である場合(ステップB242)、画像情報を特定するルール情報が定義され(ステップB243)、定義対象が文字である場合、(ステップB242)、文字情報を特定するルール情報が定義される(ステップB244)。そして、抽出する対象のデータのルール情報が商品の画像、型式、寸法などの項目に対してすべて設定されると、構成要素名の定義が終了する(ステップB245)。
【0031】
次に、図7を用いて、図6におけるステップB2の構成要素の特定処理について説明する。変換データ分析部2は、電子文書変換部1から出力された中間ファイルを変換データ表示部4に出力し、画面上に表示させる(ステップB21)。このとき、変換データ表示部4の画面上には、例えば、図2のような表示がなされる。
【0032】
次に、要素名規則性定義部3は、作業者から入力デバイスを介して、ルール情報が入力されると、入力されたルール情報を設定する。
次に、要素関係特定部5は、作業者から入力デバイスを介して各レイアウト領域間の構成要素が選択され、要素関係の関連付けが指示されると、選択された構成要素間の関連付けを行う(ステップB23)。そして、要素名規則性特定部6は、作業者から入力デバイスを介して各レイアウト領域対して要素名が指定されると、指定された要素名が、各レイアウト領域にデータベース情報の項目として設定するとともに、作業者から入力デバイスを介して入力される指示に基づいて、要素名規則性定義部3から入力されたルール情報と項目の対応付けを行う(ステップB24)。この設定は、すべてのレイアウト領域に対して行われると、終了する(ステップB25)。
【0033】
次に、図8を用いて図7のステップB24について説明する。要素関係特定部5は、作業者から入力デバイスを介して、各レイアウト領域に対して要素名が定義されると(ステップB241)、要素名規則性定義情報3から入力されたルール情報と項目の対応付けを行う。ここでは、構成要素名の定義対象が画像である場合(ステップB242)、画像情報を特定するルール情報が定義され(ステップB243)、定義対象が文字である場合、(ステップB242)、文字情報を特定するルール情報が定義される(ステップB244)。そして、抽出する対象のデータのルール情報が商品の画像、型式、寸法などの項目に対してすべて設定されると、構成要素名の定義が終了する(ステップB245)。
【0034】
そして、構成要素抽出部7は、変換データ分析部2から出力される中間ファイル内のデータから、要素関係特定部5からの指示に基づいて各レイアウト領域間の関連づけを行い、関連づけされた各レイアウト領域内のデータに対し、要素名規則性特定部6によって指定される要素名(項目)を設定し、要素名規則性定義部3によって設定されたルール情報に対応するデータをレイアウト領域内から抽出し、抽出されたデータを要素関係と要素名規則性に対応づけて、データベース情報として構成要素出力部8に出力する。
【0035】
以上説明した実施形態において、図5のステップA3において変換データ出力装置4の画面上には、例えば、図2に示すような商品カタログに関する情報が出力される。また、この商品カタログを構成する各要素をレイアウト領域として表示させる場合は、図9に示すように、各レイアウト領域が、矩形によって表示される。
【0036】
次に、要素関係特定部5において、図7ステップB23の構成要素関係特定処理により、各要素間の関連付けが行われると、例えば、図10符号(e)に示すように、関連付けされた各レイアウト領域が強調されて表示される。ここでは、1つのグループを説明するための画像と文字の情報が関連付けされている場合について図示されている。
【0037】
次に、要素名規則性特定部6において、図7ステップB24の要素名規則性特定処理により、要素名に対して項目が設定されると、例えば、図10符号(f)に示すように、項目名として設定され、表示される。
また、要素名規則性定義部3において、定義されたルール情報は、例えば、図10符号(g)に示すように、抽出する対象の文字のフォント、カラー、文字飾りなどについて表示される。さらに、図8のステップB241からステップB245によって構成要素名とルール情報の対応付けが行われると、例えば、図10符号(f)に示す項目に対して図10符号(h)に示すような設定がなされる。
【0038】
図11は、構成要素抽出部7によって抽出されたデータがデータベース化された一例を示す図面である。構成要素抽出部7によって抽出されたデータは、
関連づけされた各要素から抽出されたデータが1つの商品データとして符号(i)に示すように記憶される。また、符号(i)に示す商品データの各要素は、要素名規則性特定部6によって定義された項目名が設定され、データベースの対応する項目の欄に記憶される。
以上のようにして、商品カタログなどのレイアウト構造ファイルからデータ構造ファイルを生成し、データベースを構築することができる。なお、レイアウト領域内の要素が画像である場合、データベースには、画像のファイル名が記憶される。
【0039】
次に、第2の実施形態について説明する。ここでは、要素関係特定部5が行う各要素間の関連づけについての他の実施形態について説明する。
この実施形態において、要素関係特定部5は、基準となるレイアウト領域である基準レイアウト領域と、基準レイアウト領域に対して相対位置条件に該当するレイアウト領域とを関連づけを行う相対位置関連づけ機能を有する。相対位置条件は、上述した入力デバイスから、作業者によって入力される。また、この相対位置条件とは、基準レイアウト領域と関連づけする対象となるレイアウト領域との位置関係を指定するための条件であり、例えば、基準となるレイアウト領域の矩形の四隅の座標からリンクさせる対象となるレイアウト領域の四隅の座標までの距離及び方向を指定する情報である。
【0040】
次に、この実施形態において、要素関係特定部5が相対位置に基づいて各要素間の関連づけを行う動作について説明する。まず、作業者は、関連づけを行う基準となるレイアウト領域である基準レイアウト領域を指定し、さらに、この基準レイアウト領域に対する相対位置条件を入力デバイスを介して要素関係特定部5に設定する。要素関係特定部5は、設定された基準レイアウト領域に対して相対位置条件に該当するレイアウト領域を検索し、該当するレイアウト領域が検出された場合に、検出されたレイアウト領域と基準レイアウト領域とを関連づけする。
【0041】
次に、第3の実施形態について説明する。図12は、第3の実施形態における要素関係特定部5の構成を示す概略ブロック図である。
この図において、相対位置情報生成部51は、基準レイアウト領域を決定し、この基準レイアウト領域に対して他のレイアウト領域までの相対位置に関する情報である相対位置情報を基準レイアウト領域以外の各レイアウト領域に対して生成する。
【0042】
検出部52は、生成された相対位置情報に該当するレイアウト領域が他のレイアウト領域を基準にした場合においても存在するか否かを検出する。
リンク設定部53は、検出部52によって他のレイアウト領域を基準にした場合においても相対位置情報に該当するレイアウト領域があることが検出された場合に、基準とされたレイアウト領域と相対位置情報に該当するレイアウト領域との関連づけを行う。
【0043】
次に、この実施形態における要素関係特定部5の動作について説明する。ここでは、図13に示すような9種類の照明器具が掲載された商品カタログにおいて、商品毎に要素を関連付けする場合について説明する。
関連付け処理の開始が上述の入力デバイスから指示されると、要素関係特定部5の相対位置情報生成部51は、符号(j)に示すレイアウト領域を基準レイアウト領域として決定し、この符号(j)の基準レイアウト領域から他のレイアウト領域までの相対位置情報を、基準レイアウト領域以外の各レイアウト領域に対して生成する。この相対位置情報の生成は、例えば、符号(k)、符号(l)、符号(m)、符号(p)、符号(r)、…等の基準レイアウト以外のレイアウト領域すべてを対象に総当りで行われる。そして、相対位置情報生成部51は、生成した相対位置情報を一時保持する。
【0044】
相対位置情報が生成されると、検出部52は、生成された相対位置情報に該当するレイアウト領域が他のレイアウト領域を基準にした場合においても存在するか否かを検出する。この検出は、例えば、符号(j)の基準レイアウト領域に対して符号(k)、符号(l)の相対位置にあるレイアウト領域は、符号(m)に示す画像が設定されたレイアウト領域を基準レイアウト領域とした場合、符号(n)、符号(s)に示すレイアウト領域が相当するので、符号(j)の基準レイアウト領域に対して符号(k)、符号(l)の相対位置にあるレイアウト領域の相対位置情報が、引き続き保持される。
【0045】
一方、符号(j)の基準レイアウト領域に対して符号(r)の相対位置にあるレイアウト領域は、符号(m)に示す画像が設定されたレイアウト領域を基準レイアウト領域とした場合、相対位置が同じ場所にレイアウト領域が存在しないので、符号(j)の基準レイアウト領域に対して符号(r)の相対位置にあるレイアウト領域の相対位置情報が削除される。
【0046】
このようにして、他のレイアウト領域を基準レイアウト領域とした場合に、当初の基準レイアウト領域からの相対位置が同じ位置にレイアウト領域が存在しなければ相対位置情報が削除され、当初の基準レイアウト領域からの相対位置が同じ位置にレイアウト領域が存在する場合に、相対位置情報が保持される。
【0047】
そして、すべてのレイアウト領域に対して検出部52による検出処理が完了すると、リンク設定部53は、検出部52による検出処理が完了した時点において保持されている相対位置情報に基づいて、基準とされたレイアウト領域と相対位置情報に該当するレイアウト領域との関連づけを、すべてのレイアウト領域について行う。これにより、例えば、符号(j)、符号(k)、符号(l)のレイアウト領域が1つのグループとして関連付けされるとともに、符号(m)、符号(n)、符号(s)のレイアウト領域が1つのグループとして関連付けされる。さらに、他のレイアウト領域についても、符号(j)、符号(k)、符号(l)と相対位置が同じである各レイアウト領域を1つのグループとして関連付けが行われる。
【0048】
上述の処理により、図13に示す照明器具の画像と型式と価格などについて、9種類の商品毎に、グループとして関連付けがなされる。
なお、図14に示すように、符号(t)に示すレイアウト領域のみ他のレイアウト領域における関連付けが異なる場合、符号(t)に示す部分以外については、上述のグループとしての相対位置情報に基づく関連付け処理を行い、符号(t)に示す部分については、第1の実施形態において説明した、入力デバイスからの指示による関連付けを行うようにしても良い。
【0049】
次に、第4の実施形態について説明する。この実施形態において、要素関係特定部5は、各レイアウト領域間において既に関連付けされた情報をテンプレートリンク情報として生成し、生成されたテンプレートリンク情報を他のレイアウト領域間(あるいは他のページ)においても利用し、各レイアウト領域間において同様の関連付けを行う。
例えば、図13に示すようにレイアウト領域が配置されたページが複数ページにわたって存在する場合に、例えば、最初のページにおいて各商品について第3の実施形態の関連付け処理を利用して各レイアウト領域間の関連づけを行い、この関連付けされた各レイアウト領域間の相対位置に基づいて、テンプレートリンク情報として生成する。そして、次のページにおいても同じレイアウト領域が配置されていれば、生成されたテンプレートリンク情報を利用して、このページ内における各商品の画像や型式、価格などの文字を1つの商品として関連付けを行う。
【0050】
次に、第5の実施形態について説明する。図15は、第5の実施形態における要素関係特定部5の構成を示す概略ブロック図である。
この図において、リンク情報記憶部55は、既に関連付けされた各レイアウト領域間のリンク情報を記憶する。
比較部56は、対応するデータベース情報のリンク情報を読み出して、読み出されたデータの各要素と更新されたデータベース情報の各要素とを比較する。
【0051】
配色部57は、比較部56の比較結果に基づいて、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素と、一致しない要素とを異なる表現方法によって出力する。この異なる表現方法とは、例えば、異なる色をレイアウト領域に設定して出力する。また、この異なる表現方法には、レイアウト領域を示す矩形の線の種類によって区別してもよく、また、レイアウト領域にハッチングを行うなどによって区別するようにしてもよい。
【0052】
リンク設定部58は、比較部56の比較結果に基づいて、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素とを関連付けする。
【0053】
次に、この実施の形態における要素関連特定装置5の動作について説明する。リンク情報記憶部55は、データベースが構築時において、関連付けされた各レイアウト領域間のリンク情報を順次記憶する。そして、データベースが構築された後あるいは構築途中において、DTPドキュメントデータの修正が行われた後に、再度関連付けを行う指示が入力されると、要素関連特定装置5の比較部56は、再度関連付けを行う指示におうじて、修正が行われたデータベース情報のリンク情報を読み出して、読み出されたデータの各要素と更新されたデータベース情報の各要素とを比較し、比較結果を配色部57に出力する。
【0054】
配色部57は、比較部56の比較結果に基づいて、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素と、一致しない要素とを異なる色をレイアウト領域に設定してリンク設定部58に出力する。リンク設定部58は、比較部56の比較結果を配色部57を介して受け取り、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素とを関連付けする。
【0055】
例えば、図16符号(u)内のレイアウト領域のうち、符号(w)に示すレイアウト領域に対してDTP上でデータの修正が行われ、上述の配色処理が行われると、図16に示すように、符号(u)内のレイアウト領域のうち、符号(w)に示すレイアウト領域が異なる色によって画面上に出力される。
これにより、作業者にとって、DTP上でデータの修正が行われたレイアウト領域のデータが視覚的に確認しやすくなる。
【0056】
次に、第6の実施形態について説明する。図17は、第6の実施形態における要素関係特定部5の構成を示す概略ブロック図である。
この図において、矩形内レイアウト領域検出部510は、既に関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出する。ここでいう最小外接矩形とは、例えば、図18に示すように、符号(イ)に示す画像領域と文字領域とが既に関連付けされている場合において、既に関連付けされている符号(イ)に示す画像領域と文字領域とを包含して概説する最小の矩形(符号(ホ))である。
【0057】
リンク設定部520は、矩形内レイアウト領域検出部510が検出した最小外接矩形内のレイアウト領域をそれぞれ関連付けする。
【0058】
次に、この実施形態における要素関係特定部5の動作について説明する。符号(イ)に示す画像領域と文字領域とが既に関連付けされており、さらに、符号(ハ)に示す図形領域についても関連付けする場合、矩形内レイアウト領域検出部510は、作業者から入力デバイスを介して、最小外接矩形による関連付け処理の指示が入力されると、既に関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出する。ここでは、符号(ホ)に示す最小外接矩形内のレイアウト領域が検出される。
【0059】
最小外接矩形内のレイアウト領域が検出されると、リンク設定部520は、検出された最小外接矩形内のレイアウト領域をそれぞれ関連付けする。これにより、符号(イ)に示す画像領域と文字領域と符号(ハ)に示す図形領域が関連付けされる。
【0060】
符号(ホ)内の関連付けが終了すると、他のレイアウト領域においても最小外接矩形による関連付け処理が行われる。これにより、符号(ロ)に示す画像領域と文字領域とが既に関連付けされている場合、既に関連付けされている符号(ロ)の2つのレイアウト領域を包含する最小外接矩形内のレイアウト領域(符号(ヘ))が検出され、符号(ヘ)内に存在する図形領域(符号(ニ))についても、既に関連付けされている符号(ロ)の2つのレイアウト領域に対して関連付けされる。
【0061】
以上説明した実施形態によれば、印刷業者は、依頼者によって記入された見本の訂正内容に基づいて、二重に入力作業を行う必要がなくなり、作業の負担が軽減されるとともに、データベースの更新作業の時間を短縮することができる。
また、作業者のミスを無くし、商品データベースに確実な更新作業を行うことができる。
【0062】
また、図1における電子文書変換部1、変換データ分析部2、要素名規則性定義部3、要素関係特定部5、要素名規則性特定部6、構成要素抽出部7の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりデータベース構築処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
【0063】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0064】
以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【0065】
【発明の効果】
以上説明したように、この発明によれば、各レイアウト領域間において既に関連付けされた情報をテンプレートリンク情報として生成し、生成されたテンプレートリンク情報を前記電子文書の他のページにおいても利用し、各レイアウト領域間において同様の関連付けを行う要素関係特定手段を有し、前記抽出した要素を項目情報を対応付けるとともに、前記要素関係特定手段によって関連づけられたレイアウト領域内の要素を対応づけて前記データベース情報を生成するようにしたので、関連づけの同じレイアウト領域が複数存在する場合においても、簡単にかつ、関連づけミスを低減させて関連付け作業を行うことができる効果が得られる。
【0066】
また、本発明によれば、既に関連付けされた各レイアウト領域間のリンク情報を記憶させておき、リンクされているか否かを検出する対象となる電子文書に対応するデータベース情報のリンク情報を読み出し、読み出したデータの各要素と更新されたデータベース情報の各要素とを比較し、比較手段の比較結果に基づいて、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素と、一致しない要素とを異なる表現方法によって出力するようにしたので、各要素間が関連づけされているか否かを簡単にかつ素早く確認することができる効果が得られる。
【0067】
また、本発明によれば、既に関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出し、検出した最小外接矩形内のレイアウト領域をそれぞれ関連付けし、抽出した要素を項目情報を対応付けるとともに、関連づけられたレイアウト領域内の要素を対応づけてデータベース情報を生成するようにしたので、既に関連づけされているレイアウト領域間の近傍に新たなレイアウト領域が設けられた場合においても、簡単に関連付け作業を行うことができる効果が得られる。
【図面の簡単な説明】
【図1】 この発明の一実施形態によるデータベース構築装置の構成を示す概略ブロック図である。
【図2】 変換データ表示部4に表示される画面の一例を示す図面である。
【図3】 ルール情報の一例を示す図面である。
【図4】 各要素間の関連づけについて説明するための図面である。
【図5】 図1に示すデータベース構築装置の動作について説明するためのフローチャートである。
【図6】 図1に示すデータベース構築装置の動作について説明するためのフローチャートである。
【図7】 図1に示すデータベース構築装置の動作について説明するためのフローチャートである。
【図8】 図1に示すデータベース構築装置の動作について説明するためのフローチャートである。
【図9】 商品カタログを構成する各要素をレイアウト領域として表示された場合の一例を示す図面である
【図10】 関連付けとルール情報の設定について説明するための図面である。
【図11】 構成要素抽出部7によって抽出されたデータがデータベース化された一例を示す図面である。
【図12】 第3の実施形態における要素関係特定部5の構成を示す概略ブロック図である。
【図13】 他の実施形態における関連付けについて説明するための図面である。
【図14】 他の実施形態における関連付けについて説明するための図面である。
【図15】 第5の実施形態における要素関係特定部5の構成を示す概略ブロック図である。
【図16】 第5の実施形態について説明するための図面である。
【図17】 第6の実施形態における要素関係特定部5の構成を示す概略ブロック図である。
【図18】 最小外接矩形による関連付け処理を説明するための図面である。
【符号の説明】
1 電子文書変換部 2 変換データ分析部
3 要素名規則性定義部 4 変換データ表示部
5 要素関係特定部 6 要素名規則性特定部
7 構成要素抽出部 8 構成要素出力部
51 相対位置情報生成部 52 検出部
53、58、520 リンク設定部 55 リンク情報記憶部
56 比較部 57 配色部
510 矩形内レイアウト領域検出部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a database construction device, a database construction method, a database construction program, and a recording medium that construct and update a database by simply associating elements.
[0002]
[Prior art]
Conventionally, when a catalog creation request is received from a catalog creation requester (hereinafter referred to as a requester), a printer can create a catalog using a system to which DTP (Desktop Publishing) is applied. Has been done. For example, product information such as images of products to be listed in a catalog, documents such as product names, models, dimensions, and product introductions are stored in advance in the product database. Product information is read from the product database using a DTP computer, the layout of images and documents is determined, edited, and a sample is printed. Then, the client confirms the printed sample (layout, typographical error, etc.), and if there is a correction content, the correction content is entered in the sample. The printer modifies the data on the DTP by the DTP computer in accordance with the correction content entered in the sample. Then, the client confirms the revised sample printed matter, and if there is no change, prints and creates a catalog.
[0003]
On the other hand, the above-described product database is continuously used with information such as new products added at the next catalog production. Therefore, when the data on the DTP is corrected by the DTP computer, the printer needs to update the product database by reflecting the corrected content in the product database according to the correction content entered in the sample by the client. However, this product database update operation was performed by the printer to update the product database from the computer for the product database based on the correction contents entered in the sample.
[0004]
[Problems to be solved by the invention]
As described above, when the correction contents entered in the sample are reflected, the data correction work is performed twice when the correction work is performed on the product database after the data correction work on the DTP is performed. This is necessary and is a heavy burden on the printer, and it takes a lot of time for the update work.
Therefore, when building a product database from updated DTP data, there are various products in the product catalog. Therefore, for each product, the product image, name, model, dimensions, and other elements are one product. It is desirable to construct and manage a database by linking as information, but in the data on DTP, since such information is not linked, elements such as images, names, formats, dimensions, etc. Need to be associated.
[0005]
However, according to the prior art, since the worker can only perform the association manually, it takes a lot of time for the associating operation and a heavy burden on the operator.
Further, there may be a case where necessary elements are not associated with each other or an element of a different product is associated due to an operator's mistake.
In addition, if editing is performed on elements that are already associated, the association may be lost, but for the operator, whether or not the elements are associated with each other for all of the huge product catalogs. It is difficult to confirm.
[0006]
The present invention has been made in view of such circumstances, and an object thereof is to provide a database construction system capable of easily and accurately associating each element.
Another object of the present invention is to provide a database construction device, a database construction method, a database construction program, and a recording medium that can easily check whether or not each element is associated.
[0007]
[Means for Solving the Problems]
In order to achieve the above object, the present invention extracts an element from an electronic document in which elements constituting the electronic document are set in a layout area, and generates database information by associating the extracted element with item information. A database construction device for constructing a database, which generates information already associated with each layout area as template link information, and uses the generated template link information or preset template information An element relation specifying means for associating layout areas and associating each layout area by using the template information in another page of the electronic document page or in another layout area; and a layout area related by the element relation specifying means Extracted the elements of With correspondence between iodine and item information, characterized by having a a component extraction means for generating the database information in association with the elements of the layout area associated with the element relationship specifying unit.
[0008]
Further, the present invention extracts the elements from the electronic document in which the elements constituting the electronic document are set in the layout area, generates database information by associating the extracted elements with the item information, and constructs the database Link information storage means for storing link information between layout areas already associated with the database construction apparatus, and link information of database information corresponding to an electronic document to be detected as to whether it is linked Comparing means for comparing each element of the read data read from the link information storage means with each element of the updated database information, and updating of the elements of the read data based on the comparison result of the comparing means Color scheme that outputs elements that match the elements of the database information specified and elements that do not match using different representation methods And having a stage, a.
[0009]
Further, the present invention extracts the elements from the electronic document in which the elements constituting the electronic document are set in the layout area, generates database information by associating the extracted elements with the item information, and constructs the database An in-rectangular layout area detecting unit for detecting a layout area in a minimum circumscribed rectangle including a plurality of layout areas already associated, and a minimum circumscribed rectangle detected by the in-rectangular layout area detecting unit. Link setting means for associating each of the layout areas in the layout area, extracting the elements of the layout area linked by the link setting means, associating the extracted elements with item information, and the layout area linked by the link setting means The database information is generated by associating the elements in A component extraction unit, and having a.
[0010]
Further, the present invention extracts the elements from the electronic document in which the elements constituting the electronic document are set in the layout area, generates database information by associating the extracted elements with the item information, and constructs the database In this database construction method, information already associated between layout areas is generated as template link information, and the generated template link information or the template information set in advance is used to associate the layout areas. The template information is used in other pages of the electronic document page or in other layout areas to extract the element relation specifying procedure for associating each layout area, and the elements of the layout area related by the element relation specifying procedure are extracted. Pair extracted elements with item information With attached, and having a a component extraction step of generating the database information in association with the elements of the layout area associated with the element relationship specifying unit.
[0011]
Further, the present invention provides a database for constructing a database by extracting the elements from an electronic document in which elements constituting the electronic document are set in a layout area, generating database information by associating the extracted elements with item information Link information storage means for storing link information between layout regions that are already associated with each other, and link information of database information corresponding to an electronic document that is to be detected as to whether or not linked, Read from the link information storage means for storing the link information between the already associated layout areas, compare each element of the read data and each element of the updated database information, based on the comparison result of the comparison, Elements that read data elements and updated database information elements do not match And outputs taken by different expression method.
[0012]
Further, the present invention extracts the elements from the electronic document in which the elements constituting the electronic document are set in the layout area, generates database information by associating the extracted elements with the item information, and constructs the database A database construction method for detecting a layout area in a minimum circumscribed rectangle that includes a plurality of layout areas that are already associated, and a minimum circumscribed rectangle detected by the layout area detecting means in the rectangle The link setting method procedure for associating each of the layout areas in the layout area, the elements of the layout area associated by the link setting means are extracted, the extracted elements are associated with the item information, and the layout associated by the link setting means The database information is generated by associating elements in the region. And having a component extraction procedure that, the.
[0013]
Further, the present invention extracts the elements from the electronic document in which the elements constituting the electronic document are set in the layout area, generates database information by associating the extracted elements with the item information, and constructs the database In the database construction program, information already associated between the layout areas is generated as template link information, and the generated template link information or the template information set in advance is used to associate the layout areas. The template information is used in other pages of the electronic document page or in other layout regions, and an element relationship specifying step for associating each layout region, and an element of the layout region related by the element relationship specifying step is extracted. With extracted elements With associating the eye information, characterized in that to execute a component extraction step of generating the database information in association with the elements in the layout area associated with said element relation specifying means, to a computer.
[0014]
Further, the present invention provides a database for constructing a database by extracting the elements from an electronic document in which elements constituting the electronic document are set in a layout area, generating database information by associating the extracted elements with item information The link information of the database information corresponding to the electronic document to be detected as to whether or not it is a construction program is read from the link information storage means, and each element of the read data and the updated database information A comparison step for comparing each element, and an element in which the element of the read data matches the element of the updated database information and an element that does not match based on the comparison result in the comparison are expressed by different expression methods. A color arrangement step for outputting is executed by a computer.
[0015]
Further, the present invention extracts the elements from the electronic document in which the elements constituting the electronic document are set in the layout area, generates database information by associating the extracted elements with the item information, and constructs the database A database construction program for detecting a layout area within a minimum circumscribed rectangle that includes a plurality of layout areas already associated with each other, and a minimum circumscribed rectangle detected by the intra-rectangular layout area detecting means A link setting step for associating each layout area with each other, extracting elements in the layout area associated with the link setting means, associating the extracted elements with item information, and associating the layout areas with the link setting means Associated with the elements in the database. Characterized in that to execute a component extraction step of generating information, to the computer.
[0016]
Further, the present invention extracts the elements from the electronic document in which the elements constituting the electronic document are set in the layout area, generates database information by associating the extracted elements with the item information, and constructs the database A computer-readable recording medium in which a database construction program is recorded, information already associated between layout areas is generated as template link information, and the generated template link information or preset template information is used. In addition to associating each layout area, the template information is also used in other pages of the electronic document page or other layout areas to associate each layout area with the element relation identifying step. Be A component element extracting step of extracting elements of the out area, associating the extracted elements with item information, and generating the database information by associating the elements in the layout area associated by the element relationship specifying means; A database construction program to be executed is recorded.
[0017]
Further, the present invention provides a database for constructing a database by extracting the elements from an electronic document in which elements constituting the electronic document are set in a layout area, generating database information by associating the extracted elements with item information A computer-readable recording medium in which a construction program is recorded, wherein link information of database information corresponding to an electronic document to be detected as to whether it is linked is read from the link information storage means, and the read data A comparison step for comparing each element with each element of the updated database information, and an element in which the element of the read data and the element of the updated database information match based on the comparison result in the comparison; A color step for outputting different elements by different expression methods, and a computer And characterized by recording a database construction program to be executed.
[0018]
Further, the present invention extracts the elements from the electronic document in which the elements constituting the electronic document are set in the layout area, generates database information by associating the extracted elements with the item information, and constructs the database An in-rectangular layout area detecting step for detecting a layout area in a minimum circumscribed rectangle that includes a plurality of layout areas that are already associated, the recording medium storing a database construction program; and the in-rectangular layout area detecting means A link setting step for associating each layout area in the detected minimum circumscribed rectangle, an element of the layout area associated by the link setting means is extracted, the extracted element is associated with item information, and the link setting means Associating elements in the associated layout area And characterized by recording a database construction program for executing the component extraction step of generating the database information, to the computer Te.
[0019]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, a database construction device according to an embodiment of the present invention will be described with reference to the drawings. In this embodiment, a case where a data structure file is generated from an electronic document that is a layout structure file of a product catalog as shown in FIG. 2 and a database is constructed will be described. The data structure file here is a file that stores data that can be expressed by giving meaning to the element, designating the meaning, and includes DB, XML (extensible Markup Language), and the like. The layout structure file is a file for storing data that can designate and represent a position (layout) that represents an element, and includes DTP data, HTML (HyperText Markup Language), and the like.
FIG. 1 is a schematic block diagram showing a configuration of a database construction device according to an embodiment of the present invention.
In this figure, an electronic document conversion unit 1 converts an electronic file output from an external device into data in a file format that can be processed by the database construction device, and outputs the converted data to a conversion data analysis unit 2. For example, the electronic document conversion unit 1 converts DTP document data transmitted from the outside into an intermediate file.
[0020]
Here, the intermediate file is a layout structure file, and includes printing data, word processing data, markup language data (HTML (Hypertext) having appearance information when characters, images, graphics, etc. are output on paper or a screen. Markup Language), XML (Extensible Markup Language), and SGML (Standard Generalized Markup Language)).
[0021]
The conversion data analysis unit 2 outputs an image based on the intermediate file output from the electronic document conversion unit 1 on the screen of the conversion data display unit 4. On the screen of the conversion data display unit 4, for example, information related to a catalog of office files for collecting documents as shown in FIG. 2 is displayed.
Also, the conversion data analysis unit 2 outputs the intermediate file output from the electronic document conversion unit 1 and the rule information output from the element name regularity definition unit 3 to the component extraction unit 7.
[0022]
The element name regularity definition unit 3 sets rule information for designating elements to be extracted from the electronic document. An example of this rule information is shown in FIG. As shown in this figure, among the rule information, the rule information for characters includes, for example, a typographic condition including at least one of a typeface name, size, color, deformation, and character advance of the character, a line head and a line end. A condition regarding the character position where a character including one or both of them is placed, a condition specifying the relationship between the preceding and following characters or other elements, and a condition specifying the character string contained inside It includes at least one of the conditions related to a certain included character.
In addition, when the object to be extracted is a character, the rule information for the image includes the condition regarding the file information including the condition of one or both of the file name and the file type, and the condition of one or both of the size and resolution of the image. It includes at least one of a condition regarding an image attribute including the condition and a condition regarding a layout attribute including one or both of the image rotation and magnification conditions.
Further, the rule information that is a common condition for characters and images includes a condition regarding a layout area including one or both of the size of the layout area and the frame line. The element name regularity definition unit 3 has a rule database that stores rule information in advance, and reads the rule information from the rule database as necessary.
[0023]
Also, the elements here are the information that makes up the document such as headers and footers, headings and texts, and illustrations. In the case of product catalogs, in addition to product specifications such as product numbers and prices, Applicable to photographs, figures, logo marks, etc.
The rule information is input by an operator from an input device such as a keyboard or a mouse connected to the outside of the database construction device.
[0024]
The conversion data display unit 4 is a display device, for example, a CRT (Cathode Ray Tube) or a liquid crystal display device.
[0025]
The element relationship specifying unit 5 generates link information that associates each element as one group based on an instruction from an operator input via the input device. The link information is, for example, for explaining a product having information of characters and images in each layout area indicated by reference numerals (a), (b), (c), and (d) in FIG. This is information for associating that the data is. Thereby, which product is an image or a character is associated for each product. The layout area here is an area in which one image or one character string is set.
[0026]
The element name regularity specifying unit 6 sets item information that is an item in the database to elements such as characters and images extracted from the electronic document. This item includes, for example, “product number”, “model”, “dimension”, “price”, and the like.
[0027]
The component extraction unit 7 extracts elements from the electronic document based on the rule information specified by the element name regularity definition unit 3, and sets the extracted element information as item information set by the element name regularity specification unit 6. Corresponding data are output to the component output unit 8 as database information.
In addition, the component extraction unit 7 associates elements extracted from the electronic document based on the link information generated by the element relationship identification unit 5 and associates item information with each other and outputs it as database information.
[0028]
The component output unit 8 is a display device and outputs the database information output from the component extraction unit 7 on the screen. The component output unit 8 may use a display device common to the conversion data display unit 4. The component output unit 8 may be a data output device.
[0029]
Next, the operation of the database construction apparatus shown in FIG. 1 will be described using the flowcharts of FIGS. First, in FIG. 5, when an electronic document of DTP data is input from the outside (step A1), the electronic document conversion unit 1 converts the input electronic document into an intermediate file (step A2), and the converted intermediate document The file is output to the conversion data analysis unit 2 (step A3).
[0030]
Next, step B24 in FIG. 7 will be described with reference to FIG. When the element name is defined for each layout area from the operator via the input device (step B241), the element name regularity specifying unit 6 and the rule information input from the element name regularity defining unit 3 Associate items. Here, when the definition target of the component element name is an image (step B242), rule information for specifying image information is defined (step B243). When the definition target is a character (step B242), the character information is Rule information to be identified is defined (step B244). When the rule information of the data to be extracted is set for all items such as the product image, model, and dimensions, the definition of the component name ends (step B245).
[0031]
Next, the component specifying process of step B2 in FIG. 6 will be described with reference to FIG. The conversion data analysis unit 2 outputs the intermediate file output from the electronic document conversion unit 1 to the conversion data display unit 4 and displays it on the screen (step B21). At this time, for example, the display as shown in FIG.
[0032]
Next, the element name regularity definition unit 3 sets the input rule information when the rule information is input from the operator via the input device.
Next, the element relation specifying unit 5 selects the constituent elements between the layout areas via the input device from the operator, and when the element relation is instructed, the element relation specifying section 5 associates the selected constituent elements ( Step B23). Then, when an element name is designated for each layout area from the operator via the input device, the element name regularity specifying unit 6 sets the designated element name as an item of database information in each layout area. At the same time, the rule information input from the element name regularity definition unit 3 is associated with the item based on an instruction input from the operator via the input device (step B24). When this setting is performed for all layout areas, the process ends (step B25).
[0033]
Next, step B24 in FIG. 7 will be described with reference to FIG. When the element name is defined for each layout area from the operator via the input device by the operator (step B241), the element relation specifying unit 5 sets the rule information and item input from the element name regularity definition information 3 Perform the association. Here, when the definition target of the component element name is an image (step B242), rule information for specifying image information is defined (step B243). When the definition target is a character (step B242), the character information is Rule information to be identified is defined (step B244). When the rule information of the data to be extracted is set for all items such as the product image, model, and dimensions, the definition of the component name ends (step B245).
[0034]
The component extraction unit 7 then associates the layout regions with each other based on the instruction from the element relationship identification unit 5 from the data in the intermediate file output from the conversion data analysis unit 2 The element name (item) specified by the element name regularity specifying unit 6 is set for the data in the region, and the data corresponding to the rule information set by the element name regularity defining unit 3 is extracted from the layout region Then, the extracted data is output to the component output unit 8 as database information in association with the element relation and the element name regularity.
[0035]
In the embodiment described above, on the screen of the converted data output device 4 in step A3 of FIG. 5, for example, information related to the product catalog as shown in FIG. 2 is output. Further, when each element constituting the product catalog is displayed as a layout area, each layout area is displayed as a rectangle as shown in FIG.
[0036]
Next, in the element relationship specifying unit 5, when the association between the elements is performed by the component element relationship specifying process in step B23 of FIG. 7, for example, as shown in FIG. The area is highlighted. Here, a case where an image and character information for explaining one group are associated is illustrated.
[0037]
Next, in the element name regularity specifying unit 6, when an item is set for the element name by the element name regularity specifying process of step B24 in FIG. 7, for example, as shown in FIG. It is set and displayed as the item name.
Further, the rule information defined in the element name regularity definition unit 3 is displayed for the font, color, character decoration, and the like of the character to be extracted as shown in FIG. Furthermore, when the component name and the rule information are associated in steps B241 to B245 in FIG. 8, for example, the setting shown in FIG. 10 (h) is set for the item shown in FIG. 10 (f). Is made.
[0038]
FIG. 11 is a diagram showing an example in which the data extracted by the component extraction unit 7 is made into a database. The data extracted by the component extraction unit 7 is
Data extracted from each associated element is stored as one product data as indicated by reference numeral (i). In addition, the item name defined by the element name regularity specifying unit 6 is set for each element of the product data indicated by the symbol (i) and stored in the corresponding item column of the database.
As described above, a data structure file can be generated from a layout structure file such as a product catalog, and a database can be constructed. If the element in the layout area is an image, the file name of the image is stored in the database.
[0039]
Next, a second embodiment will be described. Here, another embodiment of the association between the elements performed by the element relationship specifying unit 5 will be described.
In this embodiment, the element relationship specifying unit 5 has a relative position associating function for associating a reference layout area, which is a reference layout area, with a layout area corresponding to a relative position condition with respect to the reference layout area. The relative position condition is input by the operator from the input device described above. The relative position condition is a condition for specifying the positional relationship with the layout area to be associated with the reference layout area. For example, the target is linked from the coordinates of the four corners of the rectangle of the reference layout area. This is information for designating the distance and direction to the coordinates of the four corners of the layout area.
[0040]
Next, in this embodiment, an operation in which the element relationship specifying unit 5 associates each element based on the relative position will be described. First, the operator designates a reference layout area, which is a layout area serving as a reference for association, and sets a relative position condition for the reference layout area in the element relation specifying unit 5 via an input device. The element relationship specifying unit 5 searches for a layout area corresponding to the relative position condition with respect to the set reference layout area, and when the corresponding layout area is detected, the detected layout area and the reference layout area are determined. Associate.
[0041]
Next, a third embodiment will be described. FIG. 12 is a schematic block diagram illustrating the configuration of the element relationship identification unit 5 in the third embodiment.
In this figure, a relative position information generation unit 51 determines a reference layout area, and uses the relative position information, which is information related to the relative position of the reference layout area to another layout area, for each layout area other than the reference layout area. Generate for.
[0042]
The detection unit 52 detects whether or not a layout area corresponding to the generated relative position information exists even when another layout area is used as a reference.
When the detection unit 52 detects that there is a layout area corresponding to the relative position information even when the detection unit 52 uses another layout area as a reference, the link setting unit 53 displays the reference layout area and the relative position information. Association with the corresponding layout area is performed.
[0043]
Next, the operation of the element relationship specifying unit 5 in this embodiment will be described. Here, a case will be described in which elements are associated for each product in a product catalog on which nine types of lighting fixtures as shown in FIG. 13 are posted.
When the start of the association process is instructed from the above-described input device, the relative position information generating unit 51 of the element relationship specifying unit 5 determines the layout area indicated by the symbol (j) as the reference layout region, and this code (j) Relative position information from the reference layout area to other layout areas is generated for each layout area other than the reference layout area. For example, the relative position information is generated for all layout areas other than the reference layout such as code (k), code (l), code (m), code (p), code (r),. Done in Then, the relative position information generation unit 51 temporarily stores the generated relative position information.
[0044]
When the relative position information is generated, the detection unit 52 detects whether the layout area corresponding to the generated relative position information exists even when another layout area is used as a reference. In this detection, for example, the layout area at the relative position of the code (k) and the code (l) with respect to the reference layout area of the code (j) is based on the layout area in which the image indicated by the code (m) is set. In the case of the layout area, the layout areas indicated by the reference signs (n) and (s) correspond to the layouts at the relative positions of the reference signs (k) and (l) with respect to the reference layout area indicated by the reference sign (j). The relative position information of the area is continuously held.
[0045]
On the other hand, the layout area at the relative position of the reference (r) with respect to the reference layout area of the reference (j) has a relative position when the layout area in which the image indicated by the reference (m) is set as the reference layout area. Since there is no layout area at the same location, the relative position information of the layout area at the relative position of the reference (r) with respect to the reference layout area of the reference (j) is deleted.
[0046]
In this way, when another layout area is set as the reference layout area, if the layout area does not exist at the same relative position from the original reference layout area, the relative position information is deleted, and the original reference layout area is deleted. The relative position information is held when the layout area exists at the same relative position from.
[0047]
When the detection processing by the detection unit 52 is completed for all layout regions, the link setting unit 53 is used as a reference based on the relative position information held when the detection processing by the detection unit 52 is completed. The layout area associated with the layout area corresponding to the relative position information is associated with all layout areas. Thereby, for example, the layout areas of code (j), code (k), and code (l) are associated as one group, and layout areas of code (m), code (n), and code (s) are associated with each other. Associated as a group. Further, with respect to the other layout areas, the layout areas having the same relative positions as the code (j), the code (k), and the code (l) are associated as one group.
[0048]
Through the above-described processing, the nine types of products are associated as a group with respect to the image, model, price, and the like of the lighting fixture shown in FIG.
In addition, as shown in FIG. 14, when only the layout area indicated by the symbol (t) has different associations in other layout areas, the portions other than the portion indicated by the reference numeral (t) are associated based on the relative position information as the group described above. Processing may be performed, and the portion indicated by reference numeral (t) may be associated by an instruction from the input device described in the first embodiment.
[0049]
Next, a fourth embodiment will be described. In this embodiment, the element relationship specifying unit 5 generates information already associated with each layout area as template link information, and the generated template link information is also generated between other layout areas (or other pages). The same association is performed between the layout areas.
For example, when there are a plurality of pages where layout areas are arranged as shown in FIG. 13, for example, the first page uses the association process of the third embodiment for each product. Association is performed, and template link information is generated based on the relative position between the associated layout regions. If the same layout area is also arranged on the next page, the generated template link information is used to associate the characters such as the image, model, and price of each product on this page as one product. Do.
[0050]
Next, a fifth embodiment will be described. FIG. 15 is a schematic block diagram illustrating the configuration of the element relationship identification unit 5 in the fifth embodiment.
In this figure, the link information storage unit 55 stores link information between the layout areas already associated.
The comparison unit 56 reads the link information of the corresponding database information, and compares each element of the read data with each element of the updated database information.
[0051]
Based on the comparison result of the comparison unit 56, the color arrangement unit 57 outputs elements that match the read data element and the updated database information element and elements that do not match using different expression methods. With this different expression method, for example, different colors are set in the layout area and output. The different representation methods may be distinguished by the type of a rectangular line indicating the layout area, or may be distinguished by hatching the layout area.
[0052]
Based on the comparison result of the comparison unit 56, the link setting unit 58 associates the element of the read data with the element that matches the element of the updated database information.
[0053]
Next, the operation of the element relation identification device 5 in this embodiment will be described. The link information storage unit 55 sequentially stores link information between the associated layout areas when the database is constructed. Then, after the database is constructed or in the middle of construction, after the DTP document data is corrected, when an instruction to associate again is input, the comparison unit 56 of the element relation identifying device 5 associates again. According to the instruction, the link information of the database information that has been corrected is read out, each element of the read data is compared with each element of the updated database information, and the comparison result is output to the color arrangement unit 57. .
[0054]
Based on the comparison result of the comparison unit 56, the color arrangement unit 57 sets different colors for the elements in which the read data element and the updated database information element match and the elements that do not match in the layout area. To the link setting unit 58. The link setting unit 58 receives the comparison result of the comparison unit 56 via the color arrangement unit 57, and associates the element of the read data with the element of the updated database information.
[0055]
For example, among the layout areas in FIG. 16 code (u), when the layout area indicated by code (w) is corrected for data on the DTP and the above-described color arrangement processing is performed, as shown in FIG. In addition, among the layout areas in the code (u), the layout area shown in the code (w) is output on the screen with a different color.
This makes it easier for the operator to visually confirm the data in the layout area where the data has been corrected on the DTP.
[0056]
Next, a sixth embodiment will be described. FIG. 17 is a schematic block diagram illustrating the configuration of the element relationship identification unit 5 in the sixth embodiment.
In this figure, an in-rectangular layout area detection unit 510 detects a layout area in a minimum circumscribed rectangle that includes a plurality of layout areas that are already associated. For example, as shown in FIG. 18, the minimum circumscribed rectangle referred to here is indicated by a code (a) that is already associated when the image area and the character region indicated by the code (a) are already associated with each other. This is the smallest rectangle (symbol (e)) outlined including the image area and the character area.
[0057]
The link setting unit 520 associates the layout regions in the minimum circumscribed rectangle detected by the in-rectangular layout region detecting unit 510 with each other.
[0058]
Next, the operation of the element relationship specifying unit 5 in this embodiment will be described. When the image area and the character area indicated by the symbol (a) are already associated with each other, and when the graphic area indicated by the symbol (c) is also associated, the in-rectangular layout area detecting unit 510 receives the input device from the operator. When an instruction for an association process using the minimum circumscribed rectangle is input, a layout area within the minimum circumscribed rectangle including a plurality of layout areas already associated is detected. Here, the layout area within the minimum circumscribed rectangle indicated by reference numeral (e) is detected.
[0059]
When the layout area in the minimum circumscribed rectangle is detected, the link setting unit 520 associates the detected layout areas in the minimum circumscribed rectangle with each other. As a result, the image area indicated by the symbol (A), the character area, and the graphic area indicated by the symbol (C) are associated with each other.
[0060]
When the association in the code (e) is completed, the association process using the minimum circumscribed rectangle is performed also in the other layout areas. As a result, when the image area and the character area indicated by the symbol (b) are already associated with each other, the layout region (the symbol (( F)) is detected, and the graphic area (symbol (d)) existing in the code (f) is also associated with the two layout areas of the already associated code (b).
[0061]
According to the embodiment described above, the printing company is not required to perform the input work twice based on the correction contents of the sample entered by the client, the work load is reduced, and the database is updated. Work time can be reduced.
In addition, it is possible to eliminate an operator's mistake and perform a reliable update operation on the product database.
[0062]
In order to realize the functions of the electronic document conversion unit 1, the conversion data analysis unit 2, the element name regularity definition unit 3, the element relationship specification unit 5, the element name regularity specification unit 6, and the component extraction unit 7 in FIG. 1. These programs may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed to perform database construction processing. Here, the “computer system” includes an OS and hardware such as peripheral devices.
[0063]
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
[0064]
The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes design and the like within a scope not departing from the gist of the present invention.
[0065]
【The invention's effect】
As described above, according to the present invention, information already associated between layout areas is generated as template link information, and the generated template link information is also used in other pages of the electronic document. Element relation specifying means for performing similar association between layout areas, associating the extracted elements with item information, and associating the elements in the layout area related by the element relation specifying means with the database information Since it is generated, even when there are a plurality of layout areas with the same association, an effect can be obtained in which the association work can be easily performed while reducing association errors.
[0066]
Further, according to the present invention, link information between layout areas already associated is stored, and link information of database information corresponding to an electronic document to be detected as to whether or not linked is read, Each element of the read data is compared with each element of the updated database information, and based on the comparison result of the comparison means, the element of the read data matches the element of the updated database information Since the elements that do not match are output by different expression methods, it is possible to easily and quickly confirm whether or not the elements are associated with each other.
[0067]
Further, according to the present invention, a layout area in a minimum circumscribed rectangle that includes a plurality of layout areas that are already associated is detected, each layout area in the detected minimum circumscribed rectangle is associated with each other, and the extracted element is an item. Since the database information is generated by associating the information and by associating the elements in the associated layout area, even when a new layout area is provided in the vicinity between the already associated layout areas, The effect that the association work can be easily performed is obtained.
[Brief description of the drawings]
FIG. 1 is a schematic block diagram showing a configuration of a database construction device according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating an example of a screen displayed on a conversion data display unit 4;
FIG. 3 is a diagram illustrating an example of rule information.
FIG. 4 is a diagram for explaining association between elements;
FIG. 5 is a flowchart for explaining the operation of the database construction device shown in FIG. 1;
6 is a flowchart for explaining the operation of the database construction device shown in FIG. 1;
7 is a flowchart for explaining the operation of the database construction device shown in FIG. 1; FIG.
FIG. 8 is a flowchart for explaining the operation of the database construction device shown in FIG. 1;
FIG. 9 is a diagram showing an example when each element constituting the product catalog is displayed as a layout area;
FIG. 10 is a diagram for explaining setting of association and rule information.
FIG. 11 is a diagram showing an example in which data extracted by the component extraction unit 7 is made into a database.
FIG. 12 is a schematic block diagram showing a configuration of an element relationship specifying unit 5 in the third embodiment.
FIG. 13 is a diagram for explaining association in another embodiment;
FIG. 14 is a diagram for explaining association in another embodiment;
FIG. 15 is a schematic block diagram showing a configuration of an element relationship specifying unit 5 in the fifth embodiment.
FIG. 16 is a diagram for explaining a fifth embodiment;
FIG. 17 is a schematic block diagram showing a configuration of an element relationship specifying unit 5 in the sixth embodiment.
FIG. 18 is a diagram for explaining an association process using a minimum circumscribed rectangle;
[Explanation of symbols]
1 Electronic document conversion unit 2 Conversion data analysis unit
3 Element name regularity definition part 4 Conversion data display part
5 Element relation specification part 6 Element name regularity specification part
7 Component extraction unit 8 Component output unit
51 Relative position information generation unit 52 Detection unit
53, 58, 520 Link setting unit 55 Link information storage unit
56 Comparison part 57 Coloring part
510 Intra-rectangular layout area detector

Claims (4)

電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素と項目情報とを対応付けてデータベース情報を生成し、データベースを構築するデータベース構築装置であって、
各レイアウト領域間において関連付けされたそれぞれのレイアウト領域について、基準となる基準レイアウト領域と当該基準レイアウト領域から関連づけされた各レイアウト領域までの相対位置をテンプレートリンク情報として生成し、生成されたテンプレートリンク情報を利用して各レイアウト領域を関連づけるとともに、前記テンプレートリンク情報に基づいて、前記電子文書ページの他のページあるいは、他のレイアウト領域について、基準レイアウト領域と相対位置に配置されたレイアウト領域について関連づけする要素関係特定手段と、
前記要素関係特定手段によって関連づけられるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記要素関係特定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する構成要素抽出手段と、
前記関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出する矩形内レイアウト領域検出手段と、
前記矩形内レイアウト領域検出手段が検出した最小外接矩形内のレイアウト領域をそれぞれ関連付けするリンク設定手段と、
を有し、前記構成要素抽出手段は、
前記リンク設定手段によって関連づけされるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記リンク設定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する
ことを特徴とするデータベース構築装置。
A database construction device that constructs a database by extracting the elements from an electronic document in which elements constituting the electronic document are set in a layout area, generating database information by associating the extracted elements with item information ,
For each layout area associated between each layout area, a reference layout area as a reference and a relative position from the reference layout area to each associated layout area are generated as template link information, and the generated template link information Are associated with each other, and based on the template link information, other pages of the electronic document page or other layout areas are associated with a layout area arranged at a relative position to the reference layout area. Element relation identification means;
The elements of the layout area related by the element relation specifying means are extracted, the extracted elements are associated with the item information, and the database information is generated by associating the elements in the layout area related by the element relation specifying means. Component extraction means;
An in-rectangular layout area detecting means for detecting a layout area in a minimum circumscribed rectangle including the plurality of associated layout areas;
Link setting means for associating each layout area in the minimum circumscribed rectangle detected by the in-rectangular layout area detecting means;
The component extraction means includes
Extracting the elements of the layout area linked by the link setting means, associating the extracted elements with item information, and generating the database information by associating the elements in the layout area linked by the link setting means. A database construction device characterized by this.
電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素と項目情報とを対応付けてデータベース情報を生成し、データベースを構築するデータベース構築装置におけるデータベース構築方法であって、
要素関係特定手段が、
各レイアウト領域間において関連付けされたそれぞれのレイアウト領域について、基準となる基準レイアウト領域と当該基準レイアウト領域から関連づけされた各レイアウト領域までの相対位置をテンプレートリンク情報として生成し、生成されたテンプレートリンク情報を利用して各レイアウト領域を関連づけるとともに、前記テンプレートリンク情報に基づいて、前記電子文書ページの他のページあるいは、他のレイアウト領域について、基準レイアウト領域と相対位置に配置されたレイアウト領域について関連づけし、
前記データベース構築装置の矩形内レイアウト領域検出手段が、
前記関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出し、
前記データベース構築装置のリンク設定手段が、
前記矩形内レイアウト領域検出手段が検出した最小外接矩形内のレイアウト領域をそれぞれ関連付けし、
構成要素抽出手段が、
前記要素関係特定手段によって関連づけられるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記要素関係特定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成し、また、前記リンク設定手段によって関連づけされるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記リンク設定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する
ことを特徴とするデータベース構築方法。
Database construction in a database construction device that constructs a database by extracting the elements from an electronic document in which elements constituting the electronic document are set in a layout area, generating database information by associating the extracted elements with item information A method,
Element relationship identification means
For each layout area associated between each layout area, a reference layout area as a reference and a relative position from the reference layout area to each associated layout area are generated as template link information, and the generated template link information Are associated with each other, and based on the template link information, other pages of the electronic document page or other layout areas are associated with a layout area arranged at a relative position to the reference layout area. ,
The in-rectangular layout area detecting means of the database construction device,
Detecting a layout area within a minimum circumscribed rectangle including the plurality of associated layout areas;
The link setting means of the database construction device,
Each of the layout regions in the minimum circumscribed rectangle detected by the in-rectangular layout region detecting means is associated with each other,
The component extraction means is
The elements of the layout area associated by the element relation specifying means are extracted, the extracted elements are associated with item information, and the database information is generated by associating the elements in the layout area related by the element relation specifying means. In addition, the elements of the layout area associated by the link setting means are extracted, the extracted elements are associated with item information, and the database information is associated with the elements in the layout area associated by the link setting means. A database construction method characterized by generating.
電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素と項目情報とを対応付けてデータベース情報を生成し、データベースを構築するコンピュータを、
各レイアウト領域間において関連付けされたそれぞれのレイアウト領域について、基準となる基準レイアウト領域と当該基準レイアウト領域から関連づけされた各レイアウト領域までの相対位置をテンプレートリンク情報として生成し、生成されたテンプレートリンク情報を利用して各レイアウト領域を関連づけるとともに、前記テンプレートリンク情報に基づいて、前記電子文書ページの他のページあるいは、他のレイアウト領域について、基準レイアウト領域と相対位置に配置されたレイアウト領域について関連づけする要素関係特定手段、
前記関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出する矩形内レイアウト領域検出手段、
前記矩形内レイアウト領域検出手段が検出した最小外接矩形内のレイアウト領域をそれぞれ関連付けするリンク設定手段、
前記要素関係特定手段によって関連づけられるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記要素関係特定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する、または、前記リンク設定手段によって関連づけされるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記リンク設定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する構成要素抽出手段、
として機能させるためのデータベース構築プログラム。
A computer that constructs a database by extracting the elements from an electronic document in which elements constituting the electronic document are set in a layout area, generating database information by associating the extracted elements with item information,
For each layout area associated between each layout area, a reference layout area as a reference and a relative position from the reference layout area to each associated layout area are generated as template link information, and the generated template link information Are associated with each other, and based on the template link information, other pages of the electronic document page or other layout areas are associated with a layout area arranged at a relative position to the reference layout area. Element relationship identification means,
Intra-rectangular layout area detecting means for detecting a layout area in a minimum circumscribed rectangle that includes the plurality of associated layout areas,
Link setting means for associating each layout area in the minimum circumscribed rectangle detected by the in-rectangular layout area detecting means;
The elements of the layout area related by the element relation specifying means are extracted, the extracted elements are associated with item information, and the database information is generated by associating the elements in the layout area related by the element relation specifying means. Or, the elements of the layout area linked by the link setting means are extracted, the extracted elements are associated with the item information, and the database information is correlated with the elements in the layout area linked by the link setting means. Component extraction means to generate,
Database construction program to make it function as.
電子文書を構成する要素がレイアウト領域内に設定された電子文書から前記要素を抽出し、抽出した要素と項目情報とを対応付けてデータベース情報を生成し、データベースを構築するコンピュータを、
各レイアウト領域間において関連付けされたそれぞれのレイアウト領域について、基準となる基準レイアウト領域と当該基準レイアウト領域から関連づけされた各レイアウト領域までの相対位置をテンプレートリンク情報として生成し、生成されたテンプレートリンク情報を利用して各レイアウト領域を関連づけるとともに、前記テンプレートリンク情報に基づいて、前記電子文書ページの他のページあるいは、他のレイアウト領域について、基準レイアウト領域と相対位置に配置されたレイアウト領域について関連づけする要素関係特定手段、
前記関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出する矩形内レイアウト領域検出手段、
前記矩形内レイアウト領域検出手段が検出した最小外接矩形内のレイアウト領域をそれぞれ関連付けするリンク設定手段、
前記要素関係特定手段によって関連づけられるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記要素関係特定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する、または、前記リンク設定手段によって関連づけされるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記リンク設定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する構成要素抽出手段、
として機能させるためのデータベース構築プログラムを記録したコンピュータ読み取り可能な記録媒体。
A computer that constructs a database by extracting the elements from an electronic document in which elements constituting the electronic document are set in a layout area, generating database information by associating the extracted elements with item information,
For each layout area associated between each layout area, a reference layout area as a reference and a relative position from the reference layout area to each associated layout area are generated as template link information, and the generated template link information Are associated with each other, and based on the template link information, other pages of the electronic document page or other layout areas are associated with a layout area arranged at a relative position to the reference layout area. Element relationship identification means,
Intra-rectangular layout area detecting means for detecting a layout area in a minimum circumscribed rectangle that includes the plurality of associated layout areas,
Link setting means for associating each layout area in the minimum circumscribed rectangle detected by the in-rectangular layout area detecting means;
The elements of the layout area related by the element relation specifying means are extracted, the extracted elements are associated with item information, and the database information is generated by associating the elements in the layout area related by the element relation specifying means. Or, the elements of the layout area linked by the link setting means are extracted, the extracted elements are associated with the item information, and the database information is correlated with the elements in the layout area linked by the link setting means. Component extraction means to generate,
A computer-readable recording medium in which a database construction program for functioning as a computer is recorded.
JP2001328332A 2001-10-25 2001-10-25 Database construction apparatus, database construction method, database construction program, recording medium Expired - Fee Related JP4147763B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001328332A JP4147763B2 (en) 2001-10-25 2001-10-25 Database construction apparatus, database construction method, database construction program, recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001328332A JP4147763B2 (en) 2001-10-25 2001-10-25 Database construction apparatus, database construction method, database construction program, recording medium

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2008117740A Division JP2008257739A (en) 2008-04-28 2008-04-28 Database construction apparatus, database construction method, database construction program, recording medium

Publications (2)

Publication Number Publication Date
JP2003131932A JP2003131932A (en) 2003-05-09
JP4147763B2 true JP4147763B2 (en) 2008-09-10

Family

ID=19144412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001328332A Expired - Fee Related JP4147763B2 (en) 2001-10-25 2001-10-25 Database construction apparatus, database construction method, database construction program, recording medium

Country Status (1)

Country Link
JP (1) JP4147763B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4897662B2 (en) * 2007-12-28 2012-03-14 キヤノンマーケティングジャパン株式会社 Information processing system, information processing apparatus, information processing method, and program

Also Published As

Publication number Publication date
JP2003131932A (en) 2003-05-09

Similar Documents

Publication Publication Date Title
US7020838B2 (en) System and method for identifying line breaks
US20060005126A1 (en) Method for manipulation of objects within electronic graphic documents
JPH11175569A (en) Document reading system and document reading method
JP2003132078A (en) Database construction apparatus, database construction method, database construction program, recording medium
JP4508264B2 (en) Database construction apparatus, database construction method, database construction program, recording medium
JP4147763B2 (en) Database construction apparatus, database construction method, database construction program, recording medium
JPH08161309A (en) Document creation device
US7716639B2 (en) Specification wizard
US9195655B2 (en) Method and system for transforming documents
JP4192457B2 (en) Database construction apparatus, database construction method, database construction program, recording medium
JP2001101171A (en) Method and system for generating online documentation of web quality from the same source file as print documentation
JP2008257739A (en) Database construction apparatus, database construction method, database construction program, recording medium
JP2002278727A (en) Character extraction print program, print control device
JP2003132077A (en) Database construction apparatus, database construction method, database construction program, recording medium
JP2011248421A (en) Data creation method and data creation system
JP4276402B2 (en) Form processing device
JP5589396B2 (en) Layout support device, layout support method, and program
JP2000280435A (en) Enrollment data check system
JP2889052B2 (en) Character typeface processing method and apparatus
WO2025143133A1 (en) Information processing device, information processing method, and program
WO2024202071A1 (en) Information processing method and information processing device
JP2025000454A (en) Information processing method, information processing program and information processing apparatus
JP2002273943A (en) Vertical writing conversion printing program, print control device
JP2005004785A (en) Form information processing apparatus, form information processing system, and program
JP2001101165A (en) Document editor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070417

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070717

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080107

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080428

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080603

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080616

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110704

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4147763

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110704

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130704

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140704

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees