[go: up one dir, main page]

JP3755674B2 - Image processing apparatus and method - Google Patents

Image processing apparatus and method Download PDF

Info

Publication number
JP3755674B2
JP3755674B2 JP25038495A JP25038495A JP3755674B2 JP 3755674 B2 JP3755674 B2 JP 3755674B2 JP 25038495 A JP25038495 A JP 25038495A JP 25038495 A JP25038495 A JP 25038495A JP 3755674 B2 JP3755674 B2 JP 3755674B2
Authority
JP
Japan
Prior art keywords
point
characters
displayed
image
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP25038495A
Other languages
Japanese (ja)
Other versions
JPH0991462A (en
Inventor
清信 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP25038495A priority Critical patent/JP3755674B2/en
Publication of JPH0991462A publication Critical patent/JPH0991462A/en
Application granted granted Critical
Publication of JP3755674B2 publication Critical patent/JP3755674B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、画像処理装置および方法に関し、特にビットマップデータで表される文字を認識し、テキストデータに変換する場合に用いて好適な画像処理装置および方法に関する。
【0002】
【従来の技術】
図16は、従来のディスプレイにおける表示例を示している。この例においては、ディスプレイ1にウインドウ2−1が設けられ、そこにイメージデータ(ビットマップデータ)で表される横書きの文字が表示されている。この文字は、例えば紙などにプリンタにより印刷されたものを、図示せぬOCR(Optical Character Reader)装置などで読み取り、これを表示したものである。従って、そこに表示されている文字を他の文字に変更するなどの編集を行うことができない。
【0003】
このような編集を行うことができるようにするには、イメージデータを文字認識し、キャラクタデータに変換する必要がある。
【0004】
従来、このような変換処理を行うのに、次のようにしていた。すなわち、最初に、変換すべき範囲の左上の点P11と右下の点P12をマウスで指定する。このとき、この点P11とP12で指定される矩形領域の範囲のイメージデータが、変換すべき範囲とされる。
【0005】
このような指定を行うと、次に、ウインドウ2−3に示されているように、このイメージデータを識別すべき方向(文字が連続する方向)が表示される。この表示例では、ウインドウ2−3に、「縦向き」と「横向き」の文字が表示され、使用者は、文字認識を行うべき方向(文字が連続する方向)を、このウインドウ2−3のいずれかの領域をカーソルで指定するなどして選択する。この例の場合、「いろはにほへと…」と文字が横書きされているため、「横向き」の領域を指定する。この指定を行うと、指定された領域内のイメージデータが文字認識される。
【0006】
次に、使用者は、指定した範囲のイメージデータを認識した結果得られた文字を表示する位置を、ウインドウ2−2上の点P13として指定する。この指定を行うと、認識された結果得られたテキストデータに対応する文字が、ウインドウ2−2の点P13を左上の点とする領域に表示される。
【0007】
以上の例は、文字が横書きされていた場合の例であるが、文字が縦書きされている(縦方向に連続している)場合も、同様の処理が行われる。すなわち、図17に示すように、ウインドウ2−1に縦書きにイメージデータによる文字が表示されているとき、図16における場合と同様に、左上の点P11と右下の点P12を指定することで、イメージデータを文字認識する領域を指定する。
【0008】
上述した場合と同様に、このような指定を行うと、次にウインドウ2−3に文字の連続する方向が表示されるので、この方向を指定する。いまの場合、文字は縦書きされているため、「縦向き」が選択される。
【0009】
そして、さらに、ウインドウ2−2上の点P13をコピー先の点として指定すると、そこにイメージデータを文字認識した結果得られたキャラクタデータに対応する文字が表示される。
【0010】
このように、ウインドウ2−2に表示された文字は、キャラクタデータに対応するものであるため、所定の文字を他の文字に変更したりする編集処理が可能となる。
【0011】
【発明が解決しようとする課題】
しかしながら、従来の装置においては、上記したように、文字が連続する方向(文字認識する方向)を表示して、表示した方向の中から所定の方向を選択するようにしているため、文字認識処理を実行させるのに必要な操作の回数が多く、操作性が悪い課題があった。
【0012】
本発明はこのような状況に鑑みてなされたものであり、操作回数を減らし、操作性を向上させるようにしたものである。
【0013】
【課題を解決するための手段】
請求項1に記載の画像処理装置は、ドラッグの開始点である第1の点と、ドラッグの終了点である第2の点とを頂点とする矩形の範囲であって、第1の点および第2の点を結ぶ線が対角線をなす矩形の範囲を指定する指定手段と、第1の点の座標と第2の点の座標の関係を判定する判定手段と、判定手段の判定結果に対応して、矩形の範囲の画像から文字を認識する処理を行うとともに、文字の連続する方向を決定する処理手段とを備えることを特徴とする。
【0014】
請求項3に記載の画像処理方法は、ドラッグの開始点である第1の点と、ドラッグの終了点である第2の点とを頂点とする矩形の範囲であって、第1の点および第2の点を結ぶ線が対角線をなす矩形の範囲を指定し、第1の点の座標と第2の点の座標の関係を判定し、判定結果に対応して、矩形の範囲の画像から文字を認識する処理を行うとともに、文字の連続する方向を決定することを特徴とする。
【0015】
請求項1に記載の画像処理装置においては、指定手段が、ドラッグの開始点である第1の点と、ドラッグの終了点である第2の点とを頂点とする矩形の範囲であって、第1の点および第2の点を結ぶ線が対角線をなす矩形の範囲を指定し、判定手段が、第1の点の座標と第2の点の座標の関係を判定し、処理手段が、判定手段の判定結果に対応して、矩形の範囲の画像から文字を認識する処理を行うとともに、文字の連続する方向を決定する。
【0016】
請求項3に記載の画像処理方法においては、ドラッグの開始点である第1の点と、ドラッグの終了点である第2の点とを頂点とする矩形の範囲であって、第1の点および第2の点を結ぶ線が対角線をなす矩形の範囲を指定し、第1の点の座標と第2の点の座標の関係を判定し、判定結果に対応して、矩形の範囲の画像から文字を認識する処理を行うとともに、文字の連続する方向を決定する。
【0017】
【発明の実施の形態】
図1は、本発明の画像処理装置が接続されるネットワークの構成例を表している。同図に示すように、コンピュータのための国際的なネットワークとしてのインターネット(サービスマーク)には多くのサーバとプロバイダが接続されており、サーバはユーザに各種の情報、サービスを提供し、プロバイダは、ユーザをインターネットにアクセスさせるサービスを提供する。
【0018】
図2は、本発明の画像処理装置の構成例を示すブロック図である。この実施例においては、ネットワークインタフェース(I/F)23が、インターネット、その他のネットワークから供給されるデータを受信し、文書データ格納部18に供給し、記憶させるようになされている。この文書データ格納部18は、ハードディスク、光ディスク、光磁気ディスクなどの他、固体メモリなどにより構成することができる。また、文書データ格納部18に格納されるデータ構造は、イメージデータ、MMR(modified modified REA)やMH(modified Huffman)などにより圧縮されたイメージデータ、テキストデータ、DTPなどで用いられるPostscriptなどのページ記述言語などとすることができる。
【0019】
イメージ展開処理部19は、CPU11からの指令に対応して、文書データ格納部18に記憶されているデータを、データ構造に対応してビットマップなどのイメージデータに展開し、メインメモリ12に出力するようになされている。データ構造が、例えばファクシミリなどで用いられているMMRやMHなどにより圧縮されているイメージデータである場合においては、イメージ展開処理部19は伸長処理を行う。また、Postscriptなどのページ記述言語であれば、フォントを展開しページ割り付けを行うラスタイメージ展開処理を行う。
【0020】
メインメモリ12に記憶されたデータは、イメージデータ転送部20またはイメージデータ圧縮転送部21を介して、表示バッファ13に供給され、記憶されるようになされている。基本的には、イメージデータ転送部20は、メインメモリ12に記憶されたデータをそのまま表示バッファ13に転送し、イメージデータ圧縮転送部21は、メインメモリ12に記憶されている画像を圧縮して、表示バッファ13に供給し、記憶させる。
【0021】
イメージデータ圧縮転送部21は、数行おきにデータを間引きながら転送する処理や、行間で論理ORなどの演算をしながら行数を減らす処理によって圧縮処理を行う。あるいはまた、イメージデータのドットの数を計数し、その数に対応して、圧縮処理を行うようにする。
【0022】
また、イメージデータ圧縮転送部21とイメージデータ転送部20は、メインメモリ12から読み出したデータを表示バッファ13に転送するとき、2値のイメージデータを多値化することにより、比較的解像度の低いディスプレイにおいても、細かい文字をつぶさないで、表示できるようにしている。ただし、多値化解像度変換処理には時間がかかるため、例えば特開平4−337800号公報に開示されているように、先に粗い画像をまず表示し、そのデータを多値化されたデータに、後で順次置き換えて行くようにする。これにより、反応の速さときれいな表示の要求を両方満足することができる。
【0023】
また、領域コピー処理部22は、表示バッファ13に記憶されている画像データの一部を、表示バッファ13の他の領域にコピー(移動)する処理を実行する。
【0024】
ビデオ信号発生部14は、表示バッファ13に記憶されている画像データを読み出し、ビデオ信号に変換し、ディスプレイ15に出力し、表示させるようになされている。
【0025】
OCR(Optical Character Recognition)エンジン24は、CPU11の制御の下、イメージデータ(ビットマップデータ)の文字を認識し、JISコードなどのテキストデータに変換する処理を実行する。
【0026】
キーボード17は、少なくともカーソルキー17Aを有し、CPU11に対して各種の指令を入力するとき、使用者により操作されるようになされている。また、マウスなどのポインティングデバイス16は、ディスプレイ15に表示されたカーソルを用いて所定の位置を指定するような場合に、使用者によって操作される。
【0027】
次に、図2の実施例の動作について説明する。キーボード17を操作し、CPU11に、例えばインターネットに対するアクセスの開始を指令すると、CPU11はディスプレイ15に、例えば図3に示すようなメニュー画面を表示させる。このメニュー画面には、インターネットに接続されている各種のサーバにアクセスするためのアイコンが表示されている。
【0028】
使用者が、例えば「Fax in」のアイコン31をカーソルで指定、選択すると、CPU11は、ネットワークインタフェース23を制御し、インターネットに接続されている、そのアイコンに対応するサーバにアクセスさせる。このサーバは、新聞、雑誌などの切抜きをOCR(optical character reader)により読み取り、イメージデータ(ビットマップデータ)として記憶しており、そのデータを提供するサービス(Fax inサービス)を行っている。
【0029】
ネットワークインタフェース23は、インターネットを介してアクセスしたそのサーバから供給されたデータを文書データ格納部18に供給し、記憶させる。また、このデータの一部は、そのままイメージ展開処理部19に供給され、伸長処理などが施され、ビットマップデータに変換され、メインメモリ12に供給され、記憶される。
【0030】
メインメモリ12に記憶されたデータは、イメージデータ転送部20を介して表示バッファ13に供給され、そこに書き込まれる。表示バッファ13に書き込まれたデータは、ビデオ信号発生部14に供給されビデオ信号に変換され、ディスプレイ15に供給され、表示される。このようにして、ディスプレイ15に、例えばアクセスしたサーバの図4に示すようなホームページが最初に表示される。
【0031】
そして、使用者は、このホームページを見ながらポインティングデバイス16やキーボード17を操作して、例えば使用者が新聞の切抜きのファイル81−2の選択を指令すると、そのファイルのデータがまだ文書データ格納部18に格納されていないとき、CPU11は、ネットワークインタフェース23を介して、サーバにデータの転送を要求する。サーバがこの要求に対応してデータを転送すると、このデータは、ネットワークインタフェース23を介して文書データ格納部18に供給され、記憶される。
【0032】
次に、CPU11は、文書データ格納部18に記憶されたファイルのデータ(文書データ)を読み出させ、イメージ展開処理部19によりビットマップデータに変換させた後、メインメモリ12に供給させ、記憶させる。そして、このデータが、イメージデータ転送部20またはイメージデータ圧縮転送部21を介して表示バッファ13に供給され、記憶される。表示バッファ13に書き込まれた1枚(1ページ)の画像データは、ビデオ信号発生部14に供給され、ビデオ信号に変換され、ディスプレイ15に出力され、表示される。
【0033】
次に、1枚の画像を表示する原理について、図5を参照して説明する。今、ディスプレイ15にウインドウ41が表示されており、このウインドウ41に文書データ格納部18より読み出された1枚(1ページ)のA4の大きさの新聞記事の切り抜きの画像を表示させるものとする。メインメモリ12に記憶された1枚の画像のイメージデータ42が、図5に示すように、幅Wと高さHを有するものとする。
【0034】
これに対して、ウインドウ41は、その幅がw、高さがhであり、イメージデータ42の幅Wと高さHが、ウインドウ41の幅wと高さhより大きいものとする。この場合、イメージデータ42をウインドウ41に、その全部をそのまま表示することはできない。そこで、この実施例においては、例えばイメージデータ42の幅Wを、ウインドウ41の幅wに合わせる(調整する)処理が行われる。すなわち、イメージデータ42は、その幅が全体的に、w/Wの圧縮率で圧縮される。
【0035】
さらにまた、このようにして、幅方向に全体的にw/Wに圧縮されたイメージデータ52が、次のようにして高さ方向に圧縮される。すなわち、ウインドウ41の高さhは、イメージデータ52の高さHより小さいため、ウインドウ41の高さhの、例えば70%の高さa2の領域A2と、その上部の高さa1の領域A1、およびその下部の高さa3の領域A3とに、ウインドウ41が区分される。この区分に対応して、イメージデータ50にも、高さr2(=a2)の領域R2と、その上部の高さr1の領域R1、およびその下部の高さr3の領域R3とに区分される。
【0036】
そして、イメージデータ52の領域R2のデータは、ウインドウ41の領域A2に、そのまま(圧縮せずに)転送、表示される。これに対して、領域R1のデータは、領域A1に、縦方向に圧縮されて転送、表示され、また領域R3のデータは、領域A3に、縦方向に圧縮されて転送、表示される。領域A2の高さa2は、ウインドウ41の高さhの70%の値とされ、イメージデータ52の領域R2の高さr2は、a2と同一の値とされているので、領域A2は、文字が正しい比率(縦方向と横方向の比率)で表示される標準部とされるのに対して、領域A1とA3は、文字が縦方向に圧縮されて表示される圧縮部とされる。
【0037】
標準部の領域A2の位置は、カーソルで移動させることができるようになされている。図6と図7は、この関係を表している。すなわち、図6に示すように、表示バッファ13(従ってウインドウ41)のカーソル61の位置を中心として、上方向にKまでの範囲と、下方向にKまでの範囲が、標準部の領域A2とされ、その上部と下部の領域がA1またはA3とされる。従って、例えば、図6に示す状態から、カーソル61を下方に移動させると、図7に示すように、標準部の領域A2は、図6における位置より下方に移動する。その結果、領域A1の範囲は、図7における場合の方が図6における場合より拡大し、また、領域A3の範囲は、図6における場合より図7における場合の方が狭くなる。
【0038】
図8は、以上のような原理に従って、ファイル81−2を指定して、所定のページをウインドウ41に表示した例を表している。この表示例においては、新聞の切り抜きをOCRで読み取り、イメージデータとして取り込んだ画像が、その中央部では、縦方向と横方向の比が同一とされる標準部として表示され、その上下の所定の領域が、縦方向に圧縮した圧縮部として表示されている。
【0039】
また、図9は、標準部をウインドウ41の上端まで移動させた状態を表している。従って、この表示例においては、圧縮部は、ウインドウの下部にのみ表示されている。図8と図9のウインドウ41の右下には、ファイルを選択するための各種のコントロールボタン(アイコン)91が表示されている。
【0040】
図10は、このコントロールボタン91の内容を理解するために、右端のコントロールボタン(ヘルプボタン)を選択した場合に、CPU11がディスプレイ15に表示させるヘルプ画面の表示例を示している。この表示例を参照して、各コントロールボタンについて、以下に説明する。
【0041】
同図に示すように、この表示例においては、コントロールボタン91の解説、マウスのボタンの解説、およびコピー方向の解説が表示されている。
【0042】
コントロールボタン91のうち、左端のコントロールボタン91−1は、例えばこのヘルプ画面から戻るとき操作される。その右隣のコントロールボタン91−2は、ウインドウ41に表示されている画像を印刷するとき操作する。さらに、その右隣のコントロールボタン91−3と91−4は、ウインドウ41に表示されている画像を反時計方向または時計方向にそれぞれ回転表示させる場合に操作される。
【0043】
さらに、その右隣のコントロールボタン91−5は、ウインドウ41に表示されているファイルを前のファイルに変更するとき操作され、コントロールボタン91−6は、いまウインドウ41に表示されているファイルのページを1ページだけ前のページに戻すとき操作される。
【0044】
同様に、その右隣のコントロールボタン91−7と91−8は、ウインドウ41に表示されているファイルのページを次のページにするとき、または、ウインドウ41に表示されているファイルを次のファイルに変更するとき操作される。
【0045】
従って、例えば、ウインドウ41に図4におけるファイル81−1が表示されている状態において、コントロールボタン91−8が操作されると、ウインドウ41には、次のファイル81−2が表示され、ファイル81−2が表示されている状態において、コントロールボタン91−5が操作されると、前のファイル81−1が表示される。また、例えばファイル81−2の所定のページが表示されている状態において、コントロールボタン91−7を操作すると、ファイル81−2のその次のページが表示され、コントロールボタン91−6が操作されると、ファイル81−2のその前のページが表示される。
【0046】
さらに、右端のコントロールボタン91−9は、図10に示されているようなヘルプ画面を表示させるとき操作する。
【0047】
なお、これらのコントロールボタン91−1乃至91−9と同様の機能が、キーボード17のアルファベットキーq,w,i,r,P,p,n,N,hに、それぞれ割り当てられてる。また、コントロールボタン91−6と91−7の機能は、カーソルキー17Aのうち、左方向のカーソルキーと右方向のカーソルキーにも割り当てられている。さらに、コントロールボタン91−9の機能は、キーボード17のヘルプキーにも割り当てられている。
【0048】
マウスのボタンの解説の欄には、マウスの操作方法が解説されている。すなわち、この実施例においては、ポインティングデバイス16を構成するマウス100は、図11に示すように、ボタン101乃至ボタン103の3つのボタンを有している。このうち、右端のボタン103は、ズームモードのボタンとされ、このボタン103を操作すると、所定の範囲の文字が、図12に示すように、拡大されて表示される。このとき、拡大領域の背景には、拡大領域を表示しない場合における状態の文字が薄く表示される。そして、このボタン103とその左隣(中央)のボタン102を同時に操作すると、拡大領域における拡大率が大きくなり(大きな文字が表示され)、ボタン103と最も左側のボタン101とを同時に操作すると、拡大領域における拡大率が小さくなる(小さい文字が表示される)ようになされている。
【0049】
すなわち、ボタン103と102によりズームイン動作が行われ、ボタン103とボタン101によりズームアウト動作が行われるようになされている。
【0050】
さらにまた、マウス100のボタン101を操作すると、OCRで読み取ったイメージデータを、テキストデータに変換して所定の位置にコピーすることができるようになされている。そして、その場合におけるコピーの方向の説明がその左側に表示されている。
【0051】
すなわち、この実施例においては、縦書きの文字をコピーするとき、右端の点からドラッグして、左端の点を指定するようにし、横書きの文字をコピーするとき、左上の点からドラッグして、右下の点を指定するようになされている。すなわち、ドラッグする方向を変えるだけで、文字の連続する方向を実質的に指定することができるようになされている。
【0052】
次に、図13のフローチャートを参照して、この実施例におけるOCR(Optical Character Recognition)機能の詳細について説明する。
【0053】
いま、例えば図14に示すように、ウインドウ41−1に、イメージデータで表された文字が表示されているものとする。この文字は、例えば紙などに印刷した文字をOCRで読み取って、イメージデータに変換したものであり、上述したように、具体的には新聞記事の切抜きのイメージデータなどである。この表示例においては、「いろはにほへと…けふこえて」の横書きの文字が表示されている。このような状態において、ウインドウ41−1に表示されているイメージデータの文字をテキストデータの文字に変換してウインドウ41−2にコピーするものとする。
【0054】
最初に、ステップS1において、使用者は、変換する範囲の左上の点P1を指定する。この指定は、マウス100を操作して、カーソルを点P1の位置に移動させ、その位置でボタン101をクリックすることで行われる。このとき、CPU11は、指定された点P1の座標を(x1,y1)として記憶する。なお、この実施例においても、ディスプレイ15(またはウインドウ41)上で、原点は左上の点とされ、右方向にx座標が、下方向にy座標が取られている。
【0055】
次に、使用者は、マウス100のボタン101を、点P1で押圧したままドラッグし、変換する範囲の右下の点P2の位置まで移動させ、その位置でドラッグを解除する。
【0056】
CPU11は、ステップS2で、ドラッグが終了するまで待機し、ドラッグの終了がマウス100(ポインティングデバイス16)から入力されたとき、ステップS3において、その点P2の座標を(x2,y2)として記憶する。
【0057】
次に、ステップS4において、点P2のy座標y2と点P1のy座標y1の大きさが判定される。図14に示す状態においては、文字が横方向に連続している。この場合、文字は、左から右方向に連続し、その行の右端に達したとき、下の行に移動し、再び左端から右端に向かって文字が連続するように文字が記載される。すなわち、文字は左上から右下方向に連続する。このように、文字が横書きされている場合、使用者は、変換する範囲を指定するとき、最初に左上の点P1を指定し、次に右下の点P2を指定する。その結果、y2はy1より大きくなっている。
【0058】
そこで次に、ステップS5に進み、点P1の座標x1と点P2の座標x2の大きさが比較される。文字が横書きされている場合、点P1は点P2より左側に位置しているため、x1はx2より小さくなっている。そこで、この場合、ステップS8に進み、CPU11は、OCRエンジン24を制御し、点P1と点P2で指定される矩形領域の内部のイメージデータを、横書き文字として認識し、JISコードなどのテキストデータに変換する処理を実行させる。いまの場合、「りぬるをわたれそつねむういのお」のイメージデータの文字が文字認識されることになる。
【0059】
次に、使用者は、認識した結果得られたテキストデータに対応する文字をコピーする領域の左上の点P3をマウス100のボタン101を操作することで指定する。図14の実施例においては、ウインドウ41−2の座標x3,y3の点P3が、コピー領域の左上の点として指定されている。
【0060】
ステップS10においては、このコピー先の指定が行われるまで待機する。そして、点P3が指定されたとき、CPU11は、ステップS11に進み、ステップS8でOCRエンジン24により認識されたテキストデータに対応する文字を、点P3で指定される領域に表示させる。このウインドウ41−2の点P3で規定される範囲に表示される文字は、テキストデータに対応する文字であるため、使用者が、任意にこれを変更したり、消去するなどの編集操作が可能である。
【0061】
一方、図15に示すように、ウインドウ41−1に縦書きの文字が表示されているとき、文字は、右端の行の上から下に連続し、その行の下端に達すると、左隣の行に移り、その行の最上端から下に向かって連続する。すなわち、文字は、右上から左下方向に連続することになる。
【0062】
このように、文字が縦書きで表示されている場合、使用者は、変換する範囲を指定するとき、その右上の点と左下の点を指定する。すなわち、点P1が右上の点となり、点P2が左下の点となる。このため、x1はx2より大きくなる。従って、ステップS5において、NOの判定が行われ、x1がx2より大きいか否かを判定するステップS6において、YESの判定が行われる。そこで、ステップS9に進み、CPU11はOCRエンジン24に、点P1と点P2で規定される矩形の範囲のイメージデータを、縦書きの文字として認識させる。
【0063】
縦書きの文字をコピーする場合、使用者は、コピー先の点として、コピー領域の右上の点を、点P3として指定する。ステップS10において、この点P3の入力が検知されたと判定されたとき、ステップS11に進み、ステップS9で認識したテキストデータに対応する文字が、点P3で規定されるコピー領域に表示される。図15の実施例の場合、「りぬるをわたれそつねむういのお」の文字が縦書きで表示される。
【0064】
以上の実施例においては、平仮名を認識処理するようにしたが、これに限らず、漢字、アルファベット文字などを認識させるようにすることも可能である。
【0065】
このように、範囲を指定する方法を、文字が横書きされている場合と縦書きされている場合とで異ならせることで、文字の連続する方向を新たに指定する必要がなくなるため、操作性が改善される。また、左上から右下に向けて連続する横書きの文字の領域は、左上の点と右下の点とにより指定させ、右上から左下に向けて文字が連続する縦書きの文字の領域は、右上の点と左下の点とにより指定させるようにしたので、文字の連続する方向と指定する点の方向とが対応しており、極めて自然な操作で範囲を指定することが可能となる。
【0066】
以上の実施例においては、文字認識する場合における処理を、範囲を指定する方法により変更するようにしたが、文字認識以外の処理を実行する場合においても、本発明は適用することが可能である。
【0067】
【発明の効果】
以上の如く、請求項1に記載の画像処理装置および請求項3に記載の画像処理方法によれば、範囲を指定する第1の点と第2の点の座標の関係に対応して、その範囲の画像を処理するようにしたので、操作性が改善される。
【図面の簡単な説明】
【図1】本発明の画像処理装置が接続されるネットワークを説明する図である。
【図2】本発明の画像処理装置の構成例を示すブロック図である。
【図3】図2のディスプレイ15におけるメニューの表示例を示す図である
【図4】図2のディスプレイ15におけるホームページの表示例を示す図である
【図5】図2の実施例におけるウインドウ内に1枚の画像を表示する原理を説明する図である。
【図6】カーソルと表示内容の関係を説明する図である。
【図7】カーソルと表示内容の関係を説明する図である。
【図8】ウインドウ内における表示例を示す図である。
【図9】ウインドウ内における他の表示例を示す図である。
【図10】ヘルプ画面の表示例を示す図である。
【図11】マウスの構成を示す図である。
【図12】ウインドウ内における拡大表示の例を示す図である。
【図13】図2の実施例におけるOCR機能の処理を説明するフローチャートである。
【図14】図13のステップS8における表示例を示す図である。
【図15】図13のステップS9における表示例を示す図である。
【図16】従来のOCR機能を説明する図である。
【図17】従来のOCR機能を説明する他の図である。
【符号の説明】
11 CPU
12 メインメモリ
13 表示バッファ
14 ビデオ信号発生部
15 ディスプレイ
16 ポインティングデバイス
17 キーボード
17A カーソルキー
18 文書データ格納部
19 イメージ展開処理部
20 イメージデータ転送部
21 イメージデータ圧縮転送部
23 ネットワークインタフェース
24 OCRエンジン
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an image processing apparatus and method, and more particularly, to an image processing apparatus and method suitable for use when recognizing characters represented by bitmap data and converting them into text data.
[0002]
[Prior art]
FIG. 16 shows a display example on a conventional display. In this example, a window 2-1 is provided on the display 1, and horizontally written characters represented by image data (bitmap data) are displayed there. This character is, for example, a character printed on a paper or the like by a printer (not shown) OCR (Optical Character Reader) device or the like and displayed. Therefore, editing such as changing the character displayed there to another character cannot be performed.
[0003]
In order to be able to perform such editing, it is necessary to recognize image data and convert it to character data.
[0004]
Conventionally, such conversion processing has been performed as follows. That is, first, the upper left point P of the range to be converted11And lower right point P12Is specified with the mouse. At this time, this point P11And P12The image data in the range of the rectangular area specified by is set as the range to be converted.
[0005]
When such designation is made, next, as shown in the window 2-3, the direction (direction in which the characters are continuous) for identifying the image data is displayed. In this display example, the characters “vertical” and “horizontal” are displayed in the window 2-3, and the user selects the direction in which the characters should be recognized (the direction in which the characters are continuous) in the window 2-3. Select one of the areas by specifying it with the cursor. In the case of this example, since the characters “Iroha niho hito…” are written horizontally, the “landscape” area is designated. When this designation is made, the image data in the designated area is recognized as characters.
[0006]
Next, the user sets the position for displaying the character obtained as a result of recognizing the image data in the specified range, to the point P on the window 2-2.13Specify as. When this designation is made, the character corresponding to the text data obtained as a result of recognition is displayed as a point P in the window 2-2.13Is displayed in the area with the upper left point.
[0007]
The above example is an example when the characters are written horizontally, but the same processing is performed when the characters are written vertically (continuous in the vertical direction). That is, as shown in FIG. 17, when characters by image data are displayed vertically in the window 2-1, the upper left point P is displayed as in FIG.11And lower right point P12By designating, an area for character recognition of image data is designated.
[0008]
As in the case described above, if such designation is performed, the direction in which the characters continue is displayed next in the window 2-3, so this direction is designated. In this case, since the characters are written vertically, “vertical” is selected.
[0009]
Further, the point P on the window 2-213Is designated as a copy destination point, a character corresponding to the character data obtained as a result of character recognition of the image data is displayed there.
[0010]
Thus, since the character displayed on the window 2-2 corresponds to the character data, an editing process for changing a predetermined character to another character can be performed.
[0011]
[Problems to be solved by the invention]
However, in the conventional apparatus, as described above, the direction in which characters continue (character recognition direction) is displayed, and a predetermined direction is selected from the displayed directions. The number of operations required to execute the operation is large, and there is a problem that operability is poor.
[0012]
The present invention has been made in view of such circumstances, and is intended to reduce the number of operations and improve operability.
[0013]
[Means for Solving the Problems]
  The image processing apparatus according to claim 1,A rectangular range having the first point as the drag start point and the second point as the drag end point as vertices, and the line connecting the first point and the second point forms a diagonal line Rectangle rangeCorresponding to the determination result of the determination means, the determination means for determining the relationship between the coordinates of the first point and the coordinates of the second point,Performs processing to recognize characters from the image in the rectangular area and determines the direction in which the characters continueAnd a processing means.
[0014]
  Claim 3The image processing method described inA rectangular range having the first point as the drag start point and the second point as the drag end point as vertices, and the line connecting the first point and the second point forms a diagonal line Rectangle range, Determine the relationship between the coordinates of the first point and the coordinates of the second point, corresponding to the determination result,Performs processing to recognize characters from the image in the rectangular area and determines the direction in which the characters continueIt is characterized by that.
[0015]
  In the image processing apparatus according to claim 1, the specifying unit includes:A rectangular range having the first point as the drag start point and the second point as the drag end point as vertices, and the line connecting the first point and the second point forms a diagonal line Rectangle rangeAnd the determining means determines the relationship between the coordinates of the first point and the coordinates of the second point, and the processing means corresponds to the determination result of the determining means,A process for recognizing characters from an image in a rectangular range is performed, and the direction in which the characters continue is determined.
[0016]
  Claim 3In the image processing method described inA rectangular range having the first point as the drag start point and the second point as the drag end point as vertices, and the line connecting the first point and the second point forms a diagonal line Rectangle range, Determine the relationship between the coordinates of the first point and the coordinates of the second point, corresponding to the determination result,A process for recognizing characters from an image in a rectangular range is performed, and the direction in which the characters continue is determined.
[0017]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 1 shows a configuration example of a network to which the image processing apparatus of the present invention is connected. As shown in the figure, many servers and providers are connected to the Internet (service mark) as an international network for computers. Servers provide various information and services to users. Provide services that allow users to access the Internet.
[0018]
FIG. 2 is a block diagram illustrating a configuration example of the image processing apparatus of the present invention. In this embodiment, a network interface (I / F) 23 receives data supplied from the Internet and other networks, supplies it to the document data storage unit 18 and stores it. The document data storage unit 18 can be composed of a solid-state memory or the like in addition to a hard disk, an optical disk, a magneto-optical disk, or the like. The data structure stored in the document data storage unit 18 is a page such as image data, image data compressed by MMR (modified modified REA) or MH (modified Huffman), text data, Postscript used in DTP, and the like. It can be a description language.
[0019]
The image expansion processing unit 19 expands the data stored in the document data storage unit 18 into image data such as a bitmap corresponding to the data structure in response to a command from the CPU 11 and outputs the image data to the main memory 12. It is made to do. For example, when the data structure is image data compressed by MMR or MH used in a facsimile or the like, the image expansion processing unit 19 performs expansion processing. Also, in the case of a page description language such as Postscript, raster image expansion processing for expanding fonts and allocating pages is performed.
[0020]
Data stored in the main memory 12 is supplied to and stored in the display buffer 13 via the image data transfer unit 20 or the image data compression / transfer unit 21. Basically, the image data transfer unit 20 transfers the data stored in the main memory 12 to the display buffer 13 as it is, and the image data compression transfer unit 21 compresses the image stored in the main memory 12. And supplied to the display buffer 13 for storage.
[0021]
The image data compression / transfer unit 21 performs the compression process by a process of transferring data while thinning out every several lines, or a process of reducing the number of lines while performing an operation such as logical OR between the lines. Alternatively, the number of dots in the image data is counted, and the compression process is performed in accordance with the number.
[0022]
The image data compression transfer unit 21 and the image data transfer unit 20 have a relatively low resolution by converting the binary image data into multiple values when transferring the data read from the main memory 12 to the display buffer 13. Even on the display, it is possible to display without crushing fine characters. However, since the multi-value resolution conversion process takes time, for example, as disclosed in JP-A-4-337800, a coarse image is first displayed, and the data is converted into multi-value data. I will replace them later. Thereby, both the speed of reaction and the request | requirement of a beautiful display can be satisfied.
[0023]
The area copy processing unit 22 executes a process of copying (moving) a part of the image data stored in the display buffer 13 to another area of the display buffer 13.
[0024]
The video signal generator 14 reads the image data stored in the display buffer 13, converts it into a video signal, outputs it to the display 15, and displays it.
[0025]
An OCR (Optical Character Recognition) engine 24 executes processing for recognizing characters of image data (bitmap data) and converting them into text data such as JIS code under the control of the CPU 11.
[0026]
The keyboard 17 has at least a cursor key 17A, and is operated by a user when inputting various commands to the CPU 11. The pointing device 16 such as a mouse is operated by the user when a predetermined position is designated using a cursor displayed on the display 15.
[0027]
Next, the operation of the embodiment of FIG. 2 will be described. When the keyboard 17 is operated and the CPU 11 is instructed to start access to the Internet, for example, the CPU 11 causes the display 15 to display a menu screen as shown in FIG. On this menu screen, icons for accessing various servers connected to the Internet are displayed.
[0028]
When the user designates and selects, for example, the “Fax in” icon 31 with the cursor, the CPU 11 controls the network interface 23 to access the server corresponding to the icon connected to the Internet. This server reads cutouts such as newspapers and magazines by OCR (Optical Character Reader), stores them as image data (bitmap data), and provides a service (Fax in service) for providing the data.
[0029]
The network interface 23 supplies the data supplied from the server accessed via the Internet to the document data storage unit 18 for storage. A part of this data is supplied as it is to the image development processing unit 19, subjected to decompression processing and the like, converted into bitmap data, supplied to the main memory 12 and stored therein.
[0030]
The data stored in the main memory 12 is supplied to the display buffer 13 via the image data transfer unit 20 and written therein. The data written in the display buffer 13 is supplied to the video signal generator 14 and converted into a video signal, which is supplied to the display 15 and displayed. In this way, the home page as shown in FIG. 4 of the accessed server is first displayed on the display 15, for example.
[0031]
Then, when the user operates the pointing device 16 or the keyboard 17 while viewing this homepage, for example, when the user instructs the selection of the file 81-2 of the newspaper clipping, the data of the file is still stored in the document data storage unit. When the data is not stored in the CPU 18, the CPU 11 requests the server to transfer data via the network interface 23. When the server transfers data in response to this request, the data is supplied to the document data storage unit 18 via the network interface 23 and stored.
[0032]
Next, the CPU 11 reads the file data (document data) stored in the document data storage unit 18, converts the data into bitmap data by the image development processing unit 19, supplies the data to the main memory 12, and stores the data. Let Then, this data is supplied to the display buffer 13 via the image data transfer unit 20 or the image data compression transfer unit 21 and stored therein. One piece (one page) of image data written in the display buffer 13 is supplied to the video signal generator 14, converted into a video signal, and output to the display 15 for display.
[0033]
Next, the principle of displaying one image will be described with reference to FIG. Now, a window 41 is displayed on the display 15, and a clipped image of one (1 page) A4 size newspaper article read from the document data storage unit 18 is displayed on the window 41. To do. Assume that the image data 42 of one image stored in the main memory 12 has a width W and a height H as shown in FIG.
[0034]
On the other hand, the window 41 has a width w and a height h, and the width W and the height H of the image data 42 are larger than the width w and the height h of the window 41. In this case, the entire image data 42 cannot be displayed on the window 41 as it is. Therefore, in this embodiment, for example, processing for adjusting (adjusting) the width W of the image data 42 to the width w of the window 41 is performed. That is, the width of the image data 42 is compressed at a compression rate of w / W as a whole.
[0035]
Furthermore, the image data 52 compressed in the width direction as a whole to w / W in this way is compressed in the height direction as follows. That is, since the height h of the window 41 is smaller than the height H of the image data 52, the height a is, for example, 70% of the height h of the window 41.2Region A2And the height a at the top1Region A1, And the lower height aThreeRegion AThreeThen, the window 41 is divided. Corresponding to this division, the image data 50 also has a height r.2(= A2) Region R2And the height r at the top1Region R1, And its lower height rThreeRegion RThreeIt is divided into and.
[0036]
The region R of the image data 522Is stored in the area A of the window 41.2Then, it is transferred and displayed as it is (without compression). In contrast, region R1The data of area A1Are transferred and displayed after being compressed in the vertical direction.ThreeThe data of area AThreeThen, it is compressed and transferred and displayed in the vertical direction. Region A2Height a2Is a value of 70% of the height h of the window 41, and the region R of the image data 52 is2Height of r2Is a2Is the same value as the region A,2Is a standard part in which characters are displayed at a correct ratio (ratio between vertical and horizontal directions), whereas area A1And AThreeIs a compression unit in which characters are compressed and displayed in the vertical direction.
[0037]
Standard area A2The position of can be moved with a cursor. 6 and 7 illustrate this relationship. That is, as shown in FIG. 6, the range up to K and the range up to K around the position of the cursor 61 of the display buffer 13 (and hence the window 41) are the standard area A.2The upper and lower areas are A1Or AThreeIt is said. Therefore, for example, when the cursor 61 is moved downward from the state shown in FIG. 6, as shown in FIG.2Moves downward from the position in FIG. As a result, region A17 is larger in the case of FIG. 7 than in the case of FIG.ThreeThis range is narrower in the case of FIG. 7 than in the case of FIG.
[0038]
FIG. 8 shows an example in which a file 81-2 is designated and a predetermined page is displayed on the window 41 in accordance with the principle as described above. In this display example, a newspaper cut-out is read by OCR, and an image captured as image data is displayed as a standard part having the same ratio in the vertical and horizontal directions at the center, and a predetermined part above and below the standard part. The area is displayed as a compressed portion compressed in the vertical direction.
[0039]
FIG. 9 shows a state where the standard part is moved to the upper end of the window 41. Therefore, in this display example, the compression unit is displayed only at the bottom of the window. Various control buttons (icons) 91 for selecting a file are displayed at the lower right of the window 41 in FIGS. 8 and 9.
[0040]
FIG. 10 shows a display example of a help screen that the CPU 11 displays on the display 15 when the rightmost control button (help button) is selected to understand the contents of the control button 91. Each control button will be described below with reference to this display example.
[0041]
As shown in the figure, in this display example, explanation of the control button 91, explanation of the mouse button, and explanation of the copy direction are displayed.
[0042]
Of the control buttons 91, the leftmost control button 91-1 is operated, for example, when returning from the help screen. The right control button 91-2 is operated when printing the image displayed in the window 41. Further, the control buttons 91-3 and 91-4 on the right are operated when the image displayed on the window 41 is rotated and displayed in the counterclockwise direction or the clockwise direction, respectively.
[0043]
Further, the control button 91-5 on the right side is operated when changing the file displayed in the window 41 to the previous file, and the control button 91-6 is the page of the file currently displayed in the window 41. This is operated when returning to the previous page by one page.
[0044]
Similarly, the control buttons 91-7 and 91-8 on the right side thereof are used to change the page of the file displayed in the window 41 to the next page, or to change the file displayed in the window 41 to the next file. It is operated when changing to.
[0045]
Therefore, for example, when the control button 91-8 is operated in a state where the file 81-1 in FIG. 4 is displayed in the window 41, the next file 81-2 is displayed in the window 41, and the file 81 -2 is displayed, if the control button 91-5 is operated, the previous file 81-1 is displayed. For example, when the control button 91-7 is operated in a state where a predetermined page of the file 81-2 is displayed, the next page of the file 81-2 is displayed and the control button 91-6 is operated. Then, the previous page of the file 81-2 is displayed.
[0046]
Further, the rightmost control button 91-9 is operated to display a help screen as shown in FIG.
[0047]
The same functions as those of the control buttons 91-1 to 91-9 are assigned to the alphabet keys q, w, i, r, P, p, n, N, and h of the keyboard 17, respectively. The functions of the control buttons 91-6 and 91-7 are also assigned to the left cursor key and the right cursor key among the cursor keys 17A. Further, the function of the control button 91-9 is also assigned to the help key of the keyboard 17.
[0048]
In the comment field of the mouse button, the operation method of the mouse is explained. That is, in this embodiment, the mouse 100 constituting the pointing device 16 has three buttons 101 to 103 as shown in FIG. Among these buttons, the rightmost button 103 is a zoom mode button, and when this button 103 is operated, characters in a predetermined range are enlarged and displayed as shown in FIG. At this time, characters in a state where the enlarged region is not displayed are displayed lightly on the background of the enlarged region. When the button 103 and the button 102 adjacent to the left (center) are simultaneously operated, the enlargement ratio in the enlargement area is increased (a large character is displayed). When the button 103 and the leftmost button 101 are simultaneously operated, The enlargement ratio in the enlargement area is reduced (small characters are displayed).
[0049]
That is, the buttons 103 and 102 perform a zoom-in operation, and the buttons 103 and 101 perform a zoom-out operation.
[0050]
Furthermore, when the button 101 of the mouse 100 is operated, the image data read by the OCR can be converted into text data and copied to a predetermined position. An explanation of the copy direction in that case is displayed on the left side.
[0051]
That is, in this embodiment, when copying vertically written characters, drag from the right end point to specify the left end point, and when copying horizontally written characters, drag from the upper left point, The lower right point is specified. That is, it is possible to substantially specify the continuous direction of characters simply by changing the dragging direction.
[0052]
Next, the details of the OCR (Optical Character Recognition) function in this embodiment will be described with reference to the flowchart of FIG.
[0053]
For example, as shown in FIG. 14, it is assumed that characters represented by image data are displayed in the window 41-1. This character is, for example, a character printed on paper or the like read by OCR and converted into image data. Specifically, as described above, it is image data of a cut-out newspaper article. In this display example, the horizontal characters “Iroha Nihonoe… Kefukoe” are displayed. In such a state, it is assumed that the characters of the image data displayed in the window 41-1 are converted into the characters of text data and copied to the window 41-2.
[0054]
First, in step S1, the user sets the upper left point P of the range to be converted.1Is specified. For this designation, the mouse 100 is operated to move the cursor to the point P.1This is done by moving to the position and clicking the button 101 at that position. At this time, the CPU 11 determines that the designated point P1The coordinates of (x1, Y1). Also in this embodiment, on the display 15 (or window 41), the origin is the upper left point, and the x coordinate is taken in the right direction and the y coordinate is taken in the lower direction.
[0055]
Next, the user moves the button 101 of the mouse 100 to a point P.1Drag while pressing with the point P on the lower right of the range to be converted2Move to the position of, and release the drag at that position.
[0056]
The CPU 11 waits until the drag is completed in step S2, and when the end of the drag is input from the mouse 100 (pointing device 16), the point P is determined in step S3.2The coordinates of (x2, Y2).
[0057]
Next, in step S4, the point P2Y coordinate y2And point P1Y coordinate y1Is determined. In the state shown in FIG. 14, characters are continuous in the horizontal direction. In this case, the characters are written from the left to the right, and when the character reaches the right end of the line, the character moves to the lower line and is again written so that the characters continue from the left end to the right end. That is, the characters continue from the upper left to the lower right. Thus, when the character is written horizontally, the user first specifies the upper left point P when specifying the range to be converted.1And then the lower right point P2Is specified. As a result, y2Is y1It is getting bigger.
[0058]
Then, next, the process proceeds to step S5, where1Coordinate x1And point P2Coordinate x2Are compared in size. If the character is written horizontally, the point P1Is point P2Because it is located on the left side, x1Is x2It is getting smaller. Therefore, in this case, the process proceeds to step S8, in which the CPU 11 controls the OCR engine 24, and the point P1And point P2The image data inside the rectangular area specified by is recognized as horizontally written characters, and a process of converting into text data such as JIS code is executed. In this case, the character of the image data “Rinuru wa wa me tsurumouino” is recognized.
[0059]
Next, the user points P at the upper left of the area to copy the character corresponding to the text data obtained as a result of recognition.ThreeIs designated by operating the button 101 of the mouse 100. In the embodiment of FIG. 14, the coordinates x of the window 41-2.Three, YThreePoint PThreeIs designated as the upper left point of the copy area.
[0060]
In step S10, the process waits until the copy destination is designated. And point PThreeIs designated, the CPU 11 proceeds to step S11, and the character corresponding to the text data recognized by the OCR engine 24 in step S8 is changed to the point P.ThreeDisplay in the area specified by. Point P of this window 41-2ThreeSince the characters displayed in the range defined by are characters corresponding to the text data, the user can arbitrarily edit or delete these characters.
[0061]
On the other hand, as shown in FIG. 15, when vertically written characters are displayed in the window 41-1, the characters continue from the top to the bottom of the rightmost line, and when the bottom end of the line is reached, Move to a line and continue down from the top edge of the line. That is, the characters are continuous from the upper right to the lower left.
[0062]
Thus, when the character is displayed in vertical writing, the user specifies the upper right point and the lower left point when specifying the range to be converted. That is, the point P1Becomes the upper right point, and point P2Is the lower left point. For this reason, x1Is x2Become bigger. Accordingly, in step S5, a NO determination is made and x1Is x2In step S <b> 6 for determining whether or not it is larger, a determination of YES is made. Therefore, the process proceeds to step S9, and the CPU 11 sends the point P to the OCR engine 24.1And point P2The image data in the rectangular range specified by is recognized as vertically written characters.
[0063]
When copying vertically written characters, the user selects a point P at the upper right of the copy area as a point of the copy destination.ThreeSpecify as. In step S10, this point PThreeWhen it is determined that the input is detected, the process proceeds to step S11, and the character corresponding to the text data recognized in step S9 is the point P.ThreeIs displayed in the copy area defined by. In the case of the example of FIG. 15, the characters “Rinu wa wa suru mu ei no umino” are displayed in vertical writing.
[0064]
In the above embodiment, hiragana is recognized. However, the present invention is not limited to this, and it is also possible to recognize kanji and alphabet characters.
[0065]
In this way, by changing the method of specifying the range between when the character is written horizontally and when it is written vertically, there is no need to newly specify the direction in which the characters are continuous. Improved. In addition, the horizontal writing area that continues from the upper left to the lower right is specified by the upper left point and the lower right point, and the vertical writing area that continues from the upper right to the lower left is the upper right area. Since the point is designated by the lower left point and the lower left point, the direction in which the characters continue and the direction of the designated point correspond to each other, and the range can be designated by a very natural operation.
[0066]
In the above embodiment, the process in the case of character recognition is changed by the method of designating a range. However, the present invention can be applied to the case of executing a process other than character recognition. .
[0067]
【The invention's effect】
  As described above, the image processing apparatus according to claim 1 andClaim 3According to the image processing method described in the above, since the image in the range is processed in accordance with the relationship between the coordinates of the first point and the second point specifying the range, the operability is improved. .
[Brief description of the drawings]
FIG. 1 is a diagram illustrating a network to which an image processing apparatus of the present invention is connected.
FIG. 2 is a block diagram illustrating a configuration example of an image processing apparatus according to the present invention.
FIG. 3 is a diagram showing a display example of a menu on the display 15 of FIG.
4 is a diagram showing a display example of a home page on the display 15 of FIG.
5 is a diagram for explaining the principle of displaying one image in a window in the embodiment of FIG. 2; FIG.
FIG. 6 is a diagram illustrating a relationship between a cursor and display content.
FIG. 7 is a diagram illustrating a relationship between a cursor and display contents.
FIG. 8 is a diagram showing a display example in a window.
FIG. 9 is a diagram showing another display example in the window.
FIG. 10 is a diagram showing a display example of a help screen.
FIG. 11 is a diagram showing a structure of a mouse.
FIG. 12 is a diagram illustrating an example of enlarged display in a window.
FIG. 13 is a flowchart for explaining processing of the OCR function in the embodiment of FIG. 2;
14 is a diagram showing a display example in step S8 of FIG.
15 is a diagram showing a display example in step S9 of FIG.
FIG. 16 is a diagram illustrating a conventional OCR function.
FIG. 17 is another diagram illustrating a conventional OCR function.
[Explanation of symbols]
11 CPU
12 Main memory
13 Display buffer
14 Video signal generator
15 display
16 pointing device
17 Keyboard
17A Cursor key
18 Document data storage
19 Image processing unit
20 Image data transfer unit
21 Image data compression and transfer unit
23 Network interface
24 OCR engine

Claims (3)

ドラッグの開始点である第1の点と、ドラッグの終了点である第2の点とを頂点とする矩形の範囲であって、前記第1の点および前記第2の点を結ぶ線が対角線をなす矩形の範囲を指定する指定手段と、
前記第1の点の座標と前記第2の点の座標の関係を判定する判定手段と、
前記判定手段の判定結果に対応して、前記矩形の範囲の画像から文字を認識する処理を行うとともに、文字の連続する方向を決定する処理手段と
を備えることを特徴とする画像処理装置。
A rectangular range having a first point as a drag start point and a second point as a drag end point as vertices, and a line connecting the first point and the second point is a diagonal line A specification means for specifying a rectangular range forming
Determination means for determining a relationship between the coordinates of the first point and the coordinates of the second point;
An image processing apparatus comprising: a processing unit that performs a process of recognizing a character from the image in the rectangular range in accordance with a determination result of the determination unit and determines a direction in which the characters continue .
前記処理手段は、さらに、文字の認識結果および、決定された文字の連続する方向に基づいて、前記矩形の範囲の画像をテキストデータに変換する
ことを特徴とする請求項1に記載の画像処理装置。
2. The image processing according to claim 1, wherein the processing unit further converts the image in the rectangular range into text data based on a character recognition result and a determined continuous direction of the characters. apparatus.
ドラッグの開始点である第1の点と、ドラッグの終了点である第2の点とを頂点とする矩形の範囲であって、前記第1の点および前記第2の点を結ぶ線が対角線をなす矩形の範囲を指定し、
前記第1の点の座標と前記第2の点の座標の関係を判定し、
前記判定結果に対応して、前記矩形の範囲の画像から文字を認識する処理を行うとともに、文字の連続する方向を決定する
ことを特徴とする画像処理方法。
A rectangular range having a first point as a drag start point and a second point as a drag end point as vertices, and a line connecting the first point and the second point is a diagonal line Specify the range of the rectangle that forms
Determining the relationship between the coordinates of the first point and the coordinates of the second point;
In accordance with the determination result, a process for recognizing characters from the image in the rectangular range and determining a direction in which the characters continue is determined .
JP25038495A 1995-09-28 1995-09-28 Image processing apparatus and method Expired - Fee Related JP3755674B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25038495A JP3755674B2 (en) 1995-09-28 1995-09-28 Image processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25038495A JP3755674B2 (en) 1995-09-28 1995-09-28 Image processing apparatus and method

Publications (2)

Publication Number Publication Date
JPH0991462A JPH0991462A (en) 1997-04-04
JP3755674B2 true JP3755674B2 (en) 2006-03-15

Family

ID=17207124

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25038495A Expired - Fee Related JP3755674B2 (en) 1995-09-28 1995-09-28 Image processing apparatus and method

Country Status (1)

Country Link
JP (1) JP3755674B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005215775A (en) * 2004-01-27 2005-08-11 Matsushita Electric Ind Co Ltd Character reading apparatus and image display method
JP2007199919A (en) * 2006-01-25 2007-08-09 Infocity Inc Image processing apparatus and method
JP2011248669A (en) * 2010-05-27 2011-12-08 Ricoh Co Ltd Document management program, storage medium, information processor, and document management method

Also Published As

Publication number Publication date
JPH0991462A (en) 1997-04-04

Similar Documents

Publication Publication Date Title
US6081277A (en) Apparatus and method for controlling image display
US8115968B2 (en) Image processing apparatus, computer program product, and preview image displaying method
US7864199B2 (en) Image processing apparatus and control method thereof
US20040234169A1 (en) Image processing apparatus, control method therefor, and program
JP2018073125A (en) Server device, client device, information processing method, and program
JP4776995B2 (en) Computer apparatus and control method and program thereof
US7146411B2 (en) System, device, and method for inputting image, and storage medium therefor
JP2008234147A (en) Document image display device, document image display method, and document image display program
JP3755674B2 (en) Image processing apparatus and method
JP4101052B2 (en) Document management apparatus, document management apparatus control method, and computer program
US20060103877A1 (en) Image forming system having a scanned-image preview function and method thereof
US20100165395A1 (en) Image processing apparatus, image processing system, and control method for image processing apparatus
JP2006252526A (en) Document file management apparatus, document file management method, and document file management program
JP4381484B2 (en) Image display control apparatus and method
JP2009140311A (en) Document processing apparatus and method
EP0361454B1 (en) Data storage device
JP4063152B2 (en) Print command creation device and storage medium storing program thereof
JP2010092141A (en) Image processing system, image reader, image processor, and image processing program
JP7459635B2 (en) Information processing device and program
JPH1098609A (en) Image input method and device
JP6485579B2 (en) Display processing apparatus, screen display method, and computer program
JPH02121064A (en) Image processing device
JP4100426B2 (en) Printer control apparatus and method, and recording medium
JP5743018B2 (en) Printer control apparatus and method, and recording medium
JPH07271819A (en) Image retrieval device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051215

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100106

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100106

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110106

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120106

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees