JPH07306854A - Method and device for compressing document data - Google Patents
Method and device for compressing document dataInfo
- Publication number
- JPH07306854A JPH07306854A JP7050851A JP5085195A JPH07306854A JP H07306854 A JPH07306854 A JP H07306854A JP 7050851 A JP7050851 A JP 7050851A JP 5085195 A JP5085195 A JP 5085195A JP H07306854 A JPH07306854 A JP H07306854A
- Authority
- JP
- Japan
- Prior art keywords
- word
- document data
- words
- data
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 27
- 238000013144 data compression Methods 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 24
- 238000007906 compression Methods 0.000 claims description 15
- 230000006835 compression Effects 0.000 claims description 10
- 230000007423 decrease Effects 0.000 abstract description 2
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
【発明の詳細な説明】Detailed Description of the Invention
【0001】[0001]
【産業上の利用分野】本発明は、例えば液晶ディスプレ
イ等の表示装置に表示させるため予め作成されたコメン
ト、メッセージ等の文書データを圧縮してメモリに記憶
する文書データの圧縮方法及びその装置に関するもので
ある。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document data compression method and apparatus for compressing document data such as comments and messages prepared in advance for display on a display device such as a liquid crystal display and storing it in a memory. It is a thing.
【0002】[0002]
【従来の技術】従来、例えばファクシミリ、コピー機な
どの事務機や各種産業機械等においては、各種操作方法
やコメント等の文書データを予め作成しておき、機械の
動作状態やオペレータによるキー操作に応じて、適切な
文書データを選択してディスプレイ上に表示する表示技
術が知られている。2. Description of the Related Art Conventionally, in office machines such as facsimiles and copiers, various industrial machines, and the like, document data such as various operating methods and comments have been created in advance so that they can be used for operating states of machines and key operations by operators. Accordingly, a display technique is known in which appropriate document data is selected and displayed on a display.
【0003】かかる表示技術においては、上記ファクシ
ミリ、コピー機等の事務機器の製造時に、予め作成され
た表示用の文書がコード化された文字、数字又はその他
の記号により文字単位でデータに変換され、この文書デ
ータがコードデータに変換するためのコード表と共に事
務機器本体に内蔵される内部メモリに記憶されている。In such a display technique, a display document prepared in advance is converted into data in units of characters by coded characters, numbers or other symbols at the time of manufacturing office equipment such as the above-mentioned facsimile and copying machine. The document data is stored in the internal memory built in the office equipment body together with the code table for converting the document data.
【0004】そして、文書データを表示するときは、表
示すべき文書データを内部メモリから読み出し、上記コ
ード表を用いて各文字をコードデータ(7ビット又は8
ビットのデータ)に変換した後、このコードデータに基
づいて液晶ディスプレイ等の表示装置を駆動する手法が
採用されている。When displaying the document data, the document data to be displayed is read out from the internal memory, and each character is converted into code data (7 bits or 8 bits) using the above code table.
After conversion into bit data), a method of driving a display device such as a liquid crystal display based on the code data is adopted.
【0005】図4は、従来の内部メモリに記憶された文
書データの一例を示す図である。同図において、「表示
文書」は、液晶ディスプレイに表示される文書で、文書
例として「LINE TYPE」、「SET LINE
TYPE」を掲載している。また、「文書データ」
は、内部メモリに記憶されている表示文書のデータ構成
である。文書データは、例えばJISコード表の各コー
ドデータに割り当てられた文字、数字又はその他の記号
(以下、文字データという)等の配列で構成されてい
る。各文字データは、「,」で区切られ、単語間はブラ
ンクデータ(図中、’□’で表す)により、また、文書
間は文書の終了を示す終了データ(図中、’0’で示
す)によりそれぞれ区切られている。FIG. 4 is a diagram showing an example of document data stored in a conventional internal memory. In the figure, “display document” is a document displayed on the liquid crystal display, and examples of the document include “LINE TYPE” and “SET LINE”.
"TYPE" is posted. Also, "Document data"
Is the data structure of the display document stored in the internal memory. The document data is composed of an array of characters, numbers or other symbols (hereinafter referred to as character data) assigned to each code data in the JIS code table, for example. Each character data is separated by ",", blank data (represented by "□" in the figure) between words, and end data indicating the end of document (represented by "0" in the figure) between documents. ) Are separated from each other.
【0006】上記表示文書の表示制御においては、表示
すべき文書データが内部メモリから読み出され、例えば
JISコード表により各文字データがコードデータに変
換された後、このコードデータに基づいて液晶ディスプ
レイを駆動することにより文書の表示が行われる。例え
ば「LINE TYPE」を表示させる場合、内部メモ
リから’L’,’I’,…’E’の文字データが順次、
読み出され、各文字データはそれぞれコードデータ(’
L’=「00111100」,’I’=「100111
00」等)に変換される。そして、このコードデータに
基づいて液晶ディスプレイに設けられた表示用セグメン
トの駆動を制御することにより「LINE TYPE」
の文書が表示される。In the display control of the above-mentioned display document, the document data to be displayed is read out from the internal memory, each character data is converted into code data by, for example, the JIS code table, and then the liquid crystal display is based on this code data. The document is displayed by driving. For example, when displaying "LINE TYPE", character data of "L", "I", ...
Each character data that is read out is code data ('
L '=' 00111100 ',' I '=' 100111
00 "). Then, by controlling the drive of the display segment provided in the liquid crystal display based on the code data, "LINE TYPE"
Is displayed.
【0007】[0007]
【発明が解決しようとする課題】従来は、表示文書を構
成する文字毎に文字データに変換して当該表示文書の文
書データを作成し、この文書データを内部メモリに記憶
するようにしているので、文書データのデータ量が大き
く、内部メモリの記憶領域に占める文書データの領域が
大きくなり、内部メモリの有効利用が困難となってい
る。特に、表示文書に文字数の多い同一単語が何回も使
用されていると、単語数の少ない表示文書であっても表
示文書全体に含まれる文字数は多くなるから、文書デー
タのデータ量は大きくなる。Conventionally, each character forming a display document is converted into character data to create document data of the display document, and this document data is stored in an internal memory. Since the amount of document data is large and the area of the document data in the storage area of the internal memory is large, it is difficult to effectively use the internal memory. In particular, when the same word having a large number of characters is used many times in the display document, the number of characters included in the entire display document is large even for a display document having a small number of words, and thus the amount of document data is large. .
【0008】また、複数の外国に輸出される事務機器に
おいては、輸出国毎に当該国の言語による表示文書とコ
ードデータ変換用の専用のコード表とを設けることの煩
わしさを回避するため、表示文書に使用できる文字デー
タ及びこの文字データをコードデータに変換するための
コード表の共通化を図ることが多いが、この場合、通
常、10数ヵ国語の辞書を必要とし、このため上記コー
ド表のデータ量が膨大になって内部メモリの有効利用を
妨げることとなる。Further, in office equipment exported to a plurality of foreign countries, in order to avoid the trouble of providing a display document in the language of the country and a dedicated code table for converting code data for each exporting country, In many cases, the character data that can be used for display documents and the code table for converting this character data into code data are commonly used. In this case, however, a dictionary of 10 languages is usually required. The amount of data in the table becomes huge, which hinders effective use of the internal memory.
【0009】更に、表示文書を文字単位でコードデータ
に変換する従来の表示方式では、コード表の検索(すな
わち、各文字データからコードデータへの変換)に時間
を要し、液晶ディスプレイ等への表示レスポンスが悪く
なるという問題もある。Further, in the conventional display system for converting a display document into code data on a character-by-character basis, it takes time to search a code table (that is, to convert each character data into code data), and to display it on a liquid crystal display or the like. There is also the problem of poor display response.
【0010】本発明の目的は、上記課題に鑑みてなされ
たものであり、文書データのデータ量を可及的に少なく
してメモリの効率化を可能にするとともに、表示レスポ
ンスを向上させることのできる文書データの圧縮方法及
びその装置を提供することを目的とする。An object of the present invention has been made in view of the above problems, and it is possible to reduce the amount of document data as much as possible to improve the efficiency of the memory and to improve the display response. An object of the present invention is to provide a method of compressing document data and a device thereof.
【0011】[0011]
【課題を解決するための手段】請求項1記載の本発明
は、所定のコード表で定義された文字データにより予め
作成された複数の文書データを、当該文書データに含ま
れる一部の単語を単語単位でコード化することにより圧
縮する文書データの圧縮方法であって、全文書データに
含まれる単語から単語単位でコード化すべき単語を抽出
する単語抽出工程と、抽出した各単語に、上記コード表
のコードであって上記文字データに割り当てられたコー
ドと異なるコードを割り振るコード割振工程と、コード
化された単語と当該単語に割り振られたコードとの対応
関係を示す辞書を作成する辞書作成工程と、文書データ
を構成する単語のうち、上記単語抽出工程で抽出した単
語を当該単語に割り振られたコードに置換して各文書デ
ータをコード混じりの文書データに圧縮する文書データ
圧縮工程とからなるものである。According to a first aspect of the present invention, a plurality of document data created in advance by character data defined by a predetermined code table is used, and a part of words included in the document data is converted. A method for compressing document data that is compressed by encoding in word units, comprising a word extraction step of extracting words to be encoded in word units from words included in all document data, and the above-mentioned code for each extracted word. A code allocating step of allocating a code different from the code assigned to the above character data in the table, and a dictionary creating step of creating a dictionary showing the correspondence between the coded word and the code assigned to the word Among the words that compose the document data, replace the word extracted in the word extraction step with the code assigned to the word, and mix each document data with the code. It is made of the document data compression step of compressing the document data.
【0012】また、請求項2記載の発明は、上記文書デ
ータの圧縮方法において、文書データ圧縮工程に代え
て、各文書データ毎にコード化される単語数を算出する
単語数算出工程と、各文書データ毎に、当該文書データ
を構成する単語のうち、上記単語抽出工程で抽出した単
語を当該単語に割り振られたコードに置換するととも
に、各文書データの先頭にコード化された単語数のデー
タを付加して圧縮した文書データを作成する文書データ
作成工程とを備えたものである。According to a second aspect of the present invention, in the method of compressing document data described above, instead of the document data compression step, a word number calculation step of calculating the number of words coded for each document data, For each document data, of the words that compose the document data, replace the word extracted in the word extraction step with the code assigned to the word, and code the number of words at the beginning of each document data. And a document data creating step for creating compressed document data.
【0013】また、請求項3記載の発明は、上記文書デ
ータの圧縮方法において、上記単語抽出工程は、全文書
データに含まれる文字列の異なる単語を抽出する第1の
単語抽出工程と、抽出した各単語について、全文書デー
タ中の発現数をカウントする単語発現数カウント工程
と、抽出した各単語について、文字単位でコード化した
場合に当該単語に要する第1の総ワード数を当該単語の
発現数に基づいて演算する第1の総ワード数演算工程
と、抽出した各単語について、単語単位でコード化した
場合に当該単語に要する第2の総ワード数を当該単語の
発現数に基づいて演算する第2の総ワード数演算工程
と、第1の総ワード数と第2の総ワード数とを比較し、
第2の総ワード数が第1の総ワード数より小さい単語を
コード化すべき単語として抽出する第2の単語抽出工程
とからなるものである。According to a third aspect of the present invention, in the method of compressing document data, the word extracting step includes a first word extracting step of extracting words having different character strings included in all document data, and an extracting step. For each word, the word expression number counting step of counting the expression number in all document data, and for each extracted word, the first total word number required for the word when encoded in character units A first total word number calculation step of calculating based on the number of occurrences, and for each extracted word, a second total number of words required for the word when encoded in word units, based on the number of occurrences of the word Comparing the second total word number calculation step for calculation with the first total word number and the second total word number,
A second word extracting step of extracting a word having a second total number of words smaller than the first total number of words as a word to be encoded.
【0014】更に、請求項4記載の発明は、上記文書デ
ータの圧縮方法において、上記第1の総ワード数演算工
程は、抽出された各単語について、当該単語のワード数
に発現数を乗じて第1の総ワード数を演算するものであ
り、上記第2の総ワード数演算工程は、抽出された各単
語について、当該単語の発現数と割り振られるコードの
ワード数とを乗じ、この乗算結果に当該単語のワード数
を加算して第2の総ワード数を演算するものである。Further, in the invention of claim 4, in the method of compressing document data, the first total word number calculating step multiplies the word number of each extracted word by the expression number. The first total word number is calculated, and in the second total word number calculation step, for each extracted word, the expression number of the word is multiplied by the number of words of the allocated code, and the multiplication result is obtained. To calculate the second total number of words.
【0015】また、請求項5記載の発明は、所定のコー
ド表で定義された文字データにより予め作成された複数
の文書からなる文書データを、当該文書データに含まれ
る一部の単語を単語単位でコード化することにより圧縮
して記憶手段に記憶する文書データの圧縮装置であっ
て、全文書データに含まれる単語から単語単位でコード
化すべき単語を抽出する単語抽出手段と、抽出した各単
語に、上記コード表のコードであって上記文字データに
割り当てられたコードと異なるコードを割り振るコード
割振手段と、コード化された単語と当該単語に割り振ら
れたコードとの対応関係を示す辞書を作成する辞書作成
手段と、文書データを構成する単語のうち、上記単語抽
出工程で抽出した単語を当該単語に割り振られたコード
に置換して各文書データをコード混じりの文書データに
圧縮する文書データ圧縮手段と、圧縮された文書データ
及び作成された辞書を記憶手段に書き込むデータ書込手
段とを備えたものである。Further, according to the invention of claim 5, the document data composed of a plurality of documents created in advance by the character data defined by a predetermined code table is used, and a part of the words included in the document data is used as a word unit. A device for compressing document data that is compressed by being coded by and stored in a storage unit, and is a word extraction unit that extracts words to be encoded in word units from words included in all document data, and each extracted word. In addition, a code allocation means for allocating a code different from the code assigned to the character data in the above code table and a dictionary showing the correspondence between the coded word and the code assigned to the word are created. The dictionary creating means and the words constituting the document data are extracted by replacing the words extracted in the word extracting step with codes assigned to the words. And document data compressing means for compressing the data in the document data code mingled, in which a data writing means for writing the compressed document data and created dictionary storage means.
【0016】また、請求項6記載の発明は、上記文書デ
ータ圧縮装置において、文書データ圧縮手段に代えて、
各文書データ毎にコード化される単語数を算出する単語
数算出手段と、各文書データ毎に、当該文書データを構
成する単語のうち、上記単語抽出手段で抽出した単語を
当該単語に割り振られたコードに置換するとともに、各
文書データの先頭にコード化された単語数のデータを付
加して圧縮した文書データを作成する文書データ作成手
段とを備えたものである。According to a sixth aspect of the present invention, in the document data compression device, the document data compression means is replaced by
A word number calculation means for calculating the number of words coded for each document data, and for each document data, the words extracted by the word extraction means among the words constituting the document data are assigned to the word. And a document data creating means for creating compressed document data by adding data of the coded word number to the beginning of each document data.
【0017】また、請求項7記載の発明は、上記文書デ
ータの圧縮装置において、上記単語抽出手段は、文書デ
ータに含まれる文字列の異なる単語を抽出する第1の単
語抽出手段と、抽出した各単語について、文書データ中
の発現数をカウントする単語発現数カウント手段と、抽
出した各単語について、文字単位でコード化した場合に
当該単語に要する第1の総ワード数を当該単語の発現数
に基づいて演算する第1の総ワード数演算手段と、抽出
した各単語について、単語単位でコード化した場合に当
該単語に要する第2の総ワード数を当該単語の発現数に
基づいて演算する第2の総ワード数演算手段と、第1の
総ワード数と第2の総ワード数とを比較し、第2の総ワ
ード数が第1の総ワード数より小さい単語をコード化す
べき単語として抽出する第2の単語抽出手段とからなる
ものである。According to a seventh aspect of the present invention, in the document data compression apparatus, the word extracting means includes first word extracting means for extracting words having different character strings contained in the document data. For each word, word expression number counting means for counting the number of occurrences in the document data, and for each extracted word, the first total number of words required for the word when encoded in character units is the expression number of the word. And a first total word number calculating means for calculating each word, and for each extracted word, a second total number of words required for the word when coded in word units is calculated based on the number of occurrences of the word. The second total word number calculating means is compared with the first total word number and the second total word number, and a word having a second total word number smaller than the first total word number is determined as a word to be coded. Extraction To is made of a second word extraction means.
【0018】更に、請求項8記載の発明は、上記文書デ
ータの圧縮装置において、上記第1の総ワード数演算手
段は、抽出された各単語について、当該単語のワード数
に発現数を乗じて第1の総ワード数を演算するものであ
り、上記第2の総ワード数演算手段は、抽出された各単
語について、当該単語の発現数と割り振られるコードの
ワード数とを乗じ、この乗算結果に当該単語のワード数
を加算して第2の総ワード数を演算するものである。Further, in the document data compressing apparatus according to the present invention, the first total word number calculating means multiplies the number of words of each extracted word by the expression number. A second total word number calculating means calculates a first total word number, and for each extracted word, the number of occurrences of the word is multiplied by the number of allocated code words, and the multiplication result is obtained. To calculate the second total number of words.
【0019】[0019]
【作用】請求項1,5記載の発明によれば、文書データ
に含まれる単語から単語単位でコード化すべき単語が抽
出され、抽出した各単語に、上記コード表のコードであ
って上記文字データに割り当てられたコードと異なるコ
ードが割り当てられる。続いて、コードがされた単語と
当該単語に割り当てられたコードとの対応関係を示す辞
書が作成されるとともに、文書データを構成する単語の
うち、コード化すべき単語として抽出した単語を当該単
語に割り振られたコードに置換して文書データがコード
混じりの文書データに圧縮される。そして、作成された
文書データ及び辞書は記憶手段に書き込まれる。According to the invention described in claims 1 and 5, words to be coded in word units are extracted from the words included in the document data, and each extracted word is a code of the code table and the character data. A code different from the code assigned to is assigned. Next, a dictionary showing the correspondence between the coded words and the codes assigned to the words is created, and the words extracted as the words to be coded among the words forming the document data are set to the words. The document data is replaced with the assigned code, and the document data is compressed into the document data containing the code. Then, the created document data and dictionary are written in the storage means.
【0020】請求項2,6記載の発明によれば、各文書
データ毎にコード化される単語数が算出され、各文書デ
ータ毎に、当該文書データを構成する単語のうち、コー
ド化すべき単語として抽出した単語を当該単語に割り振
られたコードに置換するとともに、各文書データの先頭
にコード化された単語数のデータを付加して圧縮された
文書データが作成される。According to the second and sixth aspects of the present invention, the number of words coded for each document data is calculated, and the word to be coded among the words constituting the document data is calculated for each document data. The word data extracted as is replaced with the code assigned to the word, and the data of the number of coded words is added to the head of each document data to create compressed document data.
【0021】請求項3,7記載の発明によれば、文書デ
ータに含まれる文字列の異なる単語が抽出されるととも
に、抽出した各単語について、文書データ中の発現数
(Ni)がカウントされる。そして、抽出した各単語に
ついて、文字単位でコード化した場合に当該単語に要す
る第1の総ワード数(W1)が、カウントされた当該単
語に発現数(Ni)に基づいて演算されるとともに、単
語単位でコード化した場合に当該単語に要する第2の総
ワード数(W2)が、カウントされた当該単語の発現数
(Ni)に基づいて演算され、更に第1の総ワード数
(W1)と第2の総ワード数(W2)とを比較し、第2
の総ワード数(W2)が第1の総ワード数(W1)より
小さい単語がコード化すべき単語として抽出される。According to the third and seventh aspects of the invention, words having different character strings contained in the document data are extracted, and the number of occurrences (Ni) in the document data is counted for each extracted word. . Then, for each extracted word, the first total word number (W1) required for the word when encoded in character units is calculated based on the number of occurrences (Ni) of the counted word, and The second total number of words (W2) required for the word when coded in word units is calculated based on the counted number of occurrences (Ni) of the word, and further the first total number of words (W1). And the second total number of words (W2) are compared,
A word having a total number of words (W2) smaller than the first total number of words (W1) is extracted as a word to be encoded.
【0022】請求項4,8記載の発明によれば、抽出さ
れた各単語について、当該単語とのワード数(Nw)に
発現数(Ni)を乗じて第1の総ワード数(W1=Nw
×Ni)が演算され、当該単語の発現数(Ni)と割り
振られるコードのワード数(Nc)とを乗じ、この乗算
結果(Nc×Ni)に当該単語のワード数(Nw)を加
算して第2の総ワード数(W2=Nc×Ni+Nw)が
演算される。According to the fourth and eighth aspects of the present invention, for each extracted word, the first total word number (W1 = Nw) is obtained by multiplying the word number (Nw) with the word by the expression number (Ni).
XNi) is calculated, the number of occurrences (Ni) of the word is multiplied by the number of words (Nc) of the code to be assigned, and the multiplication result (Nc × Ni) is added with the number of words (Nw) of the word. The second total number of words (W2 = Nc × Ni + Nw) is calculated.
【0023】[0023]
【実施例】図1は、本発明に係る文書データの圧縮方法
が適用される文書データ圧縮装置のブロック構成図であ
る。LCD(Liquid Cyristal Display)等の表示装置
を備えたファクシミリや複写機等の機器においては、通
常、コメントやメッセージ等の予め作成された所定の文
書が上記機器の動作状態やオペレータのキー操作に応じ
て上記表示装置に表示されるようになっている。そし
て、かかる文書の表示は、複数の上記文書を表すデータ
(以下、文書データ)が上記機器に内蔵されたROM
(Read Only Memory)等のメモリに予め書き込まれてお
り、機器の動作状態やオペレータのキー操作に応じて上
記メモリから所定の文書データを読み出し、この文書デ
ータに基づいて上記LCDを駆動することにより行われ
るようになっている。1 is a block diagram of a document data compression apparatus to which a method for compressing document data according to the present invention is applied. In a device such as a facsimile or a copying machine equipped with a display device such as an LCD (Liquid Cyristal Display), a predetermined document such as a comment or a message is usually prepared according to the operation state of the device or an operator's key operation. Are displayed on the display device. The display of such a document is performed by a ROM in which data representing the plurality of documents (hereinafter, document data) is built in the device.
It is written in advance in a memory such as (Read Only Memory), and reads out predetermined document data from the memory according to the operation state of the device or the key operation of the operator, and drives the LCD based on the document data. It is supposed to be done.
【0024】図1に示す文書データ圧縮装置は、オペレ
ータにより作成された文書データを圧縮し、上記機器に
内蔵されるメモリへ書き込むものである。The document data compression apparatus shown in FIG. 1 compresses the document data created by the operator and writes it in the memory built in the device.
【0025】文書データ圧縮装置は、圧縮装置1、入力
装置2、表示装置3、データ書込装置4により構成され
ている。なお、メモリ5は、文書データ圧縮装置で作成
された文書データ(圧縮データ)が記憶されるROM等
からなるメモリで、ファクシミリや複写機等の機器に内
蔵されるものである。なお、メモリ5は上記文書データ
及び辞書の他、上記機器の動作制御に必要な各種データ
や処理プログラムも記憶されるものである。The document data compression device comprises a compression device 1, an input device 2, a display device 3, and a data writing device 4. The memory 5 is a memory including a ROM or the like in which document data (compressed data) created by the document data compression device is stored, and is built in a device such as a facsimile or a copying machine. In addition to the document data and the dictionary, the memory 5 also stores various data and processing programs necessary for controlling the operation of the device.
【0026】入力装置2は、オペレータが上記文書を入
力するための操作部材で、文字、数字及び各種記号等を
入力するためのキーやテンキー、ファンクションキーを
備えている。文書は、入力装置2により文字単位で入力
される。入力装置2の各キーに割り当てられた文字、数
字、記号及びファンクションは、JISコード表、AS
CIIコード表等の所定のコード表によりコードデータ
との対応関係が定義されており、キー操作により入力さ
れた各文字は、上記コード表に基づいて所定のコードデ
ータに変換されて圧縮装置1に入力される。The input device 2 is an operating member for an operator to input the above-mentioned document, and is provided with keys, ten keys, and function keys for inputting characters, numbers and various symbols. The document is input by the input device 2 character by character. The characters, numbers, symbols and functions assigned to the respective keys of the input device 2 are defined by JIS code table, AS
Correspondence with the code data is defined by a predetermined code table such as a CII code table, and each character input by key operation is converted into predetermined code data based on the above code table, and the compressed data is stored in the compression device 1. Is entered.
【0027】表示装置3は、CRT(Cathode Ray Tub
e)、LCD等からなり、後述する文書データの作成及
び圧縮処理を行うために必要な表示を行うものである。
例えば入力装置2から入力された文書は表示装置3に表
示され、この表示により操作者は入力文字の確認、訂
正、削除等を行うことができる。The display device 3 is a CRT (Cathode Ray Tub).
e), which is composed of an LCD or the like, and provides a display necessary for creating and compressing document data described later.
For example, the document input from the input device 2 is displayed on the display device 3, and the display allows the operator to confirm, correct, delete, etc. the input character.
【0028】圧縮装置1は、入力装置2から入力された
文書データを圧縮し、メモリ5に書き込むための文書デ
ータを作成する装置である。圧縮装置1は、データ入力
部11、文書メモリ12、単語発現数カウンタ13(第
1の単語抽出手段、単語発現数カウント手段)、コード
割振部14(コード割振手段)、総ワード数演算部15
(第1及び第2の総ワード数演算手段)、圧縮単語抽出
部16(単語数算出手段、第2の単語抽出手段)、文書
データ圧縮部17(圧縮した文書データの作成手段、辞
書作成手段)及び制御部18を備えている。The compression device 1 is a device that compresses the document data input from the input device 2 and creates the document data to be written in the memory 5. The compression device 1 includes a data input unit 11, a document memory 12, a word expression number counter 13 (first word extraction unit, word expression number counting unit), a code allocation unit 14 (code allocation unit), and a total word number calculation unit 15.
(First and second total word number calculation means), compressed word extraction unit 16 (word number calculation unit, second word extraction unit), document data compression unit 17 (compressed document data creation unit, dictionary creation unit) ) And a control unit 18.
【0029】なお、上記単語発現数カウンタ13、総ワ
ード数演算部15及び圧縮単語抽出部16は、全文書デ
ータに含まれる単語から単語単位でコード化すべき単語
を抽出する単語抽出手段を構成している。The word expression number counter 13, the total word number calculation unit 15, and the compressed word extraction unit 16 constitute word extraction means for extracting words to be coded in word units from the words included in all document data. ing.
【0030】データ入力部11は、上記入力装置2から
入力される文書データを圧縮装置1内に取り込むための
インターフェース部である。入力された文書データは、
表示装置3に出力されて該表示装置3に入力文書が表示
されるとともに、文書メモリ12に一旦、保存される。The data input unit 11 is an interface unit for taking in the document data input from the input device 2 into the compression device 1. The input document data is
The input document is output to the display device 3, the input document is displayed on the display device 3, and is temporarily stored in the document memory 12.
【0031】文書メモリ12は、後述するデータ圧縮処
理のために入力装置2から入力された文書データを保存
するものである。単語発現数カウンタ13は、入力され
た文書中に含まれる独立した単語(文字列の異なる単
語)を抽出し、各単語の文書全体における発現数Niを
カウントするものである。The document memory 12 stores the document data input from the input device 2 for the data compression processing described later. The word expression number counter 13 extracts independent words (words having different character strings) contained in the input document, and counts the expression number Ni of each word in the entire document.
【0032】コード割振部14は、抽出された単語に、
上記コード表の文字等に割り当てられていない領域のコ
ードを割り振るものである。The code allocator 14 adds to the extracted words
The code of the area that is not assigned to the characters in the above code table is assigned.
【0033】例えば文字等が表1に示すJISコード表
により定義されているとすると、当該JISコード表の
文字等に割り当てられていない領域のコード、例えば
「0(行)×00(列)」〜「15(行)〜00
(列)」,「0(行)×01(列)」〜「15(行)〜
00(列)」の機能キャラクタに割り当てられたコード
や「0(行)×08(列)」〜「15(行)〜08
(列)」,「0(行)×09(列)」〜「15(行)〜
09(列)」等の未定義のコードが抽出された単語に割
り振られる。For example, if the characters and the like are defined by the JIS code table shown in Table 1, the code of the area that is not assigned to the characters and the like in the JIS code table, for example, "0 (row) x 00 (column)" ~ "15 (line) ~ 00
(Column) "," 0 (row) x 01 (column) "-" 15 (row)-"
The code assigned to the functional character "00 (column)" or "0 (row) x 08 (column)" to "15 (row) to 08
(Column) "," 0 (row) x 09 (column) "~" 15 (row) ~ "
An undefined code such as "09 (column)" is assigned to the extracted word.
【0034】[0034]
【表1】 [Table 1]
【0035】総ワード数演算部15は、抽出した各単語
について、当該単語を構成するワード数(バイト数)N
wに当該単語の発現数Niを乗じて得られる第1の総ワ
ード数W1(=Ni×Nw)と、割り振られたコードの
ワード数(バイト数)Ncに当該単語の発現数Niを乗
じ、この乗算結果(Nc×Ni)に当該単語のワード数
Nwを加算して得られる第2の総ワード数W2(=Nc
×Ni+Nw)とを演算するものである。For each word extracted, the total word number calculation unit 15 is the word number (byte number) N that constitutes the word.
The first total word number W1 (= Ni × Nw) obtained by multiplying w by the expression number Ni of the word, and the word number (byte number) Nc of the allocated code are multiplied by the expression number Ni of the word, A second total word number W2 (= Nc) obtained by adding the word number Nw of the word to the multiplication result (Nc × Ni)
XNi + Nw) is calculated.
【0036】上記第1の総ワード数W1は、圧縮前の文
書データにおける当該単語に要するデータ量(バイト
数)で、文字単位でコード化した場合に当該単語に要す
る総ワード数である。また、上記第2の総ワード数W2
は、圧縮後の文書データ(当該単語を割り振られたコー
ドに置換して文書データを圧縮した場合の文書データ)
における当該単語に要するデータ量(バイト数)で、単
語単位でコード化した場合に当該単語に要する総ワード
数である。The first total number of words W1 is the amount of data (the number of bytes) required for the word in the uncompressed document data, and is the total number of words required for the word when coded in character units. Also, the second total number of words W2
Is the compressed document data (the document data when the document data is compressed by replacing the word with the assigned code)
Is the total amount of data (bytes) required for the word, and is the total number of words required for the word when coded in word units.
【0037】圧縮単語抽出部16は、抽出された単語の
うち、コード化すべき単語を抽出するものである。すな
わち、本発明に係る文書データの圧縮方法は、文書デー
タに含まれる単語のうち、一部単語を単語単位でコード
に置換することにより全文書データのデータ量を圧縮す
るもので、圧縮単語抽出部16は、コード化すべき単
語、すなわち、単語単位でコードに置換すべき単語を抽
出するものである。The compressed word extraction unit 16 extracts a word to be coded from the extracted words. That is, the document data compression method according to the present invention compresses the data amount of all document data by replacing a part of words included in the document data with a code on a word-by-word basis. The unit 16 extracts a word to be coded, that is, a word to be replaced with a code on a word-by-word basis.
【0038】圧縮単語抽出部16は、第2の総ワード数
W2が第1の総ワード数W1より小さい単語を圧縮すべ
き単語として抽出する。これは、第2の総ワード数W2
が第1の総ワード数W1より小さい単語は、当該単語を
割り振られたコードに置換することにより文書データに
おける当該単語のデータ量が低減するものだからであ
る。The compressed word extraction unit 16 extracts a word whose second total word number W2 is smaller than the first total word number W1 as a word to be compressed. This is the second total word count W2
This is because the data amount of the word in the document data is reduced by replacing the word with the assigned code when the word is smaller than the first total word number W1.
【0039】また、圧縮単語抽出部16は、各文書デー
タ毎に、コード化される単語数を演算する。この単語数
のデータは、各文書データの圧縮処理において、文書デ
ータの先頭に付加される。Further, the compressed word extraction unit 16 calculates the number of encoded words for each document data. The data of the number of words is added to the head of the document data in the compression process of each document data.
【0040】文書データ圧縮部17は、文書データの圧
縮を行うとともに、圧縮用に抽出された単語と割り振ら
れたコードとの対応関係を示す辞書を作成するものであ
る。文書データ圧縮部17は、各文書データ毎に、当該
文書データを構成する単語のうち、圧縮単語抽出部16
で抽出された単語を当該単語に割り振られたコードに置
換するとともに、先頭に上記単語数のデータを付加して
文書データの圧縮を行う。The document data compression section 17 compresses the document data and creates a dictionary showing the correspondence between the words extracted for compression and the assigned codes. The document data compression unit 17 includes, for each document data, the compressed word extraction unit 16 among the words constituting the document data.
The word extracted in step (3) is replaced with the code assigned to the word, and the data of the number of words is added to the head to compress the document data.
【0041】制御部18は、後述する文書データの圧縮
処理を集中制御するものである。制御部18は、上記デ
ータ入力部11〜文書データ圧縮部17の各部の動作を
制御して文書データの圧縮処理を行う。データ書込装置
4は、圧縮装置1で圧縮された文書データ及び辞書をメ
モリ5に書き込むものである。The control unit 18 centrally controls the compression process of document data described later. The control unit 18 controls the operation of each unit of the data input unit 11 to the document data compression unit 17 to perform the compression process of the document data. The data writing device 4 writes the document data and the dictionary compressed by the compression device 1 into the memory 5.
【0042】次に、文書データ圧縮装置の文書データ圧
縮処理について、図2のフローチャートを用いて説明す
る。Next, the document data compression processing of the document data compression apparatus will be described with reference to the flowchart of FIG.
【0043】なお、本実施例では、「LINE TYP
E」及び「SET LINE TYPE」の2つの文書
データ例により具体的処理について説明する。また、文
書を構成する文字データはJISコード表により定義さ
れているものとする。In this embodiment, "LINE TYPE
Specific processing will be described with reference to two document data examples of "E" and "SET LINE TYPE". In addition, the character data forming the document is defined by the JIS code table.
【0044】まず、入力装置2により「LINE TY
PE」及び「SET LINE TYPE」の文書が入
力されると、この文書が、図4に示す文書データの形式
で圧縮装置1内の文書メモリ12に一旦、記憶される
(S1)。First, the input device 2 is used to display "LINE TY
When a document of "PE" and "SET LINE TYPE" is input, this document is temporarily stored in the document memory 12 in the compression device 1 in the document data format shown in FIG. 4 (S1).
【0045】続いて、文書データの入力が完了すると、
該文書データに含まれる文字列の異なる単語「LIN
E」、「SET」及び「TYPE」が抽出されるととも
に、カウンタ12により各単語の抽出数K=3がカウン
トされる(S2)。なお、各単語は、ブランクデータ’
□’若しくは終了データ’0’で挟まれているので、こ
れらを識別することにより検出される。また、検出され
た単語と既に抽出された単語とを比較して文字列の異な
る単語のみの抽出が行われる。Then, when the input of the document data is completed,
The word "LIN" having different character strings included in the document data
“E”, “SET”, and “TYPE” are extracted, and the number of extractions K = 3 of each word is counted by the counter 12 (S2). Note that each word is blank data '
Since it is sandwiched by □ 'or end data' 0 ', it is detected by distinguishing them. In addition, only the words having different character strings are extracted by comparing the detected words with the already extracted words.
【0046】続いて、抽出された各単語に、当該単語を
構成する文字データに割り当てられたコードと異なるコ
ードが割り振られる(S3)。すなわち、JISコード
表の文字データのコードとして利用されない領域のコー
ドが各単語に割り振られる。例えば「SET」、「LI
NE」、「TYPE」の各単語に、JISコード表の機
能キャラクタに割り当てられた「0×00」、「0×0
1」、「0×02」のコードがそれぞれ割り振られる。Then, a code different from the code assigned to the character data forming the word is assigned to each extracted word (S3). That is, the code of the area that is not used as the code of the character data of the JIS code table is assigned to each word. For example, "SET", "LI
"0x00" and "0x0" assigned to the function characters of the JIS code table are assigned to the words "NE" and "TYPE", respectively.
Codes of "1" and "0x02" are assigned respectively.
【0047】続いて、抽出された各単語について、単語
発現数カウンタ13により文書データ中における発現数
Ni(回)がカウントされる(S4)。上記例では、単
語「LINE」、「SET」及び「TYPE」の発現数
Niは、それぞれ「2」、「1」、「2」である。Next, the number of occurrences Ni (times) in the document data is counted by the word occurrence number counter 13 for each extracted word (S4). In the above example, the expression numbers Ni of the words “LINE”, “SET” and “TYPE” are “2”, “1” and “2”, respectively.
【0048】続いて、抽出された各単語について、第1
の総ワード数W1(=Ni×Nw)(バイト)が演算さ
れる(S5)。上記例では、単語「LINE」、「SE
T」及び「TYPE」の各ワード数Nw(バイト)はそ
れぞれ「4」、「3」、「4」であるから、第1の総ワ
ード数W1は、それぞれ「8(=2×4)」、「3(=
1×3)」、「8(=2×4)」となる。Then, for each extracted word, the first
The total number of words W1 (= Ni × Nw) (bytes) is calculated (S5). In the above example, the words "LINE", "SE
Since the word numbers Nw (bytes) of “T” and “TYPE” are “4”, “3”, and “4”, respectively, the first total word number W1 is “8 (= 2 × 4)”. , "3 (=
1 × 3) ”and“ 8 (= 2 × 4) ”.
【0049】続いて、抽出された各単語について、第2
総ワード数W2(=Ni×Nc+Nw)(バイト)が演
算される(S6)。上記例では、割り当てられたコード
「0×00」、「0×01」及び「0×02」の各ワー
ド数Nc(バイト)は、「1」であるから、単語「LI
NE」、「SET」及び「TYPE」の第2総ワード数
W2は、それぞれ「6(=1×2+4)」、「4(=1
×1+3)」、「6(=1×2+4」となる。Then, for each extracted word, the second
The total number of words W2 (= Ni × Nc + Nw) (bytes) is calculated (S6). In the above example, the number of words Nc (bytes) of the assigned codes “0x00”, “0x01”, and “0x02” is “1”, so the word “LI
The second total word numbers W2 of “NE”, “SET”, and “TYPE” are “6 (= 1 × 2 + 4)” and “4 (= 1
“× 1 + 3)” and “6 (= 1 × 2 + 4)”.
【0050】続いて、第2総ワード数W2が第1の総ワ
ード数W1より小さい単語がコード化すべき単語として
抽出される(S7)。上記例では、第2総ワード数W2
が第1の総ワード数W1より小さい単語は「LIN
E」、「TYPE」であるから、これらの単語が抽出さ
れる。Then, a word whose second total word number W2 is smaller than the first total word number W1 is extracted as a word to be coded (S7). In the above example, the second total word number W2
Is less than the first total word count W1
Since these are "E" and "TYPE", these words are extracted.
【0051】また、各文書データ毎に、コード化すべき
単語数が算出される(S8)。上記例では、「LINE
TYPE」及び「SET LINE TYPE」の各
文書データに対して単語数「2」が算出される。The number of words to be coded is calculated for each document data (S8). In the above example, "LINE
The number of words “2” is calculated for each document data of “TYPE” and “SET LINE TYPE”.
【0052】続いて、表2に示すように、コード化すべ
き単語とこの単語に割り振られたコードとの対応関係を
示す辞書が作成され(S9)、更に文書データの圧縮が
行われる(S10)。Then, as shown in Table 2, a dictionary showing the correspondence between the word to be coded and the code assigned to this word is created (S9), and the document data is further compressed (S10). .
【0053】[0053]
【表2】 [Table 2]
【0054】図3は、圧縮された文書データの一例を示
す図である。同図において、各文書データの先頭のデー
タ「0×FB」は、当該文書データに対する単語数のデ
ータである。「0×FB」は、単語数「2」を示し、
「LINE TYPE」及び「SET LINE TY
PE」の各文書データを構成するする単語のうち、2つ
の単語(LINE,TYPE)がコード(0×01,0
×02)に置換されていることを示している。FIG. 3 is a diagram showing an example of compressed document data. In the figure, the head data "0xFB" of each document data is the data of the number of words for the document data. "0xFB" indicates the number of words "2",
"LINE TYPE" and "SET LINE TY"
Of the words that compose each document data of "PE", two words (LINE, TYPE) are code (0x01, 0
X02).
【0055】上記のように、各文書の先頭にコードに置
換されている単語数のデータを付加しているのは、文書
データを表示する際、コード化された全単語のコードデ
ータへの変換の完了確認を容易にし、各文書データのコ
ードデータへの変換処理の簡素化を図るためである。す
なわち、予めコードに置換されている単語の個数が分か
っていれば、各文書のコードデータへの変換処理におい
て、辞書により単語単位でコードデータに変換された単
語数が当該個数に達すれば、それ以後はJISコード表
により文字単位でコードデータに変換すればよく、辞書
とJISコード表とを使い分けてコードデータへの変換
をする必要がなくなる分、変換処理が簡単になる。そし
て、これにより表示レスポンスも向上させることができ
る。As described above, the data of the number of words replaced by the code is added to the beginning of each document, when the document data is displayed, all the coded words are converted into code data. For facilitating confirmation of completion and simplifying conversion processing of each document data into code data. In other words, if the number of words that have been replaced with codes is known in advance, if the number of words converted into code data by the dictionary by the dictionary reaches the number in the conversion process of each document into code data, After that, it is only necessary to convert the code data into character data using the JIS code table, and it is not necessary to use the dictionary and the JIS code table separately to convert the code data, which simplifies the conversion process. Then, this can also improve the display response.
【0056】なお、単語「SET」は、第2の総ワード
数W2が第1の総ワード数W1より大きいので、コード
には置換されず、文字データで表されている。また、単
語をコードに置換した場合は、コードが1つの単語を示
しているから、コードの前後に単語を識別するためのブ
ランクデータ’□’は設けられていない。Since the second total word number W2 is larger than the first total word number W1, the word "SET" is represented by character data without being replaced by a code. When a word is replaced with a code, the code indicates one word, and therefore blank data “□” for identifying the word is not provided before and after the code.
【0057】そして、文書データの圧縮処理が終了する
と、当該文書データと作成された辞書とがメモリ5に書
き込まれて(S11)、文書データの圧縮処理は終了す
る。When the compression process of the document data is completed, the document data and the created dictionary are written in the memory 5 (S11), and the compression process of the document data is completed.
【0058】なお、上記実施例では、コード化すべき単
語を抽出する前に全単語にコードを割り振るようにして
いたが、割り振られるコードのワード数が予め決まって
いる場合は、コード化すべき単語を抽出した後、当該単
語にコードを割り振るようにしてもよい。この場合は、
図2において、S3の処理をS7とS8間若しくはS8
とS9間に変更すればよい。In the above embodiment, the codes are assigned to all the words before the words to be coded are extracted. However, when the number of assigned words is predetermined, the words to be coded are selected. After extraction, a code may be assigned to the word. in this case,
In FIG. 2, the process of S3 is performed between S7 and S8 or S8.
Between S9 and S9.
【0059】なお、ファクシミリ、複写機等の機器にお
いては、上記圧縮された文書データは、以下の手順でL
CD等の表示装置に表示される。In a device such as a facsimile or a copying machine, the compressed document data is L
It is displayed on a display device such as a CD.
【0060】すなわち、例えば「SET LINE T
YPE」の文書をLCDに表示する場合、メモリ5から
「0×FB,’S’,’E’,’T’,0×01,0×
02,’0’」の文書データが順次、読み出され、
「S」、「E」及び「T」の各文字データは、JISコ
ード表によりそれぞれコード「3×05」、「5×0
4」、「4×05」のコードデータに変換されてLCD
に出力される。また、コード「0×01」及び「0×0
2」は、メモリ5内の辞書によりそれぞれ単語「LIN
E」と「TYPE」を構成する文字データのコードデー
タ列(’L’,’I’,’N’,’E’、’T’,’
Y’,’P’,’E’)に一括変換されてLCDに出力
される。そして、上記コードデータに基づいてLCDの
駆動を制御することにより上記「SET LINE T
YPE」の文書が表示される。That is, for example, "SET LINE T
When displaying a document of “YPE” on the LCD, “0 × FB, 'S', 'E', 'T', 0 × 01, 0 × is read from the memory 5.
The document data of "02, '0'" are sequentially read,
Character data of "S", "E" and "T" are coded as "3x05" and "5x0" according to the JIS code table, respectively.
LCD converted to code data of 4 "and 4x05"
Is output to. Also, the codes "0x01" and "0x0"
2 ”is the word“ LIN ”according to the dictionary in the memory 5.
Code data strings ('L', 'I', 'N', 'E', 'T', 'of the character data forming "E" and "TYPE"
Y ',' P ',' E ') are collectively converted and output to the LCD. Then, by controlling the driving of the LCD based on the code data, the "SET LINE T
The document "YPE" is displayed.
【0061】上記のように、文書データは、当該文書デ
ータに含まれる単語のうち、第2の総ワード数W2が第
1の総ワード数W1より小さくなる単語、すなわち、文
書データ全体において当該単語を文字データのみで扱っ
たときよりワード数が小さくなる単語のみを当該単語に
割り振られたコードに置換して圧縮しているので、文字
データのみで構成される従来の文書データに比してデー
タ量が低減される。これによりメモリ5における文書デ
ータの容量比率が低下し、メモリ5の有効利用が可能に
なる。As described above, the document data is a word in which the second total word number W2 is smaller than the first total word number W1 among the words included in the document data, that is, the word in the entire document data. Since only words that have a smaller number of words than when treated with only character data are replaced with the codes assigned to the words and compressed, the data is compared to conventional document data that consists of only character data. The quantity is reduced. As a result, the capacity ratio of the document data in the memory 5 decreases, and the memory 5 can be effectively used.
【0062】上記例について具体的に説明すると、「L
INE TYPE」の文書を文字データのみで構成する
と、図4に示すように、ワード数が「10」のデータと
なり、データ量は10バイトとなるが、文字データとコ
ードとで構成すると、図3に示すように、ワード数が
「4」のデータとなり、データ量は4バイトに低減され
る。The above example will be described in detail.
If a document of "INE TYPE" is composed only of character data, as shown in FIG. 4, the number of words is "10", and the amount of data is 10 bytes. As shown in, the number of words becomes data of "4", and the data amount is reduced to 4 bytes.
【0063】同様に、「SET LINE TYPE」
の文書の場合は、文字データのみで構成すると、データ
量は14バイトとなるが、文字データとコードとで構成
すると、データ量は7バイトに低減される。従って、文
書全体では、文書データを文字データとコードとで構成
すると、文字データのみで構成した場合に比してデータ
量が13バイト低減できる。Similarly, "SET LINE TYPE"
In the case of the above document, the data amount is 14 bytes if it is composed of only the character data, but the data amount is reduced to 7 bytes if it is composed of the character data and the code. Therefore, in the entire document, when the document data is composed of the character data and the code, the data amount can be reduced by 13 bytes as compared with the case where it is composed of only the character data.
【0064】なお、文書データを単語数データ、文字デ
ータ及びコードで構成した場合は、JISコード表とは
別に単語とコードとの対応関係を示す辞書が必要にな
り、この分メモリ5の容量を消費することになるが、上
述した文書データの圧縮効果により辞書のデータ増加分
は吸収可能なので、メモリ5における文書データ及び辞
書の容量比率は、従来の文書データの容量比率より低減
させることができる。When the document data is composed of word number data, character data and codes, a dictionary showing the correspondence between words and codes is required in addition to the JIS code table, and the capacity of the memory 5 is increased accordingly. Although it will be consumed, since the dictionary data increase amount can be absorbed by the above-described document data compression effect, the capacity ratio of the document data and the dictionary in the memory 5 can be made smaller than the capacity ratio of the conventional document data. .
【0065】また、文書データの表示処理においてもコ
ードに置換された単語は単語単位でコードデータに一括
変換されるので、文書データを文字単位でコードデータ
に変換する従来例に比して迅速処理が可能で、表示のレ
スポンス性能が向上する。Also, in the document data display process, the words replaced with the code are collectively converted into code data in word units, so that the document data is converted into code data in character units in a quicker process than in the conventional example. It is possible to improve the response performance of the display.
【0066】なお、文書データ圧縮装置をファクシミ
リ、コピー機等の事務機器に内蔵し、事務機器本体に文
書データの圧縮機能を持たせるようにしてもよい。この
場合は、事務機器本体に設けられた操作パネルと表示装
置とがそれぞれ上記入力装置2と上記表示装置3とにな
る。また、事務機器本体は文書データ圧縮モードが設定
可能になされ、当該文書データ圧縮モードが設定される
と、事務機本体の制御部が図2に示すフローチャートを
実行して入力装置2から入力された文書データの圧縮処
理を行う。The document data compression device may be incorporated in an office machine such as a facsimile or a copy machine so that the office machine body has a document data compression function. In this case, the operation panel and the display device provided in the office equipment body serve as the input device 2 and the display device 3, respectively. Further, the office equipment main body is made to be able to set the document data compression mode, and when the document data compression mode is set, the control unit of the office equipment main body executes the flowchart shown in FIG. Performs document data compression processing.
【0067】このように事務機器本体に文書データの圧
縮機能を持たせると、事務機器の製造時だけでなく製品
出荷後においてもユーザーの希望に応じて文書データの
変更、追加及び削除等を行うことができ、事務機器の利
便性が向上する。When the office device body is provided with the document data compression function in this way, the document data can be changed, added, and deleted according to the user's request not only at the time of manufacturing the office device but also after the product is shipped. Therefore, the convenience of office equipment is improved.
【0068】[0068]
【発明の効果】以上説明したように、本発明によれば、
所定のコード表で定義された文書データを用いて予め作
成された複数の文書データを、全文書データに含まれる
一部の単語を上記コード表のコードであって上記文字デ
ータに割り当てられたコードと異なるコードで置換して
コード混じりの文書データに圧縮するにしたので、文書
データのデータ量を低減することができる。これにより
記憶手段における文書データの容量比率を低減させるこ
とができ、該記憶手段の利用効率が向上する。As described above, according to the present invention,
A plurality of document data created in advance using document data defined by a predetermined code table, some words included in all document data are codes in the code table, and codes assigned to the character data. Since it is replaced with a code different from the above and compressed into the document data with the mixed code, the data amount of the document data can be reduced. Thereby, the capacity ratio of the document data in the storage means can be reduced, and the utilization efficiency of the storage means is improved.
【0069】また、各文書データを表示装置等の表示さ
せる場合、コード化された単語は辞書に基づき単語単位
でコードデータに一括変換されるので、文書データのコ
ードデータへの変換処理が迅速に行われ、文書データの
表示レスポンスが向上する。Further, when each document data is displayed on the display device or the like, the coded words are collectively converted into code data on a word-by-word basis based on the dictionary, so that the conversion process of document data to code data can be performed quickly. The display response of the document data is improved.
【0070】また、圧縮された各文書データの先頭に、
当該データに含まれるコード化された単語数のデータを
付加したので、コード化された全単語のコードデータへ
の変換の完了が容易に確認でき、各文書データをコード
データに変換する際の変換処理が簡単になる。At the beginning of each compressed document data,
Since the data of the coded word number included in the data is added, it is possible to easily confirm the completion of the conversion of all the coded words to the code data, and the conversion when converting each document data to the code data. Processing is easy.
【0071】また、文書データの含まれる単語のうち、
単語単位でコード化した場合に当該単語に要する第2の
総ワード数が文字単位でコード化した場合に当該単語に
要する第1の総ワード数より小さい単語を抽出し、当該
単語のみを割り振られたコードに置換して文書データを
圧縮するようにしたので、圧縮効率の高い文書データが
得られる。Of the words included in the document data,
If the second total number of words required for the word when encoded in word units is smaller than the first total number of words required for the word when encoded in character unit, only the relevant word is allocated. Since the document data is compressed by substituting the code, the document data with high compression efficiency can be obtained.
【0072】また、抽出された各単語について、当該単
語のワード数に発現数を乗じて第1の総ワード数を演算
し、当該単語の発現数と割り振られるコードのワード数
とを乗じ、この乗算結果に当該単語のワード数を加算し
て第2の総ワード数を演算するようにしたので、第1の
ワード数と第2のワード数とを簡単に算出することがで
きる。For each extracted word, the first word count is calculated by multiplying the word count of the word by the expression count, multiplying the first word count by the expression count of the word, and Since the word number of the word is added to the multiplication result to calculate the second total word number, it is possible to easily calculate the first word number and the second word number.
【図1】本発明に係る文書データ圧縮装置のブロック図
である。FIG. 1 is a block diagram of a document data compression apparatus according to the present invention.
【図2】本発明に係る文書データ圧縮装置の文書データ
圧縮処理を示すフローチャートである。FIG. 2 is a flowchart showing a document data compression process of the document data compression apparatus according to the present invention.
【図3】本発明に係る文書データ作成装置により圧縮さ
れた文書データの一例を示す図である。FIG. 3 is a diagram showing an example of document data compressed by a document data creation device according to the present invention.
【図4】従来の文書データの一例を示す図である。FIG. 4 is a diagram showing an example of conventional document data.
1 圧縮装置 11 データ入力部 12 文書メモリ 13 単語発現数カウンタ 14 コード割振部 15 総ワード数演算部 16 圧縮単語抽出部 17 文書データ圧縮部 18 制御部 2 入力装置 3 表示装置 4 データ書込装置 5 メモリ 1 Compressor 11 Data Input Unit 12 Document Memory 13 Word Expression Number Counter 14 Code Allocation Unit 15 Total Word Number Calculation Unit 16 Compressed Word Extraction Unit 17 Document Data Compression Unit 18 Control Unit 2 Input Device 3 Display Device 4 Data Writing Device 5 memory
Claims (8)
により予め作成された複数の文書データを、当該文書デ
ータに含まれる一部の単語を単語単位でコード化するこ
とにより圧縮する文書データの圧縮方法であって、全文
書データに含まれる単語から単語単位でコード化すべき
単語を抽出する単語抽出工程と、抽出した各単語に、上
記コード表のコードであって上記文字データに割り当て
られたコードと異なるコードを割り振るコード割振工程
と、コード化された単語と当該単語に割り振られたコー
ドとの対応関係を示す辞書を作成する辞書作成工程と、
文書データを構成する単語のうち、上記単語抽出工程で
抽出した単語を当該単語に割り振られたコードに置換し
て各文書データをコード混じりの文書データに圧縮する
文書データ圧縮工程とからなることを特徴とする文書デ
ータの圧縮方法。1. A document data for compressing a plurality of document data created in advance by character data defined by a predetermined code table by encoding a part of words included in the document data in word units. A compression method, a word extraction step of extracting words to be coded in word units from words included in all document data, and each extracted word is assigned to the character data which is the code in the above code table. A code allocation step of allocating a code different from the code, and a dictionary creation step of creating a dictionary showing a correspondence relationship between the coded word and the code allocated to the word,
Of the words constituting the document data, the word extracted in the word extracting step is replaced with the code assigned to the word, and the document data compressing step of compressing each document data into the document data containing the code. Characteristic document data compression method.
おいて、文書データ圧縮工程に代えて、各文書データ毎
にコード化される単語数を算出する単語数算出工程と、
各文書データ毎に、当該文書データを構成する単語のう
ち、上記単語抽出工程で抽出した単語を当該単語に割り
振られたコードに置換するとともに、各文書データの先
頭にコード化された単語数のデータを付加して圧縮した
文書データを作成する文書データ作成工程とを備えたこ
とを特徴とする文書データの圧縮方法。2. The method of compressing document data according to claim 1, further comprising a word number calculating step of calculating the number of words coded for each document data, instead of the document data compressing step.
For each document data, among the words that compose the document data, replace the word extracted in the word extraction step with the code assigned to the word, and set the number of words coded at the beginning of each document data. A method for compressing document data, comprising: a document data creating step of creating compressed document data by adding data.
方法において、上記単語抽出工程は、全文書データに含
まれる文字列の異なる単語を抽出する第1の単語抽出工
程と、抽出した各単語について、全文書データ中の発現
数をカウントする単語発現数カウント工程と、抽出した
各単語について、文字単位でコード化した場合に当該単
語に要する第1の総ワード数を当該単語の発現数に基づ
いて演算する第1の総ワード数演算工程と、抽出した各
単語について、単語単位でコード化した場合に当該単語
に要する第2の総ワード数を当該単語の発現数に基づい
て演算する第2の総ワード数演算工程と、第1の総ワー
ド数と第2の総ワード数とを比較し、第2の総ワード数
が第1の総ワード数より小さい単語をコード化すべき単
語として抽出する第2の単語抽出工程とからなることを
特徴とする文書データの圧縮方法。3. The method of compressing document data according to claim 1, wherein the word extracting step includes a first word extracting step of extracting words having different character strings included in all document data, and each extracted word. For a word, the word expression number counting step of counting the number of occurrences in all document data, and for each extracted word, the first total number of words required for the word when encoded in character units is the expression number of the word. And a second total word number calculation step for calculating each word extracted for each word, based on the number of occurrences of the word. The second total word number calculation step is compared with the first total word number and the second total word number, and a word whose second total word number is smaller than the first total word number is determined as a word to be coded. First to extract 2. A method for compressing document data, which comprises two word extraction steps.
おいて、上記第1の総ワード数演算工程は、抽出された
各単語について、当該単語のワード数に発現数を乗じて
第1の総ワード数を演算するものであり、上記第2の総
ワード数演算工程は、抽出された各単語について、当該
単語の発現数と割り振られるコードのワード数とを乗
じ、この乗算結果に当該単語のワード数を加算して第2
の総ワード数を演算するものであることを特徴とする文
書データの圧縮方法。4. The method for compressing document data according to claim 3, wherein in the first total word number calculating step, for each extracted word, the word number of the word is multiplied by the expression number to obtain a first total word number. The number of words is calculated, and in the second total word number calculation step, for each extracted word, the number of occurrences of the word is multiplied by the number of words of the allocated code, and the multiplication result of the word is calculated. Second by adding the number of words
A method for compressing document data, characterized in that the total number of words in is calculated.
により予め作成された複数の文書からなる文書データ
を、当該文書データに含まれる一部の単語を単語単位で
コード化することにより圧縮して記憶手段に記憶する文
書データの圧縮装置であって、全文書データに含まれる
単語から単語単位でコード化すべき単語を抽出する単語
抽出手段と、抽出した各単語に、上記コード表のコード
であって上記文字データに割り当てられたコードと異な
るコードを割り振るコード割振手段と、コード化された
単語と当該単語に割り振られたコードとの対応関係を示
す辞書を作成する辞書作成手段と、文書データを構成す
る単語のうち、上記単語抽出工程で抽出した単語を当該
単語に割り振られたコードに置換して各文書データをコ
ード混じりの文書データに圧縮する文書データ圧縮手段
と、圧縮された文書データ及び作成された辞書を記憶手
段に書き込むデータ書込手段とを備えたことを特徴とす
る文書データの圧縮装置。5. Document data composed of a plurality of documents created in advance by character data defined by a predetermined code table is compressed by encoding some words included in the document data in word units. A device for compressing document data to be stored in a storage unit, a word extracting unit for extracting a word to be coded on a word-by-word basis from words included in all document data, and a code in the above code table for each extracted word. There is a code allocating means for allocating a code different from the code assigned to the character data, a dictionary creating means for creating a dictionary showing the correspondence between the coded word and the code assigned to the word, and the document data. Of the words that make up the document, replace the words extracted in the word extraction step with the codes assigned to the words, and replace each document data with the document data containing the codes. An apparatus for compressing document data, comprising: a document data compressing unit for compressing the compressed document data and a data writing unit for writing the compressed document data and the created dictionary in a storage unit.
いて、文書データ圧縮手段に代えて、各文書データ毎に
コード化される単語数を算出する単語数算出手段と、各
文書データ毎に、当該文書データを構成する単語のう
ち、上記単語抽出手段で抽出した単語を当該単語に割り
振られたコードに置換するとともに、各文書データの先
頭にコード化された単語数のデータを付加して圧縮した
文書データを作成する文書データ作成手段とを備えたこ
とを特徴とする文書データの圧縮装置。6. The document data compression apparatus according to claim 5, wherein instead of the document data compression means, a word number calculation means for calculating the number of words coded for each document data, and for each document data, Of the words forming the document data, the words extracted by the word extracting means are replaced with the codes assigned to the words, and the data of the coded word number is added to the head of each document data and compressed. And a document data creating means for creating the document data.
装置において、上記単語抽出手段は、文書データに含ま
れる文字列の異なる単語を抽出する第1の単語抽出手段
と、抽出した各単語について、文書データ中の発現数を
カウントする単語発現数カウント手段と、抽出した各単
語について、文字単位でコード化した場合に当該単語に
要する第1の総ワード数を当該単語の発現数に基づいて
演算する第1の総ワード数演算手段と、抽出した各単語
について、単語単位でコード化した場合に当該単語に要
する第2の総ワード数を当該単語の発現数に基づいて演
算する第2の総ワード数演算手段と、第1の総ワード数
と第2の総ワード数とを比較し、第2の総ワード数が第
1の総ワード数より小さい単語をコード化すべき単語と
して抽出する第2の単語抽出手段とからなることを特徴
とする文書データの圧縮装置。7. The apparatus for compressing document data according to claim 5, wherein the word extracting means includes first word extracting means for extracting words having different character strings contained in the document data, and each extracted word. With respect to the word expression number counting means for counting the expression number in the document data, and for each extracted word, the first total number of words required for the word when encoded in character units is based on the expression number of the word. And a second total word number calculating means for calculating each word extracted, and a second total word number required for the extracted word when the word is encoded on a word-by-word basis based on the number of occurrences of the word. Of the total word number and the first total word number and the second total word number are compared, and a word having a second total word number smaller than the first total word number is extracted as a word to be coded. Second A document data compression apparatus comprising: a word extraction unit.
おいて、上記第1の総ワード数演算手段は、抽出された
各単語について、当該単語のワード数に発現数を乗じて
第1の総ワード数を演算するものであり、上記第2の総
ワード数演算手段は、抽出された各単語について、当該
単語の発現数と割り振られるコードのワード数とを乗
じ、この乗算結果に当該単語のワード数を加算して第2
の総ワード数を演算するものであることを特徴とする文
書データの圧縮装置。8. The document data compression apparatus according to claim 7, wherein the first total word number calculation means multiplies the word number of each extracted word by the expression number to obtain a first total word number. The second total word number calculating means calculates the number of words, and for each extracted word, the number of occurrences of the word is multiplied by the number of words of the assigned code, and the multiplication result of the word is multiplied. Second by adding the number of words
An apparatus for compressing document data, characterized in that it calculates the total number of words in.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7050851A JPH07306854A (en) | 1994-03-14 | 1995-03-10 | Method and device for compressing document data |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4238094 | 1994-03-14 | ||
| JP6-42380 | 1994-03-14 | ||
| JP7050851A JPH07306854A (en) | 1994-03-14 | 1995-03-10 | Method and device for compressing document data |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH07306854A true JPH07306854A (en) | 1995-11-21 |
Family
ID=26382053
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7050851A Pending JPH07306854A (en) | 1994-03-14 | 1995-03-10 | Method and device for compressing document data |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH07306854A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH09212395A (en) * | 1996-01-30 | 1997-08-15 | Sharp Corp | Text compression dictionary creation device and text compression device |
-
1995
- 1995-03-10 JP JP7050851A patent/JPH07306854A/en active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH09212395A (en) * | 1996-01-30 | 1997-08-15 | Sharp Corp | Text compression dictionary creation device and text compression device |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7680333B2 (en) | System and method for binary persistence format for a recognition result lattice | |
| CN106898351B (en) | Control method and device for large screen | |
| JPS6310267A (en) | Mechanical translating device | |
| JPH07306854A (en) | Method and device for compressing document data | |
| DE10210663A1 (en) | Device for indication of and/or precise operations on numerical values in binary system divides binary coded number by divisor, use results to look up display screen codes in static table | |
| CN114218895B (en) | Methods of converting UOF documents | |
| JPS5864540A (en) | Information processing system | |
| JPS59106036A (en) | System for retrieving kanji (chinese character) by designation of radical | |
| JPH03206533A (en) | Data compression system | |
| JP2630405B2 (en) | Document input method | |
| JP2007140682A (en) | Data preparation device for display unit | |
| JPS61184648A (en) | Storing system for character data and image data | |
| CN118798130A (en) | Document signature typesetting method, device and electronic equipment | |
| JPS63292265A (en) | Editing system for japanese word text data | |
| JPS60118970A (en) | Control method for deregistering words in Japanese language processing equipment | |
| JPH1127539A (en) | Image data processing method | |
| JPH0388061A (en) | Japanese input device | |
| JPS58142426A (en) | Table input system in word processor | |
| JPS6184721A (en) | System information input system | |
| JPH09223132A (en) | Document processing method and its processor | |
| JPH038075A (en) | Document storing system | |
| JPH01129356A (en) | document creation device | |
| JPH04156182A (en) | Image processing method | |
| JPH06251084A (en) | Electronic filing device | |
| JPH06332666A (en) | Compressing method for data |