[go: up one dir, main page]

JP2001167124A - Document classification device and recording medium recording document classification program - Google Patents

Document classification device and recording medium recording document classification program

Info

Publication number
JP2001167124A
JP2001167124A JP35355699A JP35355699A JP2001167124A JP 2001167124 A JP2001167124 A JP 2001167124A JP 35355699 A JP35355699 A JP 35355699A JP 35355699 A JP35355699 A JP 35355699A JP 2001167124 A JP2001167124 A JP 2001167124A
Authority
JP
Japan
Prior art keywords
document
keyword
weight
unit
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP35355699A
Other languages
Japanese (ja)
Inventor
Nobuyuki Iwata
展幸 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP35355699A priority Critical patent/JP2001167124A/en
Publication of JP2001167124A publication Critical patent/JP2001167124A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ユーザが意識的に分類のためのカテゴリを決
定することなく、話題性、又はユーザの嗜好に合ったカ
テゴリヘ大量の文書を自動分類する。 【解決手段】 本発明の文書分類装置は、分類対象文書
11及び履歴情報12の文書を記憶する記憶部(図示せ
ず)と、記憶部に記憶されている文書からキーワードを
抽出するキーワード抽出部1と、キーワード抽出部1に
より抽出されるキーワードの重要度、該キーワードを含
む文書の保存日時又は保存場所の少なくとも一つに基づ
いて、該キーワードを上記文書の分類先にする重みを算
出する解析部10と、解析部10により算出される各重
みに基づいて、文書を分類する分類部13と、を備え
る。
(57) [Summary] [Problem] To automatically classify a large number of documents into a category that matches topicality or a user's preference without a user consciously determining a category for classification. A document classification device according to the present invention includes a storage unit (not shown) that stores documents of a classification target document and history information, and a keyword extraction unit that extracts a keyword from a document stored in the storage unit. 1 and an analysis for calculating a weight for classifying the keyword based on at least one of the importance of the keyword extracted by the keyword extracting unit 1 and the storage date and time or storage location of the document including the keyword. A classification unit that classifies documents based on the weights calculated by the analysis unit;

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は文書分類装置に関
し、特に、情報を蓄積するシステムにおいて文書のグル
ープから文書を分類する文書分類装置及び文書分類プロ
グラムを記録した記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document classification apparatus, and more particularly to a document classification apparatus for classifying documents from a group of documents in a system for storing information and a recording medium on which a document classification program is recorded.

【0002】[0002]

【従来の技術】インターネット等の情報通信網の普及に
伴い、情報提供者等から必要に応じて取得した文書情報
を分類する機会が増えている。
2. Description of the Related Art With the spread of information communication networks such as the Internet, opportunities for classifying document information acquired from information providers and the like as necessary have been increasing.

【0003】本発明に関連する公知技術として、特開平
6−348755号公報、及び特開平11−15848
号公報に開示されている文書分類方法がある。上記各公
報に記載されている文書分類方法は、分類済みの文書群
から各分野に固有の単語(キーワード)を抽出し、分類
対象の文書におけるキーワードの出現頻度に基づいて、
分類対象文書の分類先を決定するものである。
[0003] As known techniques related to the present invention, Japanese Patent Application Laid-Open Nos. Hei 6-348755 and Hei 11-15848 are known.
There is a document classification method disclosed in Japanese Unexamined Patent Application Publication No. 2000-163,873. The document classification method described in each of the above publications extracts a word (keyword) unique to each field from a group of classified documents, and based on the frequency of appearance of the keyword in the document to be classified,
This determines the classification destination of the document to be classified.

【0004】また、特開平7−114572号公報に開
示されている文書分類方法は、分類対象文書に含まれる
単語の特徴を表現する特徴ベクトルから文書の特徴を表
現する文書ベクトルを生成し、文書ベクトル間の類似度
を利用して分類するものである。
A document classification method disclosed in Japanese Patent Application Laid-Open No. Hei 7-114572 generates a document vector expressing the characteristics of a document from a characteristic vector expressing the characteristics of a word included in a document to be classified, and outputs the document vector. Classification is performed using similarity between vectors.

【0005】[0005]

【発明が解決しようとする課題】上記各公報にみられる
ように、従来の文書分類システムでは、分類対象文書の
分類先を決定する要素として、キーワードの文書構造又
はキーワードの出現頻度等、文書自身が有する情報を利
用しており、話題性のあるカテゴリや、ユーザの嗜好に
合ったカテゴリに分類対象の文書を自動分類するもので
はない。
As can be seen from the above publications, in the conventional document classification system, as elements for determining the classification destination of a document to be classified, the document itself such as the document structure of the keyword or the frequency of appearance of the keyword is used. Is not used to automatically classify documents to be classified into a topical category or a category that matches the user's preference.

【0006】本発明の目的は、話題性又はユーザの嗜好
に適したカテゴリに分類対象の文書を自動的に分類する
ことができる文書分類装置、及び文書分類プログラムを
記録した記録媒体を提供することにある。
SUMMARY OF THE INVENTION It is an object of the present invention to provide a document classification apparatus capable of automatically classifying documents to be classified into categories suitable for topicality or user preference, and a recording medium recording a document classification program. It is in.

【0007】[0007]

【課題を解決するための手段】上記目的を達成するため
に本発明の文書分類装置は、文書を記憶する記憶手段
と、前記記憶手段に記憶されている前記文書からキーワ
ードを抽出する抽出手段と、前記抽出手段により抽出さ
れるキーワードの重要度、前記キーワードを含む文書の
保存日時又は保存場所の少なくとも一つに基づいて、前
記キーワードを前記文書の分類先にする重みを算出する
重み算出手段と、前記重み算出手段により算出される前
記重みに基づいて、前記文書を分類する分類手段と、を
備えるものである。
In order to achieve the above object, a document classifying apparatus according to the present invention comprises a storage unit for storing a document, and an extraction unit for extracting a keyword from the document stored in the storage unit. Weight calculating means for calculating a weight of the keyword as a classifying destination of the document based on at least one of the importance of the keyword extracted by the extracting means, a storage date and time or a storage location of a document including the keyword. Classifying means for classifying the document based on the weight calculated by the weight calculating means.

【0008】また、前記重み算出手段は、前記キーワー
ドが前記文書の見出し、表題、図題、ハイパーリンク又
は強調表示、又は固有名詞の少なくとも一つに使用され
ている場合に前記重みを変えるものであることで、キー
ワードの重要度を重視して文書を分類できる。
[0008] The weight calculating means changes the weight when the keyword is used in at least one of a heading, a title, a diagram, a hyperlink or highlighting of the document, or a proper noun. This makes it possible to classify documents with emphasis on the importance of keywords.

【0009】また、前記重み算出手段は、前記キーワー
ドを含む前記文書の前記保存日時から前記キーワードが
出現する日時を算出し、該算出日時と所定の基準日時と
の比較に基づいて前記重みを算出するものであること
で、キーワードの出現日時等が時間情報として付与さ
れ、話題性のあるカテゴリを検出することが可能にな
る。
Further, the weight calculating means calculates a date and time when the keyword appears from the storage date and time of the document including the keyword, and calculates the weight based on a comparison between the calculated date and a predetermined reference date and time. Therefore, the date and time of appearance of the keyword and the like are given as time information, and a topical category can be detected.

【0010】また、前記重み算出手段は、前記キーワー
ドを含む前記文書が所定のブラウザのキャッシュ、該ブ
ラウザのお気に入りファイル又はブックマークのリンク
先、検索時の文字入力列、ユーザが行った階層分類構
造、又は自動分類された階層構造の少なくとも一つであ
る場合に前記重みを変えるものであることで、操作履歴
情報等が付与され、嗜好性のあるカテゴリを検出するこ
とが可能になる。
[0010] The weight calculating means may be arranged so that the document including the keyword is cached in a predetermined browser, a link destination of a favorite file or bookmark of the browser, a character input string at the time of search, a hierarchical classification structure performed by a user, Alternatively, when the weight is changed in the case of at least one of the automatically classified hierarchical structures, operation history information or the like is added, and a category having a preference can be detected.

【0011】また、さらに、前記重み算出手段により算
出される前記重みに対する比重を制御する制御手段を更
に備え、前記分類手段は、前記制御手段からの比重と前
記算出手段により算出される前記重みとに基づいて、前
記文書を分類することにより、ユーザニーズをより考慮
して文書を分類できる。
Further, the apparatus further comprises control means for controlling a specific gravity with respect to the weight calculated by the weight calculation means, wherein the classifying means includes a specific gravity from the control means and the weight calculated by the calculation means. By classifying the documents based on the above, the documents can be classified in consideration of user needs.

【0012】他の観点において本発明は、コンピュータ
を、文書を記憶する記憶手段と、前記記憶手段に記憶さ
れている前記文書からキーワードを抽出する抽出手段
と、前記抽出手段により抽出されるキーワードの重要
度、前記キーワードを含む文書の保存日時又は保存場所
の少なくとも一つに基づいて、前記キーワードを前記文
書の分類先にする重みを算出する重み算出手段と、前記
重み算出手段により算出される前記重みに基づいて、前
記文書を分類する分類手段と、を備える文書分類装置と
して機能させるためのプログラムを記録したことを特徴
とするコンピュータ読み取り可能な記録媒体である。
[0012] In another aspect, the present invention provides a computer, comprising: a storage unit for storing a document; an extraction unit for extracting a keyword from the document stored in the storage unit; Weight calculating means for calculating a weight of the keyword as a classification destination of the document based on at least one of the importance, the storage date and time or the storage location of the document including the keyword, and the weight calculated by the weight calculating means. A computer-readable recording medium having recorded thereon a program for functioning as a document classification device including: a classification unit that classifies the document based on a weight.

【0013】[0013]

【発明の実施の形態】本発明の実施の形態を添付図面と
対応して以下に詳細に説明する。図1は、本発明の実施
の形態による文書分類装置の構成を示すブロック図であ
る。本文書分類装置は、キーワード抽出部(抽出手段)
1、制御部(制御手段)5、解析部(重み算出手段)1
0、分類部(分類手段)13及びCD−ROMドライブ
14を備える。
Embodiments of the present invention will be described in detail below with reference to the accompanying drawings. FIG. 1 is a block diagram showing a configuration of a document classification device according to an embodiment of the present invention. The document classification device includes a keyword extraction unit (extraction means)
1, control unit (control means) 5, analysis unit (weight calculation means) 1
0, a classification unit (classification means) 13 and a CD-ROM drive 14.

【0014】また、解析部10は、文書構造解析部2、
時間情報解析部3及び履歴解析部4を有し、分類部13
は、カテゴリ度算出部6、カテゴリキーワード登録部
7、カテゴライズ部8及び格納部9を有する。また、C
D−ROMドライブ14は、制御部5の指示に基づいて
CD−ROM15に格納されているプログラムを読み出
す。
The analysis unit 10 includes a document structure analysis unit 2,
A classifying unit 13 including a time information analyzing unit 3 and a history analyzing unit 4;
Has a category degree calculation unit 6, a category keyword registration unit 7, a categorization unit 8, and a storage unit 9. Also, C
The D-ROM drive 14 reads a program stored in the CD-ROM 15 based on an instruction from the control unit 5.

【0015】上記文書構造解析部2、時間情報解析部3
及び履歴解析部4は、全体として、キーワードの重要
度、該キーワードを含む文書の保存日時又は保存場所に
基づいて該キーワードを文書の分類先にする重みを算出
する解析部10を構成している。
The document structure analysis unit 2 and the time information analysis unit 3
In addition, the history analysis unit 4 constitutes an analysis unit 10 that calculates a weight for classifying the keyword into a document based on the importance of the keyword, the storage date and time or the storage location of the document including the keyword. .

【0016】分類対象文書11は、本文書分類装置にお
いて分類の対象となる文書である。分類対象文書11
は、例えばインターネット等からダウンロードされ一時
的にHDD等の記録装置に格納されている文書でも良い
し、履歴情報12である文書の集合における要素であっ
ても良い。分類対象文書11及び履歴情報12は、各文
書の保存日時、保存場所等の情報が認識できる状態で、
HDD等の記録装置(記憶手段)に格納されている。
The document to be classified 11 is a document to be classified by the document classification apparatus. Classification target document 11
May be a document downloaded from the Internet or the like and temporarily stored in a recording device such as an HDD, or may be an element in a set of documents that is the history information 12. The classification target document 11 and the history information 12 are in a state where information such as the storage date and time and storage location of each document can be recognized.
It is stored in a recording device (storage means) such as an HDD.

【0017】履歴情報12は、本文書分類装置により管
理される文書の集合である。履歴情報12は、例えばWo
rld Wide Webブラウザ(以下、Webブラウザと呼ぶ)
のキャッシュの文書、Webブラウザのお気に入りファイ
ル又はブックマークのリンク先の文書、検索操作時の入
力文字列、または、既にユーザが行った階層分類構造又
は自動分類された階層構造等である。
The history information 12 is a set of documents managed by the document classification device. The history information 12 is, for example, Wo
rld Wide Web browser (hereinafter referred to as Web browser)
Cache documents, Web browser favorite files or bookmark link destination documents, input character strings at the time of a search operation, or a hierarchical classification structure already performed by the user or a hierarchical structure automatically classified.

【0018】キーワード抽出部1は、分類対象文書11
及び履歴情報12の文書からキーワードを抽出する。分
類対象文書11及び履歴情報12の文書におけるある文
字列が、カテゴリキーワード登録部7のキーワード辞書
(図示せず)に予め登録されているカテゴリキーワード
と一致する場合に、該文字列をキーワードとして抽出す
る。
The keyword extracting unit 1 includes a classification target document 11
Then, a keyword is extracted from the document of the history information 12. When a certain character string in the document of the classification target document 11 and the document of the history information 12 matches a category keyword registered in advance in a keyword dictionary (not shown) of the category keyword registration unit 7, the character string is extracted as a keyword. I do.

【0019】解析部10において、文書構造解析部2
は、キーワード抽出部1により抽出されたキーワードの
文書構造上の重みを構造重みとして算出する。該キーワ
ードの構造重みが大きいほど、文書中で重要なキーワー
ドとなる。
In the analysis unit 10, the document structure analysis unit 2
Calculates the weight on the document structure of the keyword extracted by the keyword extraction unit 1 as the structure weight. The greater the structural weight of the keyword, the more important the keyword in the document.

【0020】例えば、構造重みが大きくなるのは、分類
対象文書11又は履歴情報12の文書における見出し、
表題、図題に使用されているキーワード、及びハイパー
リンク等で使用されているキーワードである。また、強
調表示されているキーワード、他のキーワードと比較し
て大きなフォントで表示されているキーワード、及び固
有名詞で用いられているキーワードの構造重みも大きく
なる。この構造重みは、制御部5からの指示で変化させ
る。
For example, the structural weight is increased because the heading in the classification target document 11 or the history information 12 in the document,
These are keywords used in titles and titles, and keywords used in hyperlinks and the like. In addition, the structural weight of the highlighted keyword, the keyword displayed in a font larger than that of the other keywords, and the keyword used in the proper noun also increases. This structural weight is changed by an instruction from the control unit 5.

【0021】また、時間情報解析部3は、キーワード抽
出部1により抽出されたキーワードの時間軸上の重みを
時間重みとして算出する。分類対象文書11から抽出さ
れたキーワードを含む履歴情報12の文書が有する更新
日時、保存日時等の情報から該キーワードの出現頻度の
最も高い日時を算出する。この場合、該キーワードの出
現頻度が所定の頻度を超える日時をキーワード出現日時
として算出するようにしても良い。
The time information analysis unit 3 calculates the weight on the time axis of the keyword extracted by the keyword extraction unit 1 as a time weight. From the information such as the update date and time and the storage date and time of the document of the history information 12 including the keyword extracted from the classification target document 11, the date and time at which the keyword appears most frequently is calculated. In this case, a date and time at which the appearance frequency of the keyword exceeds a predetermined frequency may be calculated as the keyword appearance date and time.

【0022】例えば、算出日時が基準日時に近いキーワ
ードほど時間重みは大きくなり、算出日時が基準日時に
遠いキーワードほど時間重みは小さくなる。この時間重
みは、制御部5からの指示で変化させる。また、履歴解
析部4は、キーワード抽出部1により抽出されたキーワ
ードが履歴情報12の文書の中で出現する頻度を履歴重
みとして算出する。
For example, a keyword whose calculation date and time is closer to the reference date and time has a larger time weight, and a keyword whose calculation date and time is farther from the reference date and time has a smaller time weight. The time weight is changed by an instruction from the control unit 5. Further, the history analysis unit 4 calculates, as a history weight, the frequency at which the keyword extracted by the keyword extraction unit 1 appears in the document of the history information 12.

【0023】例えば、Webブラウザで最近閲覧してキャ
ッシュ中に記憶されているページに使用されている場
合、又は検索操作した際に使用された文字列等に使用さ
れている場合に履歴重みは大きくなる。この履歴重み
は、制御部5からの指示で変化させる。
For example, the history weight is large when used for a page recently browsed by a Web browser and stored in a cache, or when used for a character string or the like used in a search operation. Become. This history weight is changed by an instruction from the control unit 5.

【0024】このように、本実施の形態では、文書構造
解析部2、時間情報解析部3及び履歴解析部4が設けら
れており、分類対象文書11から抽出したキーワードが
該分類対象文書11の分類先として適切であるか否かを
示す指標として、文書構造解析部2により重要性のある
カテゴリを検出することが可能になり、時間情報解析部
3によりキーワードの出現日時を時間情報として付与し
て話題性のあるカテゴリを検出することが可能となると
ともに、履歴解析部4により嗜好性のあるカテゴリを検
出することが可能となる。
As described above, in the present embodiment, the document structure analysis unit 2, the time information analysis unit 3, and the history analysis unit 4 are provided, and the keywords extracted from the classification target document 11 The document structure analysis unit 2 can detect an important category as an index indicating whether or not the classification destination is appropriate, and the time information analysis unit 3 assigns the appearance date and time of the keyword as time information. This makes it possible to detect a topical category and to detect a preference category by the history analysis unit 4.

【0025】制御部5は、以下に示す4つの制御を主に
行う。第1の制御として、文書構造解析部2、時間情報
解析部3、履歴解析部4にて算出される重みの基準値を
設定する。文書構造解析における基準値には、見出し、
表題、図題、ハイパーリンク、強調表示、及びフォント
を要素とする基準ベクトルを設定する。この基準ベクト
ルに対してどの要素に比重を置いて重みを算出するのか
を決定する。また、時間情報解析における基準値には、
時間軸上の値を設定する。設定した基準値に近いキーワ
ードの時間重みは大きくなる。
The control unit 5 mainly performs the following four controls. As a first control, a reference value of a weight calculated by the document structure analysis unit 2, the time information analysis unit 3, and the history analysis unit 4 is set. The standard values for document structure analysis include headings,
Set a reference vector with title, caption, hyperlink, highlight, and font as elements. With respect to this reference vector, it is determined which element is to be given a specific gravity and the weight is calculated. In addition, reference values for time information analysis include:
Set the value on the time axis. The time weight of a keyword close to the set reference value increases.

【0026】また、履歴情報解析における基準値には、
履歴情報12の文書を要素とする基準ベクトルを設定す
る。この基準ベクトルに対してどの要素に比重を置いて
重みを算出するのかを決定する。例えば「検索操作時の
入力文字列」という要素を大きくした基準ベクトルを基
準値として設定した場合には、「検索操作時の入力文字
列」に使用されているキーワードに大きな比重が置か
れ、履歴重みが算出される。
The reference values in the history information analysis include:
A reference vector having the document of the history information 12 as an element is set. With respect to this reference vector, it is determined which element is to be given a specific gravity and the weight is calculated. For example, if a reference vector in which the element “input character string at the time of the search operation” is enlarged is set as the reference value, the keyword used in the “input character string at the time of the search operation” has a large weight, Weights are calculated.

【0027】第2の制御として、文書構造解析部2、時
間情報解析部3、履歴解析部4で算出した重みから、カ
テゴリ度算出部6においてカテゴリ度を導く際にそれぞ
れの重みの比重を制御する。
As a second control, when the categorical degree is derived in the categorical degree calculating section 6 from the weights calculated by the document structure analyzing section 2, the time information analyzing section 3, and the history analyzing section 4, the specific weight of each weight is controlled. I do.

【0028】第3の制御として、カテゴリキーワードの
数を制御する。分類対象文書11の数が多い場合にはカ
テゴリキーワードとして登録するキーワード数を増加さ
せ、逆に分類対象文書11の数が少ない場合にはカテゴ
リキーワードとして登録するキーワード数を減少させ
る。
As a third control, the number of category keywords is controlled. When the number of classification target documents 11 is large, the number of keywords registered as category keywords is increased, and when the number of classification target documents 11 is small, the number of keywords registered as category keywords is reduced.

【0029】第4の制御として、分類先の文書数の最大
値及び最小値を制御する。分類先の文書数が最大値を超
えた場合には、新たにカテゴリキーワードを登録して再
分類する。また、分類先の文書数が最小値に満たない場
合には、そのカテゴリを分類先とせず他のカテゴリに分
類する。
As a fourth control, the maximum value and the minimum value of the number of documents to be classified are controlled. If the number of documents to be classified exceeds the maximum value, a new category keyword is registered and re-classified. If the number of documents to be classified is less than the minimum value, the category is not classified and classified into another category.

【0030】カテゴリ度算出部6は、文書構造解析部
2、時間情報解析部3及び履歴解析部4からキーワード
毎にカテゴリベクトルを導き、カテゴリベクトルの大き
さからカテゴリ度を算出する。カテゴリベクトルは、構
造重み、時間重み及び履歴重みの3要素からなり、各重
みに対する比重は制御部5により与えられる。
The category degree calculation unit 6 derives a category vector for each keyword from the document structure analysis unit 2, the time information analysis unit 3, and the history analysis unit 4, and calculates the category degree from the size of the category vector. The category vector is made up of three elements, a structure weight, a time weight, and a history weight, and a specific weight for each weight is given by the control unit 5.

【0031】上述のように、カテゴリベクトルを導出す
る際には、各重みに対する比重を変更できる。文書構造
上の重みの比重を大きくした場合には、キーワードの重
要性を重視したカテゴリベクトルが導出される。文書の
保存日時の情報に基づく話題的要素である時間重みの比
重を大きくした場合には、話題性を重視したカテゴリベ
クトルが導出される。文書の格納場所の情報を利用して
ユーザの操作履歴の情報による嗜好的要素である履歴重
みの比重を大きくした場合には、ユーザの嗜好を重視し
たカテゴリベクトルが導出される。
As described above, when deriving the category vector, the specific gravity for each weight can be changed. When the weight of the weight in the document structure is increased, a category vector that emphasizes the importance of the keyword is derived. When the relative weight of the time weight, which is a topical element based on the information on the date and time of storage of the document, is increased, a category vector that emphasizes topicality is derived. When the weight of the history weight, which is a preference element based on the information on the operation history of the user, is increased by using the information on the storage location of the document, a category vector that emphasizes the preference of the user is derived.

【0032】カテゴリキーワード登録部7は、カテゴリ
度算出部6で算出されたカテゴリ度に基づいて、カテゴ
リキーワードを登録する。例えば、分類対象文書11及
び履歴情報12の文書から抽出したキーワードをカテゴ
リ度の高いものから順に、制御部5から与えされたカテ
ゴリキーワード数の上限まで登録する。
The category keyword registration unit 7 registers a category keyword based on the category degree calculated by the category degree calculation unit 6. For example, the keywords extracted from the documents to be classified 11 and the documents of the history information 12 are registered in ascending order of category degree up to the upper limit of the number of category keywords given by the control unit 5.

【0033】カテゴライズ部8は、カテゴリキーワード
登録部7により登録されたカテゴリキーワードの中か
ら、カテゴリ度が最も高いカテゴリキーワードを分類対
象文書11の分類先としてカテゴライズする。格納部9
は、カテゴライズ部8からの分類先の指示に基づいて分
類対象文書11を格納する。
The categorizing unit 8 categorizes the category keyword having the highest category degree from the category keywords registered by the category keyword registering unit 7 as the classification destination of the document 11 to be classified. Storage unit 9
Stores the classification target document 11 based on a classification destination instruction from the categorizing unit 8.

【0034】次に、図2から図6に示すフローチャート
を参照して、本実施の形態による文書分類装置の動作を
説明する。図2は、本実施の形態による文書分類装置の
文書分類処理を説明するフローチャートである。はじめ
に、ステップS11では、分類対象文書11から抽出し
たキーワードの中からカテゴリキーワードを登録し、次
いで、ステップS12で、分類対象文書11をカテゴラ
イズする。
Next, the operation of the document classification device according to the present embodiment will be described with reference to the flowcharts shown in FIGS. FIG. 2 is a flowchart illustrating a document classification process of the document classification device according to the present embodiment. First, in step S11, a category keyword is registered from the keywords extracted from the classification target document 11, and then, in step S12, the classification target document 11 is categorized.

【0035】ステップS13では、分類先の文書数が、
設定されている基準最小値以下であるか否かを判別す
る。ここで、分類先の文書数が基準最小値以下である場
合には、分類先として設定されているカテゴリキーワー
ドはカテゴリとして相応しくないと判断して削除し、ス
テップS12に戻りカテゴライズ処理を再度実行する。
また、分類先の文書数が基準最小値より大きい場合に
は、ステップS14に進む。
In step S13, the number of documents to be classified is
It is determined whether or not the value is equal to or less than the set reference minimum value. If the number of documents to be classified is equal to or less than the reference minimum value, the category keyword set as the classification destination is determined to be inappropriate as a category and is deleted, and the process returns to step S12 to execute the categorizing process again. .
If the number of documents to be classified is larger than the reference minimum value, the process proceeds to step S14.

【0036】ステップS14では、分類先の文書数が設
定されている基準最大値以上であるか否かを判別する。
ここで、分類先の文書数が基準最大値以上である場合に
は、より小さい単位のカテゴリに分類可能であると判断
してカテゴリキーワードを新しく追加登録し、ステップ
S12に戻りカテゴライズ処理を再度実行する。また、
分類先の文書数が基準最大値より小さい場合には、ステ
ップS15に進み分類対象文書11を分類先に各々格納
する。
In step S14, it is determined whether or not the number of documents to be classified is equal to or greater than a set reference maximum value.
If the number of documents to be classified is equal to or greater than the reference maximum value, it is determined that the document can be classified into a smaller unit category, a category keyword is newly registered, and the process returns to step S12 to execute the categorizing process again. I do. Also,
If the number of documents to be classified is smaller than the reference maximum value, the process proceeds to step S15, and the classification target documents 11 are stored in the classification destination.

【0037】図3は、本実施の形態による文書分類装置
のカテゴリキーワード登録処理を説明するフローチャー
トであり、図2のステップS11の処理に対応する。は
じめに、ステップS21では、分類対象文書11及び履
歴情報12の文書からキーワードを抽出し、次いで、ス
テップS22で、抽出されたキーワード毎にカテゴリ度
を算出する。
FIG. 3 is a flowchart for explaining the category keyword registration processing of the document classification device according to the present embodiment, and corresponds to the processing in step S11 in FIG. First, in step S21, keywords are extracted from the documents to be classified 11 and the documents of the history information 12, and then, in step S22, the categorization is calculated for each of the extracted keywords.

【0038】次いで、ステップS23で、算出されたカ
テゴリ度と基準値とを比較する。ここで、算出されたカ
テゴリ度が基準値以上の場合には、ステップS24に進
みカテゴリキーワードとして登録する。また、算出され
たカテゴリ度が基準値以下の場合にはステップS25に
進む。
Next, in step S23, the calculated category degree is compared with the reference value. Here, if the calculated category degree is equal to or larger than the reference value, the process proceeds to step S24 and is registered as a category keyword. If the calculated category degree is equal to or smaller than the reference value, the process proceeds to step S25.

【0039】ステップS25では、全てのキーワードを
検索したか否かを判別し、全てのキーワードが検索され
たと判断された場合には、カテゴリキーワードの登録処
理を完了する。また、全てのキーワードが検索されてい
ない場合には、ステップS21に戻り次のキーワードの
処理に移る。
In step S25, it is determined whether all the keywords have been searched. If it is determined that all the keywords have been searched, the category keyword registration processing is completed. If not all keywords have been searched, the process returns to step S21 and proceeds to the processing of the next keyword.

【0040】図4は、本実施の形態による文書分類装置
のカテゴリ度算出処理を説明するフローチャートであ
り、図3のステップS22の処理に対応する。はじめ
に、ステップS31では、文書構造に基づく構造重みを
算出する。文書構造解析部2は、キーワード抽出部1で
抽出されたキーワードのうち、分類対象文書11に含ま
れるキーワードの文書構造を調べ、キーワード毎に時間
重みを算出する。上述のように文書構造は、分類対象文
書11と履歴情報12の文書において、該キーワードが
使用されている場所又は文字サイズ等を示す。
FIG. 4 is a flowchart for explaining the category degree calculation processing of the document classification device according to the present embodiment, and corresponds to the processing in step S22 in FIG. First, in step S31, a structure weight based on the document structure is calculated. The document structure analysis unit 2 checks the document structure of the keywords included in the classification target document 11 among the keywords extracted by the keyword extraction unit 1, and calculates a time weight for each keyword. As described above, the document structure indicates the place where the keyword is used, the character size, and the like in the documents of the classification target document 11 and the history information 12.

【0041】構造重みの基準値には、見出し、表題、図
題、ハイパーリンク、強調表示、及びフォントを要素と
する基準ベクトルが設定される。基準ベクトルに基づい
た配分で重み付けを行う。例えば、ハイパーリンクに比
重を置いた基準ベクトルに基づいた重み付けでは、ハイ
パーリンクに使用されているキーワードの構造重みは大
きくなる。この基準ベクトルは予め設定されているが、
ユーザが適宜変更することができる。
As the reference value of the structure weight, a reference vector having a heading, a title, a title, a hyperlink, a highlight, and a font as elements is set. Weighting is performed by distribution based on the reference vector. For example, in weighting based on a reference vector in which a specific gravity is given to a hyperlink, the structural weight of the keyword used for the hyperlink becomes large. This reference vector is set in advance,
The user can change it appropriately.

【0042】次いで、ステップS32で、日時情報に基
づく時間重みを算出する。時間情報解析部3は、キーワ
ード抽出部1で抽出されたキーワードのうち、分類対象
文書11に含まれるキーワードを含む文書が有する日時
情報を調べ、キーワード毎に時間重みを算出する。上述
のように日時情報は、該キーワードが出現した日時を示
す。ただし、複数の文書で該キーワードが出現した場合
には、各文書内での出現回数と各文書の保存日時から算
出した値を日時情報とする。時間重み算出における基準
値には、時間紬上の値を設定する。設定された基準値に
近いキーワードの時間重みは大きくなる。
Next, in step S32, a time weight based on the date and time information is calculated. The time information analysis unit 3 examines date and time information of a document including the keyword included in the classification target document 11 among the keywords extracted by the keyword extraction unit 1, and calculates a time weight for each keyword. As described above, the date and time information indicates the date and time when the keyword appears. However, when the keyword appears in a plurality of documents, the value calculated from the number of appearances in each document and the storage date and time of each document is used as date and time information. The value on the time code is set as the reference value in the time weight calculation. The time weight of a keyword close to the set reference value increases.

【0043】ステップS33では、履歴情報12に基づ
く履歴重みを算出する。履歴解析部4は、キーワード抽
出部1で抽出されたキーワードのうち、分類対象文書1
1に含まれるキーワードを含む文書の保存場所を調べ、
キーワード毎に履歴重みを算出する。
In step S33, a history weight based on the history information 12 is calculated. The history analysis unit 4 includes, among the keywords extracted by the keyword extraction unit 1,
Find the storage location of the document containing the keyword contained in 1,
A history weight is calculated for each keyword.

【0044】履歴重みの基準値には、履歴情報12の文
書を要素とする基準ベクトルを設定する。基準ベクトル
に基づいてどの要素に比重を置いて重みを算出するのか
を決定する。例えば、「検索操作時の入力文字列」とい
う要素を大きくしたベクトルを基準値として設定する
と、「検索操作時の入力文字列」に使用されているキー
ワードに大きな比重をおかれ、履歴重みが算出される。
As the reference value of the history weight, a reference vector having the document of the history information 12 as an element is set. Based on the reference vector, it is determined which element is to be weighted with a specific gravity. For example, if a vector in which the element “input character string at the time of the search operation” is increased is set as the reference value, the keyword used in the “input character string at the time of the search operation” is given a high specific gravity, and the history weight is calculated. Is done.

【0045】ステップS34では、キーワード毎に算出
された構造重み、時間重み及び履歴重みを要素とするカ
テゴリベクトルを導出する。導出されたカテゴリベクト
ルは、制御部5からの各重みに対する比重を考慮して各
重みの大きさが変更される。次いで、ステップS35
で、導出されたカテゴリベクトルの大きさからカテゴリ
度を算出する。
In step S34, a category vector having the structural weight, time weight, and history weight calculated for each keyword as elements is derived. The magnitude of each weight of the derived category vector is changed in consideration of the specific gravity of each weight from the control unit 5. Next, step S35
Then, the category degree is calculated from the magnitude of the derived category vector.

【0046】図5は、本実施の形態による文書分類装置
のカテゴライズ処理を示すフローチャートであり、図2
のステップS12の処理に対応する。はじめに、ステッ
プS41では、分類対象文書11に対して登録されてい
るカテゴリキーワードを検索し、次いで、ステップS4
2で、分類対象文書11からカテゴリキーワードが見つ
かったか否かを判断する。
FIG. 5 is a flowchart showing a categorizing process of the document classification device according to the present embodiment.
Corresponds to the processing of step S12. First, in step S41, a category keyword registered for the classification target document 11 is searched, and then in step S4
In step 2, it is determined whether or not a category keyword has been found in the classification target document 11.

【0047】ステップS42において、分類対象文書1
1からカテゴリキーワードが見つかった場合には、ステ
ップS43に進む。ステップS43では、カテゴリキー
ワードの中で最もカテゴリ度の高いものを検索し、最も
カテゴリ度が高いカテゴリキーワードをカテゴリに分類
する。
In step S42, classification target document 1
If a category keyword is found from 1, the process proceeds to step S43. In step S43, the category keyword having the highest category degree is searched for, and the category keyword having the highest category degree is classified into categories.

【0048】また、該分類対象文書11からカテゴリキ
ーワードが見つからなかった場合には、ステップS44
に進み類似カテゴリ検索を行う。ステップS44では、
該分類対象文書11が最も類似するカテゴリキーワード
を分類先とする。
If no category keyword is found in the classification target document 11, step S44
To perform a similar category search. In step S44,
The category keyword to which the classification target document 11 is most similar is set as the classification destination.

【0049】図6は、本実施の形態による文書分類装置
の類似カテゴリ検索処理を示すフローチャートであり、
図5のステップS44の処理に対応する。分類対象文書
11中にカテゴリキーワードとなるキーワードが存在し
ないので、まずステップS51で、該分類対象文書11
から抽出された各キーワードに対応するカテゴリベクト
ルの平均を算出し、算出した平均を該分類対象文書自身
のカテゴリベクトルとする。
FIG. 6 is a flowchart showing a similar category search process of the document classification device according to the present embodiment.
This corresponds to the process of step S44 in FIG. Since there is no keyword serving as a category keyword in the classification target document 11, first in step S51, the classification target document 11
The average of the category vectors corresponding to the respective keywords extracted from is calculated, and the calculated average is used as the category vector of the classification target document itself.

【0050】次いで、ステップS52で、ステップS5
1で算出した文書のカテゴリベクトルと、カテゴリキー
ワードのカテゴリベクトルとの類似度を算出する。次い
で、ステップS53で、算出された類似度が最大値を超
えたか否かを判別する。
Next, in step S52, step S5
The similarity between the category vector of the document calculated in step 1 and the category vector of the category keyword is calculated. Next, in a step S53, it is determined whether or not the calculated similarity exceeds a maximum value.

【0051】ステップS53において、算出された類似
度が最大値を超える場合には、ステップS54及びステ
ップS55で、類似度の最大値及び類似カテゴリを更新
する。また、算出された類似度が最大値を超えない場合
には、ステップS56に移る。
If the calculated similarity exceeds the maximum value in step S53, the maximum similarity value and the similar category are updated in steps S54 and S55. If the calculated similarity does not exceed the maximum value, the process proceeds to step S56.

【0052】ステップS56では、文書のカテゴリベク
トルと、全てのカテゴリキーワードのカテゴリベクトル
との比較が終了したか否かを判別する。ここで、全ての
カテゴリキーワードのカテゴリベクトルとの比較が終了
した場合には類似カテゴリ検索処理を終了する。また、
全てのカテゴリキーワードのカテゴリベクトルとの比較
が終了していないと判断された場合には、ステップS5
2の処理に戻り、次のカテゴリキーワードの類似カテゴ
リ検索を行う。以上により、最も類似度が大きいカテゴ
リキーワードが該分類対象文書11の分類先となる。
In step S56, it is determined whether the comparison between the category vector of the document and the category vectors of all category keywords has been completed. Here, when the comparison with the category vectors of all the category keywords is completed, the similar category search processing is completed. Also,
If it is determined that the comparison with the category vectors of all the category keywords has not been completed, step S5
Returning to the process of step 2, a similar category search for the next category keyword is performed. As described above, the category keyword having the highest similarity is the classification destination of the classification target document 11.

【0053】以上説明したように、本実施の形態の文書
分類装置は、管理可能な文書の集合からキーワードを抽
出するキーワード抽出部1と、分類対象文書11から抽
出したキーワードに対して、文書中の構造に基づく構造
重みを算出する文書構造解析部2と、文書の作成日時情
報からキーワード出現の時間的な位置付けを時間重みと
して算出する時間情報解析部3と、ユーザの操作履歴情
報を履歴重みとして算出する履歴解析部4と、上記構造
重みと、時間重み及び履歴重みとからキーワードのカテ
ゴリベクトルを導出し、該ベクトルの大きさをカテゴリ
度とするカテゴリ度算出部6と、該カテゴリ度を有する
キーワードからカテゴリとなるカテゴリキーワードを選
出し登録するカテゴリキーワード登録部7と、分類対象
文書11の分類先を判別するカテゴライズ部8と、該分
類先に分類対象文書11を格納する格納部9と、分類先
集合内の文書数により分類を制御する制御部5を備え、
分類対象文書11から抽出したキーワードのみでなく、
文書作成日時等の時間情報や蓄積しているユーザの操作
履歴情報を利用して文書分類先を決定するように構成し
たので、話題性を加味したカテゴライズとユーザの嗜好
に合ったカテゴライズを実現することができる。
As described above, the document classifying apparatus according to the present embodiment uses the keyword extracting unit 1 for extracting a keyword from a set of manageable documents, A document structure analysis unit 2 for calculating a structure weight based on the structure of the document, a time information analysis unit 3 for calculating a temporal position of a keyword appearance from the document creation date / time information as a time weight, and a history weight for user operation history information. A history analysis unit 4 which calculates a category vector of a keyword from the structure weight, the time weight and the history weight, and a categorical degree calculating unit 6 which sets the magnitude of the vector as a categorical degree; A category keyword registration unit 7 for selecting and registering a category keyword as a category from the keywords possessed by the user, It includes a categorization unit 8 to determine, a storage unit 9 for storing the classifying target document 11 on the classification destination, the control unit 5 for controlling the classification by the document number of grouping destinations in the set,
Not only keywords extracted from the classification target document 11, but also
Since the document classification destination is determined using the time information such as the document creation date and the accumulated operation history information of the user, the categorization considering the topicality and the categorization matching the user's preference are realized. be able to.

【0054】なお、本実施の形態では、解析部10によ
り構造重み、時間重み及び履歴重みを各々算出し、分類
部13により制御部5からの重みの比重の指示に基づい
て各重みを要素とするカテゴリベクトルを導出してい
る。本発明は上記実施の形態に限定されず、制御部5の
比重の指示による特別なケースとして、キーワードの重
要度(構造重み)、話題性(時間重み)又はユーザの嗜
好(履歴重み)の少なくとも一つを重視し、重視した重
みのみを要素とするカテゴリベクトルを導出して文書分
類処理を行う構成であれば良い。
In the present embodiment, the analysis unit 10 calculates the structure weight, the time weight, and the history weight, respectively, and the classification unit 13 uses the weights as elements based on the weight specific instructions from the control unit 5. Categorical vector is derived. The present invention is not limited to the above-described embodiment. As a special case in which the specific gravity is instructed by the control unit 5, at least the keyword importance (structure weight), topicality (time weight), or user preference (history weight) is used. Any configuration may be used as long as one is emphasized and a category vector is derived in which only the emphasized weight is used as an element to perform document classification processing.

【0055】また、本実施の形態では、分類部13をカ
テゴリ度算出部6、カテゴリキーワード登録部7、カテ
ゴライズ部8及び格納部9に分けて示しているが本発明
を限定するものではなく、解析部10により算出される
各重みに基づいて、分類対象文書11を自動的に分類す
る構成であれば良い。
In the present embodiment, the classifying unit 13 is divided into the category degree calculating unit 6, the category keyword registering unit 7, the categorizing unit 8 and the storing unit 9, but the present invention is not limited thereto. Any configuration may be used as long as the classification target document 11 is automatically classified based on each weight calculated by the analysis unit 10.

【0056】上述したように、本発明の文書分類装置
は、本文書分類装置を機能させるためのプログラムでも
実現される。このプログラムはコンピュータで読み取り
可能な記録媒体に格納されている。本発明では、この記
録媒体としてROM(図示せず)そのものがプログラム
メディアであっても良いし、また、外部記憶装置として
CD−ROMドライブ14等のプログラム読み取り装置
が設けられ、そこに記録媒体を挿入することで読み取り
可能なCD−ROM15等のプログラムメディアであっ
ても良い。いずれの場合においても、格納されているプ
ログラムは制御部5がアクセスして実行させる構成であ
っても良いし、プログラムを読み出し、読み出されたプ
ログラムは、図示されていないプログラム記憶エリアに
ダウンロードされて、そのプログラムが実行される方式
であっても良い。このダウンロード用のプログラムは予
め本体装置に格納されているものとする。
As described above, the document classification device of the present invention is also realized by a program for causing the document classification device to function. This program is stored in a computer-readable recording medium. In the present invention, a ROM (not shown) itself may be a program medium as the recording medium, or a program reading device such as a CD-ROM drive 14 is provided as an external storage device, and the recording medium is stored therein. It may be a program medium such as a CD-ROM 15 which can be read by being inserted. In any case, the stored program may be accessed and executed by the control unit 5, or the program may be read, and the read program may be downloaded to a program storage area (not shown). Alternatively, a method in which the program is executed may be used. It is assumed that this download program is stored in the main unit in advance.

【0057】ここで上記プログラムメディアは、本体と
分離可能に構成される記録媒体であり、磁気テープやカ
セットテープ等のテープ系、フロッピーディスクやハー
ドディスク等の磁気ディスクやCD−ROM/MO/M
D/DVD等の光ディスクのディスク系、ICカード
(メモリカードを含む)/光カード等のカード系、ある
いはマスクROM、EPROM、EEPROM、フラッ
シュROM等による半導体メモリを含めた固定的にプロ
グラムを担持する媒体であっても良い。
Here, the program medium is a recording medium configured to be separable from the main body, such as a tape system such as a magnetic tape or a cassette tape, a magnetic disk such as a floppy disk or a hard disk, or a CD-ROM / MO / M.
It carries a fixed program including a disk system of an optical disk such as a D / DVD, a card system such as an IC card (including a memory card) / optical card, or a semiconductor memory such as a mask ROM, EPROM, EEPROM, flash ROM, or the like. It may be a medium.

【0058】さらに、送受信手段(図示せず)を介して
通信ネットワーク(図示せず)からプログラムをダウン
ロードするように、流動的にプログラムを担持する媒体
であっても良い。なお、このように通信ネットワークか
らプログラムをダウンロードする場合には、そのダウン
ロード用プログラムは予め装置本体に格納しておくか、
あるいは別な記録媒体からインストールされるものであ
っても良い。なお、記録媒体に格納されている内容とし
てはプログラムに限定されず、データであっても良い。
Further, the medium may carry a program in a fluid manner such that the program is downloaded from a communication network (not shown) via a transmitting / receiving means (not shown). When the program is downloaded from the communication network in this manner, the download program is stored in advance in the apparatus main body,
Alternatively, it may be installed from another recording medium. The content stored in the recording medium is not limited to a program, but may be data.

【0059】[0059]

【発明の効果】本発明によれば、キーワード自身の重要
度、話題性又はユーザの嗜好に合ったカテゴリを抽出し
て、分類対象文書を自動的に分類できる。また、キーワ
ード自身の重要度、話題性及びユーザの嗜好の各々に対
応する重みの比重を自由に変更することにより、ユーザ
ニーズに適したシステムを実現できる。
According to the present invention, it is possible to automatically classify documents to be classified by extracting a category that matches the degree of importance, topicality, or user preference of the keyword itself. In addition, a system suitable for user needs can be realized by freely changing the specific gravity of the weight corresponding to each of the importance of the keyword itself, topicality, and user preference.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の形態による文書分類装置の構成
を説明するブロック図である。
FIG. 1 is a block diagram illustrating a configuration of a document classification device according to an embodiment of the present invention.

【図2】本発明の実施の形態による文書分類装置の文書
分類処理を説明するフローチャートである。
FIG. 2 is a flowchart illustrating a document classification process of the document classification device according to the embodiment of the present invention.

【図3】本発明の実施の形態による文書分類装置のカテ
ゴリキーワード登録処理を説明するフローチャートであ
る。
FIG. 3 is a flowchart illustrating a category keyword registration process of the document classification device according to the embodiment of the present invention.

【図4】本発明の実施の形態による文書分類装置のカテ
ゴリ度算出処理を説明するフローチャートである。
FIG. 4 is a flowchart illustrating a category degree calculation process of the document classification device according to the embodiment of the present invention.

【図5】本発明の実施の形態による文書分類装置の文書
のカテゴライズ処理を説明するフローチャートである。
FIG. 5 is a flowchart illustrating a document categorizing process of the document classification device according to the embodiment of the present invention.

【図6】本発明の実施の形態による文書分類装置の類似
カテゴリ検索処理を説明するフローチャートである。
FIG. 6 is a flowchart illustrating a similar category search process of the document classification device according to the embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1:キーワード抽出部(抽出手段) 2:文書構造解析部 3:時間情報解析部 4:履歴解析部 5:制御部(制御手段) 6:カテゴリ度算出部 7:カテゴリキーワード登録部 8:カテゴライズ部 9:格納部 10:解析部(重み算出手段) 11:分類対象文書 12:履歴情報 13:分類部(分類手段) 14:CD−ROMドライブ 15:CD−ROM(記録媒体) 1: Keyword extraction unit (extraction means) 2: Document structure analysis unit 3: Time information analysis unit 4: History analysis unit 5: Control unit (control means) 6: Category degree calculation unit 7: Category keyword registration unit 8: Categorization unit 9: storage unit 10: analysis unit (weight calculation unit) 11: classification target document 12: history information 13: classification unit (classification unit) 14: CD-ROM drive 15: CD-ROM (recording medium)

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 文書を記憶する記憶手段と、前記記憶手
段に記憶されている前記文書からキーワードを抽出する
抽出手段と、前記抽出手段により抽出されるキーワード
の重要度、前記キーワードを含む文書の保存日時又は保
存場所の少なくとも一つに基づいて、前記キーワードを
前記文書の分類先にする重みを算出する重み算出手段
と、前記重み算出手段により算出される前記重みに基づ
いて、前記文書を分類する分類手段と、を備えることを
特徴とする文書分類装置。
1. A storage unit for storing a document, an extraction unit for extracting a keyword from the document stored in the storage unit, a degree of importance of the keyword extracted by the extraction unit, Weight calculating means for calculating a weight of the keyword as a classification destination of the document based on at least one of a storage date and time and a storage location; and classifying the document based on the weight calculated by the weight calculating means. A document classification device comprising:
【請求項2】 前記重み算出手段は、前記キーワードが
前記文書の見出し、表題、図題、ハイパーリンク又は強
調表示、又は固有名詞の少なくとも一つに使用されてい
る場合に前記重みを変える、ことを特徴とする請求項1
記載の文書分類装置。
2. The method according to claim 1, wherein the weight calculation unit changes the weight when the keyword is used in at least one of a heading, a title, a title, a hyperlink or highlighting of the document, or a proper noun. Claim 1 characterized by the following:
Document classification device as described.
【請求項3】 前記重み算出手段は、前記キーワードを
含む前記文書の前記保存日時から前記キーワードが出現
する日時を算出し、該算出日時と所定の基準日時との比
較に基づいて前記重みを算出する、ことを特徴とする請
求項1記載の文書分類装置。
3. The weight calculating means calculates a date and time at which the keyword appears from the storage date and time of the document including the keyword, and calculates the weight based on a comparison between the calculated date and time and a predetermined reference date and time. 2. The document classification device according to claim 1, wherein:
【請求項4】 前記重み算出手段は、前記キーワードを
含む前記文書が所定のブラウザのキャッシュ、該ブラウ
ザのお気に入りファイル又はブックマークのリンク先、
検索時の文字入力列、ユーザが行った階層分類構造、又
は自動分類された階層構造の少なくとも一つである場合
に前記重みを変える、ことを特徴とする請求項1記載の
文書分類装置。
4. The weight calculation means, wherein the document including the keyword is a cache of a predetermined browser, a link destination of a favorite file or a bookmark of the browser,
2. The document classification apparatus according to claim 1, wherein the weight is changed in a case where at least one of a character input string at the time of search, a hierarchical classification structure performed by a user, and an automatically classified hierarchical structure.
【請求項5】 前記重み算出手段により算出される前記
重みに対する比重を制御する制御手段を更に備え、前記
分類手段は、前記制御手段からの比重と前記算出手段に
より算出される前記重みとに基づいて、前記文書を分類
する、ことを特徴とする請求項1記載の文書分類装置。
5. A control unit for controlling a specific gravity of the weight calculated by the weight calculating unit, wherein the classifying unit is configured to determine a specific gravity based on the specific gravity from the control unit and the weight calculated by the calculating unit. 2. The document classification device according to claim 1, wherein the document is classified.
【請求項6】 コンピュータを、文書を記憶する記憶手
段と、前記記憶手段に記憶されている前記文書からキー
ワードを抽出する抽出手段と、前記抽出手段により抽出
されるキーワードの重要度、前記キーワードを含む文書
の保存日時又は保存場所の少なくとも一つに基づいて、
前記キーワードを前記文書の分類先にする重みを算出す
る重み算出手段と、前記重み算出手段により算出される
前記重みに基づいて、前記文書を分類する分類手段と、
を備える文書分類装置として機能させるためのプログラ
ムを記録したことを特徴とするコンピュータ読み取り可
能な記録媒体。
6. A computer, comprising: storage means for storing a document; extraction means for extracting a keyword from the document stored in the storage means; importance of the keyword extracted by the extraction means; Based on at least one of the storage date and time or storage location of the containing document,
Weight calculating means for calculating a weight of the keyword as a classification destination of the document, and a classifying means for classifying the document based on the weight calculated by the weight calculating means,
A computer-readable recording medium on which a program for causing a computer to function as a document classification device comprising:
JP35355699A 1999-12-13 1999-12-13 Document classification device and recording medium recording document classification program Pending JP2001167124A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35355699A JP2001167124A (en) 1999-12-13 1999-12-13 Document classification device and recording medium recording document classification program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35355699A JP2001167124A (en) 1999-12-13 1999-12-13 Document classification device and recording medium recording document classification program

Publications (1)

Publication Number Publication Date
JP2001167124A true JP2001167124A (en) 2001-06-22

Family

ID=18431649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35355699A Pending JP2001167124A (en) 1999-12-13 1999-12-13 Document classification device and recording medium recording document classification program

Country Status (1)

Country Link
JP (1) JP2001167124A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003208434A (en) * 2001-11-07 2003-07-25 Nec Corp Information retrieval system, and information retrieval method using the same
JP2005085285A (en) * 2003-09-10 2005-03-31 Microsoft Corp Annotation management in pen-based computing system
WO2006087854A1 (en) * 2004-11-25 2006-08-24 Sharp Kabushiki Kaisha Information classifying device, information classifying method, information classifying program, information classifying system
JP2007172249A (en) * 2005-12-21 2007-07-05 Fujitsu Ltd Document classification program, document classification apparatus, and document classification method
JP2008077227A (en) * 2006-09-19 2008-04-03 Access Co Ltd Link generation device, browser program, link generation system
JP2008268985A (en) * 2007-04-16 2008-11-06 Yahoo Japan Corp How to add tags
US10191940B2 (en) 2007-09-04 2019-01-29 Microsoft Technology Licensing, Llc Gesture-based searching

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221243A (en) * 1995-02-16 1996-08-30 Sony Corp Method for displaying information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221243A (en) * 1995-02-16 1996-08-30 Sony Corp Method for displaying information

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003208434A (en) * 2001-11-07 2003-07-25 Nec Corp Information retrieval system, and information retrieval method using the same
JP2005085285A (en) * 2003-09-10 2005-03-31 Microsoft Corp Annotation management in pen-based computing system
WO2006087854A1 (en) * 2004-11-25 2006-08-24 Sharp Kabushiki Kaisha Information classifying device, information classifying method, information classifying program, information classifying system
US7693683B2 (en) 2004-11-25 2010-04-06 Sharp Kabushiki Kaisha Information classifying device, information classifying method, information classifying program, information classifying system
JP2007172249A (en) * 2005-12-21 2007-07-05 Fujitsu Ltd Document classification program, document classification apparatus, and document classification method
JP2008077227A (en) * 2006-09-19 2008-04-03 Access Co Ltd Link generation device, browser program, link generation system
JP2008268985A (en) * 2007-04-16 2008-11-06 Yahoo Japan Corp How to add tags
US10191940B2 (en) 2007-09-04 2019-01-29 Microsoft Technology Licensing, Llc Gesture-based searching

Similar Documents

Publication Publication Date Title
JP4726528B2 (en) Suggested related terms for multisense queries
KR100682897B1 (en) Dictionary update method and device
US7676745B2 (en) Document segmentation based on visual gaps
WO2016180270A1 (en) Webpage classification method and apparatus, calculation device and machine readable storage medium
JP3665480B2 (en) Document organizing apparatus and method
JP4633803B2 (en) Ambiguous geographic reference classification
US20040243408A1 (en) Method and apparatus using source-channel models for word segmentation
CN111858912A (en) Abstract generation method based on single long text
JP2004126840A (en) Document search method, program and system
KR20180011254A (en) Web page training methods and devices, and search intent identification methods and devices
JP3997412B2 (en) Information processing apparatus and method, recording medium, and program
JP2004348591A (en) Document search method and apparatus
JP2002230021A (en) Information retrieval apparatus, information retrieval method, and storage medium
JP2007528520A (en) Method and system for managing websites registered with search engines
WO2006062868A2 (en) Systems and methods for managing and using multiple concept networks for assisted search processing
CN110532450B (en) A Topic Crawler Method Based on Improved Shark Search
KR20080024712A (en) Mobile information retrieval method, classification method and information retrieval system using user's search history
CN107861948B (en) Label extraction method, device, equipment and medium
CN114117038A (en) Document classification method, device and system and electronic equipment
US8533150B2 (en) Search index generation apparatus
JP2001167124A (en) Document classification device and recording medium recording document classification program
AU2022204724B1 (en) Supervised machine learning method for matching unsupervised data
JP2003167907A (en) Information providing method and system therefor
JP4606349B2 (en) Topic image extraction method, apparatus, and program
CN100412864C (en) Full text retrieval system and method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041214

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051115