[go: up one dir, main page]

JPH08339376A - Foreign language search device and information search system - Google Patents

Foreign language search device and information search system

Info

Publication number
JPH08339376A
JPH08339376A JP7144625A JP14462595A JPH08339376A JP H08339376 A JPH08339376 A JP H08339376A JP 7144625 A JP7144625 A JP 7144625A JP 14462595 A JP14462595 A JP 14462595A JP H08339376 A JPH08339376 A JP H08339376A
Authority
JP
Japan
Prior art keywords
katakana
word
foreign language
phonetic symbol
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7144625A
Other languages
Japanese (ja)
Inventor
Toru Komiyama
徹 小宮山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP7144625A priority Critical patent/JPH08339376A/en
Publication of JPH08339376A publication Critical patent/JPH08339376A/en
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 データベースに登録されている外国語単語を
カタカナ単語で効率よく検索する。 【構成】 各発音記号とカタカナ文字との対応を記憶す
る発音記号・カタカナ対応テーブル7と、登録データ入
力部1から入力された外国語単語及び発音記号からなる
登録データの発音記号を発音記号・カタカナ対応テーブ
ルを用いてカタカナ単語に変換する発音記号カタカナ変
換手段3と、登録データの外国語単語及び変換されたカ
タカナ単語を記憶保持するデータベース3と、検索キー
ワード入力部4から入力された検索キーワードのカタカ
ナ単語のデータベース8に記憶された各カタカナ単語に
対する単語類似度Riを算出する単語類似度算出手段5
と、算出された単語類似度Riが規定値以上のカタカナ
単語に対応する外国語単語を検索キーワードに対する検
索結果として出力する出力部6を備えている。
(57) [Summary] [Purpose] Efficiently search foreign words registered in the database using katakana words. [Structure] A phonetic symbol / katakana correspondence table 7 that stores the correspondence between each phonetic symbol and katakana characters, and the phonetic symbols of registered data consisting of foreign words and phonetic symbols input from the registered data input unit 1 Phonetic symbol katakana conversion means 3 for converting to katakana words using the katakana correspondence table, a database 3 for storing and holding foreign words of registered data and converted katakana words, and a search keyword input from the search keyword input unit 4. Word similarity calculation means 5 for calculating the word similarity Ri for each katakana word stored in the katakana word database 8 of
And an output unit 6 for outputting, as a search result for a search keyword, a foreign word corresponding to a katakana word having a calculated word similarity Ri of a specified value or more.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、データベースに登録さ
れた外国語単語をカタカナ単語からなる検索キーワード
で検索できる外国語検索装置及びこの外国語検索装置が
組込まれた情報検索システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a foreign language search device capable of searching a foreign language word registered in a database with a search keyword consisting of katakana words, and an information search system incorporating the foreign language search device.

【0002】[0002]

【従来の技術】一般の情報検索システムにおいて、デー
タベースに新規の文献等を登録する場合は、該当文献に
含まれる該当文献の内容に関する複数のキーワードをこ
のデータベースに登録する。このキーワードは一般に一
つの単語で構成されている。
2. Description of the Related Art In a general information retrieval system, when a new document or the like is registered in a database, a plurality of keywords related to the contents of the document included in the document are registered in this database. This keyword is generally composed of one word.

【0003】そして、検索者が、この情報検索システム
を用いて必要な内容(情報)が記載された文献を調べる
場合、必要な情報に関係するキーワードでデータベース
を検索すると、このキーワードが登録された文献の文献
名,発行所,著者,発行日,所蔵場所等の該当文献を特
定する情報が検索結果として出力される。
When a searcher searches a document in which necessary contents (information) are described using this information search system, he searches a database for a keyword related to the necessary information, and this keyword is registered. Information that identifies the relevant document, such as the document name of the document, publisher, author, issue date, and holding place, is output as the search result.

【0004】このような情報検索システムにおいては、
日本語の文献を登録する場合は、この文献に含まれるキ
ーワードとなる単語は日本語である。したがって、この
日本語の単語をそのままデータベースに登録すればよ
い。
In such an information retrieval system,
When a Japanese document is registered, the word that is a keyword included in this document is Japanese. Therefore, it is sufficient to register this Japanese word in the database as it is.

【0005】外国語の文献をデータベースに登録する場
合は、この文献に含まれるキーワードとなる単語は当然
外国語である。このキーワードの外国語単語が一般名詞
の場合は、この外国語単語を日本語に翻訳して登録すれ
ばよい。
When a document in a foreign language is registered in the database, the words as keywords included in this document are naturally foreign languages. If the foreign language word of this keyword is a general noun, then this foreign language word may be translated into Japanese and registered.

【0006】一般に、人名や地名等の固有名詞の場合
や、適格な日本語訳が存在しない名詞を日本語に表記す
る場合は、カタカナ表記となるが、固有名詞の読み方は
非常に煩雑で、複数種類のカタカナ表記が存在する場合
もある。また、正確にカタカナ表記することが困難な外
国語単語も存在する。このような場合は、外国語単語の
状態でデータベースに登録する場合もある。
Generally, in the case of proper nouns such as a person's name or a place name, or when a noun for which no proper Japanese translation exists is written in Japanese, katakana notation is used, but reading of proper nouns is very complicated. There may be multiple types of katakana notation. There are also foreign words that are difficult to write in katakana accurately. In such cases, foreign words may be registered in the database.

【0007】[0007]

【発明が解決しようとする課題】しかしながら、上述し
たようにデータベースに外国語単語が登録された情報検
索システムにおいてもまだ次のような課題があった。す
なわち、この情報検索システムの利用者が前記外国語単
語が記載された文献を検索する必要が発生すると、検索
キーワードとして外国語で表記された外国語単語を入力
する必要がある。
However, the information retrieval system in which foreign language words are registered in the database as described above still has the following problems. That is, when a user of this information retrieval system needs to retrieve a document in which the foreign language word is described, he / she needs to input the foreign language word written in a foreign language as a search keyword.

【0008】しかし、情報検索システムの一般の利用者
が外国語単語の正確な外国語綴り(スペル)を常に把握
しているとは限らない。したがって、利用者は正確なス
ペルを辞書等を用いて調べた後、検索作業を行う必要が
あり、利用者の負担が増大する。
However, general users of the information retrieval system do not always know the correct foreign language spelling of foreign words. Therefore, the user needs to perform a search operation after checking the correct spelling using a dictionary or the like, which increases the burden on the user.

【0009】また、固有名詞や人名は辞書等に記載され
ていない場合が多い。このような場合は、全く対処でき
ない。このような不都合を解消するためには、外国語単
語をカタカナ表記に直したカタカナ単語をデータベース
に登録すればよい。しかし、前述したように、カタカナ
表記には複数種類が存在し、利用者が登録されたカタカ
ナ単語と同一のカタカナ表記のカタカナ単語を検索キー
ボードとして入力しなければ、目的とするカタカナ単語
及びこのカタカナ単語が含まれる文献を特定する情報が
検索できない問題が生じる。
Further, in many cases, proper nouns and personal names are not listed in a dictionary or the like. In such a case, it cannot be dealt with at all. In order to eliminate such an inconvenience, it is sufficient to register the katakana word in which the foreign language word is converted to katakana notation in the database. However, as described above, there are multiple types of katakana notation, and if the user does not enter the katakana word of the same katakana notation registered as the search keyboard, the target katakana word and this katakana word There arises a problem that information specifying a document containing a word cannot be retrieved.

【0010】本発明はこのような事情に鑑みてなされた
ものであり、外国語単語の登録時に外国語単語と発音記
号又は音声を入力することによって、データベースに外
国語単語及び該当単語のカタカナ単語が自動的に登録さ
れ、かつ、多少登録されたカタカナ単語と異なる表記の
カタカナ単語で検索しても、該当する正しい外国語単語
を検索できる外国語検索装置及びこの外国語検索装置が
組込まれた情報検索システムを提供することを目的とす
る。
The present invention has been made in view of the above circumstances, and by inputting a foreign language word and a phonetic symbol or a voice when the foreign language word is registered, the foreign language word and the katakana word of the corresponding word are stored in the database. A foreign language search device and a foreign language search device that can automatically search for a correct foreign language word even if you search with a katakana word that is automatically registered and has a different notation from the registered katakana word. The purpose is to provide an information retrieval system.

【0011】[0011]

【課題を解決するための手段】上記課題を解消するため
に、請求項1の外国語検索装置においては、外国語で表
記された外国語単語及びこの外国語単語の発音記号から
なる登録データが入力される登録データ入力部と、各発
音記号と該当発音記号に対応するカタカナ文字が記憶さ
れている発音記号・カタカナ対応テーブルと、登録デー
タ入力部を介して入力された登録データの発音記号を発
音記号・カタカナ対応テーブルを用いてカタカナ単語に
変換する発音記号カタカナ変換手段と、登録データ入力
部を介して入力された各登録データの外国語単語及びカ
タカナに変換されたカタカナ単語を記憶保持するデータ
ベースと、カタカナ単語からなる検索キーワードが入力
される検索キーワード入力部と、この検索キーワード入
力部から入力された検索キーワードのカタカナ単語のデ
ータベースに記憶された各カタカナ単語に対する単語類
似度を算出する単語類似度算出手段と、算出された単語
類似度が規定値以上のカタカナ単語に対応する外国語単
語を検索キーワードに対する検索結果として出力する検
索結果判定出力部とを備えたものである。
In order to solve the above-mentioned problems, in the foreign language search device according to claim 1, registered data consisting of a foreign word written in a foreign language and a phonetic symbol of this foreign word is provided. The registered data input section to be input, the phonetic symbol / katakana correspondence table in which each phonetic symbol and the corresponding Katakana character corresponding to the phonetic symbol are stored, and the phonetic symbol of the registered data input via the registered data input section. Phonetic symbol katakana conversion means for converting into katakana words using the phonetic symbol / katakana correspondence table, and stores and retains foreign words of each registration data input via the registration data input section and katakana words converted to katakana The database, the search keyword input section where the search keywords consisting of katakana words are input, and the search keyword input section where the search keywords are input A word similarity calculation means for calculating the word similarity for each katakana word stored in the database of katakana words of the search keyword, and a foreign word corresponding to the katakana word for which the calculated word similarity is a specified value or more. And a search result determination output unit that outputs the result as a search result.

【0012】また、請求項2の外国語検索装置において
は、外国語で表記された外国語単語及びこの外国語単語
の音声からなる登録データが入力される登録データ入力
部と、各音声と該当音声に対する各発音記号が記憶され
ている音声・発音記声号対応テーブルと、登録データ入
力部を介して入力された登録データの音声を前記音声・
発音記声号対応テーブルを用いて発音記号に変換する音
声発音記号変換手段と、各発音記号と該当発音記号に対
応するカタカナ文字が記憶されている発音記号・カタカ
ナ対応テーブルと、音声発音記号変換手段で得られた発
音記号を発音記号・カタカナ対応テーブを用いてカタカ
ナ単語に変換する発音記号カタカナ変換手段と、登録デ
ータ入力部を介して入力された各登録データの外国語単
語及びカタカナに変換されたカタカナ単語を記憶保持す
るデータベースと、カタカナ単語からなる検索キーワー
ドが入力される検索キーワード入力部と、この検索キー
ワード入力部から入力された検索キーワードのカタカナ
単語のデータベースに記憶された各カタカナ単語に対す
る単語類似度を算出する単語類似度算出手段と、算出さ
れた単語類似度が規定値以上のカタカナ単語に対応する
外国語単語を検索キーワードに対する検索結果として出
力する検索結果判定出力部とを備えている。
Further, in the foreign language search device according to claim 2, the foreign language word written in the foreign language and the registered data input unit for inputting the registered data consisting of the voice of this foreign language word, and each voice corresponding. The phonetic / phonetic transcription correspondence table in which each phonetic symbol for the voice is stored, and the voice of the registration data input via the registration data input unit
A phonetic phonetic symbol conversion means for converting phonetic symbols using a phonetic transcription table, a phonetic symbol / katakana table storing phonetic symbols corresponding to each phonetic symbol and the corresponding phonetic symbol, and phonetic phonetic symbol conversion. Phonetic symbol katakana conversion means for converting phonetic symbols obtained by means into katakana words using phonetic symbol / katakana correspondence table and foreign words and katakana of each registered data input via the registered data input section A database that stores and stores the specified Katakana words, a search keyword input section in which a search keyword consisting of Katakana words is input, and each Katakana word stored in the Katakana word database of the search keywords input from this search keyword input section The word similarity calculation means for calculating the word similarity to And a search result determination output unit that outputs the search results for the search keyword a foreign language word corresponding to the above katakana word value.

【0013】さらに、請求項3においては、前記各外国
語検索装置における単語類似度算出手段は、検索キーワ
ードのカタカナ単語を構成する各カタカナ文字とデータ
ベースに記憶されたカタカナ単語を構成する各カタカナ
文字との各文字毎の類似度を示す文字類似度を文字の種
類に応じて重み付けして算出し、この算出された各文字
毎の各文字類似度から所定の式を用いて単語類似度を算
出するようにしている。
Further, according to claim 3, the word similarity calculating means in each of the foreign language search devices includes each katakana character forming a katakana word of a search keyword and each katakana character forming a katakana word stored in a database. The character similarity indicating the similarity for each character is calculated by weighting it according to the character type, and the word similarity is calculated using a predetermined formula from the calculated character similarity for each character. I am trying to do it.

【0014】請求項4の情報検索システムにおいては、
外国語で表記された外国語単語,この外国語単語の発音
記号及び外国語単語に関する情報からなる登録データが
入力される登録データ入力部と、各発音記号と該当発音
記号に対応するカタカナ文字が記憶されている発音記号
・カタカナ対応テーブルと、登録データ入力部を介して
入力された登録データの発音記号を発音記号・カタカナ
対応テーブルを用いてカタカナ単語に変換する発音記号
カタカナ変換手段と、登録データ入力部を介して入力さ
れた各登録データの外国語単語,情報及びカタカナに変
換されたカタカナ単語を記憶保持するデータベースと、
カタカナ単語からなる検索キーワードが入力される検索
キーワード入力部と、検索キーワード入力部から入力さ
れた検索キーワードのカタカナ単語のデータベースに記
憶された各カタカナ単語に対する単語類似度を算出する
単語類似度算出手段と、算出された単語類似度が規定値
以上のカタカナ単語に対応する外国語単語及び情報を検
索キーワードに対する検索結果として出力する検索結果
判定出力部とを備えている。
In the information retrieval system of claim 4,
The registration data input part where the registration data consisting of the foreign language word written in a foreign language, the pronunciation symbol of this foreign language word and the information about the foreign language word is input, and each pronunciation symbol and the katakana character corresponding to the corresponding pronunciation symbol are Registered phonetic symbol / katakana conversion table and phonetic symbol / katakana conversion means for converting phonetic symbols of registration data input via the registered data input section to katakana words using the phonetic symbol / katakana correspondence table, and registration. A database for storing and holding foreign words, information and katakana words converted into katakana of each registration data input through the data input unit;
A search keyword input section for inputting a search keyword composed of katakana words, and a word similarity calculation means for calculating a word similarity for each katakana word stored in a database of katakana words of the search keyword input from the search keyword input section. And a search result determination output unit that outputs, as a search result for a search keyword, a foreign language word and information corresponding to a katakana word whose calculated word similarity is equal to or higher than a specified value.

【0015】[0015]

【作用】このように構成された請求項1の外国語検索装
置において、登録データ入力部へ外国語単語及び発音記
号からなる登録データを入力すると、発音記号から外国
語単語をカタカナ表記したカタカナ単語が作成されて、
データベースへ外国語単語と共に記憶保持される。
In the foreign language search device according to claim 1 configured as described above, when registration data including a foreign language word and a phonetic symbol is input to the registration data input unit, the katakana word in which the foreign language word is written in katakana from the phonetic symbol is written. Has been created,
Stored in a database together with foreign words.

【0016】そして、外国語単語を検索する場合は、カ
タカナ表記されたカタカナ単語を検索キーワードとして
検索キーワード入力部へ入力する。前述したように、検
索キーワードとして入力したカタカナ単語に完全に一致
するカタカナ単語がデータベース内に存在するとは限ら
ないもので、検索キーワードのカタカナ単語のデータベ
ースに記憶された各カタカナ単語に対する単語類似度を
算出する。そして、単語類似度が規定値以上のカタカナ
単語に対応する外国語単語を検索キーワードに対する検
索結果とする。
When searching for a foreign language word, the katakana word written in katakana is input to the search keyword input section as a search keyword. As described above, Katakana words that exactly match the Katakana words entered as search keywords do not always exist in the database, so the word similarity for each Katakana word stored in the database of search keyword Katakana words is calculate. Then, the foreign language word corresponding to the katakana word whose word similarity is equal to or higher than the specified value is set as the search result for the search keyword.

【0017】したがって、検索キーワードのカタカナ単
語とデータベース内の同一の外国語単語を示すカタカナ
単語とがたとえ完全に一致していなくても、非常に高い
確率で目標とする正しい外国語単語を検索できる。
Therefore, even if the Katakana word of the search keyword and the Katakana word indicating the same foreign language word in the database do not completely match, it is possible to search for the correct target foreign language word with a very high probability. .

【0018】請求項2の外国語検索装置においては、登
録データ入力部へ外国語単語及び音声からなる登録デー
タを入力すると、音声は一旦発音記号に変換された後、
カタカナ単語に変換される。そして、このカタカナ単語
はデータベースへ外国語単語と共に記憶保持される。
In the foreign language search device according to the second aspect, when the registration data consisting of the foreign language word and the voice is input to the registration data input unit, the voice is once converted into a phonetic symbol,
Converted to katakana words. The katakana word is stored and held in the database together with the foreign language word.

【0019】このように外国語単語と対応するカタカナ
単語が記憶保持されたデータベースをカタカナ単語から
なる検索キーワードで外国語単語を検索する手法は請求
項1の外国語検索装置と同じである。
The method of searching for a foreign language word in a database in which katakana words corresponding to foreign words are stored and held with a search keyword composed of katakana words is the same as the foreign language search device of claim 1.

【0020】このような構成の外国語検索装置において
は、データベースへ外国語単語を登録する場合に、該当
外国語単語の他に音声を入力するのみでよいので、登録
作業能率が大幅に向上する。
In the foreign language search apparatus having such a configuration, when a foreign language word is registered in the database, it is only necessary to input a voice in addition to the corresponding foreign language word, so that the registration work efficiency is greatly improved. .

【0021】また、請求項3の外国語検索装置において
は、単語類似度算出手法として、比較対照する2つのカ
タカナ単語を構成する各カタカナ文字毎に類似度を示す
文字類似度を算出している。そして、複数のカタカナ文
字からなるカタカナ単語相互間の単語類似度を構成する
各カタカナ文字どうしの各文字類似度から算出してい
る。
Further, in the foreign language search device according to the third aspect, as a word similarity calculation method, a character similarity indicating a similarity is calculated for each katakana character forming two katakana words to be compared and compared. . Then, it is calculated from the respective character similarities of the respective katakana characters forming the word similarity between the katakana words composed of a plurality of katakana characters.

【0022】この場合、各文字類似度を各文字の種類に
応じて重み付けして算出している。例えば子音行が一致
している場合と母音列が一致している場合とを比較する
と、子音列が一致している場合の方がカタカナ単語全体
の類度度が高いので、子音の類似度の重みを母音の類似
度の重みより高く設定する。
In this case, each character similarity is calculated by weighting it according to the type of each character. For example, comparing the case where the consonant rows match and the case where the vowel strings match, the similarity of the entire katakana word is higher when the consonant strings match, so the consonant similarity The weight is set higher than the weight of the similarity of vowels.

【0023】請求項4の情報検索システムにおいては、
データベースに外国語単語とカタカナ単語の他に該当外
国語単語に関する各種の情報が記憶されている。したが
って、検索キーワードとしてカタカナ単語を入力する
と、データベースから対応する外国語単語と共にこの外
国語単語に関する必要な情報が出力される。
In the information retrieval system of claim 4,
In the database, in addition to foreign words and katakana words, various kinds of information about the corresponding foreign words are stored. Therefore, when a katakana word is input as a search keyword, necessary information about this foreign language word is output from the database together with the corresponding foreign language word.

【0024】[0024]

【実施例】以下本発明の一実施例を図面を用いて説明す
る。図1は実施例の外国語検索装置が組込まれた情報検
索システムの概略構成を示すブロック図である。この情
報検索システムはコンピュータ等の一種の情報処理装置
で構成されている。具体的には、登録データ入力部1,
入力データバッファ2,発音記号カタカナ変換部3,検
索キーワード入力部4,検索処理部5,検索結果出力部
6,及び発音記号・カタカナ対応テーブル7とデータベ
ース8とで構成されている。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a schematic configuration of an information search system incorporating a foreign language search device of the embodiment. This information retrieval system is composed of a kind of information processing device such as a computer. Specifically, the registration data input unit 1,
It comprises an input data buffer 2, a phonetic symbol / katakana conversion unit 3, a search keyword input unit 4, a search processing unit 5, a search result output unit 6, a phonetic symbol / Katakana correspondence table 7 and a database 8.

【0025】発音記号・カタカナ対応テーブル7内に
は、図2に示すように、各発音記号毎に、対応するカタ
カナ文字が記憶されている。具体的には、カタカナ文字
を五十音マトリックス配列した場合に、発音記号の各子
音がどの行の文字に対応するかを示す子音対応テーブル
7aと、発音記号の各母音がどの段の文字に対応するか
を示す母音対応テーブル7bとが記憶されている。
As shown in FIG. 2, the phonetic symbol / katakana correspondence table 7 stores katakana characters corresponding to each phonetic symbol. Specifically, when katakana characters are arranged in a Japanese syllabary matrix, a consonant correspondence table 7a indicating which line each consonant of a phonetic symbol corresponds to, and which column each vowel of a phonetic symbol corresponds to. A vowel correspondence table 7b indicating whether they correspond is stored.

【0026】そして、原則として、子音と母音との対で
一つのカタカナ文字を特定する。例えば[ba]の発音
記号は各テーブル7a,7bから[ハ行]の[ア段]と
指定されるので五十音マトリックス配列からカタカナ文
字[バ]が特定される。
Then, in principle, one katakana character is specified by a pair of a consonant and a vowel. For example, since the phonetic symbol of [ba] is designated as [A row] of [C row] from each of the tables 7a and 7b, the Katakana character [BA] is specified from the Japanese syllabary matrix array.

【0027】但し、一つの外国語単語を示す一連の発音
記号においては、子音と母音とが必ずしも対になってい
るとは限らない。このような例外も、子音対応テーブル
7aに登録されている。例えば子音[d]の発音記号が
単独で出現した場合は、[ト]ではなくて[ド]のカタ
カナ文字となる。
However, consonants and vowels are not always paired in a series of phonetic symbols indicating one foreign language word. Such an exception is also registered in the consonant correspondence table 7a. For example, when the phonetic symbol of the consonant [d] appears alone, it becomes the katakana character of [do] instead of [to].

【0028】このように発音記号・カタカナ対応テーブ
ル7内には、外国語単語を発音記号で表記した場合にお
ける全ての発音記号の組合せ又は単独出現に対して、対
応するカタカナ文字が決定され、外国語単語をその発音
記号で一義的に定まるカタカナ単語に変換できる情報が
記憶されている。
As described above, in the phonetic symbol / katakana correspondence table 7, corresponding katakana characters are determined for all combinations or single occurrences of phonetic symbols when a foreign word is written by phonetic symbols, and Information is stored that can convert a word into a katakana word that is uniquely determined by its phonetic symbol.

【0029】また、データベース8は、例えばHDD内
に形成されており、図1に示すように、内部に領域番号
iが付された複数の領域が形成されており、各領域には
外国語単語と、この外国語単語に対応するカタカナ単語
と、該当外国語単語が記載された文献の文献名,発行
所,著者,発行日,所蔵場所等の該当文献を特定する情
報が記憶されている。
The database 8 is formed in, for example, an HDD, and as shown in FIG. 1, a plurality of areas with area numbers i are formed therein, and each area has a foreign word. The katakana word corresponding to the foreign language word and the information for identifying the relevant document such as the document name, the publisher, the author, the date of publication, and the holding place of the document in which the foreign language word is described are stored.

【0030】登録データ入力部1は、例えばキーボード
とCRT表示装置等からなり、通常の英数字,ひらが
な,カタカナ文字を入力できると共に、例えばマウス等
を用いてCRT表示装置に表示させた発音記号を指定し
て入力できる。また、検索キーワード入力部4は、例え
ばキーボードで構成され、カタカナ単語からなる検索キ
ーワードを入力する。さらに、検索結果出力部6は例え
ばCRT表示装置等からなり、検索された外国語単語及
び該当外国語単語の情報を表示出力する。
The registration data input unit 1 is composed of, for example, a keyboard and a CRT display device, etc., and can input ordinary alphanumeric characters, hiragana and katakana characters as well as phonetic symbols displayed on the CRT display device using, for example, a mouse. You can specify and enter. The search keyword input unit 4 is composed of, for example, a keyboard and inputs a search keyword composed of katakana words. Further, the search result output unit 6 is composed of, for example, a CRT display device or the like, and displays and outputs the searched foreign language word and information of the foreign language word.

【0031】なお、実際のシステムにおいては、登録デ
ータ入力部1,検索キーワード入力部4及び検索結果出
力部6は、キーボードとCRT表示装置等からなる1台
のマンマシン装置で構成されている。
In the actual system, the registration data input unit 1, the search keyword input unit 4, and the search result output unit 6 are composed of one man-machine device including a keyboard and a CRT display device.

【0032】次に各部の動作を順番に説明する。この情
報検索システムのデータベース8に新規の外国語文献を
登録する場合、登録者は、この文献の内容を適格に表す
キーワードとなる外国語単語を抽出し、例えば辞書等を
用いてこの外国語単語の発音記号を調べる。そして、こ
の外国語単語と発音記号及び文献を特定するための情報
からなる登録データを登録データ入力部1へ入力する。
Next, the operation of each unit will be described in order. When registering a new foreign language document in the database 8 of this information retrieval system, the registrant extracts a foreign language word that is a keyword that appropriately represents the contents of this document, and uses this foreign language word by using, for example, a dictionary. Examine the phonetic symbols of. Then, the registration data including the foreign word, the phonetic symbol, and the information for specifying the document is input to the registration data input unit 1.

【0033】登録データ入力部1へ入力された外国語単
語,発音記号,情報からなる登録データは入力データバ
ッファ2に一旦記憶される。そしてこの入力データバッ
ファ2に記憶された1個の登録データ内の発音記号が発
音記号カタカナ変換部3へ送信される。
Registration data consisting of foreign language words, phonetic symbols, and information input to the registration data input unit 1 is temporarily stored in the input data buffer 2. Then, the phonetic symbols in the one registration data stored in the input data buffer 2 are transmitted to the phonetic symbol katakana conversion unit 3.

【0034】発音記号カタカナ変換部3は、入力された
一つの外国語単語の発音を示す一連の発音記号を、発音
記号・カタカナ対応テーブル7の各テーブル7a,7b
を用いて、前述した手法で一つのカタカナ単語に変換す
る。そして、入力データバッファ2に記憶されている外
国語単語と今回変換されたカタカナ単語と入力データバ
ッファ2に記憶されている情報をデータベース8の空の
領域へ設定する。
The phonetic symbol katakana conversion unit 3 converts a series of phonetic symbols indicating the pronunciation of one input foreign language word into each table 7a, 7b of the phonetic symbol / katakana correspondence table 7.
Is converted into one katakana word by using the method described above. Then, the foreign word stored in the input data buffer 2, the katakana word converted this time, and the information stored in the input data buffer 2 are set in the empty area of the database 8.

【0035】以上で、一つの外国語単語及び情報をデー
タベース8へ登録する登録処理を終了する。例えば、図
4に示すように、外国語単語が[library]で発
音記号が[laibreri]のとき、変換されたカタ
カナ単語は[ライブレリ]となる。また、外国語単語が
[Einstein]で発音記号が[ainstai
n]のとき、変換されたカタカナ単語は[アインスタイ
ン]となる。
This completes the registration process for registering one foreign language word and information in the database 8. For example, as shown in FIG. 4, when the foreign language word is [library] and the phonetic symbol is [laiberri], the converted katakana word is [liverelli]. The foreign language word is [Einstein] and the phonetic symbol is [ainstein].
n], the converted katakana word becomes [Einstein].

【0036】次に、この情報検索システムを用いて外国
語単語及び情報を検索する場合の各部の動作を説明す
る。検索者は検索すべき外国語単語のカタカナ単語を検
索キーワードとして検索キーワード入力部4へ入力す
る。検索キーワード入力部4は入力した1個のカタカナ
単語からなる検索キーワードを検索処理部5へ転送す
る。
Next, the operation of each part when searching a foreign language word and information using this information search system will be described. The searcher inputs the katakana word of the foreign language word to be searched as a search keyword into the search keyword input unit 4. The search keyword input unit 4 transfers the input search keyword consisting of one katakana word to the search processing unit 5.

【0037】検索処理部5は図3に示す流れ図に従って
入力された検索キーワードでデータベース8を検索す
る。流れ図が開始され、S(ステップ)1において、デ
ータベース8の領域番号iを1に初期設定する。次に、
S2にて、i番目の領域のカタカナ単語を読出す。そし
て、検索キーワードのカタカナ単語と今回読出したカタ
カナ単語の先頭文字からの文字位置を示す文字番号jを
1に初期設定する。
The search processing unit 5 searches the database 8 with the search keyword input according to the flow chart shown in FIG. The flow chart starts, and in S (step) 1, the area number i of the database 8 is initialized to 1. next,
In S2, the katakana word in the i-th area is read. Then, the katakana word of the search keyword and the character number j indicating the character position from the first character of the katakana word read this time are initialized to 1.

【0038】そして検索キーワードのj番目のカタカナ
文字と読出したカタカナ単語のj番目のカタカナ文字と
の文字相互間の類似度を示す文字類似度Rjを算出す
る。具体的には、下記の規則に従って文字類似度Rjを
決定する。
Then, the character similarity Rj indicating the similarity between the characters of the j-th katakana character of the search keyword and the j-th katakana character of the read katakana word is calculated. Specifically, the character similarity Rj is determined according to the following rules.

【0039】 (a) 比較2文字が全く同一文字で文字が子音の場合 … 100/100 (b) 比較2文字が全く同一文字で文字が母音の場合 … 40/40 (c) 比較2文字が異なり、子音列が同一で母音段が異なる場合 … 60/100 (d) 比較2文字が異なり、子音列が異なり母音段が同一の場合 … 40/100 (e) 比較2文字が異なり、かつ子音列及び母音段も異なる場合 … 0/100 但し、子音列及び母音段は前述したカタカナ文字を五十
音マトリックス配列した場合における列と行(段)に対
応する。
(A) When the two comparison characters are exactly the same character and the character is a consonant ... 100/100 (b) When the two comparison characters are exactly the same character and the character is a vowel ... 40/40 (c) The two comparison characters are Different, consonant strings are the same and vowel stages are different ... 60/100 (d) Two comparison characters are different, consonant strings are different and vowel stages are the same ... 40/100 (e) Two comparison characters are different and consonants When the columns and vowel stages are also different ... 0/100 However, the consonant sequences and vowel stages correspond to columns and rows (columns) when the above-mentioned Katakana characters are arranged in the Japanese syllabary matrix.

【0040】このように、子音列に対して60%の重み
を付け、母音段に対しては40%の重みを付けている。
すなわち、子音列どうしが一致している方が母音段どう
しが一致しているよりも文字類似度Rjを高く設定す
る。
In this way, the consonant string is weighted by 60%, and the vowel stage is weighted by 40%.
That is, the character similarity Rj is set to be higher when the consonant strings match each other than when the vowel steps match each other.

【0041】なお、[ァ][ィ][ャ]…等の小文字は
20%の重みを付ける。また、子音を伴わない[ア]
[イ]…等の母音は40%の重みを付ける。さらに、
[ー][ッ]の違いは同一とみなす。
Note that lowercase letters such as [a], [i], [a], etc. are weighted by 20%. Also, no consonants [A]
Vowels such as [a] ... are given a weight of 40%. further,
The difference between [-] and [-] is considered the same.

【0042】例えば、図4に示す[ライブレリ]と[ラ
イブラリー]の5番目の文字[リー]と[リ]は同一と
見なして、文字類似度Rj(=R5 )は100/100 とな
る。S4にて、j番目の文字に対する文字類似度Rjが
求まると、S5へ進み、カタカナ単語全体の単語類似度
Riを求めるための累積を行う。具体的には、1番目の
文字からj伴目の各文字の文字類似度Rjの各分子R1j
の累積値ΣR1jと各分母R0jの累積値ΣR0jとの比を算
出する。
For example, assuming that the fifth characters [Lee] and [Li] of [Live Reli] and [Library] shown in FIG. 4 are the same, the character similarity Rj (= R 5 ) is 100/100. . When the character similarity Rj for the jth character is obtained in S4, the process proceeds to S5, and accumulation is performed to obtain the word similarity Ri of all katakana words. Specifically, each numerator R 1j of the character similarity Rj of each character from the first character to the j-th character
To the calculated ratio between the cumulative value .SIGMA.R 0j of the cumulative value .SIGMA.R 1j and the denominator R 0j.

【0043】Ri=ΣR1j/ΣR0j 次に、比較すべき文字がまだ残っている場合は、比較文
字の番号jに1を加算して(S7)、S4へ戻り、次の
文字の文字類似度Rjを算出する。
Ri = ΣR 1j / ΣR 0j Next, when there is still a character to be compared, 1 is added to the comparison character number j (S7), the process returns to S4, and the character similarity of the next character is obtained. The degree Rj is calculated.

【0044】S7にて比較すべき文字が終了すると、S
8へ進む。なお、検索キーワードの文字数と読出したカ
タカナ単語の文字数が一致しない場合は、長い方のカタ
カナ単語の文字数が終了するまで番号jを更新して、相
手側に文字が存在しない文字の文字類似度Rjは0/100
とする。
When the characters to be compared are completed in S7, S
Proceed to 8. If the number of characters in the search keyword does not match the number of characters in the read katakana word, the number j is updated until the number of characters in the longer katakana word ends, and the character similarity Rj Is 0/100
And

【0045】例えば、図4に示すように、データベース
8に記憶されたカタカナ単語が[ライブレリ]で検索キ
ーワードが[ライブラリー]の場合、単語類似度Riは
Ri=ΣR1j/ΣR0j=400/460 =87%となる。
For example, as shown in FIG. 4, when the katakana word stored in the database 8 is [livery] and the search keyword is [library], the word similarity Ri is Ri = ΣR 1j / ΣR 0j = 400 / 460 = 87%.

【0046】また、データベース8に記憶されたカタカ
ナ単語が[アインスタイン]で検索キーワードが[アイ
ンシュタイン]の場合、単語類似度RiはRi=ΣR1j
/ΣR0j=360/400 =90%となる。
When the katakana word stored in the database 8 is [Einstein] and the search keyword is [Einstein], the word similarity Ri is Ri = ΣR 1j.
/ ΣR 0j = 360/400 = 90%.

【0047】S8において、比較すべき文字が終了した
時点における累積されたカタカナ単語全体の単語類似度
Riが予め定められた規定値に満たない場合は、検索キ
ーワードは今回読出したi番目の領域に登録された外国
語単語に対応しないと判断して、S9にて、データベー
ス8の領域の領域番号iに1を加算する。加算後の領域
番号iが最大領域番号に到達していない場合は(S1
0)、S2へ戻り、加算後の領域番号iの領域のカタカ
ナ単語を読出する。
In step S8, if the cumulative word similarity Ri of all katakana words at the time when the characters to be compared are finished is less than a predetermined value, the search keyword is the i-th area read this time. When it is determined that the word does not correspond to the registered foreign language word, 1 is added to the area number i of the area of the database 8 in S9. If the area number i after addition has not reached the maximum area number (S1
0), the process returns to S2 to read the katakana word in the area of the area number i after addition.

【0048】そして、S8にて、単語類似度Riが規定
値以上の場合は、検索キーワードは今回読出したi番目
の領域に登録された外国語単語に対応すると判断して、
S11へ進む。S11には該当カタカナ単語の領域番号
iの領域の外国語単語と情報とをデータベース8から読
出て、検索結果として検索結果出力部6のCRT表示装
置へ表示出力する。
Then, in S8, when the word similarity Ri is equal to or greater than the specified value, it is determined that the search keyword corresponds to the foreign language word registered in the i-th area read this time,
Proceed to S11. In step S11, the foreign word and information in the area of the area number i of the relevant katakana word are read from the database 8 and displayed as a search result on the CRT display device of the search result output unit 6 for output.

【0049】なお、S10にてデータベース8内の全て
の領域のカタカナ単語の読出しが終了すると、検索キー
ワードに対応する外国語単語は登録されていないと判断
して、その旨を前記検索結果出力部6のCRT表示装置
へ表示出力する。
When the reading of the katakana words in all areas in the database 8 is completed in S10, it is determined that the foreign language word corresponding to the search keyword is not registered, and the fact is output by the search result output unit. Display output to the CRT display device of No. 6.

【0050】このように構成された情報検索システムに
おいて、データベース8に外国語単語及びこの外国語単
語に関する情報を登録する場合、登録者は、外国語単語
と共に発音記号を入力すると、データベース8に自動的
に外国語単語及び対応するカタカナ単語が登録される。
In the information retrieval system configured as described above, when registering a foreign word and information relating to this foreign word in the database 8, the registrant automatically inputs the phonetic symbol together with the foreign word into the database 8. Foreign words and corresponding katakana words are registered.

【0051】そして、外国語単語を検索する場合、検索
者は、カタカナ表記されたカタカナ単語を検索キーワー
ドとして検索キーワード入力部4へ入力されば、該当検
索キーワードに対応する外国語単語及びこの外国語単語
が登録された文献の文献名,発行所,著者,発行日,所
蔵場所等の該当文献を特定する情報が検索結果として出
力される。
When searching for a foreign language word, if the searcher inputs the katakana word written in katakana as a search keyword into the search keyword input section 4, the searcher inputs the foreign word corresponding to the relevant search keyword and this foreign language. Information specifying the relevant document, such as the document name of the document in which the word is registered, the publisher, the author, the date of publication, and the holding place, is output as the search result.

【0052】この場合、前述したように、検索キーワー
ドとして入力したカタカナ単語にデータベース8に登録
されているカタカナ単語に完全に一致するとは限らな
い。しかし、実施例システムにおいては、検索キーワー
ドのカタカナ単語のデータベース8に記憶された各カタ
カナ単語に対する各単語類似度Riを算出する。そし
て、単語類似度Riが規定値以上のカタカナ単語に対応
する外国語単語を検索キーワードに対する検索結果とす
る。
In this case, as described above, the katakana word input as the search keyword does not always completely match the katakana word registered in the database 8. However, in the embodiment system, each word similarity Ri for each katakana word stored in the database 8 of the katakana word of the search keyword is calculated. Then, a foreign word corresponding to a katakana word having a word similarity Ri of a specified value or more is set as a search result for the search keyword.

【0053】したがって、検索キーワードのカタカナ単
語とデータベース8内の同一の外国語単語を示すカタカ
ナ単語とがたとえ完全に一致していなくても、非常に高
い確率で正しい外国語単語及び該当外国語単語に関する
情報を検索できる。
Therefore, even if the Katakana word of the search keyword and the Katakana word indicating the same foreign language word in the database 8 do not completely match, it is highly likely that the foreign word and the corresponding foreign word are correct. You can search for information about.

【0054】さらに、実施例システムにおいては、各単
語類似度Riを算出するに際して、カタカナ単語を構成
する各タカタナ文字相互間の文字類似度Rjを算出し
て、これらを累積する形式で一つのカタカナ単語に対す
る単語類似度Riを算出している。そして、この各文字
類似度Rjを算出する過程で、前述したように、子音列
が一致している場合と、母音段が一致している場合と
で、単語類似度Riに対する影響度に差を設けている。
Further, in the embodiment system, when calculating the word similarity Ri, the character similarity Rj between the respective Takatana characters forming the Katakana word is calculated, and these katakana characters are accumulated to form one katakana. The word similarity Ri for a word is calculated. Then, in the process of calculating each character similarity Rj, as described above, there is a difference in the degree of influence on the word similarity Ri between the case where the consonant strings match and the case where the vowel stages match. It is provided.

【0055】具体的には、母音段が一致している場合よ
り子音列が一致している場合の方がより類似度を高く設
定しているので、より精度の高い単語類似度Riが得ら
れ、外国語単語の検索精度をより一層向上させている。
Specifically, since the similarity is set higher when the consonant strings match than when the vowel stages match, a more accurate word similarity Ri can be obtained. , Further improving the accuracy of searching foreign words.

【0056】図5は本発明の他の実施例に係わる外国語
検索装置が組込まれた情報検索システムの概略構成を示
すブロック図である。図1に示す実施例システムと同一
部分には同一符号が付してある。したがって、重複する
部分の詳細説明は省略されている。
FIG. 5 is a block diagram showing a schematic structure of an information search system incorporating a foreign language search device according to another embodiment of the present invention. The same parts as those of the embodiment system shown in FIG. 1 are designated by the same reference numerals. Therefore, detailed description of the overlapping portions is omitted.

【0057】この実施例システムに登録データ入力部1
aは、キーボード等からなる文字入力部9aと音声を入
力するためのマイク9bとで構成されている。そして、
文字入力部9aから入力された外国語単語及びこの外国
語単語に関する情報は一旦入力データバッファ2aへ書
き込まれる。一方、マイク9bから入力された該当外国
語単語の音声は例えばデジタルの音声信号に変換されて
音声バッファ2bへ書込まれる。
The registration data input unit 1 in the system of this embodiment
The character a is composed of a character input unit 9a such as a keyboard and a microphone 9b for inputting voice. And
The foreign language word input from the character input unit 9a and information about this foreign language word are once written in the input data buffer 2a. On the other hand, the voice of the corresponding foreign language word input from the microphone 9b is converted into, for example, a digital voice signal and written in the voice buffer 2b.

【0058】また、この実施例システムにおいては、音
声・発音記号対応テーブル11が設けられている。この
音声・発音記号対応テーブル11内には、例えば
[ア],[シャ]等の各単位音声毎に該当単位音声に対
応する単独発音記号又は組合せ発音記号が記憶されてい
る。
Further, in the system of this embodiment, a voice / phonetic symbol correspondence table 11 is provided. In the voice / phonetic symbol correspondence table 11, for example, for each unit voice such as [A] and [Sha], a single phonetic symbol or a combination phonetic symbol corresponding to the corresponding unit voice is stored.

【0059】音声発音記号変換部10は、音声バッファ
2bに記憶されている一つの外国語単語の音声を複数の
単位音声に分割して、音声・発音記号対応テーブル11
から該当する単位音声に対する単独発音記号又は組合せ
発音記号を検索する。そして、入力された外国語単語の
音声を一連の発音記号に編集して次の発音記号カタカナ
変換部3へ送出する機能を有する。
The phonetic pronunciation symbol conversion unit 10 divides the voice of one foreign language word stored in the voice buffer 2b into a plurality of unit voices, and the voice / phonetic symbol correspondence table 11 is obtained.
To search for a single phonetic symbol or a combination phonetic symbol for the corresponding unit voice. Then, it has a function of editing the voice of the input foreign language word into a series of phonetic symbols and sending them to the next phonetic symbol katakana conversion unit 3.

【0060】なお、音声を電気信号に変換した場合の信
号波形は、同一外国語単語を発音した場合においても、
多少の個人差が存在するが、音声発音記号変換部10は
パターン認識手法を用いて個人差を吸収して、該当する
発音記号を特定する。
The signal waveform obtained when voice is converted into an electric signal is the same as when the same foreign language word is pronounced.
Although there are some individual differences, the phonetic pronunciation symbol conversion unit 10 absorbs the individual differences by using a pattern recognition method and specifies the corresponding pronunciation symbols.

【0061】さらに、変換精度を向上させるために、登
録する人を特定の人に限定して、この特定の人の音声の
音声信号と発音記号との関係を音声・発音記号対応テー
ブル11へ登録してもよい。
Further, in order to improve the conversion accuracy, the person to be registered is limited to a specific person, and the relationship between the voice signal of the voice of this specific person and the phonetic symbol is registered in the voice / phonetic symbol correspondence table 11. You may.

【0062】このように構成された情報検索システムに
おいては、データベース8に新規に外国語単語及び情報
を登録する際に、登録データ入力部1aの文字入力部9
aに対して外国語単語及び情報を文字入力すると共に、
外国語単語の音声をマイク9bへ入力する。
In the information retrieval system configured as described above, when newly registering a foreign word and information in the database 8, the character input unit 9 of the registration data input unit 1a is used.
While inputting foreign words and information to a,
The voice of a foreign language word is input to the microphone 9b.

【0063】すると、マイク9bから入力された該当外
国語単語の音声は音声バッファ2bを介して音声発音記
号変換部10へ入力される。そして、この該当外国語単
語の音声は音声・発音記号変換テーブル11を用いて一
連の発音記号に変換される。変換された発音記号は発音
記号カタカナ変換部3へ送信される。そして、この該当
外国語単語の発音記号は発音記号・カタカナ対応テーブ
ル7を用いてカタカナ単語に変換される。
Then, the voice of the corresponding foreign language word input from the microphone 9b is input to the voice pronunciation symbol conversion unit 10 via the voice buffer 2b. Then, the voice of this foreign language word is converted into a series of phonetic symbols using the phonetic / phonetic symbol conversion table 11. The converted phonetic symbols are transmitted to the phonetic symbol katakana conversion unit 3. Then, the phonetic symbols of the corresponding foreign language word are converted into katakana words using the phonetic symbol / katakana correspondence table 7.

【0064】そして、入力データバッファ2aに記憶さ
れている外国語単語,情報及び変換された該当外国語単
語に対応するカタカナ単語がデータベース8の空き領域
に書き込まれる。したがって、このデータベース8の各
領域には、図1に示した実施例システムのデータベース
8と同一内容の外国語単語,カタカナ単語,情報が記憶
されている。
Then, the foreign language word stored in the input data buffer 2a, the information, and the Katakana word corresponding to the converted foreign language word are written in the empty area of the database 8. Therefore, in each area of the database 8, foreign language words, katakana words, and information having the same contents as the database 8 of the embodiment system shown in FIG. 1 are stored.

【0065】また、検索処理部5における入力された検
索キーワードを用いたデータベース8に対する検索処理
手法は、図1に示す実施例システムにおける検索処理部
5の検索処理手法と同じである。
The search processing method for the database 8 using the input search keyword in the search processing section 5 is the same as the search processing method of the search processing section 5 in the embodiment system shown in FIG.

【0066】すなわち、検索者が検索すべき外国語単語
のカタカナ単語を検索キーワード入力部4へ入力する
と、検索処理部5において、検索キーワードでデータベ
ース8の各領域のカタカナ単語を検索して、単語類似度
Riが規定値以上のカタカナ単語の外国語単語及び情報
が検索結果として表示出力される。
That is, when a searcher inputs a katakana word of a foreign language word to be searched into the search keyword input section 4, the search processing section 5 searches the Katakana word in each area of the database 8 with the search keyword to obtain the word. Foreign words and information of katakana words having a similarity Ri of a specified value or more are displayed and output as search results.

【0067】このように構成された情報検索システムに
おいて、データベース8へ外国語単語及び情報を登録す
る場合に、登録者は、該当外国語単語及び情報の他に該
当外国語単語の音声を入力するのみでよいので、図1に
示す発音記号を辞書等で調査して入力する場合に比較し
て、登録作業能率が大幅に向上する。
In the information retrieval system configured as described above, when registering a foreign language word and information in the database 8, the registrant inputs a voice of the foreign language word in addition to the relevant foreign language word and information. Since only that is required, the work efficiency of registration is significantly improved as compared with the case where the phonetic symbols shown in FIG.

【0068】なお、上述した各実施例においては、デー
タベース8に外国語単語と対応するカタカナ単語と情報
とを記憶保持するようにしたが、例えば情報を記憶せず
に、外国語単語と対応するカタカナ単語のみを記憶する
ことも可能である。この場合、この情報検索システムは
外国語検索装置となり、例えばカタカナ単語から正確な
外国語単語のスペル(綴り)を調べる辞書として使用可
能である。
In each of the above-described embodiments, the database 8 stores and holds the katakana word corresponding to the foreign language word and the information, but the database 8 corresponds to the foreign language word without storing the information. It is also possible to store only katakana words. In this case, this information search system becomes a foreign language search device, and can be used as a dictionary for checking the correct spelling of a foreign language word from katakana words, for example.

【0069】なお、本発明の応用例として、検索キーワ
ードを音声で入力して、入力された音声をカタカナ単語
に変換して、この変換されたカタカナ単語を新たな検索
キーワードとしてデータベースを検索することも可能で
ある。
As an application example of the present invention, a search keyword is input by voice, the input voice is converted into a katakana word, and the converted katakana word is used as a new search keyword to search the database. Is also possible.

【0070】[0070]

【発明の効果】以上説明したように本発明の外国語検索
装置及びこの外国語検索装置が組込まれた情報検索シス
テムにおいては、外国語単語の登録時に外国語単語と発
音記号又は音声を入力することによって、データベース
に外国語単語及び該当単語のカタカナ単語が自動的に登
録される。
As described above, in the foreign language search device and the information search system incorporating the foreign language search device of the present invention, the foreign language word and the phonetic symbol or voice are input when the foreign language word is registered. As a result, the foreign language word and the corresponding katakana word are automatically registered in the database.

【0071】さらに、検索キーワードでデータベースを
検索する際に、検索キーワードとデータベースに記憶さ
れているカタカナ単語との間の単語類似度を算出して、
この算出された単語類似度が規定値以上のカタカナ単語
に対応する外国語単語を検索結果としている。
Further, when searching the database with the search keyword, the word similarity between the search keyword and the katakana word stored in the database is calculated,
A foreign word corresponding to a katakana word whose calculated word similarity is equal to or higher than a specified value is used as a search result.

【0072】したがって、データベースに登録されたカ
タカナ単語と多少異なる表記のカタカナ単語で検索して
も、目的とする正しい外国語単語を検索できる。また、
検索キーワードとカタカナ単語との単語類似度を算出す
る際に、各カタカナ文字毎に文字種類に応じた重み付け
を行なった文字類似度から求めている。したがって、検
索精度をより一層向上できる。
Therefore, even if a katakana word that is slightly different from the katakana word registered in the database is searched, the correct foreign language word that is the target can be searched. Also,
When calculating the word similarity between the search keyword and the katakana word, it is obtained from the character similarity weighted for each katakana character according to the character type. Therefore, the search accuracy can be further improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の一実施例に係わる外国語検索装置が
組込まれた情報検索システムの概略構成を示すブロック
FIG. 1 is a block diagram showing a schematic configuration of an information search system incorporating a foreign language search device according to an embodiment of the present invention.

【図2】 同実施例システムの発音記号・カタカナ対応
テーブルの記憶内容を示す図
FIG. 2 is a diagram showing stored contents of a phonetic symbol / katakana correspondence table of the system of the embodiment.

【図3】 同実施例システムの検索処理部における検索
動作を示す流れ図
FIG. 3 is a flowchart showing a search operation in a search processing unit of the system of the embodiment.

【図4】 同実施例システムにおける検索キーワードと
データベースに記憶されたカタカナ単語の単語類似度の
算出手順の一例を示す図
FIG. 4 is a diagram showing an example of a calculation procedure of a search keyword and a word similarity of katakana words stored in a database in the system of the embodiment.

【図5】 本発明の他の実施例に係わる外国語検索装置
が組込まれた情報検索システムの概略構成を示すブロッ
ク図
FIG. 5 is a block diagram showing a schematic configuration of an information search system incorporating a foreign language search device according to another embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1,1a…登録データ入力部、2,2a…入力データバ
ッファ、3…発音記号カタカナ変換部、4…検索キーワ
ード入力部、5…検索処理部、6…検索結果出力部、7
…発音記号・カタカナ対応テーブル、7a…子音対応テ
ーブル、7b…母音対応テーブル、8…データベース、
9a…文字入力部、9b…マイク、10…音声発音記号
変換部、11…音声・発音記号対応テーブル
1, 1a ... Registered data input unit, 2, 2a ... Input data buffer, 3 ... Phonetic symbol Katakana conversion unit, 4 ... Search keyword input unit, 5 ... Search processing unit, 6 ... Search result output unit, 7
... phonetic symbol / katakana correspondence table, 7a ... consonant correspondence table, 7b ... vowel correspondence table, 8 ... database,
9a ... Character input section, 9b ... Microphone, 10 ... Voice phonetic symbol conversion unit, 11 ... Voice / phonetic symbol correspondence table

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 外国語で表記された外国語単語及びこの
外国語単語の発音記号からなる登録データが入力される
登録データ入力部と、 各発音記号と該当発音記号に対応するカタカナ文字が記
憶されている発音記号・カタカナ対応テーブルと、 前記登録データ入力部を介して入力された登録データの
発音記号を前記発音記号・カタカナ対応テーブルを用い
てカタカナ単語に変換する発音記号カタカナ変換手段
と、 前記登録データ入力部を介して入力された各登録データ
の外国語単語及び前記カタカナに変換されたカタカナ単
語を記憶保持するデータベースと、 カタカナ単語からなる検索キーワードが入力される検索
キーワード入力部と、 この検索キーワード入力部から入力された検索キーワー
ドのカタカナ単語の前記データベースに記憶された各カ
タカナ単語に対する単語類似度を算出する単語類似度算
出手段と、 前記算出された単語類似度が規定値以上のカタカナ単語
に対応する外国語単語を前記検索キーワードに対する検
索結果として出力する検索結果判定出力部とを備えた外
国語検索装置。
1. A registration data input section for inputting registration data composed of a foreign language word written in a foreign language and a phonetic symbol of the foreign language word, and a phonetic character corresponding to each phonetic symbol and the corresponding phonetic symbol is stored. A phonetic symbol / katakana conversion table, and a phonetic symbol katakana conversion means for converting the phonetic symbols of the registration data input through the registration data input unit into katakana words using the phonetic symbol / katakana correspondence table; A database for storing and holding foreign words of each registration data input via the registration data input unit and katakana words converted to the katakana; and a search keyword input unit for inputting a search keyword composed of katakana words, The katakana word of the search keyword input from this search keyword input section is stored in the database. Word similarity calculation means for calculating a word similarity for each katakana word, and a search result determination for outputting a foreign language word corresponding to the katakana word having the calculated word similarity of a specified value or more as a search result for the search keyword A foreign language search device with an output unit.
【請求項2】 外国語で表記された外国語単語及びこの
外国語単語の音声からなる登録データが入力される登録
データ入力部と、 各音声と該当音声に対する各発音記号が記憶されている
音声・発音記声号対応テーブルと、 前記登録データ入力部を介して入力された登録データの
音声を前記音声・発音記声号対応テーブルを用いて発音
記号に変換する音声発音記号変換手段と、 各発音記号と該当発音記号に対応するカタカナ文字が記
憶されている発音記号・カタカナ対応テーブルと、 前記音声発音記号変換手段で得られた発音記号を前記発
音記号・カタカナ対応テーブを用いてカタカナ単語に変
換する発音記号カタカナ変換手段と、 前記登録データ入力部を介して入力された各登録データ
の外国語単語及び前記カタカナに変換されたカタカナ単
語を記憶保持するデータベースと、 カタカナ単語からなる検索キーワードが入力される検索
キーワード入力部と、 この検索キーワード入力部から入力された検索キーワー
ドのカタカナ単語の前記データベースに記憶された各カ
タカナ単語に対する単語類似度を算出する単語類似度算
出手段と、 前記算出された単語類似度が規定値以上のカタカナ単語
に対応する外国語単語を前記検索キーワードに対する検
索結果として出力する検索結果判定出力部とを備えた外
国語検索装置。
2. A registration data input unit for inputting registration data consisting of a foreign language word written in a foreign language and a voice of the foreign language word, and a voice in which each voice and each phonetic symbol for the corresponding voice are stored. A phonetic-phonetic symbol correspondence table; and a phonetic-phonetic symbol conversion means for converting the voice of the registration data input via the registered-data input unit into a phonetic symbol by using the voice-phonetic-phonograph corresponding table. A phonetic symbol / katakana correspondence table in which phonetic symbols and katakana characters corresponding to the corresponding phonetic symbols are stored, and phonetic symbols obtained by the phonetic phonetic symbol conversion means are converted into katakana words using the phonetic symbol / katakana table. Phonetic symbol katakana conversion means for converting, foreign language words of each registration data input via the registration data input section, and katakana converted to katakana A database for storing and holding words, a search keyword input section for inputting a search keyword consisting of katakana words, and a word for each katakana word stored in the database for the katakana words of the search keyword input from this search keyword input section A word similarity calculation unit for calculating a similarity; and a search result determination output unit for outputting, as a search result for the search keyword, a foreign word corresponding to a Katakana word having the calculated word similarity of a specified value or more. Foreign language search device.
【請求項3】 前記単語類似度算出手段は、前記検索キ
ーワードのカタカナ単語を構成する各カタカナ文字と前
記データベースに記憶されたカタカナ単語を構成する各
カタカナ文字との各文字毎の類似度を示す文字類似度を
文字の種類に応じて重み付けして算出し、この算出され
た各文字毎の各文字類似度から所定の式を用いて前記単
語類似度を算出するこことを特徴とする請求項1又は2
記載の外国語検索装置。
3. The word similarity calculation means indicates the similarity of each character between each katakana character forming the katakana word of the search keyword and each katakana character forming the katakana word stored in the database. The character similarity is calculated by weighting it according to the character type, and the word similarity is calculated from the calculated character similarity for each character using a predetermined formula. 1 or 2
Foreign language search device described.
【請求項4】 外国語で表記された外国語単語,この外
国語単語の発音記号及び前記外国語単語に関する情報か
らなる登録データが入力される登録データ入力部と、 各発音記号と該当発音記号に対応するカタカナ文字が記
憶されている発音記号・カタカナ対応テーブルと、 前記登録データ入力部を介して入力された登録データの
発音記号を前記発音記号・カタカナ対応テーブルを用い
てカタカナ単語に変換する発音記号カタカナ変換手段
と、 前記登録データ入力部を介して入力された各登録データ
の外国語単語,情報及び前記カタカナに変換されたカタ
カナ単語を記憶保持するデータベースと、 カタカナ単語からなる検索キーワードが入力される検索
キーワード入力部と、 この検索キーワード入力部から入力された検索キーワー
ドのカタカナ単語の前記データベースに記憶された各カ
タカナ単語に対する単語類似度を算出する単語類似度算
出手段と、 前記算出された単語類似度が規定値以上のカタカナ単語
に対応する外国語単語及び情報を前記検索キーワードに
対する検索結果として出力する検索結果判定出力部とを
備えた情報検索システム。
4. A registration data input section for inputting registration data comprising a foreign word written in a foreign language, a phonetic symbol of the foreign word and information on the foreign word, each phonetic symbol and a corresponding phonetic symbol. A phonetic symbol / katakana correspondence table in which katakana characters corresponding to are stored, and a phonetic symbol of registration data input via the registration data input unit is converted into a katakana word using the phonetic symbol / katakana correspondence table. Phonetic symbol katakana conversion means, a database that stores and stores foreign language words and information of each registration data input through the registration data input unit, and katakana words converted into the katakana, and a search keyword composed of katakana words. The search keyword input section to be input and the katakana of the search keyword input from this search keyword input section A word similarity calculating means for calculating a word similarity for each katakana word stored in the database of words; and a foreign language word and information corresponding to the katakana word for which the calculated word similarity is a specified value or more An information search system including a search result determination output unit that outputs a search result for a keyword.
JP7144625A 1995-06-12 1995-06-12 Foreign language search device and information search system Pending JPH08339376A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7144625A JPH08339376A (en) 1995-06-12 1995-06-12 Foreign language search device and information search system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7144625A JPH08339376A (en) 1995-06-12 1995-06-12 Foreign language search device and information search system

Publications (1)

Publication Number Publication Date
JPH08339376A true JPH08339376A (en) 1996-12-24

Family

ID=15366395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7144625A Pending JPH08339376A (en) 1995-06-12 1995-06-12 Foreign language search device and information search system

Country Status (1)

Country Link
JP (1) JPH08339376A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100793378B1 (en) * 2006-06-28 2008-01-11 엔에이치엔(주) Foreign phonetic similarity comparison and suggested word method and system
JP2008009507A (en) * 2006-06-27 2008-01-17 Hiroyuki Kabashima Method for representing pronunciation of foreign language in katakana
JP2009199434A (en) * 2008-02-22 2009-09-03 Mitsubishi Electric Corp Alphabetical character string/japanese pronunciation conversion apparatus and alphabetical character string/japanese pronunciation conversion program
JP2010134922A (en) * 2008-12-08 2010-06-17 Nhn Corp Similar word determination method and system
US9075793B2 (en) 2005-10-26 2015-07-07 Nhn Corporation System and method of providing autocomplete recommended word which interoperate with plurality of languages
JP2015191431A (en) * 2014-03-28 2015-11-02 株式会社ゼンリンデータコム Foreign language katakana expression creation device, foreign language katakana expression creation method, and foreign language katakana expression creation program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9075793B2 (en) 2005-10-26 2015-07-07 Nhn Corporation System and method of providing autocomplete recommended word which interoperate with plurality of languages
JP2008009507A (en) * 2006-06-27 2008-01-17 Hiroyuki Kabashima Method for representing pronunciation of foreign language in katakana
KR100793378B1 (en) * 2006-06-28 2008-01-11 엔에이치엔(주) Foreign phonetic similarity comparison and suggested word method and system
JP2009199434A (en) * 2008-02-22 2009-09-03 Mitsubishi Electric Corp Alphabetical character string/japanese pronunciation conversion apparatus and alphabetical character string/japanese pronunciation conversion program
JP2010134922A (en) * 2008-12-08 2010-06-17 Nhn Corp Similar word determination method and system
JP2015191431A (en) * 2014-03-28 2015-11-02 株式会社ゼンリンデータコム Foreign language katakana expression creation device, foreign language katakana expression creation method, and foreign language katakana expression creation program

Similar Documents

Publication Publication Date Title
JP2742115B2 (en) Similar document search device
CN1029170C (en) Language translation system
JPH03224055A (en) Method and device for input of translation text
JP2000194699A (en) Translation support device and method and computer readable recording medium
JPH08339376A (en) Foreign language search device and information search system
JP4084515B2 (en) Alphabet character / Japanese reading correspondence apparatus and method, alphabetic word transliteration apparatus and method, and recording medium recording the processing program therefor
JP2595934B2 (en) Kana-Kanji conversion processor
JP2008059389A (en) Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program
JPS58123129A (en) Kana-kanji conversion device
JPH0991297A (en) Character string search method and device
JP2002073656A (en) Different notation normalization processing, different notation expansion processing method, document search method by the processing method, the processing device, document search device, and program recording medium
JP3285149B2 (en) Foreign language electronic dictionary search method and apparatus
JP2793992B2 (en) Homonym recognition device
JP2001051992A (en) Japanese statistical data creation apparatus and method, and dictation system
JP3935374B2 (en) Dictionary construction support method, apparatus and program
JP3187671B2 (en) Electronic dictionary display
Phaiboon et al. Isarn Dharma Alphabets lexicon for natural language processing
JP3585944B2 (en) Data processing method and apparatus
JP3045886B2 (en) Character processing device with handwriting input function
JP3118880B2 (en) Japanese sentence processor
JPS59103136A (en) Kana-kanji conversion processing device
JPS62144269A (en) information retrieval device
JPH09101951A (en) Document retrieving device
JP2628775B2 (en) Dictionary creation device
JPH0916575A (en) Pronunciation dictionary device