[go: up one dir, main page]

JP5412137B2 - Machine learning apparatus and method - Google Patents

Machine learning apparatus and method Download PDF

Info

Publication number
JP5412137B2
JP5412137B2 JP2009040771A JP2009040771A JP5412137B2 JP 5412137 B2 JP5412137 B2 JP 5412137B2 JP 2009040771 A JP2009040771 A JP 2009040771A JP 2009040771 A JP2009040771 A JP 2009040771A JP 5412137 B2 JP5412137 B2 JP 5412137B2
Authority
JP
Japan
Prior art keywords
pattern
teacher data
term
acquired
corresponding term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009040771A
Other languages
Japanese (ja)
Other versions
JP2010198189A (en
Inventor
学 颯々野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009040771A priority Critical patent/JP5412137B2/en
Publication of JP2010198189A publication Critical patent/JP2010198189A/en
Application granted granted Critical
Publication of JP5412137B2 publication Critical patent/JP5412137B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、機械学習装置及び方法に関する。特に、機械学習の教師データを追加する機械学習装置及び方法に関する。   The present invention relates to a machine learning apparatus and method. In particular, the present invention relates to a machine learning apparatus and method for adding machine learning teacher data.

従来、コンピュータがサンプルデータに基づいて有用な規則等を抽出する機械学習では、有用な規則を抽出するために大量のサンプルデータが必要であり、この大量のサンプルデータである学習データを作成するには膨大な人手が必要である。この膨大な人手を解消するための手法として、ブートストラップ手法がある。   Conventionally, in machine learning in which a computer extracts useful rules based on sample data, a large amount of sample data is required to extract useful rules. To create learning data that is a large amount of sample data, Requires a lot of manpower. There is a bootstrap technique as a technique for eliminating this enormous manpower.

ブートストラップ手法は、少量の初期学習データを基にした規則に適合するデータを抽出し、学習データに追加することにより大量の学習データを作成する。このブートストラップ手法では、不適切なデータであっても学習データを基にした規則に適合すると学習データに追加するので、不適切なデータを含む学習データを基にした規則に適合するデータを抽出してしまうことになり、作成した大量の学習データには大量の不適切なデータを含むことになってしまっていた。このようなブートストラップ手法において、学習データを追加する際に不適切なデータを除去するようにした特許文献1の発明が知られている。   The bootstrap method creates a large amount of learning data by extracting data that conforms to a rule based on a small amount of initial learning data and adding it to the learning data. In this bootstrap method, even if the data is inappropriate, it is added to the learning data if it conforms to the rules based on the learning data. Therefore, data that conforms to the rules based on the learning data including inappropriate data is extracted. As a result, the large amount of learning data created contained a large amount of inappropriate data. In such a bootstrap technique, the invention of Patent Document 1 is known in which inappropriate data is removed when learning data is added.

特許文献1に記載された発明は、ブートストラップ手法の学習データ成長の過程において、評価予測が誤っているデータが学習データに組み込まれることを回避するため、学習データを複数のサブ学習データに分割し、不適切なデータを含まない学習データに基づく機械学習を行なう機会を得る。そして、得られた複数の学習結果に基づく評価予測を用いて総合的な評価予測を行ない、データを学習データに組み込む。   The invention described in Patent Document 1 divides learning data into a plurality of sub-learning data in order to avoid incorporating erroneously predicted data into learning data in the process of growing learning data by the bootstrap method. And an opportunity to perform machine learning based on learning data that does not include inappropriate data. Then, comprehensive evaluation prediction is performed using evaluation prediction based on the obtained plurality of learning results, and the data is incorporated into the learning data.

特開2005−92253号公報JP 2005-92253 A

しかしながら、特許文献1のように、学習データを複数のサブ学習データに分割したとしても、不適切なデータを全く含まない学習データに基づく機械学習を行なう機会が得られるわけではないので、総合的な評価予測によっては誤っているデータが学習データに組み込まれることがある。このように、評価が誤っているデータが学習データに組み込まれるような機械学習が積み重なると、サブ学習データに分割したとしても、不適切なデータを含まない学習データに基づく機械学習を行なう機会は少なくなるので、最終的に得られる学習データの信頼性は低いものになりかねない。   However, as in Patent Document 1, even if the learning data is divided into a plurality of sub-learning data, there is no opportunity to perform machine learning based on learning data that does not include any inappropriate data. Depending on the correct evaluation prediction, erroneous data may be incorporated into the learning data. In this way, when machine learning is performed such that erroneously evaluated data is incorporated into learning data, there is an opportunity to perform machine learning based on learning data that does not include inappropriate data even if divided into sub-learning data Since it decreases, the reliability of the finally obtained learning data may be low.

そこで、機械学習のための教師データに追加する用語の中から不適切な用語を省く機械学習装置が望まれている。   Therefore, a machine learning device that omits inappropriate terms from terms added to teacher data for machine learning is desired.

本発明は、機械学習のための教師データに追加する用語の中から不適切な用語を省き、教師データに適合する用語を追加し、教師データの精度を向上させる機械学習装置及び方法を提供することを目的とする。   The present invention provides a machine learning apparatus and method for improving the accuracy of teacher data by omitting inappropriate terms from terms added to teacher data for machine learning, adding terms that match teacher data, and improving the accuracy of teacher data. For the purpose.

本発明では、以下のような解決手段を提供する。   The present invention provides the following solutions.

(1) 予め与えられたカテゴリごとの教師データに基づいてコンピュータが学習する機械学習装置であって、前記教師データを記憶する教師データ記憶手段と、予め記憶されている前記教師データのカテゴリと一致したカテゴリのテキストを形態素解析する形態素解析手段と、前記形態素解析した形態素の素性を抽出する素性抽出手段と、抽出した前記素性の中で特定の素性を有する形態素の前及び後の形態素の情報である前後情報を抽出する前後情報抽出手段と、前記抽出した前後情報に基づいて固有の表現を取得する固有表現取得手段と、前記取得した固有の表現を固有表現記憶手段に記憶する固有表現記憶処理手段と、を有し、前記教師データ記憶手段から教師データを取得する教師データ取得手段と、取得した前記教師データとともに出現する用語との組合せを取得する組合せ取得手段と、取得した前記組合せにおいて、前記教師データの出現部分を任意の置き換え可能な用語が入るとみなしたパターンとして抽出するパターン抽出手段と、抽出した前記パターンの前記置き換え可能な部分に入る用語であるパターン対応用語を、コーパスの中から取得するパターン対応用語取得手段と、取得した、前記パターン対応用語が前記固有表現記憶手段に基づいて前記固有の表現に適合するか否かを判定するパターン対応用語判定手段と、前記判定に基づいて適合するパターン対応用語を取得し、取得した前記適合するパターン対応用語を教師データとして前記教師データ記憶手段に追加する教師データ追加手段と、を備えることを特徴とする機械学習装置。   (1) A machine learning device in which a computer learns based on teacher data for each category given in advance, and the teacher data storage means for storing the teacher data matches the category of the teacher data stored in advance. Morpheme analysis means for morphological analysis of the text of the selected category, feature extraction means for extracting the features of the morpheme analyzed by the morpheme, and information on morphemes before and after the morpheme having a specific feature among the extracted features Pre- and post-information extraction means for extracting certain pre- and post-information, specific expression acquisition means for acquiring a specific expression based on the extracted pre- and post-information, and specific expression storage processing for storing the acquired unique expression in the specific expression storage means Means for acquiring teacher data from the teacher data storage means, and the acquired teacher data A combination acquisition unit that acquires a combination with terms appearing in the pattern, a pattern extraction unit that extracts an appearance part of the teacher data as an arbitrary replaceable term in the acquired combination, and extracted A pattern correspondence term acquisition means for acquiring a pattern correspondence term, which is a term included in the replaceable portion of the pattern, from a corpus, and the acquired pattern correspondence term is based on the specific expression storage means A pattern-corresponding term determining unit that determines whether or not the expression matches, and a pattern-corresponding term that matches based on the determination is acquired, and the acquired matching pattern-corresponding term is added to the teacher data storage unit as teacher data A machine learning device comprising: a teacher data adding means.

(1)の構成によれば、本発明に係る機械学習装置は、予め与えられたカテゴリごとの教師データに基づいてコンピュータが学習する機械学習装置であって、教師データを記憶する教師データ記憶手段と、予め記憶されている教師データのカテゴリと一致したカテゴリのテキストを形態素解析し、形態素解析した形態素の素性を抽出し、抽出した素性の中で特定の素性を有する形態素の前及び後の形態素の情報である前後情報を抽出し、抽出した前後情報に基づいて固有の表現を取得し、取得した固有の表現を固有表現記憶手段に記憶する。そして、教師データ記憶手段から教師データ(例えば、○○)を取得し、取得した教師データとともに出現する用語との組合せ(例えば、「○○ 口座」、「○○ 支店」・・・)を取得し、取得した組合せにおいて、教師データの出現部分を任意の置き換え可能な用語が入るとみなしたパターン(例えば、「# 口座」、「# 支店」。ここで、#は任意の置き換え可能な用語が出現する箇所を示す)として抽出し、抽出したパターンの置き換え可能な部分に入る用語であるパターン対応用語を、コーパスの中から取得する(例えば、「×× 口座」、「東京 支店」からなるコーパスを取得した場合、抽出したパターンに対応する置き換え可能な部分に入る用語は、××及び東京となる)。そして、取得した、パターン対応用語(例えば、××、東京)が固有表現記憶手段に基づいて機械学習すべき固有の表現に適合するか否かを判定し、判定に基づいて適合するパターン対応用語(例えば、××)を取得し、取得した適合するパターン対応用語(例えば、××)を教師データとして教師データ記憶手段に追加する。   According to the configuration of (1), the machine learning device according to the present invention is a machine learning device in which a computer learns based on teacher data for each category given in advance, and teacher data storage means for storing teacher data Morphological analysis is performed on the text in the category that matches the category of the pre-stored teacher data, the morpheme features extracted from the morpheme analysis, and the morpheme before and after the morpheme having a specific feature among the extracted features The before and after information that is the information is extracted, a unique expression is acquired based on the extracted before and after information, and the acquired unique expression is stored in the specific expression storage means. Then, teacher data (for example, XX) is acquired from the teacher data storage means, and combinations (for example, “XX account”, “XX branch”,...) With terms that appear together with the acquired teacher data are acquired. In the obtained combination, a pattern in which an arbitrary replaceable term is included in the appearance part of the teacher data (for example, “# account”, “# branch”, where # is an arbitrary replaceable term) A pattern-corresponding term is extracted from the corpus (for example, “XX account”, “Tokyo branch”). ) And the terms that fall into the replaceable part corresponding to the extracted pattern are XX and Tokyo). Then, it is determined whether or not the acquired pattern correspondence term (for example, xx, Tokyo) is suitable for a specific expression to be machine-learned based on the specific expression storage means, and the pattern correspondence term that is suitable based on the determination (For example, xx) is acquired, and the acquired matching pattern correspondence term (for example, xx) is added to the teacher data storage means as teacher data.

すなわち、本発明に係る機械学習装置は、コーパスの中から、教師データとともに出現するパターンのパターン対応用語を取得し、取得したパターン対応用語が固有表現記憶手段に基づいて機械学習すべき固有の表現に適合するか否かを判定し、適合するパターン対応用語を教師データ記憶手段に追加し、適合しないパターン対応用語は教師データ記憶手段に追加しない。したがって、本発明に係る機械学習装置は、機械学習のための教師データに追加する用語の中から不適切な用語を省き、教師データに適合する用語を追加し、教師データの精度を向上させることができる。   That is, the machine learning device according to the present invention acquires a pattern-corresponding term of a pattern that appears together with teacher data from the corpus, and the acquired pattern-corresponding term is a unique expression that should be machine-learned based on the specific-expression storage means The pattern correspondence terms that match are added to the teacher data storage means, and the pattern correspondence terms that do not match are not added to the teacher data storage means. Therefore, the machine learning device according to the present invention eliminates inappropriate terms from terms to be added to teacher data for machine learning, adds terms that match teacher data, and improves the accuracy of teacher data. Can do.

(2) 前記コーパスは、検索クエリを記憶した検索ログであることを特徴とする(1)に記載の機械学習装置。   (2) The machine learning device according to (1), wherein the corpus is a search log storing a search query.

(2)の構成によれば、(1)に記載の機械学習装置が取得するコーパスは、検索クエリを記憶した検索ログである。一般的に、例えばWeb検索の検索ログは、検索サイトにおいて一般ユーザが検索したい事柄を検索窓に入力したものであるが、検索結果を絞るために、複数の検索クエリ(検索キーワード)をスペースを用いて入力することが多い。よって、検索ログは、適切に単語単位で区切られており単語を抽出しやすく扱いやすい。このような検索クエリを記憶した検索ログの中から、機械学習装置は、教師データとともに出現するパターンを抽出し、抽出したパターンのパターン対応用語を取得する。したがって、本発明に係る機械学習装置は、機械学習のための教師データに追加する用語を適切なコーパスから取得するので、不適切な用語を省き、教師データに適合する用語を追加し、教師データの精度を向上させることができる。   According to the configuration of (2), the corpus acquired by the machine learning device according to (1) is a search log storing a search query. In general, for example, a search log of a Web search is a search site in which information that a general user wants to search is input to a search window. In order to narrow down search results, a plurality of search queries (search keywords) are separated by spaces. Often used to input. Therefore, the search log is appropriately segmented in units of words, and it is easy to extract words and handle them easily. From the search log storing such a search query, the machine learning device extracts a pattern that appears together with the teacher data, and acquires a pattern corresponding term of the extracted pattern. Therefore, the machine learning device according to the present invention acquires the term to be added to the teacher data for machine learning from an appropriate corpus, so the inappropriate term is omitted, the term that matches the teacher data is added, and the teacher data Accuracy can be improved.

(3) 予め与えられたカテゴリごとの教師データを記憶する教師データ記憶手段に基づいてコンピュータが学習する機械学習方法であって、予め記憶されている前記教師データのカテゴリと一致したカテゴリのテキストを形態素解析するステップと、前記形態素解析した形態素の素性を抽出するステップと、抽出した前記素性の中で特定の素性を有する形態素の前及び後の形態素の情報である前後情報を抽出するステップと、前記抽出した前後情報に基づいて固有の表現を取得するステップと、前記取得した固有の表現を固有表現記憶手段に記憶するステップと、を有し、前記教師データ記憶手段から教師データを取得するステップと、取得した前記教師データとともに出現する用語との組合せを取得するステップと、取得した前記組合せにおいて、前記教師データの出現部分を任意の置き換え可能な用語が入るとみなしたパターンとして抽出するステップと、抽出した前記パターンの前記置き換え可能な部分に入る用語であるパターン対応用語を、コーパスの中から取得するステップと、取得した、前記パターン対応用語が前記固有表現記憶手段に基づいて前記固有の表現に適合するか否かを判定するステップと、前記判定に基づいて適合するパターン対応用語を取得し、取得した前記適合するパターン対応用語を教師データとして前記教師データ記憶手段に追加するステップと、を備えることを特徴とする機械学習方法。   (3) A machine learning method in which a computer learns based on teacher data storage means for storing teacher data for each category given in advance, and the category text that matches the category of the teacher data stored in advance is stored. A step of performing morpheme analysis, a step of extracting features of the morpheme analyzed by the morpheme, a step of extracting front-and-rear information which is information of morphemes before and after the morpheme having a specific feature among the extracted features, A step of acquiring a unique expression based on the extracted before and after information, and a step of storing the acquired unique expression in a specific expression storage unit, and acquiring teacher data from the teacher data storage unit And a step of acquiring a combination of terms that appear together with the acquired teacher data, and the acquired combination Then, the step of extracting the appearance part of the teacher data as a pattern regarded as containing any replaceable term, and the pattern corresponding term that is the term that falls within the replaceable part of the extracted pattern, A step of acquiring from the inside, a step of determining whether the acquired pattern-corresponding term conforms to the specific expression based on the specific-expression storage means, and a pattern-corresponding term that conforms to the determination A machine learning method comprising: acquiring the acquired matching pattern correspondence term as teacher data in the teacher data storage means.

(3)の構成によれば、本発明に係る機械学習方法は、予め与えられたカテゴリごとの教師データを記憶する教師データ記憶手段に基づいてコンピュータが、予め記憶されている教師データのカテゴリと一致したカテゴリのテキストを形態素解析し、形態素解析した形態素の素性を抽出し、抽出した素性の中で特定の素性を有する形態素の前及び後の形態素の情報である前後情報を抽出し、抽出した前後情報に基づいて固有の表現を取得し、取得した固有の表現を固有表現記憶手段に記憶する。そして、教師データ記憶手段から教師データ(例えば、○○)を取得し、取得した教師データとともに出現する用語との組合せ(例えば、「○○ 口座」、「○○ 支店」・・・)を取得し、取得した組合せにおいて、教師データの出現部分を任意の置き換え可能な用語が入るとみなしたパターン(例えば、「# 口座」、「# 支店」。ここで、#は任意の置き換え可能な用語が出現する箇所を示す)として抽出し、抽出したパターンの置き換え可能な部分に入る用語であるパターン対応用語を、コーパスの中から取得する(例えば、「×× 口座」、「東京 支店」からなるコーパスを取得した場合、抽出したパターンに対応する置き換え可能な部分に入る用語は、××及び東京となる)。そして、取得した、パターン対応用語(例えば、××、東京)が固有表現記憶手段に基づいて機械学習すべき固有の表現に適合するか否かを判定し、判定に基づいて適合するパターン対応用語(例えば、××)を取得し、取得した適合するパターン対応用語(例えば、××)を教師データとして教師データ記憶手段に追加する。したがって、本発明に係る機械学習方法は、機械学習のための教師データに追加する用語の中から不適切な用語を省き、教師データに適合する用語を追加し、教師データの精度を向上させることができる。   According to the configuration of (3), the machine learning method according to the present invention is based on the teacher data storage means for storing the teacher data for each category given in advance. Morphological analysis is performed on the text of the matched category, the features of the morpheme analyzed are extracted, and the information before and after the morpheme before and after the morpheme having the specific feature is extracted and extracted. A unique expression is acquired based on the before and after information, and the acquired unique expression is stored in the specific expression storage means. Then, teacher data (for example, XX) is acquired from the teacher data storage means, and combinations (for example, “XX account”, “XX branch”,...) With terms that appear together with the acquired teacher data are acquired. In the obtained combination, a pattern in which an arbitrary replaceable term is included in the appearance part of the teacher data (for example, “# account”, “# branch”, where # is an arbitrary replaceable term) A pattern-corresponding term is extracted from the corpus (for example, “XX account”, “Tokyo branch”). ) And the terms that fall into the replaceable part corresponding to the extracted pattern are XX and Tokyo). Then, it is determined whether or not the acquired pattern correspondence term (for example, xx, Tokyo) is suitable for a specific expression to be machine-learned based on the specific expression storage means, and the pattern correspondence term that is suitable based on the determination (For example, xx) is acquired, and the acquired matching pattern correspondence term (for example, xx) is added to the teacher data storage means as teacher data. Therefore, the machine learning method according to the present invention eliminates inappropriate terms from terms added to teacher data for machine learning, adds terms that match teacher data, and improves the accuracy of teacher data. Can do.

本発明によれば、機械学習のための教師データに追加する用語の中から不適切な用語を省き、教師データに適合する用語を追加し、教師データの精度を向上させることができる。   According to the present invention, it is possible to omit inappropriate terms from terms added to teacher data for machine learning, add terms that match teacher data, and improve the accuracy of teacher data.

本発明の一実施形態に係る機械学習装置10の機能を示す機能ブロック図である。It is a functional block diagram which shows the function of the machine learning apparatus 10 which concerns on one Embodiment of this invention. 本発明の一実施形態に係る機械学習装置10のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the machine learning apparatus 10 which concerns on one Embodiment of this invention. 本発明の一実施形態に係るコーパスDB32を示す図である。It is a figure which shows corpus DB32 which concerns on one Embodiment of this invention. 本発明の一実施形態に係るパターンDB33を示す図である。It is a figure which shows pattern DB33 which concerns on one Embodiment of this invention. 本発明の一実施形態に係るNE辞書DB41を示す図である。It is a figure which shows NE dictionary DB41 concerning one Embodiment of this invention. 本発明の一実施形態に係る機械学習装置10の処理内容を示すフローチャートである。It is a flowchart which shows the processing content of the machine learning apparatus 10 which concerns on one Embodiment of this invention. 本発明の一実施形態に係る機械学習装置10のNE辞書作成処理を示すフローチャートである。It is a flowchart which shows the NE dictionary creation process of the machine learning apparatus 10 which concerns on one Embodiment of this invention. 本発明の一実施形態に係る教師データDB31を示す図である。It is a figure which shows teacher data DB31 which concerns on one Embodiment of this invention.

以下、本発明の実施形態について図を参照しながら説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は、本発明の一実施形態に係る機械学習装置10の機能を示す機能ブロック図である。本発明の一実施形態に係る機械学習装置10は、教師データ記憶手段として教師データDB31と、固有表現記憶手段としてNE(Named Entity)辞書DB41と、教師データ取得手段として教師データ取得部11と、組合せ取得手段として組合せ取得部12と、パターン抽出手段としてパターン抽出部13と、パターン対応用語取得手段としてパターン対応用語取得部14と、パターン対応用語判定手段としてパターン対応用語判定部15と、教師データ追加手段として教師データ追加部16と、を備えている。更に、パターンを記憶するパターンDB33と、NE辞書DB41に固有の表現を記憶するための、形態素解析手段として形態素解析部21と、素性抽出手段として素性抽出部22と、前後情報抽出手段として前後情報抽出部23と、固有表現取得手段として固有表現取得部24と、固有表現記憶処理手段として固有表現記憶処理部25と、を備えている。   FIG. 1 is a functional block diagram illustrating functions of a machine learning device 10 according to an embodiment of the present invention. A machine learning device 10 according to an embodiment of the present invention includes a teacher data DB 31 as a teacher data storage unit, a NE (Named Entity) dictionary DB 41 as a specific expression storage unit, a teacher data acquisition unit 11 as a teacher data acquisition unit, A combination acquisition unit 12 as a combination acquisition unit, a pattern extraction unit 13 as a pattern extraction unit, a pattern corresponding term acquisition unit 14 as a pattern corresponding term acquisition unit, a pattern corresponding term determination unit 15 as a pattern corresponding term determination unit, and teacher data A teacher data adding unit 16 is provided as an adding means. Furthermore, a pattern DB 33 for storing patterns, a morpheme analysis unit 21 as a morpheme analysis unit, a feature extraction unit 22 as a feature extraction unit, and a front-rear information extraction unit as a feature extraction unit for storing expressions unique to the NE dictionary DB 41 An extraction unit 23, a specific expression acquisition unit 24 as a specific expression acquisition unit, and a specific expression storage processing unit 25 as a specific expression storage processing unit.

教師データDB31は、カテゴリごとの教師データを記憶する。教師データの初期値は、正解事例データである。例えば、教師データが金融カテゴリの固有表現を記憶する場合には、初期値は、金融カテゴリの固有表現の正解事例データとして、周知の銀行名を「○○」とした場合の「○○」が記憶されている。   The teacher data DB 31 stores teacher data for each category. The initial value of the teacher data is correct case data. For example, when the teacher data stores a specific expression of the financial category, the initial value is “XX” when the well-known bank name is “XX” as the correct example data of the specific expression of the financial category. It is remembered.

NE辞書DB41は、教師データのカテゴリと一致したカテゴリのテキストを形態素解析し、解析した形態素の素性を抽出し、抽出した素性に関する情報とともに、抽出した素性の中で特定の素性を有する形態素の前及び後の形態素の情報に基づいて取得した固有の表現を記憶する。抽出した素性に関する情報には、形態素解析で与えられる表記及び品詞タグと、素性である文字種(平仮名、片仮名、漢字、英字、大文字、小文字、文字数等)、表記先頭一文字、表記末尾一文字、デフォルトタグ(正解コーパス中でカウントしてみて、多数派のタグ)等がある。特定の素性を有する形態素には、例えば、名詞や大文字等である。前及び後の形態素の情報は、特定の素性を有する形態素とともに共起する形態素や、特定の素性を有する形態素の直前及び直後の形態素等である。固有の表現には、例えば、人名、地名、組織名等の固有名詞的表現、日付や時間等の時間表現、及び金額や割合等の数値表現等がある。NE辞書DB41は、カテゴリごとに固有の表現(例えば、カテゴリが金融における、○○、××等、ここで××も周知の銀行名とする)を対応付けて記憶する。また、カテゴリにおける固有の表現が有する、抽出した素性に関する情報と、前及び後の形態素の情報とを固有の表現に対応付けて記憶している。そして、抽出した素性に関する情報と、前及び後の形態素の情報とに基づいて求められた固有の表現のタイプ(例えば、固有、曖昧な表現、頻出する表現等)を記憶している。   The NE dictionary DB 41 performs morphological analysis on the text of the category that matches the category of the teacher data, extracts the features of the analyzed morpheme, and includes information on the extracted features and the morpheme having a specific feature among the extracted features. And the unique expression acquired based on the information of the later morpheme is stored. Information on the extracted features includes notation and part-of-speech tags given in morphological analysis, character types that are features (Hiragana, Katakana, Kanji, English, uppercase, lowercase, number of characters, etc.), first character of the notation, last character of the notation, default tag (Count in the correct answer corpus and tag the majority). Examples of morphemes having specific features include nouns and capital letters. The information of the morpheme before and after is a morpheme that co-occurs with a morpheme having a specific feature, a morpheme immediately before and after a morpheme having a specific feature, or the like. Specific expressions include, for example, proper noun expressions such as person names, place names, and organization names, time expressions such as dates and times, and numerical expressions such as amounts and ratios. The NE dictionary DB 41 stores a unique expression for each category (for example, XX, XX, etc., where XX is also a well-known bank name). In addition, information on the extracted features possessed by the unique expression in the category and information on the previous and subsequent morphemes are stored in association with the unique expression. And the type of the specific expression calculated | required based on the information regarding the extracted feature and the information on the previous and subsequent morphemes (for example, specific, ambiguous expression, frequent expression, etc.) is stored.

教師データ取得部11は、教師データDB31から教師データ(例えば、○○)を取得する。   The teacher data acquisition unit 11 acquires teacher data (for example, OO) from the teacher data DB 31.

組合せ取得部12は、取得した教師データ(例えば、○○)とともに出現する用語との組合せを取得する。例えば、「○○」とともに出現する「○○ 口座」、「○○ 支店」等の組合せを取得する。   The combination acquisition unit 12 acquires a combination with a term that appears together with the acquired teacher data (for example, OO). For example, a combination of “XX account”, “XX branch”, etc. appearing together with “XX” is acquired.

パターン抽出部13は、取得した組合せにおいて、教師データの出現部分を任意の置き換え可能な用語が入るとみなしたパターンとして抽出する。例えば、「○○ 口座」、「○○ 支店」等の組合せにおいて、教師データ(例えば、○○)の出現部分を任意の置き換え可能な用語が入るとみなしたパターン(例えば、「# 口座」、「# 支店」等)として抽出する。パターンDB33は、抽出されたパターンを記憶する。コーパスが検索ログの場合において、パターン抽出部13は、検索ログの中から、教師データの文字列以外の全文字列をパターンとして抽出する。   In the acquired combination, the pattern extraction unit 13 extracts the appearance portion of the teacher data as a pattern that is considered to contain any replaceable term. For example, in a combination of “XXX account”, “XX branch”, etc., a pattern (for example, “# account”, “# Branch” etc.). The pattern DB 33 stores the extracted pattern. When the corpus is a search log, the pattern extraction unit 13 extracts all character strings other than the character string of the teacher data as a pattern from the search log.

パターン対応用語取得部14は、抽出したパターンの置き換え可能な部分に入る用語であるパターン対応用語を、コーパスの中から取得する。抽出したパターン(例えば、「# 口座」、「# 支店」)の#に対応するパターン対応用語(例えば、××、東京)を、コーパスの中から取得する。コーパスは、例えば、Webデータや、検索ログ等から構成されるコーパスDB32から取得することができる。特に検索ログは、ユーザが単語分割を指定しており、単語を抽出しやすく扱いやすい。   The pattern-corresponding term acquisition unit 14 acquires a pattern-corresponding term that is a term included in a replaceable portion of the extracted pattern from the corpus. A pattern corresponding term (for example, xx, Tokyo) corresponding to # of the extracted pattern (for example, “# account”, “# branch”) is acquired from the corpus. The corpus can be acquired from the corpus DB 32 including, for example, Web data and a search log. In particular, in the search log, the user designates word division, and it is easy to extract words and handle them easily.

パターン対応用語判定部15は、取得したパターン対応用語(例えば、××、東京)がNE辞書DB41に基づいて固有の表現に適合するか否かを判定する。取得したパターン対応用語が、固有の表現に適合するか否かの判定は、取得したパターン対応用語が、NE辞書DB41に固有の表現として記憶されており、取得すべきカテゴリと一致している場合に、適合すると判定する。また、取得したパターン対応用語が、NE辞書DB41に固有の表現として記憶されていない場合であっても、取得したパターン対応用語及びパターンの出現する頻度が所定の閾値以上である場合に適合すると判定する。具体的には、取得したパターン対応用語が「東京」の場合に、「東京」がNE辞書DB41に記憶されているが、取得すべきカテゴリと一致しないような表現であると記憶されている場合には、「東京」は固有の表現に適合しないと判定する。一方、取得したパターン対応用語「××」が、取得すべきカテゴリと一致していると記憶されている場合には、固有の表現に適合すると判定する。また、取得したパターン対応用語が、本来取得すべきパターン対応用語であったとしても、珍しい表現である場合(この例の場合では、例えば他国の銀行名)、固有の表現としてNE辞書に記憶されていない可能性があるが、この場合であっても機械学習を繰り返し行ない、出現頻度が所定の閾値以上である場合に適合すると判定する。   The pattern corresponding term determination unit 15 determines whether or not the acquired pattern corresponding term (for example, xx, Tokyo) matches the unique expression based on the NE dictionary DB 41. The determination as to whether or not the acquired pattern correspondence term conforms to a specific expression is performed when the acquired pattern correspondence term is stored as a unique expression in the NE dictionary DB 41 and matches the category to be acquired. Is determined to be suitable. Further, even if the acquired pattern correspondence term is not stored as a unique expression in the NE dictionary DB 41, it is determined that the acquired pattern correspondence term and the frequency of occurrence of the pattern are equal to or higher than a predetermined threshold value. To do. Specifically, when the acquired pattern correspondence term is “Tokyo”, “Tokyo” is stored in the NE dictionary DB 41, but is stored as an expression that does not match the category to be acquired. Therefore, it is determined that “Tokyo” does not match the unique expression. On the other hand, if it is stored that the acquired pattern correspondence term “XX” matches the category to be acquired, it is determined that it matches the unique expression. Further, even if the acquired pattern correspondence term is a pattern correspondence term that should originally be obtained, if it is an unusual expression (in this case, for example, a bank name in another country), it is stored in the NE dictionary as a unique expression. However, even in this case, machine learning is repeated, and it is determined that it is suitable when the appearance frequency is equal to or higher than a predetermined threshold.

教師データ追加部16は、判定に基づいて適合するパターン対応用語(例えば、××)を取得し、取得した適合するパターン対応用語(例えば、××)を教師データDB31に追加する。   The teacher data adding unit 16 acquires a matching pattern correspondence term (for example, xx) based on the determination, and adds the acquired matching pattern correspondence term (for example, xx) to the teacher data DB 31.

形態素解析部21は、教師データのカテゴリと一致したカテゴリのテキスト(例えば、Web文書等)を形態素解析し、素性抽出部22は、形態素解析部21が形態素解析した形態素の素性を抽出する。そして、前後情報抽出部23は、素性抽出部22が抽出した素性の中で特定の素性を有する形態素の前及び後の形態素の情報である前後情報を抽出し、固有表現取得部24が前後情報に基づいて固有の表現を取得し、固有表現記憶処理部25が取得した固有の表現をNE辞書DB41に記憶する。   The morpheme analysis unit 21 performs a morphological analysis on a category text (for example, a Web document) that matches the category of the teacher data, and the feature extraction unit 22 extracts the features of the morpheme analyzed by the morpheme analysis unit 21. The before-and-after information extracting unit 23 extracts the before-and-after information that is the information of the morpheme before and after the morpheme having the specific feature from the features extracted by the feature extracting unit 22, The unique expression is acquired based on the unique expression, and the unique expression acquired by the specific expression storage processing unit 25 is stored in the NE dictionary DB 41.

ここで、形態素(morpheme)とは、意味を持つ最小の言語単位のことで、自然言語で書かれた文章を分割する際に利用される言語単位である。例えば、「今日はいい天気です」は、「今日/は/いい/天気/です」の形態素に分割される。形態素を特徴づける素性としては、品詞、語形等の他に、例えば、文字種、文字、デフォルトタグ、付加情報、細分類情報等、がある。   Here, the morpheme is the smallest linguistic unit having a meaning, and is a linguistic unit used when a sentence written in a natural language is divided. For example, “Today is a good weather” is divided into morphemes of “Today / Has / Good / Weather / Is it”. Features that characterize morphemes include, for example, character types, characters, default tags, additional information, and fine classification information in addition to parts of speech and word forms.

NE辞書DB41の記憶において、素性を表す文字列と識別子IDとの対応表である素性マップに基づいて、抽出した素性に関する情報をコード化し、文字列で書かれた素性の表現を数値化して記憶してもよい。例えば、普通名詞:53、助詞:54等という素性マップに基づいて、固有の表現「○○」について抽出した素性に関する情報(例えば、普通名詞、漢字等)をコード化し、「○○」の素性「53:1、54:0」の様に数値化する。ここで、意味ありを1、意味なしを0で数値化している。このように、数値化することによってコンピュータによる迅速な処理が可能である。   In the storage of the NE dictionary DB 41, based on a feature map that is a correspondence table between character strings representing features and identifier IDs, information on the extracted features is coded, and the representation of the features written in the character strings is digitized and stored. May be. For example, based on the feature map of common noun: 53, particle: 54, etc., information on the feature extracted for the unique expression “XX” (for example, common noun, kanji, etc.) is encoded, and the feature of “XX” It is digitized like “53: 1, 54: 0”. Here, the meaning is 1 and the meaning is 0. In this way, rapid processing by a computer is possible by digitizing.

図2は、本発明の一実施形態に係る機械学習装置10のハードウェア構成の一例を示す図である。機械学習装置10は、CPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、並びにキーボード及びマウス1100等の入力手段や表示装置1022を備える。   FIG. 2 is a diagram illustrating an example of a hardware configuration of the machine learning device 10 according to an embodiment of the present invention. The machine learning device 10 includes a CPU (Central Processing Unit) 1010 (in the multiprocessor configuration, a plurality of CPUs such as a CPU 1012 may be added), a bus line 1005, a communication I / F 1040, a main memory 1050, a BIOS (Basic Input Output System). ) 1060, USB port 1090, I / O controller 1070, input means such as a keyboard and mouse 1100, and a display device 1022.

CPU1010は、機械学習装置10を統括的に制御し、ハードディスク1074に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。   The CPU 1010 controls the machine learning device 10 in an integrated manner, and appropriately reads and executes various programs stored in the hard disk 1074, thereby realizing various functions according to the present invention in cooperation with the hardware described above. Yes.

I/Oコントローラ1070には、テープドライブ1072、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、等の記憶手段を接続することができる。   Storage means such as a tape drive 1072, a hard disk 1074, an optical disk drive 1076, and a semiconductor memory 1078 can be connected to the I / O controller 1070.

BIOS1060は、機械学習装置10の起動時にCPU1010が実行するブートプログラムや、機械学習装置10のハードウェアに依存するプログラム等を格納する。   The BIOS 1060 stores a boot program executed by the CPU 1010 when the machine learning device 10 is started, a program depending on the hardware of the machine learning device 10, and the like.

ハードディスク1074は、機械学習装置10が本発明の機能を実行するためのプログラムを記憶しており、更に、教師データDB31、パターンDB33、NE辞書DB41等の各種データベースを構成可能である。   The hard disk 1074 stores a program for the machine learning device 10 to execute the functions of the present invention, and can constitute various databases such as a teacher data DB 31, a pattern DB 33, and an NE dictionary DB 41.

光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。また、同様にテープドライブ1072に対応したテープメディア1071を主としてバックアップのために使用することもできる。   As the optical disc drive 1076, for example, a DVD-ROM drive, a CD-ROM drive, a DVD-RAM drive, or a CD-RAM drive can be used. In this case, the optical disk 1077 corresponding to each drive is used. A program or data may be read from the optical disk 1077 by the optical disk drive 1076 and provided to the main memory 1050 or the hard disk 1074 via the I / O controller 1070. Similarly, the tape medium 1071 corresponding to the tape drive 1072 can be used mainly for backup.

機械学習装置10に提供されるプログラムは、ハードディスク1074、光ディスク1077、又はメモリカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、又は通信I/F1040を介してダウンロードされることによって、機械学習装置10にインストールされ実行されてもよい。   The program provided to the machine learning device 10 is provided by being stored in a recording medium such as the hard disk 1074, the optical disk 1077, or a memory card. This program may be installed in the machine learning device 10 and executed by being read from a recording medium via the I / O controller 1070 or downloaded via the communication I / F 1040.

前述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、記憶媒体としては、ハードディスク1074、光ディスク1077、又はメモリカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク又は光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してプログラムを機械学習装置10に提供してもよい。   The aforementioned program may be stored in an internal or external storage medium. Here, in addition to the hard disk 1074, the optical disk 1077, or the memory card, a magneto-optical recording medium such as an MD or a tape medium can be used as the storage medium. Alternatively, a storage device such as a hard disk or an optical disk library provided in a server system connected to a dedicated communication line or the Internet may be used as a recording medium, and the program may be provided to the machine learning device 10 via the communication line.

ここで、表示装置1022は、機械学習装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。   Here, the display device 1022 displays a screen of the calculation processing result by the machine learning device 10, and includes a display device such as a cathode ray tube display device (CRT) or a liquid crystal display device (LCD).

また、通信I/F1040は、機械学習装置10を専用ネットワーク又は公共ネットワークを介してコーパスDB32等と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。   The communication I / F 1040 is a network adapter for enabling the machine learning device 10 to be connected to the corpus DB 32 or the like via a dedicated network or a public network. The communication I / F 1040 may include a modem, a cable modem, and an Ethernet (registered trademark) adapter.

図3は、本発明の一実施形態に係るコーパスDB32を示す図である。   FIG. 3 is a diagram showing the corpus DB 32 according to an embodiment of the present invention.

コーパスDB32は、検索ログを記憶している。検索ログは、ユーザが情報を検索するときに入力した検索クエリを記憶している。例えば、ユーザが、○○銀行の支店の場所を検索する場合に、入力した「○○ 支店」を記憶している。   The corpus DB 32 stores a search log. The search log stores a search query input when the user searches for information. For example, when the user searches for the location of the branch of XX bank, the inputted “XX branch” is stored.

図4は、本発明の一実施形態に係るパターンDB33を示す図である。   FIG. 4 is a diagram showing a pattern DB 33 according to an embodiment of the present invention.

パターンDB33は、パターンを記憶している。パターンは、教師データとともに出現するパターンである。コーパス(例えば、「○○ 口座」、「○○ 支店」等を含む検索ログ)の中からパターン抽出部13が抽出した、教師データ(例えば、○○)とともに出現するパターン(例えば、「# 口座」、「# 支店」)を記憶する。ここで#は、パターン対応用語が出現する位置を表す。なお、パターンDB33は、パターンとともにパターン対応用語や頻度も記憶していてもよく、パターン対応用語は、パターンに対応する取得した用語であり、頻度は、パターンとともに出現するパターン対応用語の出現回数である。   The pattern DB 33 stores patterns. The pattern is a pattern that appears together with the teacher data. A pattern (for example, “# account”) that appears with the teacher data (for example, XX) extracted by the pattern extraction unit 13 from a corpus (for example, a search log including “XX account”, “XX branch”, etc.) "," # Branch "). Here, # represents the position where the pattern corresponding term appears. Note that the pattern DB 33 may store a pattern correspondence term and frequency together with the pattern. The pattern correspondence term is an acquired term corresponding to the pattern, and the frequency is the number of occurrences of the pattern correspondence term appearing together with the pattern. is there.

図5は、本発明の一実施形態に係るNE辞書DB41を示す図である。   FIG. 5 is a diagram showing the NE dictionary DB 41 according to an embodiment of the present invention.

NE辞書DB41は、教師データのカテゴリと一致したカテゴリのテキストから抽出された固有の表現が記憶されており、テキスト中に出現する頻度や、抽出された固有の表現の素性が、対応付けて記憶されている。図5の例は、「○○」が金融カテゴリのテキストに頻度が869で出現する固有の表現であり素性が固有名詞、漢字、組織名、・・・、「××」が金融カテゴリのテキストに頻度が783で出現する固有の表現であり素性が固有名詞、英字、大文字、組織名、・・・、であることを示している。そして、「東京」は、金融カテゴリのテキストに頻度が300で出現する固有の表現であり素性が固有名詞、漢字、場所を示す表現、・・・、であることを示している。また、これらの情報以外に、口座という固有の表現とともに出現する固有の表現は金融機関を表す固有の表現(の可能性が高い)であることや、支店という固有の表現とともに出現する固有の表現は場所を表す固有の表現(の可能性が高い)であるといった、固有の表現間の共起度を記録していてもよい。   The NE dictionary DB 41 stores unique expressions extracted from the text of the category that matches the category of the teacher data, and stores the frequency of appearance in the text and the features of the extracted unique expressions in association with each other. Has been. In the example of FIG. 5, “XX” is a unique expression that appears at a frequency of 869 in the text of the financial category, and the feature is a proper noun, kanji, organization name,..., “XX” is the text of the financial category. This is a unique expression that appears at a frequency of 783, indicating that the feature is a proper noun, English letter, capital letter, organization name,. “Tokyo” is a unique expression that appears at a frequency of 300 in the text of the financial category, and indicates that the feature is an expression indicating a proper noun, a kanji character, a place, and so on. In addition to this information, the unique expression that appears with the unique expression of the account is the unique expression that represents the financial institution (highly likely), and the unique expression that appears with the unique expression of the branch May record the co-occurrence between unique expressions, such as is a unique expression (highly likely).

図6は、本発明の一実施形態に係る機械学習装置10の処理内容を示すフローチャートである。なお、本処理は、プログラム開始指令を受けて処理を開始し、プログラム終了指令を受けて処理を終了する。   FIG. 6 is a flowchart showing the processing contents of the machine learning device 10 according to the embodiment of the present invention. This process starts upon receiving a program start instruction, and ends upon receiving a program end instruction.

ステップS101において、CPU1010は、教師データDB31から教師データを取得する。その後、CPU1010は、処理をステップS102に移す。   In step S101, the CPU 1010 acquires teacher data from the teacher data DB 31. Thereafter, the CPU 1010 advances the processing to step S102.

ステップS102において、CPU1010は、コーパスを取得する。より具体的には、CPU1010は、教師データのカテゴリと同一のカテゴリのコーパスをコーパスDB32から取得する。その後、CPU1010は、処理をステップS103に移す。   In step S102, the CPU 1010 acquires a corpus. More specifically, the CPU 1010 acquires a corpus having the same category as that of the teacher data from the corpus DB 32. Thereafter, the CPU 1010 advances the processing to step S103.

ステップS103において、CPU1010は、取得したコーパスの中からパターンを抽出する。より具体的には、CPU1010は、取得したコーパスの中を、教師データで検索し、教師データとともに出現する用語との組合せを取得し、取得した組合せにおいて、教師データの出現部分を任意の置き換え可能な用語が入るとみなしたパターンとして抽出する。その後、CPU1010は、処理をステップS104に移す。   In step S103, the CPU 1010 extracts a pattern from the acquired corpus. More specifically, the CPU 1010 searches the acquired corpus with the teacher data, acquires a combination with a term that appears together with the teacher data, and can arbitrarily replace the appearance portion of the teacher data in the acquired combination. It is extracted as a pattern that is considered to contain a simple term. Thereafter, the CPU 1010 advances the processing to step S104.

ステップS104において、CPU1010は、パターン対応用語を取得する。より具体的には、CPU1010は、抽出したパターンに基づいて、更にコーパスDB32を検索し、抽出したパターンの置き換え可能な部分に入る用語であるパターン対応用語を取得する。その後、CPU1010は、処理をステップS105に移す。   In step S104, the CPU 1010 acquires a pattern correspondence term. More specifically, the CPU 1010 further searches the corpus DB 32 based on the extracted pattern, and acquires a pattern corresponding term that is a term that falls within a replaceable portion of the extracted pattern. Thereafter, the CPU 1010 advances the processing to step S105.

ステップS105において、CPU1010は、取得したパターン対応用語がNE辞書DB41に記憶されているか否かを判断する。より具体的には、CPU1010は、取得したパターン対応用語でNE辞書DB41を検索し、記憶されているか否かを判断する。この判断がYESの場合は処理をステップS106に移し、NOの場合は処理をステップS108に移す。   In step S105, the CPU 1010 determines whether or not the acquired pattern correspondence term is stored in the NE dictionary DB 41. More specifically, the CPU 1010 searches the NE dictionary DB 41 with the acquired pattern correspondence term and determines whether or not it is stored. If the determination is YES, the process proceeds to step S106, and if the determination is NO, the process proceeds to step S108.

ステップS106において、CPU1010は、NE辞書DB41において、検索した固有の表現に対応付けられた頻度や、取得したパターン対応用語に対応するパターンの共起度から、当該パターン対応用語が取得すべき固有の表現かを判断する。この判断がYESの場合は処理をステップS107に移し、NOの場合は処理を終了する。なお、判断において具体的に説明すると、例えば「××」は金融カテゴリのテキストに頻度が783で出現しており頻度が高く、更に「# 口座」のパターンから取得されたパターン対応用語であるため、共起度の観点からも口座という固有の表現とともに出現したため金融機関である可能性が高く、金融カテゴリに属する用語であると判断する。対して「東京」は頻度が300で低く、「# 支店」のパターンから取得されたパターン対応用語であるため、共起度の観点からも支店という固有の表現とともに出現したため場所を表す固有の表現である可能性が高く、取得すべき用語ではないと判断する。なお、どの程度の頻度、共起度であれば適合しているかといった評価はこれに限定されることなく、適宜設定すればよい。   In step S106, the CPU 1010, in the NE dictionary DB 41, uses the frequency associated with the searched unique expression and the co-occurrence of the pattern corresponding to the acquired pattern corresponding term to determine the specific term that the pattern corresponding term should acquire. Judge whether it is an expression. If the determination is YES, the process proceeds to step S107, and if the determination is NO, the process ends. More specifically, in the judgment, for example, “XX” appears in the text of the financial category with a frequency of 783, is a high frequency, and is a pattern corresponding term acquired from the pattern of “# account”. From the viewpoint of co-occurrence, it appears that the account has a unique expression of an account, so it is highly likely that it is a financial institution, and is determined to be a term belonging to the financial category. On the other hand, “Tokyo” has a low frequency of 300 and is a pattern-corresponding term acquired from the pattern of “# branch”. Therefore, it is determined that this is not a term to be acquired. In addition, what is necessary is just to set suitably the evaluation of how much frequency and co-occurrence are suitable, without being limited to this.

ステップS107において、CPU1010は、取得したパターン対応用語を適合する用語として教師データDB31に追加する。   In step S107, the CPU 1010 adds the acquired pattern correspondence term to the teacher data DB 31 as a suitable term.

ステップS108において、CPU1010は、パターンDB33において、取得したパターン対応用語がパターンとともに出現する頻度が所定回数以上であるか否かを判断する。この判断がYESの場合は処理をステップS107に移し、NOの場合は処理を終了する。   In step S108, the CPU 1010 determines whether or not the frequency with which the acquired pattern correspondence term appears together with the pattern in the pattern DB 33 is a predetermined number of times or more. If the determination is YES, the process proceeds to step S107, and if the determination is NO, the process ends.

図7は、本発明の一実施形態に係る機械学習装置10のNE辞書作成処理を示すフローチャートである。なお、本処理は、プログラム開始指令を受けて処理を開始し、プログラム終了指令を受けて処理を終了する。   FIG. 7 is a flowchart showing NE dictionary creation processing of the machine learning device 10 according to an embodiment of the present invention. This process starts upon receiving a program start instruction, and ends upon receiving a program end instruction.

ステップS201において、CPU1010は、教師データのカテゴリと一致したカテゴリのテキスト(例えば、Web文書)について、形態素解析をする。その後、CPU1010は、処理をステップS202に移す。   In step S201, the CPU 1010 performs a morphological analysis on a category text (for example, a Web document) that matches the category of the teacher data. Thereafter, the CPU 1010 shifts the processing to step S202.

ステップS202において、CPU1010は、形態素解析した形態素の素性を抽出する。その後、CPU1010は、処理をステップS203に移す。   In step S202, the CPU 1010 extracts the features of the morphemes subjected to the morphological analysis. Thereafter, the CPU 1010 advances the processing to step S203.

ステップS203において、CPU1010は、前後情報を抽出する。より具体的には、CPU1010は、形態素の素性の中で特定の素性を有する形態素の前及び後に出現する形態素の情報を抽出する。また、このときに合わせて形態素の出現頻度もカウントしておく。その後、CPU1010は、処理をステップS204に移す。   In step S203, the CPU 1010 extracts the before / after information. More specifically, the CPU 1010 extracts morpheme information that appears before and after a morpheme having a specific feature among morpheme features. At this time, the appearance frequency of the morpheme is also counted. Thereafter, the CPU 1010 advances the processing to step S204.

ステップS204において、CPU1010は、前後情報に基づいて固有の表現を取得する。その後、CPU1010は、処理をステップS205に移す。   In step S <b> 204, the CPU 1010 acquires a unique expression based on the front and rear information. Thereafter, the CPU 1010 advances the processing to step S205.

ステップS205において、CPU1010は、取得した固有の表現をNE辞書DB41に記憶する。NE辞書DB41には、固有の表現の出現頻度や素性を記憶する。その後、CPU1010は、処理を終了する。   In step S205, the CPU 1010 stores the acquired unique expression in the NE dictionary DB 41. The NE dictionary DB 41 stores the appearance frequency and features of unique expressions. Thereafter, the CPU 1010 ends the process.

図8は、本発明の一実施形態に係る教師データDB31を示す図である。   FIG. 8 is a diagram showing the teacher data DB 31 according to an embodiment of the present invention.

教師データDB31は、カテゴリごとに、教師データを記憶している。例えば、図8の例は、教師データDB31のカテゴリが「金融」に、予め、教師データとして属性が銀行名である「○○」が記憶されている。機械学習装置10は、教師データ「○○」に基づいてコーパスDB32から「# 口座」及び「# 支店」のパターンを抽出し、抽出した「# 口座」及び「# 支店」のパターンでコーパスDB32を検索し、パターンのパターン対応用語「××」及び「東京」を取得する。そして、機械学習装置10は、NE辞書DB41に基づいて、取得した「××」及び「東京」が固有の表現に適合するか否かを、素性や共起度を参照して判定し、適合しない不適切な「東京」を省き、適合する「××」を教師データDB31に追加する。図8の例は、「××」を追加し、教師データである「○○」の属性を「××」に付し、新たな教師データとして銀行名「××」を追加したことを示している。   The teacher data DB 31 stores teacher data for each category. For example, in the example of FIG. 8, the category of the teacher data DB 31 is “Finance”, and “XX” whose attribute is a bank name is stored in advance as teacher data. The machine learning device 10 extracts the pattern of “# account” and “# branch” from the corpus DB 32 based on the teacher data “XX”, and stores the corpus DB 32 with the extracted pattern of “# account” and “# branch”. Search and obtain the pattern corresponding terms “XX” and “Tokyo” of the pattern. Then, the machine learning device 10 determines whether or not the acquired “xx” and “Tokyo” match the unique expression based on the NE dictionary DB 41 with reference to the feature and co-occurrence degree, Inappropriate “Tokyo” is omitted, and “xx” that matches is added to the teacher data DB 31. The example of FIG. 8 shows that “XX” is added, the attribute of “XX” that is teacher data is added to “XX”, and the bank name “XX” is added as new teacher data. ing.

実施例によれば、本発明に係る機械学習装置10は、教師データを記憶する教師データDB31と、予め記憶されている教師データのカテゴリと一致したカテゴリのテキストを形態素解析し、形態素解析した形態素の素性を抽出し、抽出した素性の中で特定の素性を有する形態素の前及び後の形態素の情報である前後情報を抽出し、抽出した前後情報に基づいて固有の表現を取得し、取得した固有の表現をNE辞書DB41に記憶する。そして、教師データDB31から教師データ(例えば、○○)を取得し、取得した教師データとともに出現する用語との組合せ(例えば、「○○ 口座」、「○○ 支店」・・・)を取得し、取得した組合せにおいて、教師データの出現部分を任意の置き換え可能な用語が入るとみなしたパターン(例えば、「# 口座」、「# 支店」。ここで、#は任意の置き換え可能な用語が出現する箇所を示す)として抽出し、抽出したパターンの置き換え可能な部分に入る用語であるパターン対応用語を、コーパスの中から取得する(例えば、「×× 口座」、「東京 支店」からなるコーパスを取得した場合、抽出したパターンに対応する置き換え可能な部分に入る用語は、××及び東京となる)。そして、取得した、パターン対応用語(例えば、××、東京)がNE辞書DB41に基づいて機械学習すべき固有の表現に適合するか否かを判定し、判定に基づいて適合する用語(例えば、××)を取得し、取得した適合する用語(例えば、××)を教師データとして教師データ記憶手段に追加する。したがって、本発明に係る機械学習装置10は、機械学習のための教師データに追加する用語の中から不適切な用語を省き、教師データに適合する用語を追加し、教師データの精度を向上させることができる。   According to the embodiment, the machine learning device 10 according to the present invention includes a teacher data DB 31 that stores teacher data, and morphological analysis of morphological analysis of text in a category that matches a category of teacher data stored in advance. Extracted before and after information that is information on the morpheme before and after the morpheme that has a specific feature among the extracted features, and obtained a unique expression based on the extracted before and after information The unique expression is stored in the NE dictionary DB 41. Then, teacher data (for example, XX) is acquired from the teacher data DB 31, and combinations (for example, “XX account”, “XX branch”,...) With terms that appear together with the acquired teacher data are acquired. In the obtained combination, a pattern in which an arbitrary replaceable term is included in the appearance part of the teacher data (for example, “# account”, “# branch”, where # is an arbitrary replaceable term Pattern matching terms that are terms that can be replaced in the extracted pattern are obtained from the corpus (for example, a corpus consisting of “XX account” and “Tokyo branch”). If acquired, the terms that fall into the replaceable part corresponding to the extracted pattern are XX and Tokyo). Then, it is determined whether or not the acquired pattern correspondence term (for example, xx, Tokyo) matches a specific expression to be machine-learned based on the NE dictionary DB 41, and a term that matches based on the determination (for example, Xx) is acquired, and the acquired matching term (for example, xx) is added to the teacher data storage means as teacher data. Therefore, the machine learning device 10 according to the present invention omits inappropriate terms from terms added to teacher data for machine learning, adds terms that match teacher data, and improves the accuracy of the teacher data. be able to.

更に、本発明に係る機械学習装置10は、適切に単語単位で区切られている検索クエリを記憶したコーパスDB32の中から、教師データとともに出現するパターンを抽出し、抽出したパターンのパターン対応用語を取得する。したがって、本発明に係る機械学習装置10は、機械学習のための教師データに追加する用語を適切なコーパスから取得するので、不適切な用語を省き、教師データに適合する用語を追加し、教師データの精度を向上させることができる。   Furthermore, the machine learning device 10 according to the present invention extracts a pattern that appears together with the teacher data from the corpus DB 32 that stores a search query that is appropriately segmented in units of words, and extracts pattern corresponding terms of the extracted pattern. get. Therefore, the machine learning device 10 according to the present invention acquires the term to be added to the teacher data for machine learning from an appropriate corpus, so the inappropriate term is omitted, the term that matches the teacher data is added, and the teacher Data accuracy can be improved.

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。   As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.

10 機械学習装置
11 教師データ取得部
12 組合せ取得部
13 パターン抽出部
14 パターン対応用語取得部
15 パターン対応用語判定部
16 教師データ追加部
21 形態素解析部
22 素性抽出部
23 前後情報抽出部
24 固有表現取得部
25 固有表現記憶処理部
31 教師データDB
32 コーパスDB
33 パターンDB
41 NE辞書DB
DESCRIPTION OF SYMBOLS 10 Machine learning apparatus 11 Teacher data acquisition part 12 Combination acquisition part 13 Pattern extraction part 14 Pattern corresponding term acquisition part 15 Pattern corresponding term determination part 16 Teacher data addition part 21 Morphological analysis part 22 Feature extraction part 23 Before and behind information extraction part 24 Specific expression Acquisition unit 25 Named entity storage processing unit 31 Teacher data DB
32 Corpus DB
33 Pattern DB
41 NE Dictionary DB

Claims (6)

予め与えられたカテゴリごとの教師データに基づいてコンピュータが学習する機械学習装置であって、
前記教師データを記憶する教師データ記憶手段と、
予め記憶されている前記教師データのカテゴリと一致したカテゴリのテキストが形態素解析されることで得られた形態素の素性のうち、特定の素性を有する形態素の前及び後の形態素の情報である前後情報であって、特定の素性を有する形態素とともに共起する形態素、又は、当該特定の素性を有する形態素の直前及び直後の形態素である前記前後情報に基づいて取得された固有の表現を固有表現記憶手段に記憶する固有表現記憶処理手段と、
前記教師データ記憶手段から教師データを取得する教師データ取得手段と、
取得した前記教師データとともに出現する用語との組合せを取得する組合せ取得手段と、
取得した前記組合せにおいて、前記教師データの出現部分を任意の置き換え可能な用語が入るとみなしたパターンとして抽出するパターン抽出手段と、
抽出した前記パターンの前記置き換え可能な部分に入る用語であるパターン対応用語を、コーパスの中から取得するパターン対応用語取得手段と、
前記パターン対応用語が前記固有表現記憶手段に固有の表現として記憶されているか否かを判定するパターン対応用語判定手段と、
前記パターン対応用語判定手段により前記固有表現記憶手段に記憶されていると判定されたパターン対応用語を取得し、取得したパターン対応用語を教師データとして前記教師データ記憶手段に追加する教師データ追加手段と、
を備えることを特徴とする機械学習装置。
A machine learning device in which a computer learns based on teacher data for each category given in advance,
Teacher data storage means for storing the teacher data;
Pre- and post-information that is information on morphemes before and after a morpheme having a specific feature among morpheme features obtained by morphological analysis of a category text that matches the category of the teacher data stored in advance A unique expression storage means for storing a unique expression acquired based on the preceding and following information which is a morpheme co-occurring with a morpheme having a specific feature or a morpheme immediately before and immediately after a morpheme having the specific feature Specific expression storage processing means for storing in,
Teacher data acquisition means for acquiring teacher data from the teacher data storage means;
A combination acquisition means for acquiring a combination with a term that appears together with the acquired teacher data;
In the acquired combination, pattern extraction means for extracting the appearance part of the teacher data as a pattern that is considered to contain any replaceable term; and
Pattern-corresponding term acquisition means for acquiring a pattern-corresponding term that is a term that is included in the replaceable portion of the extracted pattern from a corpus;
Pattern-corresponding term determining means for determining whether or not the pattern-corresponding term is stored as a unique expression in the specific-expression storage means;
Teacher data adding means for acquiring a pattern corresponding term determined to be stored in the specific expression storage means by the pattern corresponding term determining means, and adding the acquired pattern corresponding term as teacher data to the teacher data storage means; ,
A machine learning device comprising:
前記固有表現記憶処理手段は、前記テキストから取得した固有の表現毎に、当該固有の表現が前記テキストに出現する頻度を前記固有表現記憶手段に記憶し、
前記パターン対応用語判定手段は、前記パターン対応用語が前記固有表現記憶手段に固有の表現として記憶されている場合に、当該固有の表現に対応付けて前記固有表現記憶手段に記憶されている頻度が所定の頻度閾値以上であるか否かを判定し、
前記教師データ追加手段は、前記パターン対応用語判定手段により前記頻度閾値以上であると判定されたパターン対応用語を教師データとして前記教師データ記憶手段に追加する
ことを特徴とする請求項1に記載の機械学習装置。
For each unique expression acquired from the text, the specific expression storage processing means stores in the specific expression storage means the frequency at which the specific expression appears in the text,
When the pattern-corresponding term is stored as a unique expression in the specific-expression storage unit, the pattern-corresponding term determination unit is associated with the specific expression and the frequency stored in the specific-expression storage unit is Determine whether it is greater than or equal to a predetermined frequency threshold,
The teacher data adding unit adds the pattern corresponding term determined by the pattern corresponding term determining unit as being equal to or higher than the frequency threshold to the teacher data storage unit as teacher data. Machine learning device.
前記固有表現記憶処理手段は、前記教師データのカテゴリにおいて複数の固有の表現が共に出現する度合いを示す共起度を前記固有表現記憶手段に記憶し、
前記パターン対応用語判定手段は、前記パターン対応用語が前記固有表現記憶手段に記憶されている場合に、当該パターン対応用語と、前記組合せ取得手段により取得された用語との共起度を前記固有表現記憶手段から取得し、取得した共起度が所定の共起度閾値以上であるか否かを判定し、
前記教師データ追加手段は、前記パターン対応用語判定手段により前記共起度閾値以上であると判定されたパターン対応用語を教師データとして前記教師データ記憶手段に追加する
ことを特徴とする請求項1又は2に記載の機械学習装置。
The specific expression storage processing unit stores a co-occurrence degree indicating a degree of appearance of a plurality of specific expressions in the teacher data category in the specific expression storage unit;
When the pattern-corresponding term is stored in the specific-expression storage unit, the pattern-corresponding term determination unit indicates the co-occurrence degree between the pattern-corresponding term and the term acquired by the combination acquisition unit. Determining whether the acquired co-occurrence degree is equal to or greater than a predetermined co-occurrence degree threshold,
The teacher data adding means adds, to the teacher data storage means, pattern correspondence terms determined by the pattern correspondence term determination means as being equal to or greater than the co-occurrence degree threshold value as teacher data. 2. The machine learning device according to 2.
前記パターン対応用語毎に、前記パターン対応用語取得手段によって前記コーパスの中から当該パターン対応用語が取得された数である出現回数を記憶するパターン記憶手段をさらに備え、
前記パターン対応用語判定手段は、前記パターン対応用語が前記固有表現記憶手段に記憶されていない場合に、当該パターン対応用語に対応付けて前記パターン記憶手段に記憶されている出現回数が所定の出現閾値以上であるか否かを判定し、
前記教師データ追加手段は、前記パターン対応用語判定手段により前記出現閾値以上であると判定されたパターン対応用語を教師データとして前記教師データ記憶手段に追加する
ことを特徴とする請求項1〜3のいずれか一つに記載の機械学習装置。
For each pattern-corresponding term, it further comprises a pattern storage means for storing the number of appearances that is the number of the pattern-corresponding term acquired from the corpus by the pattern-corresponding term acquiring means,
The pattern correspondence term determining means, when the pattern correspondence term is not stored in the specific expression storage means, the number of appearances stored in the pattern storage means in association with the pattern correspondence term is a predetermined appearance threshold Determine whether or not
The said teacher data addition means adds the pattern corresponding term determined to be more than the said appearance threshold value by the said pattern corresponding term determination means to the said teacher data storage means as teacher data. The machine learning device according to any one of the above.
前記コーパスは、検索クエリを記憶した検索ログであることを特徴とする請求項1〜4のいずれか一つに記載の機械学習装置。   The machine learning device according to claim 1, wherein the corpus is a search log storing a search query. 予め与えられたカテゴリごとの教師データを記憶する教師データ記憶手段に基づいてコンピュータが学習する機械学習方法であって、
予め記憶されている前記教師データのカテゴリと一致したカテゴリのテキストが形態素解析されることで得られた形態素の素性のうち、特定の素性を有する形態素の前及び後の形態素の情報である前後情報であって、特定の素性を有する形態素とともに共起する形態素、又は、当該特定の素性を有する形態素の直前及び直後の形態素である前記前後情報に基づいて取得された固有の表現を固有表現記憶手段に記憶するステップと、
前記教師データ記憶手段から教師データを取得するステップと、
取得した前記教師データとともに出現する用語との組合せを取得するステップと、
取得した前記組合せにおいて、前記教師データの出現部分を任意の置き換え可能な用語が入るとみなしたパターンとして抽出するステップと、
抽出した前記パターンの前記置き換え可能な部分に入る用語であるパターン対応用語を、コーパスの中から取得するステップと、
前記パターン対応用語が前記固有表現記憶手段に固有の表現として記憶されているか否かを判定するステップと、
前記判定により前記固有表現記憶手段に記憶されていると判定されたパターン対応用語を取得し、取得したパターン対応用語を教師データとして前記教師データ記憶手段に追加するステップと、
を備えることを特徴とする機械学習方法。
A machine learning method in which a computer learns based on teacher data storage means for storing teacher data for each category given in advance,
Pre- and post-information that is information on morphemes before and after a morpheme having a specific feature among morpheme features obtained by morphological analysis of a category text that matches the category of the teacher data stored in advance A unique expression storage means for storing a unique expression acquired based on the preceding and following information which is a morpheme co-occurring with a morpheme having a specific feature or a morpheme immediately before and immediately after a morpheme having the specific feature The step of storing in
Obtaining teacher data from the teacher data storage means;
Obtaining a combination of terms that appear with the acquired teacher data;
In the acquired combination, extracting the appearance part of the teacher data as a pattern considered to include any replaceable term; and
Obtaining a pattern-corresponding term that is a term that falls within the replaceable portion of the extracted pattern from a corpus;
Determining whether the pattern-corresponding term is stored as a unique expression in the specific expression storage means;
Obtaining a pattern-corresponding term determined to be stored in the specific expression storage means by the determination, and adding the acquired pattern-corresponding term as teacher data to the teacher data storage means;
A machine learning method comprising:
JP2009040771A 2009-02-24 2009-02-24 Machine learning apparatus and method Expired - Fee Related JP5412137B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009040771A JP5412137B2 (en) 2009-02-24 2009-02-24 Machine learning apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009040771A JP5412137B2 (en) 2009-02-24 2009-02-24 Machine learning apparatus and method

Publications (2)

Publication Number Publication Date
JP2010198189A JP2010198189A (en) 2010-09-09
JP5412137B2 true JP5412137B2 (en) 2014-02-12

Family

ID=42822873

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009040771A Expired - Fee Related JP5412137B2 (en) 2009-02-24 2009-02-24 Machine learning apparatus and method

Country Status (1)

Country Link
JP (1) JP5412137B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5583107B2 (en) * 2011-12-02 2014-09-03 日本電信電話株式会社 Keyword place name pair extraction apparatus, method, and program
EP4165540A1 (en) * 2020-06-12 2023-04-19 Oracle International Corporation Entity level data augmentation in chatbots for robust named entity recognition

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4023371B2 (en) * 2003-04-24 2007-12-19 富士ゼロックス株式会社 Device and method for recognizing proper name
JP2007304950A (en) * 2006-05-12 2007-11-22 Just Syst Corp Document processing apparatus and document processing method

Also Published As

Publication number Publication date
JP2010198189A (en) 2010-09-09

Similar Documents

Publication Publication Date Title
EP1899835B1 (en) Processing collocation mistakes in documents
US9483460B2 (en) Automated formation of specialized dictionaries
US7469251B2 (en) Extraction of information from documents
US20070288458A1 (en) Obfuscating document stylometry
JPS63231674A (en) Word processing system
JP2000194696A (en) Automatic identification method for key language of sample text
JP2013502643A (en) Structured data translation apparatus, system and method
CN101467125A (en) Processing of query terms
Boros et al. Assessing the impact of OCR noise on multilingual event detection over digitised documents
JP2010519655A (en) Name matching system name indexing
Patil et al. Issues and challenges in marathi named entity recognition
Wu et al. Computational etymology and word emergence
US20080040352A1 (en) Method for creating a disambiguation database
Nanba et al. Bilingual PRESRI-Integration of Multiple Research Paper Databases.
JP5412137B2 (en) Machine learning apparatus and method
JP5025603B2 (en) Machine translation apparatus, machine translation program, and machine translation method
JP2003323425A (en) Bilingual dictionary creation device, translation device, bilingual dictionary creation program, and translation program
JP5085584B2 (en) Article feature word extraction device, article feature word extraction method, and program
Ali et al. Empirical evaluation of compounds indexing for turkish texts
CN116702747A (en) PDF online reader design method, device, computer equipment and medium
JP5094096B2 (en) Apparatus and method for automatically extracting celebrity expressions
JP4143085B2 (en) Synonym acquisition method and apparatus, program, and computer-readable recording medium
JP2004265440A (en) Unknown word registration device and method and record medium
JP2621999B2 (en) Document processing device
Doostyar et al. Plagiarism detection for Afghan national languages (Pashto and Dari)

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130918

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131111

R150 Certificate of patent or registration of utility model

Ref document number: 5412137

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350