[go: up one dir, main page]

JP2008065417A - Associative word group search device, system, and content match type advertisement system - Google Patents

Associative word group search device, system, and content match type advertisement system Download PDF

Info

Publication number
JP2008065417A
JP2008065417A JP2006239824A JP2006239824A JP2008065417A JP 2008065417 A JP2008065417 A JP 2008065417A JP 2006239824 A JP2006239824 A JP 2006239824A JP 2006239824 A JP2006239824 A JP 2006239824A JP 2008065417 A JP2008065417 A JP 2008065417A
Authority
JP
Japan
Prior art keywords
search
word group
associative word
website
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006239824A
Other languages
Japanese (ja)
Inventor
Koju Uchiyama
幸樹 内山
Takashi Sakaki
剛史 榊
Yutaka Matsuo
豊 松尾
Mitsuru Ishizuka
満 石塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hotto Link Inc
Original Assignee
Hotto Link Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hotto Link Inc filed Critical Hotto Link Inc
Priority to JP2006239824A priority Critical patent/JP2008065417A/en
Publication of JP2008065417A publication Critical patent/JP2008065417A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】検索者が面倒な作業をすることなく、検索者に対して、検索キーワードに関連する幅広い連想語群を提供する。
【解決手段】検索者などによって操作されるPC200と、PC200から送信された検索キーワードに関連性が高い連想語群を抽出するためのウェブサイト検索支援装置100と、ウェブサイトが格納されているDB300と、DB300に格納されているウェブサイトを検索する検索エンジン400と、ウェブサイト検索支援装置100とPC200とDB300と検索エンジン400とを相互に接続するインターネットなどのネットワーク500とを備える。
【選択図】 図1
A searcher is provided with a wide group of associative words related to a search keyword without troublesome work.
A PC 200 operated by a searcher, a website search support apparatus 100 for extracting an association word group highly relevant to a search keyword transmitted from the PC 200, and a DB 300 in which the website is stored And a search engine 400 for searching a website stored in the DB 300, a website search support apparatus 100, a PC 200, a network 500 such as the Internet for connecting the DB 300 and the search engine 400 to each other.
[Selection] Figure 1

Description

本発明は、連想語群検索装置、システム及びコンテンツマッチ型広告システムに関し、例えば、キーワードマッチング型の検索エンジンを用いたウェブサイト検索を支援する連想語群検索装置、システム及びコンテンツマッチ型広告システムに関する。   The present invention relates to an associative word group search device, a system, and a content match type advertisement system, for example, an associative word group search device, a system, and a content match type advertisement system that support website search using a keyword matching type search engine. .

従来、ウェブサイトの検索を行おうとした場合には、検索者はキーワードマッチング型などの検索エンジンに対して、検索対象の情報に関連するキーワードを入力するという手法が採られている。この種の検索エンジンは、当該キーワードに基づいて、ウェブサイトが蓄積されているデータベースを参照することによって、当該キーワードが含まれているウェブサイトの検索を行い、検索結果を検索者へ出力している。   Conventionally, when searching for a website, a searcher inputs a keyword related to information to be searched to a search engine such as a keyword matching type. This type of search engine searches the website containing the keyword by referring to the database storing the website based on the keyword, and outputs the search result to the searcher. Yes.

しかし、検索者が入力したキーワードが適切でない場合には、検索者が意図しているウェブサイトが検索結果に含まれない場合がある。係る場合には、検索者は、キーワードを変えてチェックアンドエラーを繰り返して、必要な情報が含まれているウェブサイトを探し当てるという面倒な作業が強いられる。   However, if the keyword entered by the searcher is not appropriate, the search result may not include the website intended by the searcher. In such a case, the searcher is forced to perform troublesome work of finding a website containing necessary information by changing the keyword and repeating check and error.

このような不都合を回避すべく、ウェブサイトの検索に最適なキーワードを取得するために、ブラウザにより表示されたホームページと、該ホームページに関連付けられたキーワードを抽出するキーワード抽出手段と、該キーワード抽出手段で抽出したキーワードを表示するキーワード表示手段とを備えたソフトウェアに関する発明が開示されている(特許文献1)。   In order to avoid such an inconvenience, in order to acquire a keyword optimal for a website search, a homepage displayed by a browser, a keyword extraction unit that extracts a keyword associated with the homepage, and the keyword extraction unit An invention relating to software including keyword display means for displaying the keywords extracted in (1) is disclosed (Patent Document 1).

特開2002−149668号公報JP 2002-149668 A

しかし、特許文献1に開示されている発明は、以下の点で問題がある。   However, the invention disclosed in Patent Document 1 has the following problems.

第1に、検索者が面倒な作業を強いられる。例えば、検索者は、「自動車販売をキーワードとしてホームページ検索をする場合には車を分類として選択する」といった作業、「検索式を検索式入力ボックス4に入力する」といった作業を行う必要がある。   First, the searcher is forced to perform troublesome work. For example, the searcher needs to perform an operation such as “select a car as a classification when searching a homepage using automobile sales as a keyword” and an operation “input a search expression into the search expression input box 4”.

第2に、キーワードの抽出対象が限定的である。したがって、例えば、
(1)検索エンジンで用いている検索条件如何によっては、検索者に対して幅広い連想語群を提供することが困難であるし、
(2)検索者が入手したい情報と検索者が入力した検索キーワードとの関係が希薄であった場合にも、検索者に対して幅広い連想語群を提供することが困難である。
Secondly, the keyword extraction targets are limited. So, for example,
(1) Depending on the search conditions used in the search engine, it is difficult to provide a wide range of associative words to searchers,
(2) Even when the relationship between information that the searcher wants to obtain and the search keyword entered by the searcher is sparse, it is difficult to provide a wide range of associative words to the searcher.

具体的には、
(1)検索エンジンで用いている検索条件が、検索キーワードを含んでいて、かつ、リンク数が多いウェブサイトを検索結果の上位として出力するというものである場合、或いは、
(2)検索者が入手したい情報が「中古車販売を開業するために必要な幅広い情報」であるものの、検索者が入力した検索キーワードが「自動車販売」である場合には、
検索結果として、新車販売店の情報、自動車ディーラの情報など、多岐に渡る情報が得られるものの、これらは、「中古車販売」に特化した情報は得られにくい。一方で、通常、「開業」のために必要な開業資金調達、経理、営業等の情報を得ることができない。
In particular,
(1) When the search condition used in the search engine is to output a website including a search keyword and having a large number of links as a higher rank of the search result, or
(2) If the information that the searcher wants to obtain is “broad information necessary to open used car sales”, but the search keyword entered by the searcher is “car sales”,
As search results, a wide variety of information such as information on new car dealers and car dealers can be obtained, but it is difficult to obtain information specialized for “used car sales”. On the other hand, it is usually impossible to obtain information on opening funds, accounting, sales, etc. necessary for “opening”.

そこで、本発明は、検索者が面倒な作業をすることなく、検索者に対して幅広い連想語群を提供することを課題とする。   Accordingly, an object of the present invention is to provide a wide range of associative words to a searcher without the searcher performing troublesome work.

上記課題を解決するために、本発明の連想語群検索装置は、
入力されたキーワードを含んでいるウェブサイト群を検索する検索手段と、
前記検索手段によって検索されたウェブサイト群のうちのいくつかのウェブサイトに含まれているテキストデータの分割処理を実行する実行手段と、
前記実行手段の分割処理によって得られる単語のうち前記各ウェブサイトへの出現回数が所定以上の単語を前記キーワードの連想語群として出力する出力手段とを備える。
In order to solve the above problems, the associative word group search device of the present invention is:
A search means for searching a group of websites including the input keyword;
Execution means for executing a process of dividing text data included in some websites of the website group searched by the search means;
Output means for outputting, as a group of associative words of the keyword, a word whose frequency of appearance on each website among the words obtained by the dividing process of the execution means is a predetermined number or more.

すなわち、本発明は、複数のウェブサイトをコーパスとして用いて、入力されたキーワードの連想語群を検索する。   That is, the present invention searches for an associated word group of input keywords using a plurality of websites as a corpus.

また、本発明は、前記出現回数が所定以上の単語と前記キーワードとに基づいて、前記単語をフィルタリングするフィルタ手段を有していてもよい。これにより、最終的に提供する連想語群を絞り込むことができる。   In addition, the present invention may include a filter unit that filters the word based on the word having the predetermined number of appearances and the keyword and the keyword. Thereby, the association word group finally provided can be narrowed down.

前記フィルタ手段は、
前記出現回数が所定以上の単語と前記キーワードとの双方を含むウェブサイトのヒット件数と、
前記キーワードを含むウェブサイトのヒット件数と、
前記出現回数が所定以上の単語を含むウェブサイトのヒット件数と、を用いた統計処理に基づいて前記単語をフィルタリングすることも可能である。
The filter means includes
The number of hits of websites that include both the word and the keyword whose appearance count is greater than or equal to a predetermined number,
The number of hits on the website containing the keyword,
It is also possible to filter the words based on a statistical process using the number of hits of a website that includes words whose appearance count is greater than or equal to a predetermined number.

これにより、連想語群の絞り込み精度を高めることができる。   Thereby, the narrowing-down precision of an associative word group can be improved.

前記出現回数が所定以上の単語を含むウェブサイトのヒット件数が所定の閾値以下の場合に、当該単語を除外する除外手段を有するとよい。最終的に出力する連想語群にとって貢献度が少ないと考えられる処理対象の単語を減らすことで、連想語群の検索に要する装置の負荷軽減が図れるからである。   When the number of hits of a website including the word whose number of appearances is greater than or equal to a predetermined number is less than or equal to a predetermined threshold, it is preferable to have an excluding unit that excludes the word. This is because by reducing the number of words to be processed that are considered to have little contribution to the finally output associative word group, it is possible to reduce the load on the device required for searching the associative word group.

発明の実施の形態BEST MODE FOR CARRYING OUT THE INVENTION

以下、本発明の実施形態について、図面を参照して説明する。なお、各図において、同様の部分には、同一符号を付している。
(実施形態1)
図1は、本発明の実施形態1の連想語群検索装置であるところのウェブサイト検索支援装置100を備えるウェブサイト検索支援システムの模式的な構成を示すブロック図である。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. In addition, in each figure, the same code | symbol is attached | subjected to the same part.
(Embodiment 1)
FIG. 1 is a block diagram showing a schematic configuration of a website search support system including a website search support apparatus 100 which is an associative word group search apparatus according to Embodiment 1 of the present invention.

図1には、検索者などによって操作されるパーソナルコンピュータ(以下、「PC」と称する。)200と、PC200から送信された検索キーワードに対して関連性が高い連想語群を抽出するためのウェブサイト検索支援装置100と、ウェブサイトが格納されているデータベース(以下、「DB」と称する。)300と、DB300に格納されているウェブサイトを検索する検索エンジン400と、ウェブサイト検索支援装置100とPC200とDB300と検索エンジン400とを相互に接続するインターネットなどのネットワーク500とを示している。   FIG. 1 shows a personal computer (hereinafter referred to as “PC”) 200 operated by a searcher or the like, and a web for extracting a group of associative words highly relevant to a search keyword transmitted from the PC 200. Site search support apparatus 100, database (hereinafter referred to as “DB”) 300 in which a website is stored, search engine 400 that searches a website stored in DB 300, and website search support apparatus 100 And a network 500 such as the Internet that connects the PC 200, the DB 300, and the search engine 400 to each other.

ウェブサイト検索支援装置100は、以下説明する、受信手段10と、検索手段20と、格納手段25と、抽出手段30と、読出手段40と、実行手段50と、選択手段60と、取得手段70と、フィルタ手段80と、分類手段85と、作成手段90と、送信手段95とを備えている。   The website search support apparatus 100 includes a receiving unit 10, a searching unit 20, a storing unit 25, an extracting unit 30, a reading unit 40, an executing unit 50, a selecting unit 60, and an acquiring unit 70, which will be described below. A filter unit 80, a classification unit 85, a creation unit 90, and a transmission unit 95.

受信手段10は、検索者等によってPC200に入力され、その後、ネットワーク500を介して送信されてきた検索キーワードを受信するものである。受信手段10によって受信された検索キーワードは、格納手段25によって図示しないメモリに格納される。   The receiving means 10 receives a search keyword input to the PC 200 by a searcher or the like and then transmitted via the network 500. The search keyword received by the receiving unit 10 is stored in a memory (not shown) by the storage unit 25.

ここで、ウェブサイト検索支援装置100の管理者等は、ウェブページ検索者が検索キーワードを入力するための検索用ウェブページ、及び、ウェブページの検索結果及びそれに合致する広告をはめ込むための検索結果ページを用意しておくとよい。   Here, the administrator or the like of the website search support apparatus 100 searches the search web page for the web page searcher to input the search keyword, and the search result for inserting the search result of the web page and the advertisement corresponding thereto. Prepare a page.

検索手段20は、受信手段10で受信された検索キーワードを含むウェブサイト群A(ウェブサイトA1,A2,A3...の総称)を、検索エンジン400を用いてDB300内から検索するものである。検索手段20は、上記検索の際、検索キーワードを含むウェブサイト数(ヒット件数)も、併せて取得するものである。また、検索手段20は、同様に、
(1)後述する連想語候補a1,a2,a3,...をそれぞれ含むウェブサイト群の検索及びそれぞれに係るヒット件数の取得と、
(2)後述する連想語候補b1,b2,b3,...をそれぞれを含むウェブサイト群の検索及びそれぞれに係るヒット件数の取得と、
(3)連想語候補a1,a2,a3,...のそれぞれと受信手段10によって受信された検索キーワードとの双方を含むウェブサイト群の検索及びそれぞれに係るヒット件数の取得と、
(4)連想語候補b1,b2,b3,...のそれぞれと受信手段10によって受信された検索キーワードとの双方を含むウェブサイト群の検索及びそれぞれに係るヒット件数の取得も行うものである。
The search means 20 searches the DB 300 using the search engine 400 for the website group A (generic name for the websites A1, A2, A3...) Including the search keyword received by the receiving means 10. . The search means 20 also acquires the number of websites (number of hits) including the search keyword at the time of the search. Similarly, the search means 20
(1) Associative word candidates a1, a2, a3,. . . Search for websites that each contain the number of hits associated with each,
(2) Associative word candidates b1, b2, b3,. . . Search for websites containing each of them, get the number of hits related to each,
(3) Associative word candidates a1, a2, a3,. . . A search for a group of websites including both the search keyword and the search keyword received by the receiving means 10, and obtaining the number of hits related to each
(4) Associative word candidates b1, b2, b3,. . . And a search for a website group including both the search keyword received by the receiving means 10 and the number of hits related to each search.

なお、連想語候補b1,b2,b3,...は、連想語候補a1,a2,a3,...の部分集合となるため、上記(3)に示す取得工程を割愛してもよい。   Associative word candidates b1, b2, b3,. . . Are associated word candidates a1, a2, a3,. . . Therefore, the acquisition process shown in (3) above may be omitted.

格納手段25は、受信手段10によって受信された検索キーワード、検索手段20の検索によって取得された検索結果及び各ヒット件数などを、図示しないメモリ等に格納するものである。   The storage unit 25 stores the search keyword received by the reception unit 10, the search result acquired by the search of the search unit 20, the number of hits, and the like in a memory (not shown).

抽出手段30は、検索手段20の検索によって得られるウェブサイトA1,A2,A3...を示すウェブサイトが所定数を超える場合に、例えば上位10件又は間引いて或いはランダムに選択した10件のウェブサイトB(ウェブサイトB1,B2,...,B10の総称)を抽出するものである。なお、ウェブサイトBの抽出件数を10件とすることは例示であり、抽出件数は、例えば、5件でもよいし20件でもよい。抽出手法については後述する。   The extraction means 30 is provided by the websites A1, A2, A3. . . When the number of websites indicating the number exceeds a predetermined number, for example, the top 10 or 10 websites B that are thinned out or randomly selected (generic name for websites B1, B2,..., B10) are extracted. is there. Note that setting the number of extractions of the website B to 10 is an example, and the number of extractions may be, for example, 5 or 20. The extraction method will be described later.

読出手段40は、抽出手段30によって抽出されたウェブサイトBを、実際に、DB300から読み出し、更に、それらに含まれているテキストデータを、必要に応じて、ウェブラッパーなどを用いて読み出すものである。   The reading means 40 actually reads the website B extracted by the extracting means 30 from the DB 300, and further reads the text data contained therein using a web wrapper or the like as necessary. is there.

実行手段50は、読出手段40によって読み出された各テキストデータに対して、図示しないメモリなどに記憶されている確率モデルなどを使用して、分割処理に含まれる形態素解析を実行するものである。   The execution unit 50 performs morphological analysis included in the division process on each text data read by the reading unit 40 using a probability model stored in a memory (not shown) or the like. .

選択手段60は、実行手段50によって実行された形態素解析で得られる単語のうち、TF(Term Frequency)値またはDF(Document Frequency)値が例えば2以上の単語を、ユーザに提供する連想語候補a(連想語候補a1,a2,a3,...の総称)として選択するものである。   The selection means 60 provides an associative word candidate a that provides the user with words having a TF (Term Frequency) value or a DF (Document Frequency) value of 2 or more among the words obtained by the morphological analysis executed by the execution means 50. (Associative word candidates a1, a2, a3,...) Are selected.

取得手段70は、検索手段20における(1)連想語候補a1,a2,a3,...に係るヒット件数が例えば5000件以下のウェブサイトに係る連想語候補を、連想語候補aから除外した連想語候補b(連想語候補b1,b2,b3,...の総称)を取得するものである。取得手段70による処理は、既述の検索手段20における(3)連想語候補a1,a2,a3,...のそれぞれと検索キーワードとの双方を含むウェブサイト群の検索負担を軽減するために、選択的になされるものであり、必ず行わなければならないものではない。なお、連想語候補aから連想語候補bを取得するための取得条件である5000件という件数は例示である。この件数は、例えば、DB300に蓄積されているウェブサイト数、PC200から送信されてきた検索キーワードを含むウェブサイトのヒット件数等に応じて決定すればよい。一例としては、PC200から送信されてきた検索キーワードを含むウェブサイトのヒット件数が50万件の場合に連想語候補bの取得条件は5000件とし、60万件の場合に取得条件は6000件とすればよい。   The acquisition unit 70 (1) associative word candidates a1, a2, a3,. . . Acquire associative word candidate b (generic name of associative word candidates b1, b2, b3,...) Obtained by excluding associative word candidates related to websites having, for example, 5000 hits or less from associative word candidate a. It is. The processing by the acquisition means 70 is performed by (3) associative word candidates a1, a2, a3,. . . In order to alleviate the search burden of the website group including both the search keyword and the search keyword, this is selectively performed and not necessarily performed. Note that the number of 5000 cases, which is an acquisition condition for acquiring the associative word candidate b from the associative word candidate a, is an example. The number of cases may be determined according to, for example, the number of websites stored in the DB 300, the number of hits of websites including the search keyword transmitted from the PC 200, and the like. As an example, when the number of hits of the website including the search keyword transmitted from the PC 200 is 500,000, the acquisition condition of the associative word candidate b is 5000, and when the number is 600,000, the acquisition condition is 6000. do it.

フィルタ手段80は、格納手段25に格納されている各ヒット件数を用いた相互情報量又はtスコアなどの統計処理に基づいて、連想語候補bをフィルタリングして、検索キーワードの連想語群を取得するためのものである。もっとも、フィルタリング処理は、連想語候補bの数に対して、CPUが十分な処理能力を有している場合には、必ずしも実行しなくてもよい。   The filter means 80 filters the associative word candidate b based on statistical processing such as mutual information or t-score using the number of hits stored in the storage means 25 to obtain an associative word group of search keywords. Is to do. However, the filtering process does not necessarily have to be executed when the CPU has sufficient processing capability for the number of associative word candidates b.

分類手段85は、フィルタ手段80によって取得された連想語群を、相互情報量又はχ2乗値などを用いて連想語群の相互ネットワークを作成し、Newman法を用いた分類を行うなどの処理を行うものである。なお、χ2乗値は、例えば、Kok Leongらによる「Feature Selection, Perceptron Learning Usability Case Study for Text Categorization、Proc of ACM SIGIR'97, 1997」を用いて算出することができる。   The classifying unit 85 creates a mutual network of the associative word groups using the mutual information or the χ-square value for the associative word groups acquired by the filter unit 80, and performs processing such as classification using the Newman method. Is what you do. Note that the chi-square value can be calculated using, for example, “Feature Selection, Perceptron Learning Usability Case Study for Text Categorization, Proc of ACM SIGIR '97, 1997” by Kok Leong et al.

作成手段90は、分類手段85によって分類された連想語群を含む表示画面(ウェブサイト)を作成するものである。   The creation unit 90 creates a display screen (website) including the association word group classified by the classification unit 85.

送信手段95は、作成手段90によって作成された表示画面(ウェブサイト)を、ネットワーク500を介して、PC200へ送信するものである。   The transmission unit 95 transmits the display screen (web site) created by the creation unit 90 to the PC 200 via the network 500.

図2は、図1に示すウェブサイト検索支援装置100の動作の概要説明図である。ウェブサイト検索支援装置100は、まず、検索キーワードを受信すると、検索エンジン400を用いて、DB300内に記憶されているウェブサイトの中から、その検索キーワードが含まれているウェブサイト群Aを検索する。この結果、ウェブサイト検索支援装置100は、当該検索キーワードが含まれているウェブサイト群Aなどを示すウェブサイトを取得することができる。   FIG. 2 is a schematic explanatory diagram of the operation of the website search support apparatus 100 shown in FIG. First, when the search keyword is received, the website search support apparatus 100 uses the search engine 400 to search the website group A containing the search keyword from the websites stored in the DB 300. To do. As a result, the website search support apparatus 100 can acquire a website indicating the website group A or the like that includes the search keyword.

このウェブサイトには、通常、ウェブサイトA1,A2,...,Anをそれぞれ特定する特定情報(例えばURL)と、検索キーワードのヒット件数とが記載される。   This website usually includes websites A1, A2,. . . , An respectively specifying identification information (for example, URL) and the number of search keyword hits.

ウェブサイト検索支援装置100は、ウェブサイトA1,A2,...,Anのいくつかを実際にDB300から読み出して、更に、各ウェブサイトA1等内のテキストデータを抽出する。その後、ウェブサイト検索支援装置100は、テキストデータ内から形態素解析などを行って名詞等の単語を取り出す。   The website search support apparatus 100 includes websites A1, A2,. . . , An are actually read from the DB 300, and text data in each website A1 and the like are further extracted. Thereafter, the website search support apparatus 100 extracts words such as nouns by performing morphological analysis or the like from the text data.

ウェブサイト検索支援装置100は、その単語のうち使用頻度が高いものをn−gram処理などによって特定し、特定した単語と検索キーワードとに基づいて、当該検索キーワードの連想語群を選択する。そして、その連想語群をNewman法などを用いて分類(クラスタリング)する。   The website search support apparatus 100 identifies a frequently used word among the words by n-gram processing or the like, and selects an associative word group of the search keyword based on the identified word and the search keyword. Then, the associative word group is classified (clustered) using a Newman method or the like.

図3は、図1に示すウェブサイト検索支援装置100の動作を示すフローチャートである。以下、図3を参照しながら、図2を用いて説明した動作概要を実現するための具体的手法について説明する。   FIG. 3 is a flowchart showing the operation of the website search support apparatus 100 shown in FIG. Hereinafter, with reference to FIG. 3, a specific method for realizing the operation outline described with reference to FIG. 2 will be described.

まず、ウェブサイト検索支援装置100は、稼動時には、PC200からの検索キーワードの送信待ち状態に遷移している(ステップS1)。   First, the website search support apparatus 100 transitions to a search keyword transmission waiting state from the PC 200 during operation (step S1).

この状態で、ウェブサイト検索支援装置100のユーザが、PC200を操作することによって入力した検索キーワードを、ネットワーク500を通じてウェブサイト検索支援装置100に対して送信したとする。この場合、ウェブサイト検索支援装置100は、送信されてきた検索キーワードを、受信手段10によって受信して、格納手段25及び検索手段20へ出力する。   In this state, it is assumed that the user of the website search support apparatus 100 transmits a search keyword input by operating the PC 200 to the website search support apparatus 100 through the network 500. In this case, the website search support apparatus 100 receives the transmitted search keyword by the receiving unit 10 and outputs it to the storage unit 25 and the search unit 20.

検索手段20は、受信手段10から出力された検索キーワードを入力すると、検索エンジン400を用いて、DB300内から当該検索キーワードが含まれているウェブサイト群Aを検索するというウェブサイト群Aの検索処理を実行する(ステップS2)。   When the search keyword output from the receiving means 10 is input, the search means 20 uses the search engine 400 to search the website group A containing the search keyword from the DB 300. Processing is executed (step S2).

この結果、検索手段20は、ウェブサイトA1,A2,A3...をそれぞれ特定する特定情報(例えばURL)と、検索キーワードのヒット件数とが記載されているウェブサイトを取得することができる。   As a result, the search means 20 can search the websites A1, A2, A3. . . It is possible to acquire a website in which specific information (for example, URL) for specifying each and the number of search keyword hits is described.

その後、検索手段20は、ウェブサイト内のタグに基づいて又は「検索結果 約○○件」などの記載箇所をテキストマッチングなどによって抽出する。こうして、検索手段20は、検索キーワードのヒット件数を取得する。もっとも、このヒット件数は、検索エンジンAPI(Application Interface)を用いて取得してもよい。それから、検索手段20は、上記特定情報を抽出手段30へ出力するとともに、当該特定情報及びヒット件数を格納手段25に出力する。   Thereafter, the search means 20 extracts a description portion such as “about XX search results” based on a tag in the website or by text matching or the like. Thus, the search means 20 acquires the number of hits for the search keyword. However, the number of hits may be acquired using a search engine API (Application Interface). Then, the search unit 20 outputs the specific information to the extraction unit 30 and outputs the specific information and the number of hits to the storage unit 25.

格納手段25は、検索手段20から特定情報が出力されると、当該特定情報に対応する検索キーワードと紐付けて、メモリに格納するという格納処理を実行する(ステップS3)。   When the specific information is output from the search unit 20, the storage unit 25 executes a storage process in which the specific information is associated with the search keyword corresponding to the specific information and stored in the memory (step S3).

抽出手段30は、検索手段20から出力されたウェブサイトA1,A2,A3,...の特定情報のうち、例えば検索結果の上位10件に含まれるウェブサイトB1,B2,...,B10の特定情報を抽出して、読出手段40へ出力するという抽出処理を実行する(ステップS4)。   The extraction unit 30 is configured to output the websites A1, A2, A3,. . . For example, the websites B1, B2,. . . , B10 specific information is extracted and output to the reading means 40 (step S4).

なお、上記のように、検索結果の上位10件を抽出する場合には、検索エンジン400によって生成される検索結果上位10件を示すウェブサイト内から、「http」などを含んでおりハイパーリンクが付されている文字を、ウェブサイトB1,B2,...,B10の特定情報として抽出することも可能である。ウェブサイトA群の中からランダムにウェブサイトB1,B2,...,B10を選択する場合には、検索結果を示す任意のウェブサイト内から、「http」などを含む文字を任意に抽出すればよい。   As described above, when extracting the top 10 search results, the hyperlink includes “http” and the like from the website indicating the top 10 search results generated by the search engine 400. The letters attached to the websites B1, B2,. . . , B10 can be extracted as specific information. Websites B1, B2,. . . , B10 may be selected by arbitrarily extracting characters including “http” etc. from an arbitrary website indicating the search result.

読出手段40は、抽出手段30から出力されたウェブサイトB1,B2,...,B10の特定情報に基づいて、実際にウェブサイトBをDB300から読み出し、ウェブラッパーなどを用いてウェブサイトBに含まれている各テキストデータを抽出して、実行手段50へ出力するという読出処理を実行する(ステップS5)。   The reading means 40 includes the websites B1, B2,. . . , B10 based on the specific information of B10, actually reading out the website B from the DB 300, extracting each text data included in the website B using a web wrapper or the like, and outputting it to the execution means 50 Is executed (step S5).

テキストデータの抽出対象は、ウェブサイトB1,B2,...,B10のそれぞれを構成する全ページとしてもよいし、各々のトップページなどのように特定の幾つかのページとしてもよい。   The text data is extracted from websites B1, B2,. . . , B10 may be all the pages constituting each of them, or some specific pages such as each top page.

実行手段50は、読出手段40から出力された各テキストデータに対して、茶筅、和布蕪(ともに商品名)などの形態素解析ソフトウェアを用いて形態素解析を実行する(ステップS6)。実行手段50は、その結果得られる単語を選択手段60へ出力する。ここでは、形態素解析ソフトウェアで用意されている形態素種別を適宜選択することによって、例えば名詞、未知語を取り出す一方で、接尾辞、数字、非自立語、代名詞などを取り出さないように設定すればよい。   The execution unit 50 performs morpheme analysis on each text data output from the reading unit 40 using morpheme analysis software such as tea bowl and Japanese cloth bowl (both product names) (step S6). The execution unit 50 outputs the word obtained as a result to the selection unit 60. Here, by selecting the morpheme type prepared by the morpheme analysis software as appropriate, for example, it may be set not to extract suffixes, numbers, non-independent words, pronouns, etc. while extracting nouns and unknown words, for example. .

なお、形態素解析に代えて、又はこれとともに、n−gram分割などを行ってもよい(例えばn=5とする。)。この場合、必要に応じて、出現度が例えば0.7以上の単語を相互に同じ単語として取り扱うようにするなどして、複合語処理を行うとよい。   Note that n-gram division or the like may be performed instead of or in combination with morphological analysis (for example, n = 5). In this case, compound word processing may be performed as necessary, for example, by handling words having an appearance degree of 0.7 or more as the same word.

選択手段60は、実行手段50から出力された単語のTF値またはDF値が例えば2以上の単語を、ユーザに提供する連想語候補aとして選択するという連想語候補aの選択処理を実行する(ステップS7)。こうして、高頻度或いは低頻度で出現する単語を、連想語候補から除外していく。   The selection unit 60 executes a selection process of the associative word candidate a in which a word having a TF value or a DF value of, for example, two or more output from the execution unit 50 is selected as the associative word candidate a to be provided to the user ( Step S7). In this way, words that appear with high frequency or low frequency are excluded from the associated word candidates.

検索手段20は、選択手段60から出力された連想語候補a1,a2,a3,...を入力すると、検索エンジン400を用いてDB300内から連想語候補a1,a2,a3,...をそれぞれ含むウェブサイトを検索することによって、それぞれの検索結果に係るヒット件数を取得するというヒット件数取得処理を実行する(ステップS8)。   The search means 20 outputs the associative word candidates a1, a2, a3,. . . Are input from the DB 300 using the search engine 400, the associative word candidates a1, a2, a3,. . . The number-of-hits acquisition process of acquiring the number of hits related to each search result is performed by searching for websites that respectively include (step S8).

そして、検索手段20は、連想語候補a1,a2,a3,...と、これらに対応する各ヒット件数とを、一対で取得手段70及び格納手段25へ出力する。格納手段25は、これらの情報を、既に格納されている対応する検索キーワードと紐付けてメモリに格納する。   And the search means 20 is the associative word candidate a1, a2, a3,. . . And the number of hits corresponding to these are output to the acquisition means 70 and the storage means 25 as a pair. The storage means 25 stores these pieces of information in the memory in association with the corresponding search keywords already stored.

取得手段70は、検索手段20から出力された連想語候補a1,a2,a3,...のうち、対応するヒット件数が例えば5000件以下である連想語候補を、連想語候補aの中から削除して、連想語候補b1,b2,b3,...を取得するという連想語候補bの取得処理を実行する(ステップS9)。   The acquisition unit 70 associates the associative word candidates a1, a2, a3,. . . Among these, the associated word candidates whose corresponding hit count is, for example, 5000 or less are deleted from the associated word candidate a, and the associated word candidates b1, b2, b3,. . . Is acquired (step S9).

取得手段70は、取得した連想語候補b1,b2,b3,...を、検索手段20へ出力する。検索手段20は、取得手段70から出力された連想語候補b1,b2,b3,...を入力すると、検索エンジン400を用いてDB300内から連想語候補b1,b2,b3,...をそれぞれ含むウェブサイトを検索することによって、それぞれの検索結果に係るヒット件数を取得するというヒット件数取得処理を実行する(ステップS10)。   The acquisition means 70 acquires the acquired associative word candidates b1, b2, b3,. . . Is output to the search means 20. The search means 20 outputs associative word candidates b1, b2, b3,. . . , The associative word candidates b1, b2, b3,. . . The number-of-hits acquisition process of acquiring the number of hits related to each search result is performed (step S10).

そして、検索手段20は、連想語候補b1,b2,b3,...と、これらに対応する各ヒット件数とを、一対で格納手段25に格納するというヒット件数格納処理を実行する(ステップS11)。   And the search means 20 is the associative word candidate b1, b2, b3,. . . Then, a hit number storing process is executed in which the hit numbers corresponding to these are stored in the storage means 25 as a pair (step S11).

また、検索手段20は、連想語候補b1,b2,b3,...のいずれかと受信手段10によって受信され格納手段25に格納されている検索キーワードとの双方を含むウェブサイトを、検索エンジン400を用いて検索することによって、それぞれの検索結果に係るヒット件数を取得するというヒット件数取得処理を実行する(ステップS12)。   In addition, the search means 20 uses the associative word candidates b1, b2, b3,. . . The search engine 400 is used to search for a website that includes both of the above and the search keyword received by the receiving means 10 and stored in the storage means 25, thereby obtaining the number of hits related to each search result. The hit number acquisition process is executed (step S12).

そして、検索手段20は、各ヒット件数を格納手段25に格納するというヒット件数格納処理を実行する(ステップS13)。   And the search means 20 performs the hit number storage process of storing each hit number in the storage means 25 (step S13).

この結果、格納手段25には、
(1)連想語候補b1,b2,b3,...のいずれかと受信手段10によって受信され格納手段25に格納されている検索キーワードとの双方を含むウェブサイトに係るヒット件数と、
(2)連想語候補a1,a2,a3,...を含むウェブサイトに係るヒット件数と、
(3)連想語候補b1,b2,b3,...を含むウェブサイトに係るヒット件数と、
(4)受信手段10によって受信され格納手段25に格納されている検索キーワードを含むウェブサイトに係るヒット件数とが格納されることになる。
As a result, the storage means 25 stores
(1) Associative word candidates b1, b2, b3,. . . And the number of hits relating to a website including both the search keyword received by the receiving means 10 and stored in the storage means 25;
(2) Associative word candidates a1, a2, a3,. . . The number of hits related to websites including
(3) Associative word candidates b1, b2, b3,. . . The number of hits related to websites including
(4) The number of hits related to the website including the search keyword received by the receiving unit 10 and stored in the storage unit 25 is stored.

フィルタ手段80は、格納手段25によって格納されているヒット件数のうち所要のものを読み出して、数式1にこれらを代入することで相互情報量を算出する。そして、フィルタ手段80は、算出結果のうち例えば数値が大きい上位100件を取り出すために、連想語候補bをフィルタリングするというフィルタ処理を実行する(ステップS14)。
ここで、
数式1の右辺分母のhit(連想語候補b)とは、連想語候補bを含むウェブサイト、つまり、連想語候補bをクエリとして検索した場合のウェブサイトのヒット件数である。
The filter means 80 reads out the required number of hits stored by the storage means 25 and substitutes these into Equation 1 to calculate the mutual information amount. And the filter means 80 performs the filter process of filtering the associative word candidate b in order to take out, for example, the top 100 cases having a large numerical value from the calculation results (step S14).
here,
The right side denominator hit (associative word candidate b) in Equation 1 is the number of hits of the website when the associated word candidate b is searched, that is, when the associated word candidate b is searched as a query.

数式1の右辺分母のhit(検索キーワード)とは、検索キーワードをクエリとして検索した場合のウェブサイトのヒット件数である。   The right denominator hit (search keyword) in Equation 1 is the number of hits on the website when the search keyword is used as a query.

数式1の右辺分子のhit(連想語候補b,検索キーワード)とは、連想語候補bと検索キーワードとの双方をクエリとして検索した場合のウェブサイトのヒット件数である。   The right-side molecule hit (associative word candidate b, search keyword) in Equation 1 is the number of hits on the website when both the associative word candidate b and the search keyword are searched as queries.

Nは係数であり、本実施形態では、例えば100×10〜10としている。 N is a coefficient, and in this embodiment, for example, 100 × 10 6 to 10 7 .

このために、フィルタ手段80は、図示しない記憶領域に、数式1を用いた演算プログラムを格納しておき、フィルタ処理に先立って、当該プログラムを読み出し、かつ、格納手段25から所要のヒット件数を読み出し、数式1を用いた演算を行う。そして、フィルタ手段80は、演算結果を例えば数値の大きいものから降べきの順に並べて、上位100以外連想語候補を削除して、残りを連想語群として、分類手段85へ出力する。   For this purpose, the filter unit 80 stores a calculation program using the mathematical formula 1 in a storage area (not shown), reads the program prior to the filter process, and calculates the required number of hits from the storage unit 25. Read and perform calculation using Equation 1. Then, the filter unit 80 arranges the calculation results, for example, in descending order of the numerical value, deletes the associated word candidates other than the top 100, and outputs the remaining as associated word groups to the classifying unit 85.

分類手段85は、フィルタ手段80によって取得された連想語群を、以下に示す手法を用いて分類する。   The classification unit 85 classifies the associative word group acquired by the filter unit 80 by using the following method.

図4,図5は、図1の分類手段85による連想語群の分類手法の説明図である。図4には、連想語群を相互にネットワーク接続した状態を示している。当該接続は、χ2乗値が近いものを相互に接続するなど既知の手法によって実現すればよい。図5には、ネットワーク接続された連想語群を分類した状態を示している。当該分類は、Newman法などを用いた既知の手法によって実現すればよい。   4 and 5 are explanatory diagrams of the associative word grouping technique performed by the classifying unit 85 of FIG. FIG. 4 shows a state in which associative words are connected to each other via a network. The connection may be realized by a known method such as connecting the ones having close chi-square values. FIG. 5 shows a state where the associated word groups connected to the network are classified. The classification may be realized by a known method using a Newman method or the like.

作成手段90は、フィルタ手段80から出力された連想語群を示す情報の表示画面を作成するという画面作成処理を実行する(ステップS15)。   The creation unit 90 executes a screen creation process of creating a display screen for information indicating the associated word group output from the filter unit 80 (step S15).

送信手段95は、作成手段90によって作成された表示画面を、ネットワーク500を介して、PC200へ送信するという送信処理を実行する(ステップS16)。   The transmission unit 95 executes a transmission process of transmitting the display screen created by the creation unit 90 to the PC 200 via the network 500 (step S16).

この結果、PC200のユーザは、ウェブサイト検索支援装置100に対して送信した検索キーワードとの間の関連性が高い連想語群を取得することができる。このため、ユーザは、上記検索キーワードに基づく検索で所望の検索結果が得られなかった場合であっても、取得した連想語群に基づく絞り込み検索を行うことで、所望の検索結果が得られやすくなる。   As a result, the user of the PC 200 can acquire an associative word group that is highly related to the search keyword transmitted to the website search support apparatus 100. For this reason, even if the user does not obtain a desired search result by the search based on the search keyword, the user can easily obtain the desired search result by performing a refinement search based on the acquired associative word group. Become.

(実施形態2)
つぎに、本発明の実施形態2のコンテンツマッチ型広告システム1000について説明する。コンテンツマッチ型広告システム1000は、広告掲載が可能なウェブサイト内に、そのウェブサイトに含まれている内容との関連性が高い広告を掲載するものである。コンテンツマッチ型広告システム1000は、実施形態1で説明したウェブサイト検索支援装置100に対応する連想語群検索装置100を備えている。
(Embodiment 2)
Next, the content match type advertising system 1000 according to the second embodiment of the present invention will be described. The content-matching advertising system 1000 advertises an advertisement having a high relevance to the contents included in the website in the website where the advertisement can be placed. The content match type advertising system 1000 includes an associative word group search device 100 corresponding to the website search support device 100 described in the first embodiment.

なお、連想語群検索装置100は、ウェブサイト検索支援装置100の作成手段90及び送信手段95に代えて、格納手段25に対して連想語群DB600への連想語群を格納する手段を備えている。   The associative word group search apparatus 100 includes means for storing the associative word group in the associative word group DB 600 in the storage means 25 in place of the creation means 90 and the transmission means 95 of the website search support apparatus 100. Yes.

図6(a)は、本発明の実施形態2のコンテンツマッチ型広告システム1000の概要説明図である。なお、比較のため、従来の広告システムの概要説明も図6(b)に示している。   FIG. 6A is a schematic explanatory diagram of the content match advertising system 1000 according to the second embodiment of the present invention. For comparison, an outline description of a conventional advertising system is also shown in FIG.

図6(a)に示すように、本実施形態のコンテンツマッチ型広告システム1000は、以下説明する、連想語群検索装置100と、連想語群DB600と、マッチング装置700と、広告DB800とを備えている。   As shown in FIG. 6A, the content match advertising system 1000 of the present embodiment includes an associative word group search device 100, an associative word group DB 600, a matching device 700, and an advertisement DB 800, which will be described below. ing.

連想語群検索装置100は、コンテンツマッチ型広告システム1000の管理者からキーワードが入力されると、そのキーワードに対応する連想語群を検索して、各連想語群に対して固有識別子であるところの固有のクラスタIDを割り当てるものである。クラスタIDについては後述する。   When a keyword is input from the administrator of the content match advertising system 1000, the associative word group search device 100 searches for an associative word group corresponding to the keyword, and is a unique identifier for each associative word group Assigned a unique cluster ID. The cluster ID will be described later.

連想語群DB600は、連想語群検索装置100によって検索された連想語群と当該連想語群に対応して割り当てられたクラスタIDとが紐付けて格納されるものである。なお、連想語群等に対して、コンテンツマッチ型広告システム1000の管理者から入力されたキーワードも、併せて紐付けて格納してもよい。   The associative word group DB 600 stores an associative word group searched by the associative word group searching apparatus 100 and a cluster ID assigned corresponding to the associative word group. Note that keywords input from the administrator of the content match advertising system 1000 may also be stored in association with the association word group or the like.

マッチング装置700は、コンテンツマッチ型広告システム1000の管理者からの指示に従って、連想語群DB600に格納されている連想語群とDB300に格納されているコンテンツであるところのウェブサイト内のテキストデータとのマッチングを行い、当該ウェブサイトに合致するクラスタIDを割り出すものである。   In accordance with an instruction from the administrator of the content matching advertising system 1000, the matching device 700 includes the associative word group stored in the associative word group DB 600 and the text data in the website as the content stored in the DB 300. And the cluster ID that matches the website is determined.

広告DB800は、広告主から寄せられた広告と当該広告に合致するクラスタIDとが一対で格納されるものである。   The advertisement DB 800 stores a pair of an advertisement sent from an advertiser and a cluster ID that matches the advertisement.

つぎに、コンテンツマッチ型広告システム1000の動作について、具体例を交えつつ説明する。まず、コンテンツマッチ型広告システム1000の管理者等は、広告対象に関連するキーワードを選択して、そのキーワードを連想語群検索装置100に入力する。   Next, the operation of the content match advertising system 1000 will be described with specific examples. First, the administrator or the like of the content match advertising system 1000 selects a keyword related to the advertisement target and inputs the keyword to the associative word group search device 100.

例えば、「○×△」という雑誌が存在していて、その広告主に対して広告掲載の打診を行いたいと考えている場合には、「雑誌」、そのテレビコマーシャルを担当する「俳優名」、その雑誌の「販売社名」、その雑誌の「キャッチフレーズ」などのキーワードを含むウェブサイトをキーワードとして選択されるであろう。   For example, if there is a magazine “○ × △” and you want to consult with the advertiser about advertising, “magazine” or “actor name” in charge of the TV commercial A website including keywords such as the “sales company name” of the magazine and the “catchphrase” of the magazine will be selected as the keyword.

連想語群検索装置100は、このようにして選択されたキーワードが入力された場合には、実施形態1で説明した場合と同様に、各々のキーワードに対応する連想語群を検索する。連想語群検索装置100は、連想語群の検索を実行し終えると、検索した連想語群に対して固有のクラスタIDを割り当て、これらを紐付けて連想語群DB600に格納する。   When the keyword selected in this way is input, the associative word group search apparatus 100 searches for an associative word group corresponding to each keyword as described in the first embodiment. When the associative word group search device 100 finishes searching for the associative word group, the associative word group search apparatus 100 assigns a unique cluster ID to the searched associative word group, associates them with each other, and stores them in the associative word group DB 600.

一方、コンテンツマッチ型広告システム1000の管理者は、雑誌「○×△」の広告主に対して提示して、入力したキーワードに対応する連想語群ベースでの広告掲載の打診、つまり、連想語群ベースでの広告枠の購入の打診を行う。連想語群ベースでの広告掲載とは、その連想語群を構成する連想語が含まれているウェブサイトの広告枠に、その広告主から寄せられた広告を掲載することを意味する。   On the other hand, the administrator of the content-matching advertising system 1000 presents to the advertiser of the magazine “○ × △” and consults the advertisement placement on the basis of the associated word group corresponding to the input keyword, that is, the associated word. Consultation on the purchase of advertising space on a group basis. The advertisement placement based on the association word group means that an advertisement sent from the advertiser is placed on the advertisement space of the website that includes the association words constituting the association word group.

実際に、雑誌「○×△」の広告主が、上記打診に応じて、連想語群ベースでの広告枠の購入をしたならば、広告主が購入した連想語群に対応するクラスタIDを、広告主から提供される広告と一対で、広告DB800に登録する。   In fact, if the advertiser of the magazine “○ × △” purchases an advertising space on an associative word group basis in response to the above consultation, the cluster ID corresponding to the associative word group purchased by the advertiser is A pair with the advertisement provided by the advertiser is registered in the advertisement DB 800.

この状態で、例えば、広告枠を有する、日記形式のブログ(weblog)、掲示板などのウェブサイトが作成されたとする。さらに、そのウェブサイトがDB300にアップロードされ、つづいて、コンテンツマッチ型広告システム1000の管理者に対して、当該ウェブサイトのURLが通知され又は当該ウェブサイトのテキストデータが送信される等の処理がなされたとする。   In this state, for example, it is assumed that a website such as a diary-type blog (weblog) and a bulletin board having an advertising space is created. Further, the website is uploaded to the DB 300, and then the URL of the website is notified to the administrator of the content match advertising system 1000 or the text data of the website is transmitted. Suppose it was made.

この場合には、コンテンツマッチ型広告システム1000の管理者は、マッチング装置700に対して、そのURL等を入力する。   In this case, the administrator of the content match advertising system 1000 inputs the URL and the like to the matching device 700.

マッチング装置700は、そのURLが入力されると、当該URLに対応するウェブページのテキストデータの抽出処理を実行し、抽出したテキストデータと連想語群DB600に格納されている連想語群及び/又はキーワードのマッチング処理を行う。もっとも、コンテンツマッチ型広告システム1000の管理者に対して、上記ウェブサイトのテキストデータが送信されている場合には、この抽出処理は割愛される。   When the URL is input, the matching device 700 executes a process of extracting text data of the web page corresponding to the URL, and the extracted text data and the association word group stored in the association word group DB 600 and / or Perform keyword matching processing. However, when the text data of the website is transmitted to the administrator of the content match advertising system 1000, this extraction process is omitted.

マッチング装置700は、マッチング処理によって得られるマッチング結果に基づいて、マッチング対象のウェブサイトに対応するクラスタIDを割り出す。そして、当該ウェブサイトに合致するクラスタIDを割り出して、DB300に格納されているウェブサイトに付記する。   The matching device 700 determines the cluster ID corresponding to the matching target website based on the matching result obtained by the matching process. Then, the cluster ID matching the website is determined and added to the website stored in the DB 300.

この結果、何人かによって、DB300に格納されているウェブサイトがダウンロードされる場合には、既知の手法と同様に、そのウェブサイトに係るクラスタIDに対応する広告が広告DB800から読み出されて、そのウェブサイトの広告枠に当てはめられる。   As a result, when the website stored in the DB 300 is downloaded by some people, the advertisement corresponding to the cluster ID related to the website is read from the advertisement DB 800 as in the known method, Applied to the inventory on the website.

ここで、従来の広告システムを利用した広告の場合には、システム管理者等は、広告主に対して、広告に関連するキーワードベースで広告掲載の打診を行っていた。具体的には、例えば、上記の例でいえば、「雑誌」、そのテレビコマーシャルを担当する「俳優名」、その雑誌の「販売社名」、その雑誌の「キャッチフレーズ」などのキーワードベースで広告枠の購入の打診を行っていた。キーワードベースでの広告掲載とは、そのキーワードが含まれているウェブサイトの広告枠に、その広告主から寄せられた広告を掲載するということを意味する。したがって、広告主は、適当な広告を行うためには、複数のキーワードに係る広告枠を購入することが強いられていた。   Here, in the case of an advertisement using a conventional advertisement system, a system administrator or the like has consulted with an advertiser on advertisement placement on a keyword basis related to the advertisement. Specifically, in the above example, for example, “magazine”, “actor name” in charge of the TV commercial, “seller name” of the magazine, “catchphrase” of the magazine, etc. Was consulting about the purchase. The keyword-based advertisement placement means that an advertisement sent from the advertiser is placed on the advertisement space of the website containing the keyword. Therefore, in order to perform an appropriate advertisement, the advertiser has been forced to purchase an advertisement space related to a plurality of keywords.

なお、マッチング対象のウェブサイトに対応するクラスタIDを割り出すタイミングは上記例に限定されるものではない。例えば、DB300に格納されているウェブサイトがダウンロードされる指示を受けたとき、又は、タイマなどを備えて例えば10日ごとのように定期的に、或いはアクセスカウンタを設けておきウェブサイトへのアクセス回数が10回ごとのように時間的に非定期的とすることもできる。こうすると、ブログのように内記載内容が逐次更新されるウェブサイトの場合にも、記載内容に合致する広告を掲載することが可能となる。   Note that the timing for determining the cluster ID corresponding to the website to be matched is not limited to the above example. For example, when an instruction to download a website stored in the DB 300 is received, or a timer is provided, for example, regularly every 10 days, or an access counter is provided to access the website. The number of times may be non-periodic such as every 10 times. In this way, even in the case of a website whose contents are sequentially updated, such as a blog, an advertisement that matches the contents can be posted.

(実施形態3)
図8は、本発明の実施形態3のコンテンツマッチ型広告システム1000の概要説明図である。
(Embodiment 3)
FIG. 8 is a schematic explanatory diagram of the content match advertising system 1000 according to the third embodiment of the present invention.

図8に示すコンテンツマッチ型広告システム1000は、連想語群検索装置100における連想語群の検索手法が、実施形態2の場合と相違する。具体的には、実施形態2の場合には、一つのキーワードに基づいて一つの連想語群の検索を行うのに対して、実施形態3の場合には、一つのキーワードに基づいて複数の連想語群の検索を行う。   The content match type advertisement system 1000 shown in FIG. 8 is different from the second embodiment in the method of searching for an associative word group in the associative word group searching apparatus 100. Specifically, in the case of the second embodiment, a group of associative words is searched based on one keyword, while in the case of the third embodiment, a plurality of associative words are searched based on one keyword. Search for a group of words.

このような検索を行った場合には、キーワードに対する連想語群がクラスタリングされて得られることになる。   When such a search is performed, an associative word group for the keyword is obtained by clustering.

図7は、図6(a)に示す連想語群DB600に格納されるデータ例を示す図である。図7には、連想語群とこれらに対応するクラスタIDとを示している。   FIG. 7 is a diagram illustrating an example of data stored in the associative word group DB 600 illustrated in FIG. FIG. 7 shows the association word groups and the cluster IDs corresponding to them.

ここで、例えば、「○×△」というタイトルが付された雑誌が存在していて、かつ、「○×△」という商品名のジュースも存在していたとする。このような状況下で、ユーザが検索エンジンに対して「○×△」という検索キーワードを入力して、ウェブサイトの検索を行ったとする。その結果、上記ジュースに関するウェブサイトと上記雑誌に関するウェブサイトとの双方が含まれている検索結果ページが作成されることになる。   Here, for example, it is assumed that there is a magazine with the title “◯ × Δ”, and there is also a juice with a trade name “○ × Δ”. In such a situation, it is assumed that the user inputs a search keyword “OxΔ” to the search engine and searches the website. As a result, a search result page including both the website regarding the juice and the website regarding the magazine is created.

したがって、一般的な広告システムの場合には、ジュース「○×△」に関するウェブサイトを閲覧したときであっても、雑誌「○×△」の広告が表示される場合がある。   Therefore, in the case of a general advertisement system, an advertisement of a magazine “OxΔ” may be displayed even when a website related to the juice “OxΔ” is browsed.

これに対して、本実施形態のコンテンツマッチ型広告システム1000は、ウェブサイトの記事内容がジュース「○×△」と雑誌「○×△」とのいずれに関するものであるのかを判別し、ジュース「○×△」に関するウェブサイトに、雑誌「○×△」の広告が表示されることを回避する。   On the other hand, the content match advertising system 1000 according to the present embodiment determines whether the article content of the website relates to the juice “OxΔ” or the magazine “OxΔ”. The advertisement of the magazine “OxΔ” is avoided from being displayed on the website related to “OxΔ”.

コンテンツマッチ型広告システム1000の管理者が、単に「○×△」というキーワードを連想語群検索装置100入力した場合に、「ジュース」及び「○×△」に係る連想語群(図7のクラスタID=1に係る連想語群)と、「雑誌」及び「○×△」に係る連想語群(図7のクラスタID=2に係る連想語群)という、少なくとも二つの連想語群がクラスタリングされた状態で得られることになる。   When the administrator of the content-matching advertising system 1000 simply inputs the keyword “OxΔ” to the associative word group search apparatus 100, the associative word groups related to “juice” and “OxΔ” (the cluster in FIG. 7). A group of associative words related to ID = 1) and an associative word group related to “magazine” and “OxΔ” (associative word group related to cluster ID = 2 in FIG. 7) are clustered. Will be obtained.

このように、本実施形態のコンテンツマッチ型広告システム1000は、例えば、商品名である「○×△」というキーワードが連想語群検索装置100に入力されると、このキーワードに対応する連想語群がクラスタリングされて出力される。このため、コンテンツマッチ型広告システム1000の管理者等は、ジュース「○×△」の広告主に対して図7のクラスタID=1に係る連想語群、雑誌「○×△」の広告主に対して図7のクラスタID=2に係る連想語群をベースとして広告掲載の打診を行えばよくなる。その後の動作は、実施形態2で説明したとおりである。   As described above, in the content match advertising system 1000 according to the present embodiment, for example, when a keyword “OxΔ”, which is a product name, is input to the associative word group search device 100, an associative word group corresponding to the keyword is input. Are clustered and output. For this reason, the administrator or the like of the content match type advertising system 1000 gives the advertiser of the juice “OxΔ” to the advertiser of the magazine “OxΔ” that is associated with the cluster ID = 1 in FIG. On the other hand, it is only necessary to consult advertisements based on the associative word group related to cluster ID = 2 in FIG. The subsequent operation is as described in the second embodiment.

(実施形態4)
図9は、本発明の実施形態4のコンテンツマッチ型広告システム1000の概要説明図である。
(Embodiment 4)
FIG. 9 is a schematic explanatory diagram of the content match advertising system 1000 according to the fourth embodiment of the present invention.

図9に示すコンテンツマッチ型広告システム1000は、広告の掲載対象が、実施形態2の場合と相違する。具体的には、本実施形態の場合には、広告の掲載対象をウェブサイトの検索結果ページとしている。以下、これを実現するための手法について説明する。   The content match type advertising system 1000 shown in FIG. 9 is different from that of the second embodiment in the advertisement placement target. Specifically, in the case of the present embodiment, the advertisement placement target is the search result page of the website. Hereinafter, a method for realizing this will be described.

まず、コンテンツマッチ型広告システム1000の管理者等は、ウェブページ検索者が検索キーワードを入力するための検索用ウェブページ、及び、ウェブページの検索結果及びそれに合致する広告をはめ込むための検索結果ページを用意しておく。   First, an administrator or the like of the content match advertising system 1000 uses a search web page for a web page searcher to input a search keyword, and a search result page for inserting a search result of the web page and an advertisement matching the search result. Prepare.

また、連想語群検索装置100は、既述のように、広告に関連するキーワードが入力されると、当該キーワードを含む連想語群を検索して、検索結果として連想語群とこれに対応するクラスタIDとを連想語群DB600に格納する。また、広告DB800には、既述のように、広告とそれに合致するクラスタIDとが一対で記憶される。   In addition, as described above, when a keyword related to an advertisement is input, the associative word group search apparatus 100 searches for an associative word group including the keyword and corresponds to the associative word group and the search result. The cluster ID is stored in the associative word group DB 600. Further, as described above, the advertisement DB 800 stores a pair of advertisements and cluster IDs matching the advertisements.

この状態で、何人かから、上記検索用ウェブページに検索キーワードが入力され、その検索キーワードがインターネットなどを介して、連想語群検索装置100に送信されると、連想語群検索装置100は、既述の場合と同様に、受信した検索キーワードが含まれているウェブサイトを、検索エンジン等を用いて検索して、検索結果をクラスタリングし、クラスタ毎に検索結果ページを作成して、当該検索結果ページに対応するクラスタIDとともにマッチング装置700へ出力する。   In this state, when a search keyword is input to the search web page from several persons and the search keyword is transmitted to the associative word group search device 100 via the Internet or the like, the associative word group search device 100 As in the case described above, search the website containing the received search keyword using a search engine, etc., cluster the search results, create a search result page for each cluster, and search The result is output to matching device 700 together with the cluster ID corresponding to the result page.

マッチング装置700は、連想語群検索装置100から出力されたコンテンツであるところの検索結果ページを入力すると、その検索結果ページに対応するクラスタIDに合致する広告を広告DB800から読み出して、その検索結果ページの広告枠に当てはめてから、インターネットなどを介して検索者に対して送信するための処理をする。   When the matching device 700 inputs a search result page that is the content output from the associative word group search device 100, the matching device 700 reads out an advertisement matching the cluster ID corresponding to the search result page from the advertisement DB 800, and the search result After applying to the advertising space of the page, processing for transmitting to the searcher via the Internet or the like is performed.

この結果、検索者は、ウェブサイトの内容に基づいてクラスタリングされ、かつ、その内容に合致する検索結果ページを取得することができる。したがって、例えば、検索者が、「○×△」という検索キーワードを入力した場合には、少なくとも、(1)ジュース「○×△」に関する内容が記載されているウェブサイトのURL等及びジュース「○×△」に係る広告とが掲載された検索結果ページが得られ、かつ、(2)雑誌「○×△」に関する内容が記載されているウェブサイトのURL等及び雑誌「○×△」に係る広告とが掲載された検索結果ページが得られることになる。   As a result, the searcher can obtain a search result page that is clustered based on the content of the website and matches the content. Therefore, for example, when the searcher inputs the search keyword “○ × △”, at least (1) the URL of the website describing the content related to the juice “○ × Δ” and the juice “○ A search result page on which an advertisement related to “× △” is posted is obtained, and (2) the URL or the like of the website describing the content related to the magazine “OxΔ” and the magazine “OxΔ” A search result page with advertisements will be obtained.

本発明の実施形態1の連想語群検索装置であるところのウェブサイト検索支援装置100を備えるウェブサイト検索支援システムの模式的な構成を示すブロック図である。It is a block diagram which shows the typical structure of a website search support system provided with the website search support apparatus 100 which is the associative word group search apparatus of Embodiment 1 of this invention. 図1に示すウェブサイト検索支援装置100の動作の概要説明図である。FIG. 2 is a schematic explanatory diagram of an operation of the website search support apparatus 100 shown in FIG. 1. 図1に示すウェブサイト検索支援装置100の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the website search assistance apparatus 100 shown in FIG. 図1の分類手段85による連想語群の分類手法の説明図である。It is explanatory drawing of the classification method of the associative word group by the classification means 85 of FIG. 図1の分類手段85による連想語群の分類手法の説明図である。It is explanatory drawing of the classification method of the associative word group by the classification means 85 of FIG. 本発明の実施形態2のコンテンツマッチ型広告システム1000の概要説明図である。It is a general | schematic explanatory drawing of the content match type | mold advertisement system 1000 of Embodiment 2 of this invention. 図6に示す連想語群DB600に格納されるデータ例を示す図である。It is a figure which shows the example of data stored in the associative word group DB600 shown in FIG. 本発明の実施形態3のコンテンツマッチ型広告システム1000の概要説明図である。It is a schematic explanatory drawing of the content match type | mold advertisement system 1000 of Embodiment 3 of this invention. 本発明の実施形態4のコンテンツマッチ型広告システム1000の概要説明図である。It is outline | summary explanatory drawing of the content match type | mold advertisement system 1000 of Embodiment 4 of this invention.

符号の説明Explanation of symbols

受信手段10、検索手段20、格納手段25、抽出手段30、読出手段40、実行手段50、選択手段60、取得手段70、フィルタ手段80、分類手段85、作成手段90、送信手段95、ウェブサイト検索支援装置100、PC200、DB300、エンジン400、ネットワーク500   Receiving means 10, searching means 20, storing means 25, extracting means 30, reading means 40, executing means 50, selecting means 60, obtaining means 70, filtering means 80, classification means 85, creating means 90, transmitting means 95, website Search support apparatus 100, PC 200, DB 300, engine 400, network 500

Claims (8)

入力されたキーワードを含んでいるウェブサイト群を検索する検索手段と、
前記検索手段によって検索されたウェブサイト群のうちのいくつかのウェブサイトに含まれているテキストデータの分割処理を実行する実行手段と、
前記実行手段の分割処理によって得られる単語のうち前記各ウェブサイトへの出現回数が所定以上の単語を前記キーワードの連想語群として出力する出力手段とを備える連想語群検索装置。
A search means for searching a group of websites including the input keyword;
Execution means for executing a process of dividing text data included in some websites of the website group searched by the search means;
An associative word group search device comprising: an output unit that outputs words having a frequency of appearance on each of the websites greater than or equal to a predetermined number of words obtained by the dividing process of the execution unit as an associated word group of the keyword.
前記出現回数が所定以上の単語と前記キーワードとに基づいて、前記単語をフィルタリングするフィルタ手段を有する、請求項1記載の連想語群検索装置。   The associative word group search device according to claim 1, further comprising a filter unit configured to filter the word based on the word having the predetermined number of appearances and the keyword. 前記フィルタ手段は、
前記出現回数が所定以上の単語と前記キーワードとの双方を含むウェブサイトのヒット件数と、
前記キーワードを含むウェブサイトのヒット件数と、
前記出現回数が所定以上の単語を含むウェブサイトのヒット件数と、を用いた統計処理に基づいて前記単語をフィルタリングする、請求項2記載の連想語群検索装置。
The filter means includes
The number of hits of websites that include both the word and the keyword whose appearance count is greater than or equal to a predetermined number,
The number of hits on the website containing the keyword,
The associative word group search device according to claim 2, wherein the words are filtered based on a statistical process using the number of hits of a website including words having a predetermined number of occurrences.
前記統計処理は、相互情報量又はtスコアに基づく処理を含む、請求項3記載の連想語群検索装置。   The associative word group search device according to claim 3, wherein the statistical processing includes processing based on a mutual information amount or a t-score. 前記出現回数が所定以上の単語を含むウェブサイトのヒット件数が所定の閾値以下の場合に、当該単語を除外する除外手段を有する請求項1記載の連想語群検索装置。   The associative word group search device according to claim 1, further comprising: an exclusion unit configured to exclude a word when the number of hits of a website including the word whose appearance count is equal to or greater than a predetermined value is equal to or less than a predetermined threshold. 前記連想語群を分類する分類手段を備える、請求項1記載の連想語群検索装置。   The associative word group search apparatus according to claim 1, further comprising a classifying unit that classifies the associative word group. 請求項1から6のいずれか記載の連想語群検索装置と、
前記連想語群検索装置から出力される連想語群が格納される格納媒体とを備える連想語群検索システム。
The associative word group search device according to any one of claims 1 to 6,
An associative word group search system comprising: a storage medium in which an associative word group output from the associative word group search device is stored.
請求項1から6のいずれか記載の連想語群検索装置と、
前記連想語群検索装置から出力される連想語群が固有識別子とともに格納される連想語群格納媒体と、
広告枠を有するコンテンツに掲載可能な広告と当該広告に対応する前記固有識別子とが格納される広告格納媒体と、
前記連想語群格納媒体に格納されている連想語群とコンテンツとのマッチングを行うことによって当該コンテンツに対応する前記固有識別子を割り出し、当該固有識別子が割り当てられている広告のいずれかを前記広告格納媒体から読み出すマッチング装置とを備える、コンテンツマッチ型広告システム。
The associative word group search device according to any one of claims 1 to 6,
An associative word group storage medium in which an associative word group output from the associative word group search device is stored together with a unique identifier;
An advertisement storage medium in which an advertisement that can be placed in content having an advertisement space and the unique identifier corresponding to the advertisement are stored;
The unique identifier corresponding to the content is determined by matching the associated word group stored in the associative word group storage medium with the content, and any one of the advertisements to which the unique identifier is assigned is stored in the advertisement. A content-matching advertisement system comprising a matching device that reads from a medium.
JP2006239824A 2006-09-05 2006-09-05 Associative word group search device, system, and content match type advertisement system Pending JP2008065417A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006239824A JP2008065417A (en) 2006-09-05 2006-09-05 Associative word group search device, system, and content match type advertisement system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006239824A JP2008065417A (en) 2006-09-05 2006-09-05 Associative word group search device, system, and content match type advertisement system

Publications (1)

Publication Number Publication Date
JP2008065417A true JP2008065417A (en) 2008-03-21

Family

ID=39288110

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006239824A Pending JP2008065417A (en) 2006-09-05 2006-09-05 Associative word group search device, system, and content match type advertisement system

Country Status (1)

Country Link
JP (1) JP2008065417A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010267001A (en) * 2009-05-13 2010-11-25 Digital Advertising Consortium Inc Advertisement support system and advertisement support method
JP2011013907A (en) * 2009-07-01 2011-01-20 Yahoo Japan Corp Advertisement guidance server, advertisement guidance method and server program
JP2012512465A (en) * 2008-12-12 2012-05-31 アティジオ リミテッド ライアビリティ カンパニー Providing recommendations using judgment information about the area of interest
JP2013544397A (en) * 2010-11-05 2013-12-12 楽天株式会社 System and method for keyword extraction
CN105608074A (en) * 2016-01-15 2016-05-25 中译语通科技(北京)有限公司 Word counting method and device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10334106A (en) * 1997-05-27 1998-12-18 Fuji Xerox Co Ltd Relative word display device and medium where program for relative word display is recorded
JP2002297621A (en) * 2001-03-30 2002-10-11 Just Syst Corp Device and method for providing advertisement, and recording medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10334106A (en) * 1997-05-27 1998-12-18 Fuji Xerox Co Ltd Relative word display device and medium where program for relative word display is recorded
JP2002297621A (en) * 2001-03-30 2002-10-11 Just Syst Corp Device and method for providing advertisement, and recording medium

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
佐々木靖弘、外2名: "関連用語収集問題とその解法", 自然言語処理, vol. 第13巻,第3号, JPN6011058940, 10 July 2006 (2006-07-10), JP, pages 151 - 175, ISSN: 0002065804 *
佐藤光弘、外2名: "知的検索技術を用いたネットワーク・ナビゲーション支援システム", MATSUSHITA TECHNICAL JOURNAL, vol. 第44巻,第5号, JPN6011058938, 18 October 1998 (1998-10-18), pages 18 - 24, ISSN: 0002065802 *
佐藤理史、外1名: "ウェブを利用した関連用語の自動収集", 情報処理学会研究報告(2003−NL−153), vol. 第2003巻,第4号, JPN6011058937, 21 January 2003 (2003-01-21), JP, pages 57 - 64, ISSN: 0002065801 *
太駄健司: "インターネット広告の可能性 ロングテール時代のアプローチとは? 第4章 ターゲティング技術の著しい進", WEB SITE EXPERT, vol. 第6号, JPN6011058939, 25 April 2006 (2006-04-25), JP, pages 119 - 122, ISSN: 0002065803 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012512465A (en) * 2008-12-12 2012-05-31 アティジオ リミテッド ライアビリティ カンパニー Providing recommendations using judgment information about the area of interest
JP2010267001A (en) * 2009-05-13 2010-11-25 Digital Advertising Consortium Inc Advertisement support system and advertisement support method
JP2011013907A (en) * 2009-07-01 2011-01-20 Yahoo Japan Corp Advertisement guidance server, advertisement guidance method and server program
JP2013544397A (en) * 2010-11-05 2013-12-12 楽天株式会社 System and method for keyword extraction
CN105608074A (en) * 2016-01-15 2016-05-25 中译语通科技(北京)有限公司 Word counting method and device
CN105608074B (en) * 2016-01-15 2018-06-29 中译语通科技股份有限公司 A kind of word counting method and device

Similar Documents

Publication Publication Date Title
US8001135B2 (en) Search support apparatus, computer program product, and search support system
JP5603337B2 (en) System and method for supporting search request by vertical proposal
JP5168961B2 (en) Latest reputation information notification program, recording medium, apparatus and method
US10108720B2 (en) Automatically providing relevant search results based on user behavior
US8700621B1 (en) Generating query suggestions from user generated content
CN100394427C (en) network searching system and method
US20140358883A1 (en) Semantically associated text index and the population and use thereof
CN101027667A (en) Query rewriting with entity detection
JP6165955B1 (en) Method and system for matching images and content using whitelist and blacklist in response to search query
EP1695232A1 (en) Methods and systems for information extraction
CN105488221A (en) Method and system for recommending query terms for conducting searching in search interface
JP4875911B2 (en) Content identification method and apparatus
TWI417751B (en) Information providing device, information providing method, information application program, and information recording medium
WO2016162843A1 (en) Processing a search query and retrieving targeted records from a networked database system
JP2002007450A (en) Retrieval support system
JP2008065417A (en) Associative word group search device, system, and content match type advertisement system
JP6568284B1 (en) Providing device, providing method, and providing program
TWI399657B (en) A provider, a method of providing information, a program, and an information recording medium
US20070244854A1 (en) Methods and systems for output of search results
JP6960253B2 (en) Product evaluation device, product evaluation method, and program
KR20100068964A (en) Apparatus for recommending related query and method thereof
JP2001229171A (en) Article retrieval system
JP6894875B2 (en) Brand dictionary creation device, product evaluation device, brand dictionary creation method and program.
JP2012043290A (en) Information providing device, information providing method, program, and information recording medium
CN115577178B (en) Portal page recommendation method, device, equipment and medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090828

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100906

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120321