[go: up one dir, main page]

JP2008515107A - テキスト分割のために言語を選択する方法およびシステム - Google Patents

テキスト分割のために言語を選択する方法およびシステム Download PDF

Info

Publication number
JP2008515107A
JP2008515107A JP2007534758A JP2007534758A JP2008515107A JP 2008515107 A JP2008515107 A JP 2008515107A JP 2007534758 A JP2007534758 A JP 2007534758A JP 2007534758 A JP2007534758 A JP 2007534758A JP 2008515107 A JP2008515107 A JP 2008515107A
Authority
JP
Japan
Prior art keywords
language
result
appearance frequency
determining
program code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007534758A
Other languages
English (en)
Other versions
JP2008515107A5 (ja
JP5148278B2 (ja
Inventor
ギラード・イスラエル・エルバス
ジェイコブ・レオン・マンデルソン
Original Assignee
グーグル・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グーグル・インコーポレーテッド filed Critical グーグル・インコーポレーテッド
Publication of JP2008515107A publication Critical patent/JP2008515107A/ja
Publication of JP2008515107A5 publication Critical patent/JP2008515107A5/ja
Application granted granted Critical
Publication of JP5148278B2 publication Critical patent/JP5148278B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

テキスト分割のために言語を選択する方法およびシステムが開示されている。一実施形態として、文字列に関連付けられている第1候補言語および第2候補言語が少なくとも特定され、前記第1候補言語に関連付けられている第1分割結果と前記第2候補言語に関連付けられている第2分割結果とが少なくとも決定され、前記第1分割結果について第1出現頻度を決定するとともに、前記第2分割結果について第2出現頻度を決定し、実施可能言語が少なくとも前記第1出現頻度および第2出現頻度の一部に基づいて前記第1候補言語および第2候補言語から特定される。

Description

本発明は、概してテキスト分割に関するものであり、特に、テキスト分割のために言語を選択することに関するものである。
テキストを示すデータの解釈を試みるテキスト処理方法およびシステムが存在している。テキスト処理は、言葉または他のトークンを示して分割できない文字列を有するテキストが受け取られたとき、より困難となる。トークンは、単語、頭文字語、簡略名、固有名、地理的名称、株式市場ティッカーシンボル、または他のトークンとすることができる。一般に、文字列は、既存の方法およびシステムを使用して、分割された文字列の複数の組合せに分割することができる。そのテキストを選択して使用するために正確な言葉を選択することで、より有意義な結果を出すことができる。
本発明の実施形態は、テキスト分割のために言語を選択する方法およびシステムを有している。本発明の一実施形態は、文字列に関連付けられている第1候補言語および第2候補言語を少なくとも特定するステップと、前記文字列から前記第1候補言語に関連付けられている第1分割結果を少なくとも決定するとともに、前記文字列から前記第2候補言語に関連付けられている第2分割結果を少なくとも決定するステップと、前記第1分割結果について第1出現頻度を決定するとともに、前記第2分割結果について第2出現頻度を決定するステップと、少なくとも前記第1出現頻度および第2出現頻度の一部に基づいて、前記第1候補言語および第2候補言語から実施可能言語を特定するステップと、を有する。
この例示的実施形態は、本発明を限定または定義するものではないが、本発明についての理解を支援するための本発明の実施形態の一例を提供する。例示的実施形態が詳細な説明において記載されており、さらにそこで本発明の詳細が記載されている。本発明の様々な実施形態で示された利点は、本明細書を検討することによってさらに理解することができる。
本発明のこれらおよび他の特徴、態様および利点は、以下の詳細な説明が添付図面を参照して読み取られることで、より良く理解される。
<序論>
本発明の実施形態は、テキスト分割のために言語を選択する方法およびシステムを有する。本発明について複数の実施形態がある。序論および実施形態として、本発明の一例の実施形態は、複数のトークンまたは単語の中のドメインネームのような、文字列の正確な言語を選択することで、文字列の分割を改善する方法として提供される。文字列についての多くの可能(potential)または候補言語が、前記文字列に関連している言語、ユーザに関連しているIPアドレス、前記文字列で使用された文字セット、前記ユーザに関連づけられたブラウザ・アプリケーション・プログラムのブラウザ設定、および前記文字列に関連づけられた最上位のドメインのような、様々な信号に基づいて選択することができる。文字列は、各候補言語を使用して多くの分割結果に区分することができる。各分割結果は、単語または他のトークンの特定の組合せとなることができる。例えば、文字列「usedrugs」は、英語についての以下の分割結果に分割することができる。
「used rugs」、「use drugs」、「us ed rugs」など。
各候補言語の分割結果のこの数から、実施可能分割結果および実施可能言語が前記実施可能分割結果を含む前記実施可能言語の中の文書または検索クエリーの数に基づいて特定できる。
例えば、最良の実施可能分割結果になるための最高確率の分割結果が各候補言語について選択できる。サーチエンジンは、選択された分割結果を有する文書または検索クエリーの数を決定することができるとともに、各候補言語の中の各選択された分割結果についてこれをすることができる。一実施形態として、特定の言語における文書または検索クエリーの中で最大頻度で生じる分割結果は、最良の実施可能分割結果として特定することができる。前記最良の実施可能分割結果に関連している言語は、最良の実施可能言語として特定することができる。また、前記候補言語の決定に使用された言語信号は、前記実施可能言語の選択に使用することができる。前記実施可能分割結果および実施可能言語は、言語および結果に基づいて広告を選択することを有する各種の機能を使用することができる。
この序論は、本発明の一般的な内容を利用者に紹介するためにある。本発明は、そのような内容に決して限定されない。一例としての実施形態が以下で説明されている。
<システム構造>
本発明に従った様々なシステムが構成できる。図1は、本発明として動作可能な実施形態の一例のシステムの図を示している。また、本発明は、他のシステムとして、動作可能であるとともに、実施可能である。参照している図面では、いくつかの図面を通して同様の要素には同様の番号が付いており、図1は、本発明の実施形態を実施するための環境の一例を示す図である。図1に示すシステム100は、ネットワーク106を渡ってサーバ装置104およびサーバ装置150と通信する複数のクライアント装置102a−nを有する。一実施形態として、示されたネットワーク106は、インターネットを有する。他の実施形態として、イントラネット、WANまたはLANのような、他のネットワークを使用することができる。さらに、本発明に係る方法は、1台のコンピュータで動作することもできる。
図1に示されたクライアント装置102a−nは、プロセッサ110に接続されたランダム・アクセス・メモリ(RAM)108のような、コンピュータ読み取り可能媒体を、それぞれ有している。プロセッサ110は、メモリ108に記憶されたコンピュータ実行可能なプログラム命令を実行する。そのようなプロセッサは、マイクロプロセッサ、ASIC、および状態マシンを有するものとしてもよい。また、そのようなプロセッサは、例えば、コンピュータ読み取り可能な媒体などの媒体と通信するものとしてもよい。前記コンピュータ読み取り可能な媒体は、ここに記載されたステップを実行するように前記プロセッサを動作させるものであって、前記プロセッサによって実行される命令を記憶する。コンピュータ読み取り可能媒体は、電子式、光学式、磁気式または他の記憶装置を有し、またはクライアント102aのプロセッサ110ようなプロセッサに、コンピュータ読み取り可能な命令を提供することが可能な他の伝送装置を有するが、これらに限定されない。適当な媒体の他の実施形態としては、プロッピーディスク(登録商標)、CD−ROM、DVD、磁気ディスク、メモリチップ、ROM、RAM、ASIC、構成プロセッサ、全ての光学媒体、全ての磁気テープ、または他の磁気媒体、またはコンピュータプロセッサが命令を読み取ることができるあらゆる他の適当な媒体を有するが、これらに限定されない。また、コンピュータ読み取り可能な媒体の様々な他の形式が、ルータ、私的のまたは公的ネットワーク、または他の伝送装置またはチャネル、有線および無線の両方を有して、命令をコンピュータに伝送するまたは運ぶことができる。前記命令は、例えば、C、C++、ビジュアルベーシック、ジャバ、パイソン、パール、およびジャバスクリプトなどを含む、あらゆるコンピュータ・プログラミング言語のコードを有することとしてもよい。
また、クライアント装置102a−nは、マウス、CD−ROM、DVD、キーボード、ディスプレイ、または他の入出力装置のような、多くの外部または内部装置を有することとしてもよい。クライアント装置102a−nの実施形態としては、パーソナルコンピュータ、デジタル・アシスタント、携帯情報端末、携帯電話、移動電話、スマートフォン、ページャ、デジタルタブレット、ラップトップコンピュータ、インターネット接続専用端末、および他のプロセッサベースの装置が挙げられる。一般に、クライアント装置102aは、ネットワーク106に接続されて一つ以上の応用プログラムと対話処理するものであって、あらゆる適当なタイプのプロセッサベースのプラットフォームとすることができる。クライアント装置102a−nは、マイクロソフト(登録商標)のウィンドウズ(登録商標)またはリナックスのような、ブラウザまたはブラウザで動作するアプリケーションをサポート可能なあらゆるオペレーティング上で動作するものとしてもよい。クライアント装置102a−nは、例えば、マイクロソフト社のインターネットエクスプローラ(登録商標)、ネットスケープコーポレーションズのネットスケープナビゲータ(登録商標)およびアップルコンピュータ社のサファリ(登録商標)のような、ブラウザ・アプリケーション・プログラムを実行するパーソナルコンピュータを含むものを示す。
クライアント装置102a−nを介して、ユーザ112a−nは、ネットワーク106に接続された他のシステムおよび装置と、ネットワーク106を渡って、相互に通信することができる。また、図1に示すように、サーバ装置104およびサーバ装置150は、ネットワーク106に接続されている。
サーバ装置104は分割化エンジン・アプリケーションプログラムを実行するサーバを有するものとすることができ、サーバ装置150はサーチエンジン・アプリケーションプログラムを実行するサーバを有するものとすることができる。クライアント装置102a−nと同様に、図1に示すサーバ装置104およびサーバ装置150は、コンピュータ読み取り可能メモリ118に接続されたプロセッサ116と、コンピュータ読み取り可能メモリ154に接続されたプロセッサ152とを、それぞれを有する。1台のコンピュータシステムのように表現されているサーバ装置104および150は、コンピュータプロセッサのネットワークとして実現されるものとしてもよい。サーバ装置104,150の実施形態は、サーバ、メインフレーム・コンピュータ、ネットワーク・コンピュータ、プロセッサベース装置、および同様なタイプのシステムおよび装置とすることができる。クライアント・プロセッサ110およびサーバプロセッサ116,152は、カルフォルニア州サンタクララのインテル社およびイリノイ州スカンバーブのモトローラ社のプロセッサのような、上記の多くのコンピュータプロセッサのいずれかとすることができる。
また、メモリ118は、分割化エンジン120として知られている分割化アプリケーションプログラムを有している。サーバ装置104または関連装置は、ネットワーク106に接続された他の装置またはシステムから文字列を受信するために、ネットワーク106にアクセスすることができる。文字は、例えば、ASCII、ユニコード、ISO8859−1、Shift−JIS、および拡張2進化10進符号またはあらゆる他の適当な文字セットのような、文字を表すデータに含まれる書記体型で使用されるマークまたはシンボルを有するものとすることができる。一実施形態として、分割化エンジン120は、ユーザ112aがアクティブでないドメインネームをウェブブラウザ・アプリケーションに指示するとき、ネットワーク106上のサーバ装置から、ドメインネームのような文字列を受信することができる。
一実施形態として、分割化エンジン120は、前記文字列についての候補言語を特定し、各候補言語についてトークンの潜在的(potential)組合せに前記文字列を分割するとともに、前記文字列に関連する特定の言語および組合せを選択する。トークンは、単語、固有名、地名、簡略名、頭文字語、株式市場ティッカーシンボル、または他のトークンを有するものとすることができる。分割化エンジン120は、分割化プロセッサ122、頻度プロセッサ124および言語プロセッサ126を有するものとすることができる。図1に示す実施形態では、それぞれがメモリ118に具備されているコンピュータ・コードを有している。
言語プロセッサ126は、候補言語または文字列の言語を特定することができる。一実施形態として、言語プロセッサ126は、文字列について多くの候補言語を特定するために、信号を使用することができる。例えば、前記言語プロセッサは、言語学と、ユーザのIPアドレスと、文字列で使用された文字セットと、ユーザに関連づけられたブラウザ・アプリケーション・プログラムのブラウザ設定と、前記文字列に関連づけられた最上位のドメインとを、前記文字列の候補言語決定するために、使用することができる。
分割化プロセッサ122は、各候補言語について文字列からトークンまたは分割結果の潜在的組合せのリストを決定することができる。一実施形態として、トークンプロセッサ124は、前記リストの中の各分割結果の確率を決定するとともに、前記確率に基づいて各言語について最高分割結果を選択する。分割結果についての前記確率は、前記結果における個々のトークンに関連する頻度値に基づくものとすることができる。一実施形態として、分割されていない文字列が分割結果として含まれているものとしてもよい。
頻度プロセッサ124は、頻度検索を実行すること、または各候補言語の最高に選択された分割結果について実行することができる。頻度プロセッサ124は、選択された分割結果についてスペルチェックを実行するために、スペルチェック機能を有することができ、または他の場所にあるスペルチェック機能を呼ぶことができる。あらゆるスペル修正結果が前記頻度検索に含まれることとすることができる。一実施形態として、頻度プロセッサは、選択された分割結果について頻度検索を実行するために、選択された分割結果をサーバ装置150に送信する。頻度検索は、以下で説明するように、各特定分割結果について出現頻度を決定することができる。前記頻度検索に基づいて、最高または実施可能分割結果が分割化プロセッサ122によって特定することができる。前記実施可能な結果に関連する言語は、文字列についての実施可能言語として分割化プロセッサ122によって特定できる。一実施形態として、実施可能分割結果および実施可能言語は、広告サーバに送信することができる。広告サーバは、前記実施可能言語および前記選択された結果の一方または両方に基づいて、対象とする広告を選択することができる。分割化プロセッサ122と、頻度プロセッサ124と、言語プロセッサ126との他の機能および特徴は、さらに以下で説明される。
また、サーバ装置104は、トークン・データベース120が示された実施形態において、トークン記憶要素のような、他の記憶要素へのアクセスを提供する。トークン・データベース120は、トークンおよび各トークンに関連する頻度情報を記憶することに使用することができる。また、トークン・データベース120は、言語または各トークンに関連する言語を記憶することができる。データ記憶要素は、データ記憶方法として、無制限の包含と、配列と、ハッシュテーブルと、リストと、組とのいずか一つまたは組合せを有することとしてもよい。サーバ装置104は、他の同様なタイプのデータ記憶装置にアクセスすることができる。
サーバ装置150は、グーグル(登録商標)サーチエンジンのようなサーチエンジン・アプリケーションプログラムを実行するサーバを有することができる。他の実施形態として、サーな装置150は、関連情報サーバまたは広告サーバを有することができる。他の実施形態として、多重サーバ装置150とすることができる。
メモリ154は、また、サーチエンジン156として知られているサーチエンジン・アプリケーションプログラムを有している。サーチエンジン156は、ユーザ112aからの検索クエリーに対応して、ネットワーク106から関連情報の場所を見つけることができるとともに、検索クエリーの検索ログを維持することができる。また、サーチエンジン156は、頻度プロセッサ124からの頻度検索要求に対応して、頻度検索を実行することができる。サーチエンジン156は、ネットワーク106を介して、ユーザ112aに検索結果セットを提供することができ、または、分割化エンジン120に頻度情報を提供することができる。
一実施形態として、サーバ装置150、または関連装置は、ネットワーク106に接続された他の装置またはシステムに記憶された、ウェブページのような記事(article)の場所を見つけるために、ネットワーク106を巡回すること(crawl)を事前に実行する。記事には、例えば、文書、メール、インスタントメッセンジャメッセージ、データベースエントリ、様々なフォーマットのウェブページ、HTMLや、XMLや、XHTMLや、ポータブル・ドキュメント・フォーマット(PDF)ファイルや、雑誌新聞広告欄案内などのような、イメージ・ファイルや、オーディオファイルや、ビデオファイルや、またはあらゆる他の文書など、または文書グループまたはあらゆる適当なタイプの全ての情報などが含まれる。索引装置(indexer)158は、インデックス160のような、メモリ154または他のデータ記憶装置内の前記記事に索引をつけることに使用することができる。また、インデックスは、言語または各記事に関連する言語を有することとしてもよい。一実施形態として、総合記事索引の部分をそれぞれ有している複数のインデックスがある。巡回すること(crawling)の代わりとなる、または組み合わされる、記事に索引をつける他の適当な方法がある、と理解されるべきである。
サーチエンジン156は、多くの適当な方法で頻度検索を実行することができる。一実施形態として、サーチエンジン156は、検索クエリーとしてそれぞれの最高選択分割結果を使用することでウェブ検索を実行することができるとともに、分割結果の候補言語の中で検索クエリーを有する記事を検索することができる。本実施形態において、頻度検索結果セットは、生成できるとともに、1つ以上の記事識別子を有することとすることができる。例えば、記事識別子は、全域資源位置指示子(URL)、ファイル名、リンク、アイコン、ローカルファイルのためのパス、または記事を特定する他の何か、とすることができる。一実施形態として、記事識別子は、記事に関連するURLを有することができる。
頻度プロセッサ124は、各分割結果の発生回数を表示するものとして、各頻度検索結果セットの中での記事識別子の数を使用することができる。他の実施形態としては、頻度プロセッサ124は、索引装置158に直接インターフェースすることができる。索引装置158は、分割結果が現れる関連候補言語の中の記事の数を、それぞれの最高選択分割結果について、決定することができる。この情報は、頻度プロセッサ124に送信することができる。また、他の実施形態として、サーチエンジン156および/または頻度プロセッサ124は、検索ログの中から関連候補言語の中の検索クエリーの発生回数を、それぞれの選択分割結果について、決定することができるとともに、頻度プロセッサ124は、この検索ログ情報に基づいた出現頻度を、決定することができる。一実施形態として、分割結果に関連する頻度検索における記事または検索クエリーの数は、関連言語の中の記事または検索クエリーの総数に基づいて正規化するものとしてもよい。
本発明は、図1に示されたものとは異なる構造のシステムを有することとしてもよいことに留意するべきである。例えば、本発明に従った何らかのシステムにおいて、サーバ装置104は、1台の物理的または論理的サーバを有することとしてもよい。図1に示すシステム100は、単なる例であるとともに、図2に示す方法の説明を補助するために使用される。
<処理>
本発明の実施形態に係る様々な方法が実施できる。本発明に従った一例の方法は、文字列に関連する第1候補言語および第2候補言語を少なくとも特定するステップと、前記文字列から前記第1候補言語に関連する第1分割結果を少なくとも決定するとともに、前記文字列から前記第2候補言語に関連する第2分割結果を少なくとも決定するステップと、前記第1分割結果について第1出現頻度を決定するとともに、前記第2分割結果について第2出現頻度を決定するステップと、前記第1出現頻度および第2出現頻度の一部に少なくとも基づいて、前記第1候補言語および第2候補言語から実施可能言語を特定するステップと、を有する。2つ以上の候補言語が特定できるとともに、2つ以上の分割結果が決定できる。例えば、3つの候補言語が特定できるとともに、4つの分割結果が各候補言語について決定できる。
前記実施可能言語は、前記第1出現頻度および第2出現頻度の一部に少なくとも基づく第1分割結果および第2分割結果から、実施可能分割結果を特定するものの一部に基づいて決定することができる。第1候補言語および第2候補言語は、1つ以上の言語信号の一部に基づいて特定されることとしてもよい。前記言語信号は、前記文字列に関連づけられた言語学と、前記文字列に関連づけられたユーザのIPアドレスと、前記文字列に使用された文字セットと、前記文字列に関連づけられたユーザに関連するブラウザ・アプリケーション・プログラムのブラウザ設定と、前記文字列に関連する最上位のドメインと、の少なくとも一つを有することができる。一実施形態として、前記実施可能言語を特定することは、言語信号の一部に少なくとも基づくものとしてもよい。
一実施形態として、前記第1出現頻度および第2出現頻度の一部に少なくとも基づいて、前記第1候補言語および前記第2候補言語から前記実施可能言語を特定することは、前記第1出現頻度が前記第2出現頻度よりも大きいときに、前記第1候補言語を選択すること、を有することとすることができる。前記文字列は、ドメインネームを有することができる。前記第1分割結果はトークンの第1組合せを有することができるとともに、前記第2分割結果はトークンの第2組合せを有することができる。
一実施形態として、前記第1分割結果について前記第1出現頻度を決定することは、前記第1分割結果を有している前記第1候補言語における記事の数を決定することと、前記第1候補言語における記事の総数に基づいて記事の数を標準化することと、を有することができ、さらに、前記第1言語において記事の数を決定することは、前記第1分割結果を有している検索クエリーに対応して生成された検索結果セットを識別する記事の数を決定することを有することができる。
一実施形態として、前記第1言語において記事の数を決定することは、前記第1分割結果が記事のインデックスにアクセスすることを有することとすることができる。他の実施形態として、前記第1出現頻度を決定することは、前記第1候補言語の中の複数の検索クエリーにおける前記第1分割結果の出現数を決定することと、前記第1候補言語の中の検索クエリーの総数に基づいて前記出現数を標準化することとを有することとすることができる。
また、前記方法は、前記実施可能言語または前記実施可能分割結果の一部(または両方)に少なくとも基づいて選択することを有することとしてもよく、前記記事は、広告を有することとしてもよい。一実施形態として、前記第1分割結果を決定することは、前記文字列から前記第1候補言語における複数の分割結果を決定することと、前記第1候補言語の中の前記複数の分割結果から前記第1分割結果を特定することとを有することとすることができる。前記第1分割結果を特定することは、前記複数の分割結果それぞれについて確率値を計算することを有することとすることができる。前記第1分割結果に関連する第1確率値は、前記第1分割結果における各トークンの頻度の一部に少なくとも基づくものとすることができる。
他の例の方法としては、ドメインネームから第1候補言語の中で第1分割結果を決定するとともに、ドメインネームから第2候補言語の中で第2分割結果を決定することと、記事インデックスと、テキストインデックスと、検索結果セットとの少なく一つの中で、前記第1分割結果について第1出現頻度を決定することと、前記第2分割結果について第2出現頻度決定することと、前記第1出現頻度が前記第2出現頻度よりも大きいとき、実施可能言語として前記第1候補言語を選択することと、前記第2出現頻度が前記第1出現頻度よりも大きいとき、実施可能言語として前記第2候補言語を選択することと、前記実施可能言語の一部に少なくとも基づいて広告を選択すること、前記ドメインネームに関連づけられたウェブページに関連づけて前記広告の表示をすることとを有する。前記広告は、前記実施可能言語のテキストを有している。
図2は、本発明の一実施形態に従って、テキスト分割のために言語を選択する方法の一例の方法200を示している。本例の方法は、本発明に従った方法を実行するための様々な方法があるなかの一例として提供する。図2に示されている方法200は、1つのシステムでまたは様々なシステムの組合せで実行することができ、また他の方法で実行することもできる。方法200は、実施形態として図1に示されたシステム100によって実行されるものとして以下で説明されるとともに、システム100の様々な要素が図2の実施形態方法を説明するために参照される。
図2を参照すると、ブロック202において実施形態方法が開始する。ブロック202には、ブロック204が続く。ブロック204では、文字列が分割化エンジン120によってアクセスされる。文字列は、例えば、ネットワーク106に接続された装置または他の装置から受信またはアクセスできる。一実施形態として、前記文字列は、ドメインネームに関連する広告サーバから受信する、無効または実在しないウェブサイトに関連するドメインネームとすることができる。
ブロック204には、ブロック206が続く。ブロック206では、文字列についての候補言語が特定される。一実施形態として、言語プロセッサ126は、前記文字列について多くの候補言語を決定するために、一つ以上の言語信号を使用することができる。例えば、前記言語プロセッサは、前記文字列について、英語、フランス語およびスペイン語を3つの候補言語として、言語信号に基づいて、特定することができる。
例えば、使用されたいくつかの言語信号は、前記文字列に関連する言語学と、前記文字列に関連するユーザのIPアドレスと、前記文字列で使用された文字セットと、前記文字列に関連するユーザに関連するブラウザ・アプリケーション・プログラムのブラウザ設定と、前記文字列に関連する最上位のドメインとにすることができる。例えば、言語学は、特定の言語においてそれを示す前記文字列の構成または特徴を決定することに使用することができる。例えば、ある言語は、ある文字のグループにおける開始または終了に傾向をもっているとともに、一般的なパターンを使用する。前記ユーザのIPアドレスは、前記ユーザの位置および国を示すことができる。国情報から言語または国に関連する言語は、候補言語として使用することができる。文字列の文字セットは、言語または前記文字列に関連する言語を示すことができる。例えば、「キリル文字」の文字セットは、ロシア語または他のスラヴ言語を示すことができる。文字列に関連するユーザのブラウザ・アプリケーション・プログラムのブラウザ設定は、前記文字列に関連する言語および/または文字セットを示すことができる。例えば、ユーザのブラウザ・アプリケーション・プログラムの設定による前記言語および文字セットは、前記文字列に伴うHTTPヘッダで渡されることができる。文字列に関連する最上位ドメインは、国を示すことができる。最上位ドメインは、ルートに従う階層の最高水準になることができる。ドメインネームにおいて、最上位ドメインは、右側に最も遠く現れるドメインネームの一部である。例えば、ドメインネーム「usedrugs.co.uk」において、最上位ドメインは、「.uk」であるとともに、「イギリス(United Kingdom)」を示すことができる。最上位ドメイン「.ru」は、ロシアを示すことができる。最上位ドメインに関連する国は、ロシアを示す「ru」のような、候補言語を決定する際に使用されることができる。ここで、関連文字列はロシア言語になり得ることを示している。何らかの最上位ドメインは、1つ以上の言語を示すものとしてもよい。
例えば、「.ch」は、スイスを示すことができるとともに、文字列がフランス語、ドイツ語またはイタリア語に関連し得ることを示すことができる。文字列についての候補言語を特定する他の適当な信号および方法が使用されることとしてもよい。
ブロック206には、ブロック208が続く。ブロック208では、複数の分割結果が各候補言語について文字列を分割することによって文字列から生成される。文字列を分割することは、トークンの複数の組合せに文字列の中の文字を解析することを有することとしてもよく、さらに、分割化プロセッサ122によって実行することができる。分割化プロセッサ122は、各候補言語について分割結果のリストを発生させることができる。各分割結果は、トークンまたは信号トークンの組合せを特定することができる。例えば、文字列「assocomunicazioni」は、他の分割結果として「asso comunicazioni」にイタリア語で分割できるとともに、他の分割結果として「asso com uni cazioni」にフランス語で分割できる。他の実施形態として、文字列「maisonblanche」は、他の分割結果として「maison blanche」にフランス語で分割できるとともに、他の分割結果として「mai son blanc he」に英語で分割できる。他の実施形態として、文字列「usedrugs」は、「used rugs」、「use drugs」、「us ed rugs」、「u sed rugs」、「usedrugs」などを有する分割結果に英語で分割できる。また、分割結果は、フランス語およびドイツ語など、上記実施形態のような、他の候補言語について生成されることができる。分割されていない文字列が分割結果に含まれることとしてもよい。
分割化プロセッサ122は、分割化処理においてトークン・データベース126からトークンを利用することができる。PCT国際特許出願番号PCT/US03/41609、発明の名称「テキスト分割方法およびシステム」、出願日2003年12月30日に開示されたセグメンテーション手法のような、様々な方法が文字列を分割するために使用することができるとともに、その全てがここに引用されることによってここに組み込まれている。
ブロック208には、ブロック210が続く。ブロック210では、各候補言語について最高分割結果が決定される。最高分割結果は、分割化プロセッサ122によって決定されることができるとともに、最良または実施可能分割結果となる最高確率の結果とすることができる。一実施形態として、分割結果は、各分割結果について決定された確率値に基づいてランキング分けされることができる。一実施形態として、確率値は、個々の分割結果の中の個々のトークンに関連する加算頻度値によって決定されることができる。他の実施形態として、確率値は、それぞれの個別分割結果の中の個々のトークンに関連する頻度値の対数の合計を伴う複素関数によって決定されることができる。そして、多くの上位分割結果が選択できる。例えば、各候補言語についての分割結果がランキング分けされることができるとともに、各候補言語の上位3つの結果が選択できる。
ブロック210には、ブロック212が続く。ブロック212では、各候補言語について分割結果を選択して、頻度検索がトップについて実行される。前記頻度検索は、サーチエンジン156とともに頻度プロセッサ124によって実行されることができる。一実施形態として、分割化プロセッサ122は、頻度プロセッサ124に選択分割結果を渡すことができる。頻度プロセッサ124は、記事または検索クエリーの収集資料の中の各分割結果について出現頻度を決定することができる。
一実施形態として、頻度プロセッサ124は、サーチエンジン156によって索引を付けられた記事に基づいて分割結果について出現頻度を決定することができる。一実施形態として、頻度プロセッサ124は、ネットワーク106を介してサーチエンジン156に、トップ選択分割結果を送信することができる。サーチエンジン156は、検索クエリーとして各分割結果を使用して索引を付けられた記事の中の各分割結果について検索を実行することができる。例えば、頻度プロセッサ124は、サーチエンジン156が特定の言語の記事について正確な分割語句を検索を実行できるように、引用符によって囲まれた各候補言語について各分割結果を検索クエリーとしてサーチエンジン156に送信することができる。一実施形態として、各分割結果について、サーチエンジン156は、検索クエリーに応答して、多くの記事識別子を有する検索結果セットを生成することができる。サーチエンジン156は、ネットワーク106を介してもとの頻度プロセッサ124へ、分割結果のそれぞれについて検索結果セットを送信することができる。頻度プロセッサ124は、各分割結果が出現する頻度を、記事識別子の数に基づいて、各検索結果から決定することができる。
他の実施形態として、頻度プロセッサ124は、ネットワーク106を介して索引装置158に、選択分割結果のトップを送信することができる。索引装置158は、分割結果が出現した特定の言語についての記事の数を決定するために、インデックス160にアクセスすることができるとともに、選択分割結果のそれぞれにこれをすることができる。一実施形態として、インデックス160は複数のインデックスとしてもよく、索引装置158は各分割結果について総合インデックスの一部分を検査することができる。そこで、索引装置158は、ネットワーク106を介して頻度プロセッサ124に、各分割結果に関連する出現数を渡すことができる。
また、他の実施形態として、頻度プロセッサ124は、検索クエリーにおける分割結果の出現数を決定するために、ネットワーク106を介してサーチエンジン156に、選択分割結果のトップを送信することができる。例えば、サーチエンジン156は、関連言語の中の各分割結果について、分割結果が検索クエリーまたは検索クエリーの一部として使用された回数を決定することができる。各分割結果についての検索クエリーの中の出現数は、ネットワーク106を介して頻度プロセッサ124に、サーチエンジン156によって送信することができる。
例えば、分割化プロセッサ122が、英語の文字列「usedrugs」について「used rugs」、「use drugs」および「us ed rugs」として選択分割結果を決定するとき、頻度プロセッサ124は、これらの分割結果と他の候補言語に関連する分割結果とをサーチエンジン156に送信することができる。例えば、サーチエンジン156は、検索クエリーとしてこれらの結果を使用することができるとともに、各分割結果について検索結果セットを生成することができる。例えば、サーチエンジン156は、検索クエリーとして「used rugs」を使用することができるとともに、語句「used rugs」を有する英語の記事に関連する記事識別子を有する前記検索クエリーについて検索結果セットを決定することができる。サーチエンジン156は、他の候補言語に関連する分割結果に同じことをすることができる。他の実施形態として、サーチエンジン156は、優先的に容認された検索クエリーを有する関連検索ログから、受信された分割結果を有する検索クエリーの回数を、決定することができる。例えば、サーチエンジン156は、受信された語句「used rugs」を有する検索クエリーの回数について検索ログを検索することができる。また、他の実施形態として、サーチエンジン156の索引装置158は、検索結果を受信することができるとともに、分割結果を有するインデックス160またはインデックス160の一部の中の記事の数を決定することができる。例えば、索引装置158は、「used rugs」を有する英語の記事の数について、インデックス160またはインデックス160の一部を介して検索することができる。
また、スペルチェック機能が前記頻度検索の中に含まれることとすることができる。例えば、頻度プロセッサ124は、選択分割結果をスペルチェックできる、トップのために、スペルチェック機能を有することができ、または呼ぶことができる。前記スペルチェック機能は、各分割結果の中の個々のトークンについて正しいまたは好ましいスペルを決定することができる。頻度プロセッサ124は、両方の結果について出現頻度を決定するために、あらゆるスペル修正済み分割結果のみならず、最高分割結果についても頻度検索を実行することができる。例えば、分割結果が「basebal game」であるとともに、スペル修正結果が「baseball game」であるとき、頻度検索はこれらの結果の両方について実行することができる。
一実施形態として、前記分割結果についての各出現頻度は、特定言語の中の全ての記事または検索クエリーの数に基づいて正規化された値である。例えば、英語についての分割結果が70の英語記事または検索クエリーの中で出現するとともに、総数1000の英語記事または検索クエリーがある場合、この英語分割結果についての出現頻度は0.07(70/1000)である。同様に、フランス語の分割結果が60のフランス語記事または検索クエリーで出現するとともに、総数400のフランス語記事または検索クエリーがある場合、このフランス語分割結果についての出現頻度は0.15(60/400)である。このように、出現頻度は、記事または検索結果の収集資料の中の特定言語の普及率を考慮するとともに、より一般的な言語に固有の重み付けをしない。
ブロック212には、ブロック214が続く。ブロック214では、実行可能言語および実行可能分割結果が特定される。一実施形態として、頻度プロセッサ124は、前記実行可能言語および実行可能分割結果を特定することができる。例えば、前記頻度プロセッサ124は、最高関連出現頻度を持つ前記分割結果を選択することができる。上記のように、前記出現頻度は、分割結果を有する記事または検索クエリーの数、および特定言語の中の記事または検索クエリーの総数、に基づいて、正規化された値とすることができる。また、付加信号が実施可能分割結果を決定することに使用できる。例えば、頻度プロセッサ124は、各分割結果を有する前記記事の客観的ランキング(ページランク(登録商標)のようなウェブ記事のためのランキング・アルゴリズム)を考慮することができるとともに、各分割結果を有する記事を評価するために前記客観的ランキングを使用することができる。また、記事で出現する前記分割結果の回数と、前記記事の中の前記分割結果の位置とは、分割結果を有する前記記事を評価することに使用することができる。前記実施可能分割結果に関連する候補言語は、前記実施可能言語として選択されることができる。
一実施形態として、ブロック206において前記候補言語の特定に使用される前記言語信号は、前記実施可能言語の決定に使用されることとしてもよい。文字列を示す言語信号が十中八九特定言語である場合、これらの信号は、この言語についてのより大きな重みとして使用されることができる。例えば、言語学、関連ユーザのIPアドレス、文字列で使用された文字セット、ユーザに関連するブラウザ・アプリケーション・プログラムのブラウザ設定、文字列に関連する最上位のドメイン、のような言語信号は、例えば、フランス語のような、文字列に関連する言語が特定言語であることを示すものとすることができる。例えば、英語のような、他の言語における分割結果についての情報の出現頻度は、フランス語における他の分割結果についての情報の出現頻度に、近いまたは越えるものとしてもよい。前記言語信号は、本例における有効言語としてフランス語の選択をもたらすために、フランス語の重み付けに使用されることができる。216において、方法200が終了する。
前記実施可能言語および実施可能分割結果は、様々な方法で使用されることができる。実施可能言語および/または実施可能分割結果は、広告の選択で使用されることができる。例えば、ユーザ112aは、ウェブサイト「usedrugs.com」について、ブラウザ・アプリケーションの中にこの文字列を入力することによって、自身のブラウザ・アプリケーションでナビゲートすることを試みてもよい。ドメインネーム「usedrugs.com」にウェブサイトが存在していない場合などは、ユーザのブラウザ・アプリケーションが第三者ウェブサイトに転送されることとしてもよい。前記第三者ウェブサイトは、ユーザによって見られているウェブページでユーザによって入力されたドメインネームに関連する広告および/またはリンクを置くことが好ましい。前記第三者ウェブサイトは、ドメインネーム「usedrugs.com」を分割化エンジン120に送信することができる。分割化エンジン120は、前記ウェブサイトに関連する前記第三者ウェブサイトまたは広告サーバに、実施可能言語および実施可能分割結果を返すために、上記方法およびシステムを使用することができる。例えば、前記実施可能分割結果は「used rugs」とすることができ、前記実施可能言語は英語とすることができる。前記第三者ウェブサイトまたは広告サーバは、ユーザによって見られるウェブページ上で、英語の語句「used rugs」に関連する広告および/またはリンクを表示することができるとともに、前記ウェブサイト上で使用される言語が英語であることを確実にすることができる。また、前記実施可能言語は、ユーザに表示されたステータスメッセージで使用される言語の選択に使用されることができる。
<全般>
上述の説明は多くの特定の内容を有しているが、これらは本発明の範囲を限定するものと理解すべきではなく、単なる開示された実施形態として理解すべきである。当業者は、本発明の範囲内のあらゆる他の実施可能な変形をなすことができる。前記用語の第1および第2は、単に、1つの物を他の物から区別するものとして、本明細書では使用されている。前記用語の第1および第2は、明らかな注記がない場合、時間についての第1または第2、リストについての第1または第2、または他の順番、を示すためには使用されない。例えば、「第2」は、他の方法で明らかに示されていない限り、時間について、または「第1」の前のリストについて、のものとしてもよい。
図1は、本発明の一実施形態に係るシステムの図を示している。 図2は、本発明によって実施される方法の一実施形態のフローチャートを示している。
符号の説明
100 システム
102a−n クライアント装置
104 サーバ装置
106 ネットワーク
116 プロセッサ
118 メモリ
120 分割化エンジン
122 分割化プロセッサ
124 頻度プロセッサ
126 言語プロセッサ
126 トークン・データベース
150 サーバ装置
152 プロセッサ
154 メモリ
156 サーチエンジン
158 索引装置
160 インデックス

Claims (35)

  1. 文字列に関連づけられた第1候補言語および第2候補言語を少なくとも特定するステップと、
    前記文字列から前記第1候補言語に関連づけられた第1分割結果を少なくとも決定するとともに、前記文字列から前記第2候補言語に関連づけられた第2分割結果を少なくとも決定するステップと、
    前記第1分割結果について第1出現頻度を決定するとともに、前記第2分割結果について第2出現頻度を決定するステップと、
    少なくとも前記第1出現頻度および第2出現頻度の一部に基づいて、前記第1候補言語および第2候補言語から実施可能言語を特定するステップと、
    を有することを特徴とする方法。
  2. 前記実施可能言語を特定するステップは、少なくとも前記第1出現頻度および第2出現頻度の一部に基づいて、前記第1分割結果および第2分割結果から実施可能分割結果を特定するステップを有する請求項1に記載の方法。
  3. 前記第1候補言語および第2候補言語を特定するステップは、少なくとも1つの言語信号の一部に基づいて行われる請求項1に記載の方法。
  4. 前記少なくとも1つの言語信号は、前記文字列に関連づけられた1つの言語学と、前記文字列に関連づけられたユーザのIPアドレスと、前記文字列に関連づけられた文字セットと、前記文字列に関連づけられたユーザに関連づけられたブラウザ・アプリケーション・プログラムのブラウザ設定と、前記文字列に関連づけられた最上位のドメインとを少なくとも有する請求項3に記載の方法。
  5. 前記実施可能言語を特定するステップは、少なくとも1つの言語信号の少なくとも一部に基づいて行われる請求項1に記載の方法。
  6. 前記第1分割結果は、トークンの第1組合せを有し、
    前記第2分割結果は、トークンの第2組合せを有する請求項1に記載の方法。
  7. 前記第1分割結果について前記第1出現頻度を決定するステップは、前記第1分割結果を有している前記第1候補言語における記事の数を決定するステップと、前記第1候補言語における記事の総数に基づいて前記記事の数を標準化するステップとを有する請求項1に記載の方法。
  8. 前記第1分割結果を有している前記第1候補言語において前記記事の数を決定するステップは、前記第1分割結果を有している検索クエリーに対応して生成された検索結果セットを識別する記事の数を決定するステップを有する請求項7に記載の方法。
  9. 前記第1分割結果を有している前記記事の数を決定するステップは、記事のインデックスにアクセスするステップを有する請求項7に記載の方法。
  10. 前記第1分割結果について前記第1出現頻度を決定するステップは、前記第1候補言語の中で複数の検索クエリーにおける第1分割結果の出現数を決定するステップと、前記第1候補言語の中の検索クエリーの総数に基づいて前記出現数を標準化するステップとを有する請求項1に記載の方法。
  11. 前記文字列は、ドメインネームを有する請求項1に記載の方法。
  12. 実施可能言語の一部に少なくともに基づいて記事を選択するステップをさらに有する請求項1に記載の方法。
  13. 前記記事は、広告と、ウェブページと、状況メッセージとを少なくとも有する請求項12に記載の方法。
  14. 前記第1分割結果を決定するステップは、
    前記文字列から前記第1候補言語における複数の分割結果を決定するステップと、
    前記複数の分割結果から前記第1分割結果を特定するステップと
    を有する請求項1に記載の方法。
  15. 前記第1分割結果を特定するステップは、前記複数の分割結果それぞれについて確率値を計算するステップを有する請求項14に記載の方法。
  16. 前記第1分割結果に関連づけられた第1確率値が、第1分割結果における各トークンの頻度の一部に少なくとも基づいて計算される請求項15に記載の方法。
  17. 前記第1出現頻度および第2出現頻度の一部に少なくとも基づいて、前記第1候補言語および第2候補言語から実施可能言語を特定するステップは、前記第1出現頻度が前記第2出現頻度よりも大きい場合、前記第1候補言語を選択するステップを有する請求項1に記載の方法。
  18. 文字列に関連づけられている第1候補言語および第2候補言語を少なくとも特定するプログラムコードと、
    前記文字列から前記第1候補言語に関連づけられた第1分割結果を少なくとも決定するとともに、前記文字列から前記第2候補言語に関連づけられた第2分割結果を少なくとも決定するプログラムコードと、
    前記第1分割結果について第1出現頻度を決定するとともに、前記第2分割結果について第2出現頻度を決定するプログラムコードと、
    少なくとも前記第1出現頻度および第2出現頻度の一部に基づいて、前記第1候補言語および第2候補言語から実施可能言語を特定するプログラムコードと
    を有するプログラムコードを有するコンピュータ読み取り可能媒体。
  19. 前記実施可能言語を特定するプログラムコードは、少なくとも前記第1出現頻度および第2出現頻度の一部に基づいて、前記第1分割結果および第2分割結果から実施可能分割結果を特定するプログラムコードを有する請求項18に記載のコンピュータ読み取り可能媒体。
  20. 前記第1候補言語および第2候補言語を特定するプログラムコードは、少なくとも1つの言語信号の一部に基づいて構成されている請求項18に記載のコンピュータ読み取り可能媒体。
  21. 前記少なくとも1つの言語信号は、
    前記文字列に関連づけられた1つの言語学と、前記文字列に関連づけられたユーザのIPアドレスと、前記文字列に関連づけられた文字セットと、前記文字列に関連づけられたユーザに関連づけられたブラウザ・アプリケーション・プログラムのブラウザ設定と、前記文字列に関連づけられた最上位のドメインとを少なくとも有する請求項20に記載のコンピュータ読み取り可能媒体。
  22. 前記実施可能言語を特定するプログラムコードは、少なくとも1つの言語信号の少なくとも一部に基づいて構成されている請求項18に記載のコンピュータ読み取り可能媒体。
  23. 前記第1分割結果は、トークンの第1組合せを有し、
    前記第2分割結果は、トークンの第2組合せを有する請求項18に記載のコンピュータ読み取り可能媒体。
  24. 前記第1分割結果について前記第1出現頻度を決定するプログラムコードは、
    前記第1分割結果を有している前記第1候補言語における記事の数を決定するプログラムコードと、前記第1候補言語における記事の総数に基づいて前記記事の数を標準化するプログラムコードとを有する請求項18に記載のコンピュータ読み取り可能媒体。
  25. 前記第1分割結果を有している前記第1候補言語において前記記事の数を決定するプログラムコードは、
    前記第1分割結果を有している検索クエリーに対応して生成された検索結果セットを識別する記事の数を決定するプログラムコードを有する請求項24に記載のコンピュータ読み取り可能媒体。
  26. 前記第1分割結果を有している前記記事の数を決定するプログラムコードは、
    記事のインデックスにアクセスするプログラムコードを有する請求項25に記載のコンピュータ読み取り可能媒体。
  27. 前記第1分割結果について前記第1出現頻度を決定するプログラムコードは、
    前記第1候補言語の中で複数の検索クエリーにおける第1分割結果の出現数を決定するプログラムコードと、前記第1候補言語の中の検索クエリーの総数に基づいて出現頻度を標準化するプログラムコードとを有する請求項18に記載のコンピュータ読み取り可能媒体。
  28. 前記文字列は、ドメインネームを有する請求項18に記載のコンピュータ読み取り可能媒体。
  29. 実施可能言語の一部に少なくともに基づいて記事を選択するプログラムコードをさらに有する請求項18に記載のコンピュータ読み取り可能媒体。
  30. 前記記事は、広告と、ウェブページと、状況メッセージとを少なくとも有する請求項29に記載のコンピュータ読み取り可能媒体。
  31. 前記第1分割結果を決定するプログラムコードは、
    前記文字列から前記第1候補言語における複数の分割結果を決定するプログラムコードと、
    前記複数の分割結果から前記第1分割結果を特定するプログラムコードとを有する請求項18に記載のコンピュータ読み取り可能媒体。
  32. 前記第1分割結果を特定するプログラムコードは、前記複数の分割結果それぞれの確率値を計算するプログラムコードを有する請求項31に記載のコンピュータ読み取り可能媒体。
  33. 前記第1分割結果に関連づけられた第1確率値が、第1分割結果における各トークンの頻度の一部に少なくとも基づいて計算される請求項32に記載のコンピュータ読み取り可能媒体。
  34. 前記第1出現頻度および第2出現頻度の一部に少なくとも基づいて、前記第1候補言語および第2候補言語から実施可能言語を特定するプログラムコードは、
    前記第1出現頻度が前記第2出現頻度よりも大きい場合、前記第1候補言語を選択するプログラムコードを有する請求項18に記載のコンピュータ読み取り可能媒体。
  35. ドメインネームから第1候補言語の中で第1分割結果を少なくとも決定するとともに、ドメインネームから第2候補言語の中で第2分割結果を少なくとも決定するステップと、
    少なくとも記事インデックスと、テキストインデックスと、検索結果セットとの一部に少なくとも基づいて、前記第1分割結果について第1出現頻度を少なくとも決定するステップと、
    前記第2分割結果について第2出現頻度決定するステップと、
    前記第1出現頻度が前記第2出現頻度よりも大きいとき、実施可能言語として前記第1候補言語を選択するステップと、
    前記第2出現頻度が前記第1出現頻度よりも大きいとき、実施可能言語として前記第2候補言語を選択するステップと、
    前記実施可能言語の一部に少なくとも基づいて広告を選択するステップと、
    前記ドメインネームに関連づけられたウェブページに関連づけて前記広告の表示をするステップと、を有し、
    前記広告は、前記実施可能言語のテキストを有していることを特徴とする方法。
JP2007534758A 2004-09-30 2005-09-28 テキスト分割のために言語を選択する方法およびシステム Expired - Lifetime JP5148278B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/955,660 US7996208B2 (en) 2004-09-30 2004-09-30 Methods and systems for selecting a language for text segmentation
US10/955,660 2004-09-30
PCT/US2005/035010 WO2006039398A2 (en) 2004-09-30 2005-09-28 Methods and systems for selecting a language for text segmentation

Publications (3)

Publication Number Publication Date
JP2008515107A true JP2008515107A (ja) 2008-05-08
JP2008515107A5 JP2008515107A5 (ja) 2008-12-04
JP5148278B2 JP5148278B2 (ja) 2013-02-20

Family

ID=35985934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007534758A Expired - Lifetime JP5148278B2 (ja) 2004-09-30 2005-09-28 テキスト分割のために言語を選択する方法およびシステム

Country Status (8)

Country Link
US (4) US7996208B2 (ja)
EP (2) EP2511832B1 (ja)
JP (1) JP5148278B2 (ja)
CN (3) CN102708095B (ja)
CA (1) CA2581902C (ja)
DK (1) DK1800224T3 (ja)
ES (1) ES2395168T3 (ja)
WO (1) WO2006039398A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011023007A (ja) * 2009-07-17 2011-02-03 Nhn Corp 統計データに基づくユーザクエリ校正システムおよび方法

Families Citing this family (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7680648B2 (en) 2004-09-30 2010-03-16 Google Inc. Methods and systems for improving text segmentation
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8255376B2 (en) 2006-04-19 2012-08-28 Google Inc. Augmenting queries with synonyms from synonyms map
US8762358B2 (en) * 2006-04-19 2014-06-24 Google Inc. Query language determination using query terms and interface language
US8380488B1 (en) 2006-04-19 2013-02-19 Google Inc. Identifying a property of a document
US8442965B2 (en) 2006-04-19 2013-05-14 Google Inc. Query language identification
US7689408B2 (en) * 2006-09-01 2010-03-30 Microsoft Corporation Identifying language of origin for words using estimates of normalized appearance frequency
CA2661559C (en) * 2006-09-01 2013-07-16 Research In Motion Limited Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8423908B2 (en) * 2006-09-08 2013-04-16 Research In Motion Limited Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same
ATE480090T1 (de) * 2006-09-18 2010-09-15 Lg Electronics Inc Verfahren zur verwaltung von sprachinformation für texteingabe, verfahren für texteingabe und mobiles endgerät
WO2008111052A2 (en) * 2007-03-09 2008-09-18 Ghost, Inc. A virtual file system for the web
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9754022B2 (en) * 2007-10-30 2017-09-05 At&T Intellectual Property I, L.P. System and method for language sensitive contextual searching
US8165869B2 (en) * 2007-12-10 2012-04-24 International Business Machines Corporation Learning word segmentation from non-white space languages corpora
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) * 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9356907B2 (en) 2008-08-05 2016-05-31 HeyWire, Inc. Messaging system having multiple number, dual mode phone support
US11172067B1 (en) 2008-08-05 2021-11-09 HeyWire, Inc. Call center mobile messaging
US12238246B2 (en) 2008-08-05 2025-02-25 Salesforce, Inc. Call center mobile messaging
US20120221962A1 (en) 2008-08-05 2012-08-30 Eugene Lee Lew Social messaging hub system
WO2010017164A1 (en) 2008-08-05 2010-02-11 Mediafriends, Inc. Apparatus and methods for tv social applications
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8635205B1 (en) * 2010-06-18 2014-01-21 Google Inc. Displaying local site name information with search results
CN101882226B (zh) * 2010-06-24 2013-07-24 汉王科技股份有限公司 提高字符间语言区分度的方法及装置
US20120004899A1 (en) * 2010-07-04 2012-01-05 Taymoor Arshi Dynamic ad selection for ad delivery systems
CN102455997A (zh) * 2010-10-27 2012-05-16 鸿富锦精密工业(深圳)有限公司 元件名称提取系统及方法
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) * 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9218335B2 (en) * 2012-10-10 2015-12-22 Verisign, Inc. Automated language detection for domain names
US8713433B1 (en) * 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
US9213910B2 (en) 2013-11-06 2015-12-15 Xerox Corporation Reinforcement learning approach to character level segmentation of license plate images
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10360309B2 (en) * 2015-04-30 2019-07-23 Salesforce.Com, Inc. Call center SMS-MMS language router
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN105224682B (zh) * 2015-10-27 2018-06-05 上海智臻智能网络科技股份有限公司 新词发现方法及装置
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10430485B2 (en) 2016-05-10 2019-10-01 Go Daddy Operating Company, LLC Verifying character sets in domain name requests
US10180930B2 (en) 2016-05-10 2019-01-15 Go Daddy Operating Company, Inc. Auto completing domain names comprising multiple languages
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10348671B2 (en) 2016-07-11 2019-07-09 Salesforce.Com, Inc. System and method to use a mobile number in conjunction with a non-telephony internet connected device
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10380247B2 (en) 2016-10-28 2019-08-13 Microsoft Technology Licensing, Llc Language-based acronym generation for strings
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10180935B2 (en) * 2016-12-30 2019-01-15 Facebook, Inc. Identifying multiple languages in a content item
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN109492225A (zh) * 2018-11-08 2019-03-19 大连瀚闻资讯有限公司 一种小语种国家的舆情信息文本处理方法
CN111079408B (zh) * 2019-12-26 2023-05-30 北京锐安科技有限公司 一种语种识别方法、装置、设备及存储介质
US11915167B2 (en) 2020-08-12 2024-02-27 State Farm Mutual Automobile Insurance Company Claim analysis based on candidate functions
US20250200080A1 (en) * 2023-12-15 2025-06-19 Amazon Technologies, Inc. Dynamic text tokenization for index-based searching of annotated data assets using keyword-based text searching

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07262188A (ja) * 1994-03-14 1995-10-13 Internatl Business Mach Corp <Ibm> 言語識別処理方法
JPH10124513A (ja) * 1996-09-30 1998-05-15 Internatl Business Mach Corp <Ibm> 言語を特定する方法およびシステム
JPH11511574A (ja) * 1995-08-22 1999-10-05 バックウェブ 遠隔地のネットワークと局地のコンピュータとの間の情報を伝送し、表示する方法及び装置
JP2000194696A (ja) * 1998-12-23 2000-07-14 Xerox Corp サンプルテキスト基調言語自動識別方法
JP2001101186A (ja) * 1999-09-30 2001-04-13 Oki Electric Ind Co Ltd 機械翻訳装置
JP2002245470A (ja) * 2001-02-16 2002-08-30 Merukomu Service Kk 言語特定装置及び翻訳装置及び言語特定方法
WO2002095614A1 (fr) * 2001-05-24 2002-11-28 Izumi Suzuki Procede d'identification d'un systeme de code de type langage ou par caracteres
JP2003186789A (ja) * 2001-12-18 2003-07-04 Logo Vista Corp 電子メール翻訳システム

Family Cites Families (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4839853A (en) 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
US5325298A (en) 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
US5423032A (en) 1991-10-31 1995-06-06 International Business Machines Corporation Method for extracting multi-word technical terms from text
DE69318559D1 (de) * 1992-07-24 1998-06-18 Us Health Peptide brauchbar als microsequezierungsstandard und verfahren zu ihrer anwendung
US5377280A (en) 1993-04-19 1994-12-27 Xerox Corporation Method and apparatus for automatic language determination of European script documents
US5454046A (en) 1993-09-17 1995-09-26 Penkey Corporation Universal symbolic handwriting recognition system
US5619709A (en) 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5499360A (en) 1994-02-28 1996-03-12 Panasonic Technolgies, Inc. Method for proximity searching with range testing and range adjustment
US5794177A (en) 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US6067552A (en) 1995-08-21 2000-05-23 Cnet, Inc. User interface system and method for browsing a hypertext database
US5778364A (en) 1996-01-02 1998-07-07 Verity, Inc. Evaluation of content of a data set using multiple and/or complex queries
US5966686A (en) 1996-06-28 1999-10-12 Microsoft Corporation Method and system for computing semantic logical forms from syntax trees
EP0822502A1 (en) 1996-07-31 1998-02-04 BRITISH TELECOMMUNICATIONS public limited company Data access system
US6002998A (en) * 1996-09-30 1999-12-14 International Business Machines Corporation Fast, efficient hardware mechanism for natural language determination
US5778363A (en) 1996-12-30 1998-07-07 Intel Corporation Method for measuring thresholded relevance of a document to a specified topic
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US7437351B2 (en) 1997-01-10 2008-10-14 Google Inc. Method for searching media
US6076051A (en) 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6119164A (en) 1997-04-15 2000-09-12 Full Circle Software, Inc. Method and apparatus for distributing over a network unsolicited information to a targeted audience
US6006222A (en) 1997-04-25 1999-12-21 Culliss; Gary Method for organizing information
US6185559B1 (en) 1997-05-09 2001-02-06 Hitachi America, Ltd. Method and apparatus for dynamically counting large itemsets
US6233575B1 (en) 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6505150B2 (en) 1997-07-02 2003-01-07 Xerox Corporation Article and method of automatically filtering information retrieval results using test genre
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6760746B1 (en) 1999-09-01 2004-07-06 Eric Schneider Method, product, and apparatus for processing a data request
US6182068B1 (en) 1997-08-01 2001-01-30 Ask Jeeves, Inc. Personalized search methods
US6078916A (en) 1997-08-01 2000-06-20 Culliss; Gary Method for organizing information
US6014665A (en) 1997-08-01 2000-01-11 Culliss; Gary Method for organizing information
US5845278A (en) 1997-09-12 1998-12-01 Inioseek Corporation Method for automatically selecting collections to search in full text searches
US5974412A (en) 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
US6134532A (en) 1997-11-14 2000-10-17 Aptex Software, Inc. System and method for optimal adaptive matching of users to most relevant entity and information in real-time
US6230168B1 (en) * 1997-11-26 2001-05-08 International Business Machines Corp. Method for automatically constructing contexts in a hypertext collection
US6289342B1 (en) 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6640006B2 (en) 1998-02-13 2003-10-28 Microsoft Corporation Word segmentation in chinese text
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6272456B1 (en) 1998-03-19 2001-08-07 Microsoft Corporation System and method for identifying the language of written text having a plurality of different length n-gram profiles
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
US6044375A (en) 1998-04-30 2000-03-28 Hewlett-Packard Company Automatic extraction of metadata using a neural network
US6334131B2 (en) 1998-08-29 2001-12-25 International Business Machines Corporation Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures
US6466901B1 (en) * 1998-11-30 2002-10-15 Apple Computer, Inc. Multi-language document search and retrieval system
US6298348B1 (en) 1998-12-03 2001-10-02 Expanse Networks, Inc. Consumer profiling system
US6324519B1 (en) 1999-03-12 2001-11-27 Expanse Networks, Inc. Advertisement auction system
US6269189B1 (en) 1998-12-29 2001-07-31 Xerox Corporation Finding selected character strings in text and providing information relating to the selected character strings
US6678681B1 (en) 1999-03-10 2004-01-13 Google Inc. Information extraction from a database
US6826559B1 (en) 1999-03-31 2004-11-30 Verizon Laboratories Inc. Hybrid category mapping for on-line query tool
US6493702B1 (en) 1999-05-05 2002-12-10 Xerox Corporation System and method for searching and recommending documents in a collection using share bookmarks
US6493703B1 (en) * 1999-05-11 2002-12-10 Prophet Financial Systems System and method for implementing intelligent online community message board
US7065500B2 (en) 1999-05-28 2006-06-20 Overture Services, Inc. Automatic advertiser notification for a system for providing place and price protection in a search result list generated by a computer network search engine
US6269361B1 (en) 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6314419B1 (en) 1999-06-04 2001-11-06 Oracle Corporation Methods and apparatus for generating query feedback based on co-occurrence patterns
WO2000079436A2 (en) 1999-06-24 2000-12-28 Simpli.Com Search engine interface
US6601026B2 (en) 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6754873B1 (en) 1999-09-20 2004-06-22 Google Inc. Techniques for finding related hyperlinked documents using link-based analysis
US6816857B1 (en) 1999-11-01 2004-11-09 Applied Semantics, Inc. Meaning-based advertising and document relevance determination
US6453315B1 (en) 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
WO2001031500A1 (en) 1999-10-29 2001-05-03 British Telecommunications Public Limited Company Method and apparatus for processing queries
US6968308B1 (en) 1999-11-17 2005-11-22 Microsoft Corporation Method for segmenting non-segmented text using syntactic parse
JP3803219B2 (ja) * 1999-12-14 2006-08-02 三菱電機株式会社 全文検索装置及び全文検索方法
US6691108B2 (en) 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
US6678409B1 (en) 2000-01-14 2004-01-13 Microsoft Corporation Parameterized word segmentation of unsegmented text
US6615209B1 (en) 2000-02-22 2003-09-02 Google, Inc. Detecting query-specific duplicate documents
US20020002452A1 (en) * 2000-03-28 2002-01-03 Christy Samuel T. Network-based text composition, translation, and document searching
US6754872B2 (en) * 2000-05-22 2004-06-22 Sarnoff Corporation Method and apparatus for reducing channel distortion in a wireless communications network
GB2362971B (en) 2000-05-30 2004-03-24 Com Nation Ltd A method of searching the internet and an internet search engine
SE517005C2 (sv) 2000-05-31 2002-04-02 Hapax Information Systems Ab Segmentering av text
US7136854B2 (en) 2000-07-06 2006-11-14 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
US6529903B2 (en) 2000-07-06 2003-03-04 Google, Inc. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
US6654993B2 (en) * 2000-07-28 2003-12-02 The Penn State Research Foundation Process for fabricating hollow electroactive devices
US6766320B1 (en) 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
CA2323883C (en) 2000-10-19 2016-02-16 Patrick Ryan Morin Method and device for classifying internet objects and objects stored oncomputer-readable media
US6917937B1 (en) 2000-11-01 2005-07-12 Sas Institute Inc. Server-side object filtering
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
US6714939B2 (en) 2001-01-08 2004-03-30 Softface, Inc. Creation of structured data from plain text
US6658423B1 (en) 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US6526440B1 (en) 2001-01-30 2003-02-25 Google, Inc. Ranking search results by reranking the results based on local inter-connectivity
JP3408525B2 (ja) 2001-02-08 2003-05-19 松下電器産業株式会社 Sram装置
US8001118B2 (en) 2001-03-02 2011-08-16 Google Inc. Methods and apparatus for employing usage statistics in document retrieval
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US6738764B2 (en) 2001-05-08 2004-05-18 Verity, Inc. Apparatus and method for adaptively ranking search results
US6978264B2 (en) 2002-01-03 2005-12-20 Microsoft Corporation System and method for performing a search and a browse on a query
US7716161B2 (en) 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
US8517795B2 (en) 2002-11-06 2013-08-27 Nomura Plating Co., Ltd. Surface treatment method for vacuum member
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
FR2848688A1 (fr) * 2002-12-17 2004-06-18 France Telecom Identification de langue d'un texte
US20040119740A1 (en) 2002-12-24 2004-06-24 Google, Inc., A Corporation Of The State Of California Methods and apparatus for displaying and replying to electronic messages
EP1627325B1 (en) 2003-05-28 2011-07-27 LOQUENDO SpA Automatic segmentation of texts comprising chunks without separators
US7370034B2 (en) 2003-10-15 2008-05-06 Xerox Corporation System and method for performing electronic information retrieval using keywords
US20050086065A1 (en) 2003-10-16 2005-04-21 Nokia Corporation Automatic field completion in capacity-constrained media
US20050131872A1 (en) 2003-12-16 2005-06-16 Microsoft Corporation Query recognizer
US8392249B2 (en) 2003-12-31 2013-03-05 Google Inc. Suggesting and/or providing targeting criteria for advertisements
US7359851B2 (en) * 2004-01-14 2008-04-15 Clairvoyance Corporation Method of identifying the language of a textual passage using short word and/or n-gram comparisons
US20050289473A1 (en) 2004-03-17 2005-12-29 Carl Gustafson Method and system for providing search information via a communications network
US7409334B1 (en) * 2004-07-22 2008-08-05 The United States Of America As Represented By The Director, National Security Agency Method of text processing
US7792814B2 (en) 2005-09-30 2010-09-07 Sap, Ag Apparatus and method for parsing unstructured data
US7761458B1 (en) 2006-02-01 2010-07-20 Hewlett-Packard Development Company, L.P. Segmentation of a data sequence
US7747633B2 (en) 2007-07-23 2010-06-29 Microsoft Corporation Incremental parsing of hierarchical files

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07262188A (ja) * 1994-03-14 1995-10-13 Internatl Business Mach Corp <Ibm> 言語識別処理方法
JPH11511574A (ja) * 1995-08-22 1999-10-05 バックウェブ 遠隔地のネットワークと局地のコンピュータとの間の情報を伝送し、表示する方法及び装置
JPH10124513A (ja) * 1996-09-30 1998-05-15 Internatl Business Mach Corp <Ibm> 言語を特定する方法およびシステム
JP2000194696A (ja) * 1998-12-23 2000-07-14 Xerox Corp サンプルテキスト基調言語自動識別方法
JP2001101186A (ja) * 1999-09-30 2001-04-13 Oki Electric Ind Co Ltd 機械翻訳装置
JP2002245470A (ja) * 2001-02-16 2002-08-30 Merukomu Service Kk 言語特定装置及び翻訳装置及び言語特定方法
WO2002095614A1 (fr) * 2001-05-24 2002-11-28 Izumi Suzuki Procede d'identification d'un systeme de code de type langage ou par caracteres
JP2003186789A (ja) * 2001-12-18 2003-07-04 Logo Vista Corp 電子メール翻訳システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011023007A (ja) * 2009-07-17 2011-02-03 Nhn Corp 統計データに基づくユーザクエリ校正システムおよび方法

Also Published As

Publication number Publication date
US8306808B2 (en) 2012-11-06
DK1800224T3 (da) 2012-11-19
US20110301939A1 (en) 2011-12-08
CN102831107B (zh) 2016-01-20
EP2511832B1 (en) 2014-05-14
CN101095138A (zh) 2007-12-26
EP1800224A2 (en) 2007-06-27
EP2511832A3 (en) 2013-03-20
CA2581902C (en) 2013-05-07
WO2006039398A8 (en) 2007-03-22
CA2581902A1 (en) 2006-04-13
EP2511832A2 (en) 2012-10-17
US7996208B2 (en) 2011-08-09
US20130018648A1 (en) 2013-01-17
ES2395168T3 (es) 2013-02-08
WO2006039398A3 (en) 2006-07-06
CN102708095B (zh) 2015-09-30
CN101095138B (zh) 2012-08-29
US8489387B2 (en) 2013-07-16
WO2006039398A2 (en) 2006-04-13
US20060074628A1 (en) 2006-04-06
CN102708095A (zh) 2012-10-03
US20130013288A1 (en) 2013-01-10
EP1800224B1 (en) 2012-08-29
CN102831107A (zh) 2012-12-19
JP5148278B2 (ja) 2013-02-20

Similar Documents

Publication Publication Date Title
JP5148278B2 (ja) テキスト分割のために言語を選択する方法およびシステム
US8849852B2 (en) Text segmentation
US9104772B2 (en) System and method for providing tag-based relevance recommendations of bookmarks in a bookmark and tag database
JP5069285B2 (ja) ウェブサイトのウェブページのような関連するウェブページの間での有用な情報の伝搬
US7516118B1 (en) Methods and systems for assisted network browsing
US8412517B2 (en) Dictionary word and phrase determination
US8417695B2 (en) Identifying related concepts of URLs and domain names
JP4857075B2 (ja) ウェブドキュメントの集合において効率的に日付を検索する方法、コンピュータプログラム
US8271486B2 (en) System and method for searching a bookmark and tag database for relevant bookmarks
US8745065B2 (en) Query parsing for map search
US8010344B2 (en) Dictionary word and phrase determination
US9652529B1 (en) Methods and systems for augmenting a token lexicon
KR100485321B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
CN112380337A (zh) 基于富文本的高亮方法及装置
US20100153365A1 (en) Phrase identification using break points
JP5544401B2 (ja) 文書データ評価方法、文書データ評価装置、文書データ選択方法、文書データ選択装置、データベース生成方法、データベース生成装置、およびコンピュータプログラム
US8676790B1 (en) Methods and systems for improving search rankings using advertising data
KR20040086732A (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080926

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111213

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121128

R150 Certificate of patent or registration of utility model

Ref document number: 5148278

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250