[go: up one dir, main page]

JP2006527886A - Content collection method and apparatus for online purchasing system - Google Patents

Content collection method and apparatus for online purchasing system Download PDF

Info

Publication number
JP2006527886A
JP2006527886A JP2006517102A JP2006517102A JP2006527886A JP 2006527886 A JP2006527886 A JP 2006527886A JP 2006517102 A JP2006517102 A JP 2006517102A JP 2006517102 A JP2006517102 A JP 2006517102A JP 2006527886 A JP2006527886 A JP 2006527886A
Authority
JP
Japan
Prior art keywords
product
information
product information
category
products
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006517102A
Other languages
Japanese (ja)
Inventor
マスグローブ、ティモシィ
Original Assignee
シーエヌイーティ ネットワークス インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/659,740 external-priority patent/US7082426B2/en
Application filed by シーエヌイーティ ネットワークス インコーポレイテッド filed Critical シーエヌイーティ ネットワークス インコーポレイテッド
Publication of JP2006527886A publication Critical patent/JP2006527886A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

製品情報源42、46からの複数の製品情報記録を処理するステップを有する方法である。ショッピングサーバ20は、小売商サーバ40及び/又は製造者サーバ44に保持されたウェブページ42、46等のインターネットアクセス可能な情報から製品情報を収集するための1又は1以上のウェブ巡回者を生成する。ショッピングサーバ20は、グループに集められた製品情報記録を形成するために製品情報を処理し、製品情報が同じ製品に対応する各グループに指定される。製品を特定するために、ユニークな製品IDが各グループに関連づけられた製品に対応する。分類における特定された各製品カテゴリを指定する。各製品用のグループに対応する製品情報記録における属性が見出される。各製品用の属性に基づいて製品特性を作成し、カタログ26を作成するためにカテゴリの指定された製品で各製品特性を分類に格納する。A method comprising processing a plurality of product information records from product information sources 42, 46. The shopping server 20 generates one or more web patrons for collecting product information from Internet accessible information such as web pages 42, 46 held in the merchant server 40 and / or manufacturer server 44. To do. The shopping server 20 processes the product information to form a product information record collected in the group, and the product information is assigned to each group corresponding to the same product. In order to identify the product, a unique product ID corresponds to the product associated with each group. Specify each identified product category in the classification. Attributes in the product information record corresponding to the group for each product are found. Product characteristics are created based on the attributes for each product, and each product characteristic is stored in a category with a specified product in the category to create a catalog 26.

Description

関連技術Related technology

本出願は、2003年9月11日付け米国特許出願番号10/657,740及び2003年6月18日付け米国特許分割出願番号60/479,153の利益を得ることを主張し、その開示が参照としてここに組み込まれる。   This application claims to benefit from US patent application Ser. No. 10 / 657,740 dated September 11, 2003 and US Patent Application Ser. No. 60 / 479,153 dated Jun. 18, 2003, the disclosure of which is incorporated herein by reference. Incorporated herein by reference.

本発明は、通信ネットワーク上の商品及びサービスのカタログを作成するためのシステムに関する。特に、本発明は、オンラインカタログシステム用のコンテントを集めるための方法及びシステムに関する。   The present invention relates to a system for creating a catalog of goods and services on a communication network. In particular, the present invention relates to a method and system for collecting content for an online catalog system.

インターネットは、TCP/IP(送信制御プロトコル/インターネットプロトコル)として知られる標準の一組のプロトコルを全て運用する種々のハードウェア通信リンクでリンクされたコンピュータの世界的なネットワークである。最近のインターネットの成長は著しく、ブラウザとして知られる閲覧用ソフトウェア及びインターネット上で通信するために使用される簡単なGUI(グラフィカルユーザインターフェース)を許容するHTTP(ハイパテキスト変換プロトコル)の広汎な使用によりほとんどの分野で支持されている。ブラウザは、一般に、インターネット上のコンテントにアクセスするために使用されるコンピュータ、すなわちクライアントコンピュータに備えられている。HTTPは、TCP/IPの構成要素であり、HTML(ハイパテキストマークアップ言語)、最近ではXML(拡張可能マークアップ言語)及びHTMLのXMLへの改良であるXHTML(拡張可能ハイパテキストマークアップ言語)として知られる標準のページ記述言語を使用する種々の書式(format)のファイルに対するユーザアクセスを提供する。HTTPを使用するインターネット上のサーバのコレクションは、「ワールドワイドウェブ(World Wide Web)」又は単に「ウェブ」として知られるようになっている。   The Internet is a worldwide network of computers linked by various hardware communication links that operate all of a standard set of protocols known as TCP / IP (Transmission Control Protocol / Internet Protocol). The recent growth of the Internet is significant, mostly due to the widespread use of browsing software known as browsers and HTTP (Hypertext Conversion Protocol) that allows a simple GUI (Graphical User Interface) used to communicate over the Internet. Is supported in the field. Browsers are typically provided on computers that are used to access content on the Internet, i.e. client computers. HTTP is a component of TCP / IP, HTML (Hypertext Markup Language), and recently XHTML (Extensible Hypertext Markup Language), which is an improvement to XML (Extensible Markup Language) and HTML. Provides user access to various format files using a standard page description language known as. A collection of servers on the Internet that use HTTP has become known as the “World Wide Web” or simply “Web”.

従来よく知られ認められるように、種々のコンテントを有する多数のウェブページが目下存在する。興味ある種々のコンテントを有する種々のウェブページを獲得するためのこれらのウェブページの検索をユーザに許容するためにツールが開発されている。所望のウェブページをつきとめる1つの方法は、特定のキーワード又は複数のキーワードを有するウェブページを検索する「検索エンジン」を使用することである。検索エンジンは、典型的には、3つの構成要素を有している:巡回者(crawler)(ロボット、ボット、自動化されたサイト検索者等)、インデックス及びその検索結果をユーザに提示するソフトウェアプログラムである。キーワード用の検索において検索エンジンを使用することができるページのURLs及びテキスト等の他の情報を集めるために、巡回者は、ウェブサーバからウェブサーバに、及び、そこに集合しているサイトに自動的に巡回する。巡回者により集められた情報が完全なときは、そのウェブページに関係する情報は、検索エンジンのデータベースに格納され索引付けされる。ユーザが検索エンジンの検索フィールドにおけるキーワードにおいてウェブタイプから情報を探すときは、検索エンジンのソフトウェアプログラムは、データベースに格納された情報に適合するキーワードを見出すためにアルゴリズム関数及び判定基準を使用する。あるプログラムは各ページのテキストの全てを検索し、一方、他のプログラムはそのページのURLs及び/又はタイトルを単に検索するだけである。そして、ソフトウェアプログラムは、検索結果を分類し、ウェブページの関連に基づいてユーザに優先順位を付けた結果を提供する。種々の検索エンジンソフトウェアプログラムは、ウェブページの関連の決定用として使用する方法が異なっている。例えば、ソフトウェアはページの「メタタグ」を調べ、ページのテキスト上でキーワード存在数を数えるためのカウンタを含み、及び/又は、ウェブページのウェブマスタが検索結果として表示されるウェブページを有するために特別の編成をしているか等のウェブページの評判及び他のファクタを考慮してもよい。   As is well known and appreciated in the past, there are currently a large number of web pages with various content. Tools have been developed to allow users to search for these web pages to obtain different web pages with different content of interest. One way to locate the desired web page is to use a “search engine” that searches for web pages with a particular keyword or keywords. A search engine typically has three components: a crawler (robot, bot, automated site searcher, etc.), an index and a software program that presents the search results to the user. It is. In order to gather other information such as URLs and text of pages that can use the search engine in searches for keywords, the patrolman automatically goes from the web server to the web server, and to the site where it gathers. Patrol. When the information collected by the patrolman is complete, the information related to the web page is stored and indexed in a search engine database. When a user searches for information from a web type in a keyword in a search engine search field, the search engine software program uses algorithm functions and criteria to find a keyword that matches the information stored in the database. Some programs retrieve all of the text on each page, while other programs simply retrieve the URLs and / or titles of the page. The software program then categorizes the search results and provides results that prioritize the user based on web page associations. Different search engine software programs use different methods for determining web page associations. For example, the software may include a counter to look up the “meta tag” of the page and count the number of keywords present on the text of the page, and / or to have the web page webmaster displayed as a search result Web page reputation and other factors such as special organization may be considered.

ウェブの基本的な応用の1つは、ショッピング、すなわち、商品やサービスつまり製品の購入である。実際に各主要な商業用の「ブロック・モルタル」小売商(merchant)は、製品のショーケースや販売用のウェブサイトを設立している。更に多くの製造者がウェブ上で製品を直接販売している。そして、過剰なオンライン小売商は、ブロック・モルタル界に以前には存在していないが、存在するようになっている。結果として、実際に各製品は、複数の小売商からウェブ上での購入用として有効である。小売商の場所への物理的な移動を必要とせず複数の小売商から製品及び販売期間を容易に比較することを買い手(shopper)に許可することで、この状況が市場の効率を増加させている。   One basic application of the web is shopping, i.e. the purchase of goods or services, i.e. products. In fact, each major commercial “block mortar” merchant has established a product showcase and sales website. Many more manufacturers sell their products directly on the web. And excessive online retailers are present in the block mortar world, although they haven't existed before. As a result, each product is actually valid for purchase on the web from multiple retailers. This situation increases the efficiency of the market by allowing shoppers to easily compare products and sales periods from multiple retailers without requiring physical movement to the retailer's location. Yes.

しかしながら、異なる小売商の製品や期間を比較するために、種々の小売商ウェブサイトを個別に「訪問(visit)」しなければならない。まず、各小売商ウェブサイト用のURLsの知識又はやっかいで不正確な検索エンジンの使用をこのことが要求する。よりすぐれた比較のために異なるブラウザのウィンドウに種々のサイトを開くことは可能である。しかしながら、各小売商ウェブサイトの種々の書式が製品や期間を直接比較することを飽き飽きさせている。購入決定をするときは、その購入又は複数の購入が個別の小売商ウェブサイトを通じてなされなければならない。更に、通常、買い手は、購入する前に、例えば、ユーザ名やパスワードを入力することで、それぞれの小売商ウェブサイトにログインすることが要求され、そして、次のサイトに進む。例えば、買い手が3つの異なる小売商から3つのアイテムを購入することを決定するなら、3つのログイン手順及び3つの購入手順、すなわち、小売商ウェブサイトで購入を生じさせるための手順が3つの小売商ウェブサイト及びそれらの独自のインターフェースを通じてそれぞれマニュアルで実行されなければならい。   However, in order to compare the products and time periods of different retailers, the various retailer websites must be “visited” individually. First, this requires knowledge of URLs for each merchant website or the use of troublesome and inaccurate search engines. It is possible to open different sites in different browser windows for a better comparison. However, the various formats of each retailer website are bored with direct comparison of products and time periods. When making a purchase decision, the purchase or purchases must be made through individual retailer websites. In addition, buyers are usually required to log in to their respective merchant websites before entering a purchase, for example by entering a username or password, and proceed to the next site. For example, if a buyer decides to purchase three items from three different retailers, three login procedures and three purchase procedures, i.e., a procedure for generating a purchase on the retailer website, will be Each must be done manually through the merchant website and their own interface.

複数のウェブサイトを「ショッピングポータル」として知られる1つの環境に統合することがよく知られている。ショッポングポータルは、通常、種々の小売商からの複数の製品を表示する統合されたインターフェースを表すウェブサーバを含む。従って、従来のショッピングポータルは、比較ショッピングを容易にし、このため、市場効率を増加させる。統合されたショッピング体験を提供するために、製品カテゴリの分類に編制された種々の小売商からの提案製品のカタログを準備することが知られている。しかしながら、製品情報記録を有する種々の小売商及び他のパーティは、情報を種々のデータ書式及びレイアウトで全て格納するため、製品カタログ用の情報収集は、大量のマニュアル操作を要求する冗長で長々とした集約的なタスクである。   It is well known to integrate multiple websites into one environment known as a “shopping portal”. Shopping portals typically include a web server that represents an integrated interface that displays multiple products from various retailers. Thus, conventional shopping portals facilitate comparative shopping, thus increasing market efficiency. It is known to prepare catalogs of proposed products from various retailers organized into product category classifications to provide an integrated shopping experience. However, because various retailers and other parties with product information records store all the information in various data formats and layouts, collecting information for product catalogs is redundant and lengthy requiring a large amount of manual manipulation. It is an intensive task.

本発明の1態様は、製品情報用として全く異なる書式を有する複数の製品情報源から製品情報を集めその情報を分類装置に格納することでコンピュータ読み取り可能な媒体に格納された製品カタログを作成する方法である。その方法は、製品情報記録が前記同じ製品に対応して適当であることに基づいて1又は1以上のグループに前記製品情報源からの複数の製品情報記録を処理するステップと、前記製品を特定するために、前記各グループに関連づけられた前記製品に対応するユニークな製品IDを相関させるステップと、前記分類装置における前記特定された製品用のカテゴリを決定するために、特定された各製品を分類装置のカテゴリと比較するステップと、各グループに対応する前記製品情報記録に基づいて、カテゴリ化された各製品用の属性を決定するステップと、前記決定された属性に基づいて製品特性を作成するステップと、前記分類装置の前記対応して決定されたカテゴリに前記製品特性を格納するステップと、を有する。   In one aspect of the present invention, product information is collected from a plurality of product information sources having completely different formats for product information, and the information is stored in a classification device to create a product catalog stored on a computer-readable medium. Is the method. The method includes processing a plurality of product information records from the product information source into one or more groups based on the fact that product information records are appropriate for the same product; and identifying the product To correlate a unique product ID corresponding to the product associated with each group, and to identify each identified product to determine a category for the identified product in the classifier. A step of comparing with a category of the classification device, a step of determining an attribute for each categorized product based on the product information record corresponding to each group, and creating a product characteristic based on the determined attribute And storing the product characteristic in the correspondingly determined category of the classification device.

好ましい実施形態及び図面を通じて本発明を説明する。   The present invention will be described through preferred embodiments and drawings.

統合されたオンラインショッピング体験及び製品カタログ生成を提供するための好ましい実施形態のコンピュータ構成を図1に示す。商取引(commerce)システム10は、HTTPプロトコルをサポートするブラウザアプリケーション14を実行するクライアントコンピュータ12を含む。クライアントコンピュータ12は、典型的にはISP(インターネットサービスプロバイダ)を通じて、通信チャネルとして動作するインターネット100に接続されている。例えば、クライアントコンピュータ12は、モデムを使用する従来のダイアルアップ接続、又は、ISDN(統合サービスディジタルネットワーク)、ケーブルモデム、DSL(ディジタル加入者回線)接続等のブロードバンド接続を通じてISPに接続される。ショッピングサーバ20も公知の方法でインターネット100に接続される。ショッピングサーバ20は、HTTPサーバアプリケーションとして知られ、メモリデバイスに格納されたウェブサーバ制御アプリケーション22を実行する。例えば、NCSAやAPACHEからの公衆ドメインウェブサーバソフトウェアアプリケーションを使用することができる。また、ショッピングサーバ20は、プライバシィのために安全な接続を使用するエージェントサーバ制御アプリケーション24も実行する(その機能は以下に詳細に説明する)。   A preferred embodiment computer configuration for providing an integrated online shopping experience and product catalog generation is shown in FIG. The commerce system 10 includes a client computer 12 that executes a browser application 14 that supports the HTTP protocol. The client computer 12 is connected to the Internet 100 that operates as a communication channel, typically through an ISP (Internet Service Provider). For example, the client computer 12 is connected to the ISP through a conventional dial-up connection using a modem or a broadband connection such as an ISDN (Integrated Services Digital Network), cable modem, DSL (Digital Subscriber Line) connection. The shopping server 20 is also connected to the Internet 100 by a known method. The shopping server 20 is known as an HTTP server application and executes a web server control application 22 stored in a memory device. For example, public domain web server software applications from NCSA or APACHE can be used. The shopping server 20 also executes an agent server control application 24 that uses a secure connection for privacy (its function will be described in detail below).

複数の小売商サーバ40は、従来の商取引サーバ制御アプリケーション、すなわち、製品表示、オンライン注文、在庫管理等のオンライン店頭の主要機能のいくつかを実行するソフトウェアを使用するオンラインショッピングを提供する。小売商サーバ40及び商取引サーバソフトウェアは、公知であり、このため、ここでは詳細に説明しない。また、小売商サーバ40は、売り出す製品についての情報を含む製品情報記録を格納することができる。   The plurality of merchant servers 40 provide online shopping using conventional commerce server control applications, ie, software that performs some of the main online storefront functions such as product display, online ordering, inventory management and the like. Retailer server 40 and commerce server software are well known and will therefore not be described in detail here. Further, the retailer server 40 can store a product information record including information about products to be sold.

好ましい実施形態では、クライアントコンピュータ12、ショッピングサーバ20及び小売商サーバ40のそれぞれは、SSLやS−HTTP等の安全な接続プロトコルを使用して通信することが可能である。非安全な接続30及び安全な接続32を明確に別々に示している。しかしながら、典型的には、これらの接続は、インターネット100等の同じ物理的接続や通信チャネル上で生じるものである。また、ショッピングサーバ20及び小売商サーバ40は、HTML書式及び/又は他の書式のファイルとしてメモリデバイスに格納された多数のウェブページを有している。また、ショッピングサーバ20は、以下に詳細に説明するようにメモリデバイスに格納された製品カタログ26及び買い手データベース28も含んでいる。   In the preferred embodiment, each of the client computer 12, shopping server 20, and merchant server 40 can communicate using a secure connection protocol such as SSL or S-HTTP. The non-secure connection 30 and the secure connection 32 are clearly shown separately. Typically, however, these connections occur over the same physical connection or communication channel, such as the Internet 100. In addition, the shopping server 20 and the retailer server 40 have a number of web pages stored in a memory device as files in HTML format and / or other formats. The shopping server 20 also includes a product catalog 26 and a buyer database 28 stored in the memory device as will be described in detail below.

インターネット100を通じてショッピングサーバ20にURL要求を発することで、クライアントコンピュータ12は、ショッピングサーバ20に格納されたウェブページの表示を要求することができる。例えば、クライアントコンピュータ12のユーザ、すなわち買い手は、ショッピングサーバ20に格納され製品カタログ26からの製品情報で構成されたウェブページをナビゲートする(navigating)ことで購入用の1製品又は複数の製品を選択することができる。製品カタログ26は、データベースの形式でもよく、複数の小売商用の製品の記述、価格及び他の製品情報や以下に詳細に説明するような自動化されたウェブ巡回者を使用して小売商サーバ40から選び出された製品情報を含んでもよい。製品カタログ26の製品情報は、小売商サーバ40上の最新製品情報に対応して定期的にアップデートされる。しかしながら、以下に明らかとなるように、製品情報がリアルタイムにアップデートされる必要はない。   By issuing a URL request to the shopping server 20 through the Internet 100, the client computer 12 can request display of a web page stored in the shopping server 20. For example, a user of the client computer 12, that is, a buyer, navigates a web page that is stored in the shopping server 20 and configured with product information from the product catalog 26, thereby selecting one or more products for purchase. You can choose. The product catalog 26 may be in the form of a database, from a merchant server 40 using a plurality of retail product descriptions, prices and other product information and automated web pavers as described in detail below. The selected product information may be included. Product information in the product catalog 26 is periodically updated in accordance with the latest product information on the retailer server 40. However, as will become apparent below, product information need not be updated in real time.

クライアントコンピュータ12のブラウザアプリケーション14で買い手に表されるようなショッピングサーバ20のインターフェースを使用する所望の方法で製品タイプ、識別番号、価格、キーワードや製品特色により、製品カタログ26からの製品情報を検索し表示することができる。その製品情報に基づいて1又は1以上の小売商サーバ40からのショップ比較及び製品選択を買い手に許容するために、クライアントコンピュータ12のブラウザウィンドウに複数の小売商サーバ40からの製品に関連する製品カタログ26における製品情報を並べて表示することができる。例えば、ユーザは、製品名や識別番号で特定のアイテムの全ての実例(instances)について検索してもよく、最低価格を有する小売商からその実例を購入用として選択してもよい。ショッピングサーバ20へのログインでは、例えば、特定データとしてユーザ名及びユーザIDを入力することで、ユーザが特定され、このため、ユーザは以前に登録したデータ及び好みを再入力する必要を回避することができる。   Search for product information from the product catalog 26 by product type, identification number, price, keyword or product feature in a desired manner using the interface of the shopping server 20 as represented by the buyer in the browser application 14 of the client computer 12 Can be displayed. Products associated with products from multiple merchant servers 40 in the browser window of client computer 12 to allow buyers to compare and select products from one or more merchant servers 40 based on the product information. Product information in the catalog 26 can be displayed side by side. For example, the user may search for all instances of a particular item by product name or identification number and may select the instance for purchase from a retailer with the lowest price. In login to the shopping server 20, for example, a user is specified by inputting a user name and a user ID as specific data, and therefore, the user avoids having to re-enter previously registered data and preferences. Can do.

自動化された購入手順での好ましい実施形態の通信チャネル接続を図2に示す。明確にするため、以下の説明は、一般に、1つの小売商サーバ40のみに関連する。しかしながら、以下に説明する手順は、複数の小売商サーバ40からの複数の製品用として実行することもできる。例えば、「購入」ボタンをクリックすることで、ユーザが購入用の製品を選択すると、安全な接続32は、クライアントコンピュータ12及びショッピングサーバ20のエージェントサーバアプリケーション24間に確立される。そして、エージェントサーバアプリケーション24は、小売商サーバ40の商取引サーバアプリケーションと安全な接続32を平行して開設する。安全な接続32は、明確にするためコンピュータ間の直接の接続として示している。しかしながら、安全な接続32はインターネット100や他のタイプの通信チャネル上でのSSL接続であると理解すべきである。   A preferred embodiment communication channel connection in an automated purchase procedure is shown in FIG. For clarity, the following description generally relates to only one merchant server 40. However, the procedure described below can also be performed for multiple products from multiple retailer servers 40. For example, when the user selects a product for purchase by clicking a “Purchase” button, a secure connection 32 is established between the client computer 12 and the agent server application 24 of the shopping server 20. The agent server application 24 then opens a secure connection 32 in parallel with the commerce server application of the retailer server 40. The secure connection 32 is shown as a direct connection between computers for clarity. However, it should be understood that secure connection 32 is an SSL connection over the Internet 100 and other types of communication channels.

また、図2に示すように、第1「クッキー」29(すなわち、サーバに使用されるべき特定情報等の情報を含むファイル)はショッピングサーバ20に確立され、第2クッキー18はクライアントコンピュータ12に確立される。第1クッキー29はその注文受容の処理(process)の状況を追跡することを小売商サーバ40に許容し、第2クッキー18はその注文場所処理の状況を追跡することをショッピングサーバ20に許容する。図3を参照すると、第1クッキー29はショッピングサーバ20及び小売商サーバ40間の注文受容セッションを特定する情報、すなわち、小売商セッションIDを含んでいる。特定する情報はいかなるキャラクタ列やコードでもよく、それにより小売商サーバ40が注文受容セッションを特定することができる。同様に、第2クッキー18は、「ナンス(nonce)」(すなわち、1回のランダム列)やクライアントコンピュータ12及びショッピングサーバ20間の注文場所セッションを特定する他の情報を含んでいる。ショッピングサーバ20は記録55を保持しており、その記録は、例えば、取引記録54(以下の図4の記述参照)を示すことで対応する取引記録54に第2クッキー18のナンスを関連づけるデータベースや索引テーブル等である。小売商サーバ40から報告される取引における変更は取引記録54に記録されるが、その2つが取引記録54に対するナンスからの指示の効果で同期されているためである。取引記録54は、対応する小売商セッションIDも含んでいる。従って、クライアントコンピュータ12を通じて注文を確認すること等で買い手がアイドル(idle)セッションを再開するときは、ショッピングサーバ20は第2クッキー18を検査し対応する注文場所セッション及び状況を特定し、このため、そのセッションを安全な方法で再開することができる。また、ショッピングサーバ20は、対応する第1クッキー29をつきとめ、対応する注文受容セッションを再開するために小売商サーバ40にそれを示すことができる。   As shown in FIG. 2, the first “cookie” 29 (that is, a file including information such as specific information to be used by the server) is established in the shopping server 20, and the second cookie 18 is sent to the client computer 12. Established. The first cookie 29 allows the merchant server 40 to track the status of the order acceptance process, and the second cookie 18 allows the shopping server 20 to track the status of the order place process. . Referring to FIG. 3, the first cookie 29 includes information identifying an order acceptance session between the shopping server 20 and the merchant server 40, that is, a merchant session ID. The information to be identified can be any character string or code, which allows the merchant server 40 to identify the order acceptance session. Similarly, the second cookie 18 includes a “nonce” (ie, a single random sequence) and other information that identifies an order location session between the client computer 12 and the shopping server 20. The shopping server 20 maintains a record 55, which may be, for example, a database that associates the nonce of the second cookie 18 with the corresponding transaction record 54 by showing the transaction record 54 (see the description of FIG. 4 below). An index table or the like. This is because changes in the transaction reported from the merchant server 40 are recorded in the transaction record 54, but the two are synchronized by the effect of the nonce instructions on the transaction record 54. Transaction record 54 also includes a corresponding merchant session ID. Thus, when the buyer resumes an idle session, such as by confirming an order through the client computer 12, the shopping server 20 examines the second cookie 18 to identify the corresponding order location session and situation, thus The session can be resumed in a secure manner. The shopping server 20 can also locate the corresponding first cookie 29 and indicate it to the merchant server 40 to resume the corresponding order acceptance session.

典型的には、複数の注文場所があり、対応する注文受容セッションが同時に生じることを記憶に留めておく。上述したクッキー処理手順は、全てのセッションに正確に相関されるべきことを許容し、このため、シームレスのショッピング体験を許容する。小売商サーバ40の購入手順の実行の間に買い手の援助を実行するために、ショッピングサーバ20は、買い手データベース28に格納された情報を使用する。買い手データベース28は、彼らの名前、住所、ショッピング好み、クレジットカード番号、小売商アカウント情報(それぞれの特定小売商での買い手用のユーザ名及びユーザid等)、等の登録された買い手に関する適切な情報を含んでもよい。もちろん、買い手データベース28の全てのデータは、登録手順の間に収集され、安全のために公知の方法で暗号化されてもよい。   Note that typically there are multiple order locations and corresponding order acceptance sessions occur simultaneously. The cookie handling procedure described above allows to be accurately correlated to all sessions, thus allowing a seamless shopping experience. In order to perform buyer assistance during execution of the purchase procedure of the retailer server 40, the shopping server 20 uses information stored in the buyer database 28. The buyer database 28 is suitable for registered buyers such as their name, address, shopping preferences, credit card number, merchant account information (such as user name and user id for buyers at each particular merchant), etc. Information may be included. Of course, all data in the buyer database 28 may be collected during the registration procedure and encrypted in a known manner for safety.

図4は、ショッピングサーバ20の購入手順、すなわちエージェントサーバ24の機能を非常に詳細に示している。買い手がショッピングサーバ20にログインした後、又は、別の方法で一意的に彼ら自身が特定された後に、その購入手順が通常開始することを記憶に留めておく。購入手順の第1段階では、買い手がカタログ26における製品を検索し、種々の方法で製品をブラウズし、1又は1以上の小売商サーバ40から購入用の1又は1以上の製品を選択する。ログイン後、エージェントサーバ制御アプリケーション24のメイン処理50は、買い手に対する表示用として購入フォームを生成する。買い手が現在の購入手順用の購入フォーム52における情報を変更することを所望する場合には、買い手は購入フォーム52を単に編集することができる。例えば、買い手が送付住所や発送方法を変更することを望むこともできる。もちろん、買い手データベース28におけるデフォルト(default)の買い手情報を変更するために買い手プロフィールを編集してもよい。そのような情報が買い手プロフィールとして買い手データベース28に存在していれば、その買い手に対応するデフォルトの買い手情報で購入フォーム52が自動的に予めファイルされている。そのような情報が買い手用として存在していなければ、情報を入力することが買い手に促され、その情報が現在の購入手順において使用される。現在の取引手順用として、メイン処理52は、取引状況を含む全ての取引情報(買い手データベース28からのクレジットカード情報、請求書発送住所、その他の情報及び製品カタログ26からの選択された製品の小売商SKUs、発送オプション、その他の情報)の追跡を保持する取引記録54も作成する。   FIG. 4 shows the purchase procedure of the shopping server 20, ie the function of the agent server 24 in great detail. Remember that the purchase procedure usually starts after the buyer logs in to the shopping server 20 or otherwise uniquely identifies themselves. In the first stage of the purchase procedure, a buyer searches for products in catalog 26, browses products in various ways, and selects one or more products for purchase from one or more merchant servers 40. After login, the main process 50 of the agent server control application 24 generates a purchase form for display to the buyer. If the buyer wishes to change the information in the purchase form 52 for the current purchase procedure, the buyer can simply edit the purchase form 52. For example, the buyer may want to change the shipping address or shipping method. Of course, the buyer profile may be edited to change the default buyer information in the buyer database 28. If such information exists as a buyer profile in the buyer database 28, the purchase form 52 is automatically filed in advance with default buyer information corresponding to the buyer. If no such information exists for the buyer, the buyer is prompted to enter the information and that information is used in the current purchase procedure. For the current transaction procedure, the main process 52 is responsible for all transaction information including transaction status (credit card information from the buyer database 28, billing address, other information and retail of the selected product from the product catalog 26). A transaction record 54 is also created that keeps track of the merchant SKUs, shipping options, and other information.

また、メイン処理50は、購入処理56を引き起こし、対応する取引記録に購入処理56を指示する。クライアントコンピュータ12のブラウザインターフェースを使用して買い手が種々の製品及びオプションを選択すると、取引記録54がアップデートされる。与えられた時間で、個々の購入処理56及び対応する取引記録54をそれぞれ有する複数の買い手用として複数の購入手順があることに注意する。購入処理56は、メイン処理50と平行してその購入手順が完了するまで実行し続ける。購入処理56は、買い手の選択に基づいて取引記録54を絶えずアップデートする。そうする間に、メイン処理50は、アップデート状況用として取引記録54を調査する。このように、メイン処理50は、それぞれの購入手順の状況でアップデートされる。   The main process 50 also triggers a purchase process 56 and directs the purchase process 56 to the corresponding transaction record. As the buyer selects various products and options using the browser interface of the client computer 12, the transaction record 54 is updated. Note that at a given time, there are multiple purchase procedures for multiple buyers, each with individual purchase processes 56 and corresponding transaction records 54. The purchase process 56 continues to be executed in parallel with the main process 50 until the purchase procedure is completed. The purchase process 56 constantly updates the transaction record 54 based on the buyer's selection. In the meantime, the main process 50 examines the transaction record 54 for update status. Thus, the main process 50 is updated in the situation of each purchase procedure.

購入手順の第1段階が完了すると、すなわち、買い手が全ての所望の製品及びオプションを全ての所望の小売商から選択すると、メイン処理50は、買い手による注文の認証用としてクライアントコンピュータシステム12のブラウザインターフェースを通じて、買い手に確認ページ58を示す。ショッピングサーバコンピュータシステム20及び適切な小売商サーバ40間の安全な接続32を使用して、ショッピングサーバコンピュータシステム20及び適切な小売商サーバ40間の通信で確認ページ58が生成される。特に、各小売商の検査ページ又は他の情報ページに自動的に進み、アップデートされた情報を検索することで、小売商サーバ40で所望の購入の価格情報、発送情報及び他の詳細情報を認証するために、ショッピングサーバコンピュータシステム20は、取引記録54における情報を使用する。小売商サーバ40を自動的にナビゲートすることを購入処理56に許容するために、小売商サーバ40の購入手順は、ショッピングサーバ20の購入処理に統合される。小売商サーバ40の特定の購入手順ステップを決定するために、バックエンドテストスクリプトその他を使用することができる。   When the first stage of the purchase procedure is complete, i.e., the buyer has selected all desired products and options from all desired retailers, the main process 50 is the browser of the client computer system 12 for authenticating the order by the buyer. A confirmation page 58 is shown to the buyer through the interface. A confirmation page 58 is generated in communication between the shopping server computer system 20 and the appropriate merchant server 40 using the secure connection 32 between the shopping server computer system 20 and the appropriate merchant server 40. In particular, the retailer server 40 authenticates the price information, shipping information and other detailed information of the desired purchase by automatically navigating to each retailer's inspection page or other information page and searching for updated information. To do so, the shopping server computer system 20 uses the information in the transaction record 54. In order to allow the purchase process 56 to navigate the retailer server 40 automatically, the purchase procedure of the retailer server 40 is integrated into the purchase process of the shopping server 20. A back-end test script or the like can be used to determine specific purchase procedure steps for the merchant server 40.

特定の小売商用のアカウント(account)情報が買い手用として買い手データベース28に存在していれば、小売商サーバ40で購入手順を実行するときにそのアカウント情報が使用される。存在していなければ、小売商で買い手用として新しいアカウントが作成され、そのアカウント情報が後の使用のために買い手データベース28に格納される。ショッピングサーバ20は、買い手に対応する小売商アカウント情報を使用するため、買い手は、小売商サーバ40で直接ショッピングするかのように、好ましい購入者ポイントや他の特典及び割引を保持することができる。   If specific retail merchant account information exists in the buyer database 28 for the buyer, that account information is used when the retailer server 40 executes the purchase procedure. If not, a new account is created for the buyer at the merchant and the account information is stored in the buyer database 28 for later use. Since the shopping server 20 uses the merchant account information corresponding to the buyer, the buyer can retain preferred buyer points and other benefits and discounts as if shopping directly at the merchant server 40. .

好ましい実施形態では、オンライン商取引の不安定な状態のために完全にアップデートされない可能性のある製品カタログ26からの情報を使用するクライアントコンピュータ12及びショッピングサーバ20間で、確認ページ58を生成するときまで通信が続けられることを記憶に留めておく。従って、取引記録54における選択された各製品用として小売商サーバ40から獲得したリアルタイムの価格情報及び発送情報を確認ページ58は含んでいる。確認ページ58にまとめられた注文の買い手の確認を受信すると、取引記録54における全ての取引情報がセーブされ、同じユーザセッションで後で再開するための手順を許容するために第2クッキー18がセーブされる。買い手が確認ページ58上でボタンを選択するか他の操作を取ることで注文を確認するまで待つ間、購入処理56は、アイドル状態のままである。   In the preferred embodiment, until the confirmation page 58 is generated between the client computer 12 and the shopping server 20 using information from the product catalog 26 that may not be completely updated due to the unstable state of online commerce. Remember that communication can continue. Accordingly, the confirmation page 58 includes real-time price information and shipping information obtained from the merchant server 40 for each selected product in the transaction record 54. Upon receipt of the purchaser confirmation of the order summarized on the confirmation page 58, all transaction information in the transaction record 54 is saved and the second cookie 18 is saved to allow a procedure to be resumed later in the same user session. Is done. The purchase process 56 remains idle while the buyer waits to confirm the order by selecting a button on the confirmation page 58 or taking other actions.

購入手順の第2段階で購入取引が完了する。特に、小売商サーバ40で以前のユーザセッションを再開するために第2クッキー18が使用される。続いて、小売商サーバ40で購入手順を実行し、そして、購入処理を実行するために、取引記録54における情報を使用する小売商サーバ40で注文が実行される。そして、注文がショッピングサーバ20で確認され、取引記録54がアップデートされ、小売商サーバ40からの取引情報、確認番号、その他を示す受領書ページ60が生成される。もう一度、複数の小売商サーバ40から製品を選択することができ、その場合、それぞれの小売商サーバ40用として自動的に適切な買い手アカウント情報を使用する各小売商サーバ40上で複数の購入手順が実行され確認されることに注意することが重要である。   The purchase transaction is completed in the second stage of the purchase procedure. In particular, the second cookie 18 is used to resume a previous user session at the merchant server 40. Subsequently, a purchase procedure is executed at the merchant server 40 and an order is executed at the merchant server 40 that uses the information in the transaction record 54 to perform the purchase process. Then, the order is confirmed by the shopping server 20, the transaction record 54 is updated, and a receipt page 60 showing the transaction information, confirmation number, etc. from the retailer server 40 is generated. Once again, products can be selected from multiple merchant servers 40, in which case multiple purchase procedures on each merchant server 40 that automatically uses the appropriate buyer account information for each merchant server 40. It is important to note that is executed and verified.

上述した購入手順では、小売商サーバ40との相互関係で買い手に代わってエージェントとして動作することをショッピングサーバ20に許容することが考えられる。しかしながら、ある小売商は、エージェントウェブサイトを使用する買い手を心地よく感じていない。特に、多くの小売商は、彼らのビジネス方式(model)における宣伝、提携プログラム、その他に頼っており、このため、ショッピング中に特に買い手が彼らのウェブサイト及び購入ページを訪問、すなわち直接閲覧すれば、彼らのビジネス目的が単に達成される。従って、上述した統合された購入手順の多くの利点を提案するために、ショッピングサーバ20のプロキシサーバモードを使用することができ、それと同時に、買い手に彼らのウェブサイト購入ページを訪問させることを望む売り主(vendors)を満足させることができる。   In the purchase procedure described above, it is conceivable to allow the shopping server 20 to operate as an agent on behalf of the buyer due to the mutual relationship with the retailer server 40. However, some retailers do not feel comfortable with buyers using the agent website. In particular, many retailers rely on advertising in their business models, partnership programs, and so on, so that buyers can visit their websites and purchase pages, especially directly, during shopping. Their business objectives are simply achieved. Thus, the proxy server mode of shopping server 20 can be used to propose many of the advantages of the integrated purchase procedure described above, while at the same time hoping buyers to visit their website purchase page. Satisfy vendors.

インターネットプロキシサーバは公知である。フレーズ「プロキシサーバ」は、一般に、ウェブブラウザ等のクライアントアプリケーション及び要求を妨害するためのウェブサーバ間に接続されるサーバに関連する。そして、プロキシサーバは、ウェブサーバに要求が指示されるように同じコンテントを十分に供給し、それと同時に、データの濾過(filtering)、データの監視(monitoring)、ウェブページのキャッシュコピー(cached copy)の供給等の補助機能を実行する。好ましい実施形態では、この一般的なコンセプトは、拡張され、統合されたショッピング環境に適用される。図2に示すように、プロキシサーバモードでは、クライアントコンピュータ及びショッピングサーバ20間、及び、ショッピングサーバ20及び小売商サーバ40間に平行な安全接続32が設定される。購入手順の第1段階は、標準モードに関しては、上述したのと同じ方法で実行される。プロキシサーバモードを使用するために、小売商データベース28は、小売商サーバ40の注文フォームにおけるフィールドを買い手データベース26におけるフィールドに配置するためのフォームマップを含むことが好ましい。フォームマップを公知の方法で開発するために外部の編集ツールが提供される。例えば、編集ツールは、HTMLフォームを読み取り、データフィールドを解析するために構成される。そして、これらのデータフィールドは、顧客データベース28における対応するフィールドに相互に関連づけられる。   Internet proxy servers are known. The phrase “proxy server” generally relates to a server connected between a client application, such as a web browser, and a web server for intercepting requests. The proxy server then supplies enough of the same content so that the request is directed to the web server, while simultaneously filtering data, monitoring data, and cached copies of web pages. Auxiliary functions such as supply In the preferred embodiment, this general concept is extended and applied to an integrated shopping environment. As shown in FIG. 2, in the proxy server mode, a parallel secure connection 32 is set between the client computer and the shopping server 20 and between the shopping server 20 and the retailer server 40. The first stage of the purchase procedure is performed in the same way as described above for the standard mode. In order to use the proxy server mode, the merchant database 28 preferably includes a form map for placing fields in the order form of the merchant server 40 into fields in the buyer database 26. External editing tools are provided for developing form maps in a known manner. For example, the editing tool is configured to read an HTML form and parse a data field. These data fields are then correlated to corresponding fields in the customer database 28.

購入手順の第2段階中に、クライアントコンピュータ12が小売商サーバ40からウェブページを要求するときは、小売商サーバ40の代わりにショッピングサーバ20に指示するために、ショッピングサーバ20がその要求を処理し、HREFs、すなわちHTML文書の参照文、及び、POSTs、すなわちHTMLフォームの提案をふるい分けする。小売商サーバ40がクライアントコンピュータ12にブランク(blank)フォームを送信するときは、そのフォームはショッピングサーバ20でインターセプト(intercept)され、そのフォームが買い手データベース26からの情報で満たされる。クライアントコンピュータ12が小売商サーバ40にフォームを返信するときは、ショッピングサーバ20は、買い手によりなされたフォームのコンテントにおける全ての変更を完全に保つ返信を再生成する。第1クッキー29及び第2クッキー18は上述したようにセッションを追跡する。   When the client computer 12 requests a web page from the merchant server 40 during the second stage of the purchase procedure, the shopping server 20 processes the request to direct the shopping server 20 on behalf of the merchant server 40. Then, HREFs, that is, references to HTML documents, and POSTs, that is, proposals for HTML forms are screened. When the merchant server 40 sends a blank form to the client computer 12, the form is intercepted by the shopping server 20 and the form is filled with information from the buyer database 26. When the client computer 12 returns a form to the merchant server 40, the shopping server 20 regenerates a reply that keeps all changes in the form content made by the buyer complete. The first cookie 29 and the second cookie 18 track the session as described above.

プロキシサーバモードでは、クライアントコンピュータ12に表示された確認ページ58又は他のページから購入ボタンを買い手が選択するときは、小売商サーバ40のショッピングカートページや他の購入ページが表示される。買い手は、クライアントコンピュータ12に表示されたように小売商サーバ40のインターフェースを使用して小売商サーバ40の購入手順をマニュアルで実行する。このマニュアル手順は、プロキシモードを要求する各小売商サーバ40用として実行される。従って、プロキシサーバモードでは、買い手は、小売商サーバ40で全ての購入ページを見て購入手順を実行する。しかしながら、ショッピングサーバ20は、フォームを満たすことで取り次ぎ、援助する。プロキシサーバモードを使用する購入手順の別の態様では、上述したプロキシサーバモードを使用しない購入手順と同様にすることができる。   In the proxy server mode, when the buyer selects a purchase button from the confirmation page 58 or other page displayed on the client computer 12, the shopping cart page of the retailer server 40 or another purchase page is displayed. The buyer manually executes the purchase procedure of the merchant server 40 using the interface of the merchant server 40 as displayed on the client computer 12. This manual procedure is performed for each merchant server 40 that requires proxy mode. Accordingly, in the proxy server mode, the buyer sees all purchase pages on the retailer server 40 and executes the purchase procedure. However, the shopping server 20 provides assistance by filling in the form. In another aspect of the purchase procedure that uses the proxy server mode, the purchase procedure that does not use the proxy server mode described above can be used.

本発明は、複数の小売商から統合された購入体験を許容することでオンライン商取引を容易にする。本発明は、インターネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、コンピュータの直接接続、その他のいかなるタイプの通信ハードウェア及びプロトコルを使用するいかなるタイプの通信チャネル上で実施してもよい。いかなるタイプのハードウェアやハードウェアの組合せを種々のクライアント及びサーバとして使用してもよい。従って、ここで使用される用語「コンピュータ」は、パーソナルコンピュータ、ポータブルコンピュータ、ダム(dumb)端末、シンクライアント(thin cliant)、携帯デバイス、無線電話、このようなデバイスの組合せ等のコンピュータデバイスやデータ端末のいかなるタイプにも関連している。種々のクライアント及びサーバは、単一の場所で単一のコンピュータでもよく、単一の場所又は複数の場所で複数のコンピュータでもよい。例えば、小型化するための種々の場所で共通に設置された複数の過剰なコンピュータでサーバを構成してもよい。適切なサーバやクライアントソフトウェアを使用してもよく、いかなる通信プロトコルを使用してもよい。電気ケーブル、光ファイバケーブル、その他のケーブル上で、ラジオ周波数、赤外線、その他の技術を使用する無線方法で通信することができる。購入用の製品を選択するためにいかなるインターフェースを使用してもよい。種々の情報は、いかなる書式で格納してもよく、このため、ここで使用される用語「データベース」は、データベースファイル、索引テーブル、その他のいかなるコレクションにも関連している。   The present invention facilitates online commerce by allowing an integrated purchasing experience from multiple retailers. The present invention may be implemented on any type of communication channel using the Internet, a local area network (LAN), a wide area network (WAN), a direct computer connection, or any other type of communication hardware and protocol. . Any type of hardware or combination of hardware may be used as the various clients and servers. Accordingly, the term “computer” as used herein refers to computer devices and data such as personal computers, portable computers, dumb terminals, thin clients, portable devices, wireless telephones, combinations of such devices, and the like. Relevant to any type of terminal. The various clients and servers may be a single computer at a single location, or multiple computers at a single location or multiple locations. For example, the server may be composed of a plurality of excess computers that are installed in common at various locations for downsizing. Appropriate server and client software may be used and any communication protocol may be used. It can communicate over wireless, electrical, fiber optic, and other cables using radio frequency, infrared, and other technologies. Any interface may be used to select a product for purchase. The various information may be stored in any format, so the term “database” as used herein relates to database files, index tables, and any other collection.

先に示したように、製品カタログ26は、複数の小売商用の製品記述、価格、納入日その他の製品情報を含んでもよい。そのような製品情報は、以下に説明する自動化された巡回者を使用することで種々の情報源(sources)の製品情報記録から選び出され、小売商サーバ40で有効な現在の製品に対応して定期的にアップデートされてもよい。ここで使用される用語「巡回者」は、ネットワーク上でコンテントの検索を実行するいかなるソフトウェアにも相当しており、「ボット」、「ロボット」、「自動化されたサイト検索者」その他を含んでもよい。図1に示すように、商取引システム10は、ブラウザアプリケーション14を実行するクライアントコンピュータ12及びエージェントサーバ制御アプリケーション24を実行するショッピングサーバ20を含み、クライアントコンピュータ12及びショッピングサーバ20が通信チャネルを供給するインターネット100に接続されている。更に、好ましい実施形態では、複数の製造者のサーバ44も非安全接続30を介してインターネット100に接続されている。この点では、製品カテゴリの製品に関連するインターネット100に接続された複数の情報源から製品情報を集め、その集めた情報を分類のフォームで製品カタログ26に格納するためにショッピングサーバ20を使用してもよい。しかしながら、製品情報の集合がエージェントサーバセントラルアプリケーション24を実行するコンピュータとは別のコンピュータを使用して達成されてもよく、その結果の情報がエージェントサーバセントラルアプリケーション24を実行するコンピュータに有効とすることができることに注目すべきである。   As indicated above, the product catalog 26 may include multiple retail commercial product descriptions, prices, delivery dates, and other product information. Such product information is picked up from product information records from various sources using the automated patroller described below and corresponds to the current product valid at the merchant server 40. May be updated regularly. The term “traveler” as used herein is equivalent to any software that performs content searches on the network, including “bots”, “robots”, “automated site searchers” and others. Good. As shown in FIG. 1, the commerce system 10 includes a client computer 12 that executes a browser application 14 and a shopping server 20 that executes an agent server control application 24, and the client computer 12 and the shopping server 20 provide the communication channel. 100. Further, in the preferred embodiment, a plurality of manufacturer's servers 44 are also connected to the Internet 100 via non-secure connections 30. In this regard, the shopping server 20 is used to collect product information from a plurality of information sources connected to the Internet 100 related to products in the product category and store the collected information in the product catalog 26 in a classification form. May be. However, the collection of product information may be achieved using a computer other than the computer that executes the agent server central application 24, and the resulting information is valid for the computer that executes the agent server central application 24. It should be noted that can be done.

図7は、製品カタログ26の分類700の例を示している。図7の分類は、米国特許出願番号??(分類の出願番号を挿入)に詳細に記載されており、その開示は参照としてここに組み込まれる。分類700は、第1階層カテゴリ714、第2階層カテゴリ716、第3階層カテゴリ720、製品仕様、すなわち特性718及び722を含んでいる。分類700は、ツリー状構造で定義され、そのツリー状構造ではカテゴリがカテゴリ内の製品用として仕様を定義する属性を含むことに注意する。製品仕様718及び722は親カテゴリの属性を引き継ぎ、属性用の数値及び適用可能な計測単位を含んでもよい。   FIG. 7 shows an example of the classification 700 of the product catalog 26. 7 is the US patent application number? ? (Insert classification application number), the disclosure of which is incorporated herein by reference. The classification 700 includes a first hierarchy category 714, a second hierarchy category 716, a third hierarchy category 720, product specifications, ie characteristics 718 and 722. Note that the classification 700 is defined in a tree-like structure, where the category includes attributes that define specifications for products in the category. Product specifications 718 and 722 inherit the attributes of the parent category and may include numeric values for the attributes and applicable measurement units.

複数の情報源は複数の小売商の情報源及び製造者の製品特性情報源を含んでもよく、それらは小売商のサーバ40及び製造者のサーバ44にそれぞれ配置されている。好ましい実施形態では、複数の小売商の情報源が小売商のウェブページ42であり、複数の製造者の製品特性情報源が製造者の製品特性ウェブページ46であることが適切である。更に製品情報記録の情報源を、種々の製品広告情報源とすることができ、製品広告情報源を、製品カテゴリの1製品又は複数の製品に関連する付加的な情報を報告し提供する製品広告ウェブページとしてもよい。実際には、製造者の製品特性情報源は、製品広告情報源のサブセットに過ぎないと考えてもよい。また、製造者がインターネット100上で直接製品を販売するときは、製造者のサーバ44は小売商のサーバ40と同じものの1つである。   The plurality of information sources may include a plurality of merchant information sources and manufacturer product characteristic information sources, which are located on the merchant server 40 and the manufacturer server 44, respectively. In the preferred embodiment, it is appropriate that the plurality of merchant information sources are the merchant web pages 42 and the plurality of manufacturer product characteristic information sources are the manufacturer product characteristic web pages 46. Furthermore, the information source of the product information record can be various product advertisement information sources, and the product advertisement information source reports and provides additional information related to one product or a plurality of products in the product category. It may be a web page. In practice, the manufacturer's product characteristic information source may be considered only a subset of the product advertisement information source. Also, when a manufacturer sells a product directly on the Internet 100, the manufacturer's server 44 is one of the same as the retailer's server 40.

好ましい実施形態では、ショッピングサーバ20は、複数の情報源を訪問するための少なくとも1つの巡回者を提供するために操作され、それらの複数の情報源は、製品カテゴリの種々の製品に関連するこれらの複数の情報源から製品情報を集めるために、例えば、小売商のサーバ40及び製造者のサーバ44で集められる。巡回者は、製造者のサーバ44で集められた製造者の製品特性ウェブページから製品フレーズ情報を集める製品広告巡回者72を含んでもよい。また、巡回者は、小売商のサーバ40で集められた小売商のウェブページから製品カテゴリにおける各製品の製品フレーズ情報及び価格情報を集める製品提案巡回者74を含んでもよい。もちろん、製品広告巡回者72が小売商のウェブページを訪問してもよく、製品提案巡回者74が製造者の製品特性ウェブページを訪問してもよいことに注目する。更に、製品広告巡回者72及び製品提案巡回者74の両者の機能を実行するために単一の巡回者が提供されてもよい。いかなるタイプの数の巡回者を使用してもよい。   In a preferred embodiment, the shopping server 20 is operated to provide at least one visitor for visiting a plurality of information sources, which are related to various products in the product category. In order to collect product information from a plurality of information sources, for example, it is collected at a merchant server 40 and a manufacturer server 44. The patroller may include a product advertisement patroller 72 that collects product phrase information from the manufacturer's product characteristics web pages collected at the manufacturer's server 44. The patrol person may also include a product proposal patrol person 74 who collects product phrase information and price information of each product in the product category from the merchant web pages collected at the merchant server 40. Of course, it should be noted that the product advertiser 72 may visit the retailer's web page, and the product suggester 74 may visit the manufacturer's product characteristics webpage. In addition, a single traveler may be provided to perform the functions of both product advertisement traveler 72 and product proposal traveler 74. Any type of number of patrolmen may be used.

好ましい実施形態では、製品広告巡回者72及び/又は製品提案巡回者74は、製品カタログ26から情報を集めてもよく、その情報は、製造者の特定や製品モデル、及び、コンピュータ言語を使用することで複数の情報源のそれぞれからの1つのフレーズ及びそのフレーズの少なくとも1つの特性を含むことが好ましい製品フレーズ情報に関連する。巡回者72、74で集められた「フレーズ」の用語は、製造者の製品特性ウェブページ46、小売商のウェブページ42及び/又は製品広告ウェブページ(示していない)等の情報源に現れる英数文字の1つの列又は複数の列に関連している。用語「特性」は、そのウェブページにおける英数文字の列のいくつかの属性に相当する。例えば、フレーズの特性は、そのウェブページにおけるそのフレーズの頻度、場所、フォントサイズ、フォントスタイル、フォントケース、フォント効果及びフォント色でもよく、同様に、語順の頻度(相互にすぐ次のフレーズ)及びフレーズの同時出現(相互に予め定められたワード中のフレーズ)としてもよい。更に、用語「コンピュータ言語」は、ここでは、上述したフレーズの特性のいずれか等の言語データを処理するためのコンピュータ分析を使用する言語のモデル化の学際的分野に関連して使用される。好ましい実施形態では、巡回者72、74及びそれらにより使用されるコンピュータ言語は、上述した機能を実行するために設計されたソフトウェアプログラムである。このため、コンピュータ言語を使用することで、製品広告巡回者72及び/又は製品提案巡回者74は、以下に説明する方法で処理し使用することができる製品フレーズ情報を集める。   In a preferred embodiment, product advertisement circulator 72 and / or product proposal circulator 74 may gather information from product catalog 26, which uses manufacturer identification, product model, and computer language. This relates to product phrase information that preferably includes one phrase from each of a plurality of information sources and at least one characteristic of the phrase. The term “phrase” collected by the patrolmen 72, 74 may appear in sources such as the manufacturer's product characteristics web page 46, the retailer web page 42 and / or the product advertisement web page (not shown). Associated with one or more columns of several characters. The term “property” corresponds to several attributes of a sequence of alphanumeric characters on the web page. For example, a phrase characteristic may be the frequency, location, font size, font style, font case, font effect and font color of the phrase on the web page, as well as the frequency of the word order (the phrase immediately following each other) and It is good also as simultaneous appearance (phrase in the word mutually predetermined beforehand) of a phrase. Furthermore, the term “computer language” is used herein in connection with the interdisciplinary field of language modeling using computer analysis to process linguistic data, such as any of the phrase characteristics described above. In a preferred embodiment, the patrolmen 72, 74 and the computer language used by them are software programs designed to perform the functions described above. For this reason, by using a computer language, the product advertisement circulator 72 and / or the product proposal circulator 74 collects product phrase information that can be processed and used in the manner described below.

上述したとおり、図5は本発明の好ましい実施形態の方法を示しており、製品広告巡回者72がコンピュータ言語モジュール75を使用して製品フレーズ情報を獲得する。獲得された製品フレーズ情報(すなわち、そのフレーズ及びそのフレーズの特性)は、更なる分析用として製品フレーズデータベース76に格納される。図1の商取引システム10は、ショッピングサーバ20を通じて、又は、他のコンピュータ/サーバ等の別の方法で、統計分析モジュール78を使用して製品フレーズ情報を更に分析し、それによりいずれかの与えられた製品カテゴリにおける製品フレーズのランキングを提供するために使用可能である。これらのランク付けされた製品フレーズは、典型的には、与えられた製品又は製品カテゴリの一般に見出される製品特性を表しており、製品フレーズデータベース76にも格納されている。   As described above, FIG. 5 illustrates the method of the preferred embodiment of the present invention, where the product ad circulator 72 uses the computer language module 75 to obtain product phrase information. The acquired product phrase information (ie, the phrase and its characteristics) is stored in the product phrase database 76 for further analysis. The commerce system 10 of FIG. 1 further analyzes the product phrase information using the statistical analysis module 78, either through the shopping server 20 or in another way, such as other computers / servers, thereby providing any Can be used to provide rankings of product phrases in different product categories. These ranked product phrases typically represent commonly found product characteristics for a given product or product category and are also stored in the product phrase database 76.

更に、以下に詳細に説明するように、本発明の好ましい実施形態では、格納された製品フレーズ情報を分析し、それにより製品フレーズデータベース76における各製品フレーズ情報が実際に製品特性であるかを決定するための特性定義ツール80を使用する。用語「製品特性」や「製品の複数の特性」は、製品や製品カテゴリを記述的に特性付けするワード、数、フレーズやそれらの組合せであると理解されるべきである。好ましい実施形態の特性定義ツール80は、図5の各ステップに示すように、ショッピングサーバ20や他のデバイスで実行するソフトウェアアルゴリズムである。   Further, as described in detail below, the preferred embodiment of the present invention analyzes stored product phrase information to determine whether each product phrase information in the product phrase database 76 is actually a product characteristic. The characteristic definition tool 80 is used. The terms “product characteristics” and “product characteristics” should be understood to be words, numbers, phrases or combinations thereof that descriptively characterize a product or product category. The property definition tool 80 of the preferred embodiment is a software algorithm executed on the shopping server 20 or other device, as shown in the steps of FIG.

このため、例えば、製品広告巡回者72は、ウェブページ上で提供された製品フレーズ情報を獲得するために、コンピュータ製造者等の製造者のサーバ44(又は、製品広告情報源を有する他のサーバ)のウェブページのコンテントを検査してもよく、そのウェブページはフレーズ及びフレーズの特性を含み、同様にウェブページのURLアドレス及び他のメタタグに提供された情報を含む。そして、この製品フレーズ情報は、更なる分析用として製品フレーズデータベース76に格納される。本例では、コンピュータ製造者のホームウェブページは、おそらく、フレーズ「コンピュータ」を含むメタタグ、及び、そのホームウェブページ全体にフレーズ「コンピュータ」を有しており、そのホームウェブページはウェブページ上でテキストの残りからフレーズを区別する書式設定(formatting)及び位置決め(positioning)等の特別の特性を有していてもよく有していなくてもよい。コンピュータ言語モジュール75の使用のため、製品広告巡回者72は、ホームウェブページのメタタグにおける存在、ホームウェブページにおける頻度及び他の特別な特性等のフレーズ「コンピュータ」に関するそのような情報を認識し獲得することができ、それにより、ホームウェブページがコンピュータに関連すること及びそのホームウェブページにリンクしたウェブページもまたおそらくコンピュータに関連することを統計的に区別し、その結果、このフレーズが製品特性、特に製品カテゴリであることを決定することができる。   Thus, for example, product advertiser 72 may obtain a server 44 of a manufacturer such as a computer manufacturer (or other server having a product advertising information source) to obtain product phrase information provided on a web page. ) Web page content, which includes phrases and phrase characteristics, as well as information provided in the web page URL address and other meta tags. This product phrase information is stored in the product phrase database 76 for further analysis. In this example, the computer manufacturer's home web page probably has a meta tag containing the phrase “computer” and the phrase “computer” throughout its home web page, and the home web page is on the web page. It may or may not have special characteristics such as formatting and positioning that distinguish phrases from the rest of the text. Due to the use of the computer language module 75, the product advertiser 72 recognizes and acquires such information about the phrase “computer” such as its presence in the home web page's meta tag, frequency in the home web page and other special characteristics. Statistically distinguishing that the home web page is related to the computer and that the web page linked to the home web page is also probably related to the computer, so that this phrase It can be determined that the product category in particular.

製品広告巡回者72は、正確な決定を確保するために、そのフレーズが製品特性であるかを決定する前に、リンクしたウェブページの重要な部分を通じて巡回することが好ましい。例えば、製品広告巡回者72は、製品フレーズ情報を集めるために、そのホームウェブページにリンクした複数のウェブページを通じて巡回してもよく、本例では、おそらくフレーズ「コンピュータ」の存在及び与えられた製品カテゴリに関連づけられるべきことが知られた他のフレーズ、例えば、フレーズ「MHz」、「フロッピ」及び/又は「Gb」等と共に配置されたフレーズ「Mb RAM」等を更に確認してもよい。統計的分析モジュール78によるそのようなフレーズの頻度及び特性の分析に基づいて、フレーズ「コンピュータ」を、製品カテゴリを定義する製品特性であると決定することができる。この点で、製品カテゴリ決定の正確性を確保するために、相互に関連する種々の製品カテゴリ及びもっともらしく関連づけられたキーワードフレーズと共に別のカテゴリデータベース79を提供してもよい。更に、カテゴリデータベース79に加え又はその代替として、製品カテゴリ決定の正確性を更に確保するために、人の確認処理を提供してもよい。   In order to ensure an accurate determination, product advertiser 72 preferably patrols through a significant portion of the linked web page before determining whether the phrase is a product characteristic. For example, product ad circulator 72 may patrol through multiple web pages linked to its home web page to collect product phrase information, in this example, perhaps the presence and given of the phrase “computer” Other phrases known to be associated with the product category may further be identified, for example, the phrase “Mb RAM”, etc. arranged with the phrases “MHz”, “Floppy” and / or “Gb”. Based on the analysis of the frequency and characteristics of such phrases by statistical analysis module 78, the phrase “computer” can be determined to be a product characteristic that defines a product category. In this regard, another category database 79 may be provided with various product categories and most likely associated keyword phrases to ensure accuracy of product category determination. Further, in addition to or as an alternative to the category database 79, a human confirmation process may be provided to further ensure the accuracy of product category determination.

更に、ホームウェブページにリンクした複数のウェブページは、典型的に、その製品又は製品カテゴリの他の重要な特性を確認する英数文字列、すなわちデータ列を含んでもよい。また、ウェブページ上の場所、書式設定やその文字列の特性によりそのような文字列がしばしばウェブページの残りのテキストから区別されていることに注目すべきである。例えば、その文字列は、そのウェブページのトップ付近や左手側に配置され、ウェブページ上の他の文字列の大多数より大きなフォントサイズを有してもよい。この点では、そのような重要な文字列は、目立ったフォントサイズ、フォントスタイル(ボールド等)やフォント効果(イタリック体にしたり及び/又は下線を付したりすること等)等を有してもよい。本例のコンピュータに関しては、スピード、容量等のコンピュータの重要な属性/特性は、「Mb RAM」、「MHz」、「Gb」等のフレーズが付された文字列で示されることがある。コンピュータ言語モジュール75の使用のため、製品広告巡回者72は、頻度、場所、フォントサイズ、フォントスタイル、フォントケース、フォント効果、フォント色、語順や同時出現等のフレーズ及びそのフレーズの特性を製品フレーズ情報として認識し獲得することができる。そのような情報は、製品フレーズデータベース76に記憶されており、統計的分析モジュール78は、与えられた製品カテゴリにおけるフレーズ及び製品フレーズデータベース76に格納されたフレーズのランキングを提供するために使用される。特に、統計的分析モジュール78は、特定のフレーズが1又は1以上の特性の存在により強調されたことを認識し、その結果、そのフレーズに関連づけられた特性を有していない他のフレーズより高いランキングをその特定のフレーズ用として提供する。   In addition, the plurality of web pages linked to the home web page may typically include an alphanumeric string or data string that identifies other important characteristics of the product or product category. It should also be noted that such strings are often distinguished from the rest of the text on the web page by location on the web page, formatting, and the characteristics of the string. For example, the character string may be located near the top or left hand side of the web page and have a larger font size than the majority of other character strings on the web page. In this regard, such important strings may have a noticeable font size, font style (bold, etc.), font effects (italicized and / or underlined, etc.), etc. Good. With respect to the computer of this example, important attributes / characteristics of the computer such as speed and capacity may be indicated by character strings with phrases such as “Mb RAM”, “MHz”, and “Gb”. Due to the use of the computer language module 75, the product ad circulator 72 determines the phrase and its characteristics such as frequency, location, font size, font style, font case, font effect, font color, word order and co-occurrence as product phrases. It can be recognized and acquired as information. Such information is stored in the product phrase database 76 and the statistical analysis module 78 is used to provide a phrase in a given product category and a ranking of the phrases stored in the product phrase database 76. . In particular, statistical analysis module 78 recognizes that a particular phrase has been emphasized by the presence of one or more characteristics, and as a result is higher than other phrases that do not have the characteristics associated with that phrase. Provide a ranking for that particular phrase.

本発明の好ましい実施形態では、製品フレーズ情報におけるフレーズが実際に製品や製品カテゴリを記述的に特徴づける関連した製品特性であるかを決定するために、製品フレーズデータベース76におけるフレーズのランキングされたリストが特性定義ツール80で更に分析されてもよい。特性定義ツール80が人の編集者により実行されることが好ましいことに注目すべきであり、このため、コンピュータ及び統計的分析モジュール78を使用して生成されたランク付けされたフレーズに関連して、社会通念の判定がなされてもよい。しかしながら、特性定義ツール80の機能を自動化/半自動化するためにコンピュータや他のロジックデバイスを使用してもよい。   In a preferred embodiment of the present invention, a ranked list of phrases in the product phrase database 76 to determine whether the phrases in the product phrase information are actually relevant product characteristics that descriptively characterize the product or product category. May be further analyzed by the property definition tool 80. It should be noted that the property definition tool 80 is preferably run by a human editor, and thus, in connection with ranked phrases generated using a computer and statistical analysis module 78. A judgment of social convention may be made. However, a computer or other logic device may be used to automate / semi-automate the function of the property definition tool 80.

図5に示すように、製品フレーズ情報におけるフレーズが製品特性であるかの決定は、好ましくは人の編集者により、ステップ81で実行される。そのフレーズが製品特性に関連しないと決定されると、そのフレーズ及び製品フレーズ情報が放棄され次のフレーズが分析される。そのフレーズが製品特性であると決定される(すなわち、そのフレーズが製品や製品カテゴリを記述的に特徴づけている)と、ステップ82に示すように、そのフレーズが数値列であるかのように決定がなされる。例えば、本例のコンピュータでは、好例の数値フレーズは、RAM、ハードドライブ容量、プロセッサスピード、等を定める数値である。フレーズが数値であれば、ステップ84で、対応する数値フレーズ用として範囲及び間隔が適切であり記録されているかが入力される。例えば、RAMについて、そのコンピュータモデルが32、64、96又は128MbのRAMで有効であるとしてもよい。この場合、範囲を32〜128Mb及び間隔を32Mbとしてもよい。   As shown in FIG. 5, the determination of whether the phrase in the product phrase information is a product characteristic is preferably performed at step 81 by a human editor. If it is determined that the phrase is not related to product characteristics, the phrase and product phrase information is discarded and the next phrase is analyzed. If the phrase is determined to be a product characteristic (ie, the phrase descriptively characterizes the product or product category), as if it were a numeric string, as shown in step 82 A decision is made. For example, in the computer of this example, a good numerical phrase is a numerical value that defines RAM, hard drive capacity, processor speed, and the like. If the phrase is numeric, it is entered at step 84 whether the range and interval are appropriate and recorded for the corresponding numeric phrase. For example, for RAM, the computer model may be valid with 32, 64, 96 or 128 Mb RAM. In this case, the range may be 32 to 128 Mb and the interval may be 32 Mb.

そして、ステップ86に示すように、その数値フレーズが評価可能かについて、すなわち、その数値フレーズが製品の品質を示しているかについて、及び/又は、製品の望ましさを満たしているかについて決定がなされる。容易に判断することができるように、RAMの量がそのコンピュータの容量及び望ましさを直接満たすため、RAMに関連づけられた数値を評価可能である。数値フレーズが評価可能であれば、ステップ88に示すように、評価の方向、すなわち、高い数値ほど優れているか、低い数値ほど優れているかが決定される。また、本例に関して、高容量のRAMを有するコンピュータは、低容量のRAMを有するコンピュータより望ましく、このため、高い数値ほど優れており、評価の方向は、数値フレーズの値が増加するときにより優れている。その方向は、人の編集者によりマニュアルで決定されるか、又は、例えば価格との関連でコンピュータや他のデバイスを通じて自動的に決定される。もちろん、数値であり評価可能な特定の製品特性では、低い数値ほど優れていてもよい。例えば、ノートブックコンピュータの重量では低い数値が高い数値より好ましい。同様に、評価の方向は、ステップ89に示すように、それぞれのフレーズのランキングを容易にする。このため、少なくともRAMの製品特性については、数値フレーズ「32」が「64」等より低くランク付けされる。数値フレーズを評価可能でなければ、ステップ89で、人の編集者が自らの製品知識及び経験に基づいて数値フレーズ用のランキングを入力してもよく、次のフレーズが分析される。もちろん、そのような数値フレーズは評価可能ではないため、そのフレーズ用のランキングは、評価可能な数値フレーズと比較しておそらく低くなる。   Then, as shown in step 86, a determination is made as to whether the numeric phrase is evaluable, i.e., whether the numeric phrase indicates product quality and / or satisfies the desirability of the product. . Since the amount of RAM directly meets the capacity and desirability of the computer so that it can be easily determined, the numerical value associated with the RAM can be evaluated. If the numerical phrase can be evaluated, as shown in step 88, the direction of evaluation, that is, whether the higher numerical value is better or the lower numerical value is better is determined. Also, for this example, a computer with a high-capacity RAM is more desirable than a computer with a low-capacity RAM, so a higher number is better and the direction of evaluation is better when the value of the numeric phrase increases. ing. The direction can be determined manually by a human editor or automatically through a computer or other device, for example in the context of price. Of course, for specific product characteristics that are numerical and can be evaluated, lower numbers may be better. For example, a low numerical value is preferable to a high numerical value in the weight of a notebook computer. Similarly, the direction of evaluation facilitates ranking of each phrase as shown in step 89. Therefore, the numerical phrase “32” is ranked lower than “64” or the like at least for the product characteristics of the RAM. If the numeric phrase cannot be evaluated, at step 89, a human editor may enter a ranking for the numeric phrase based on his product knowledge and experience, and the next phrase is analyzed. Of course, because such numeric phrases are not evaluable, the ranking for that phrase will probably be lower compared to evaluable numeric phrases.

詳述したステップ82について、そのフレーズが数値でなければ、ステップ83で、そのフレーズが不連続か、及び、ステップ85で、不連続フレーズ用として計数された数値名が入力されたかの決定がなされる。例えば、本例では、フレーズ「CD−ROM」、「CD−R」及び「CD−RW」は全てコンピュータの特性でもある不連続フレーズである。そして、ステップ86で、不連続フレーズが評価可能であるかが決定される。評価されると、コンピュータ技術で知られるように、これらのCDメモリデバイスのそれぞれがコンピュータに対して異なるレベルの機能性を提供するため、それらが製品の品質を示すことができること、及び/又は、製品の望ましさを満たすことにおいて、これらの不連続フレーズを評価可能である。この点では、特性定義ツール80は、ステップ88に示すように、評価の方向を入力し、ステップ89に示すように、不連続フレーズのランキングを入力し同時に製品をランク付けする。本例では、フレーズ「CD−ROM」、「CD−R」及び「CD−RW」は、コンピュータ技術で評価されたように、コンピュータにおける望ましさの順である。もう一度、順序やランキングは、マニュアルで又は自動で決定されてもよい。更に、不連続フレーズが評価可能でなければ、ステップ89で、不連続フレーズ用のランキングが入力され次のフレーズが分析される。もちろん、そのような不連続フレーズは評価可能ではないため、そのフレーズ用のランキングは評価可能な不連続フレーズと比較しておそらく低くなる。   For step 82 described in detail, if the phrase is not numeric, it is determined in step 83 whether the phrase is discontinuous and in step 85 whether the numeric name counted for the discontinuous phrase has been entered. . For example, in this example, the phrases “CD-ROM”, “CD-R”, and “CD-RW” are all discontinuous phrases that are also characteristics of a computer. Then, at step 86, it is determined whether the discontinuous phrase can be evaluated. When evaluated, each of these CD memory devices provides a different level of functionality to the computer, as known in computer technology, so that they can indicate product quality and / or These discontinuous phrases can be evaluated in meeting the desirability of the product. In this respect, the property definition tool 80 inputs the direction of evaluation, as shown in step 88, and inputs the ranking of discontinuous phrases, as shown in step 89, simultaneously ranking the products. In this example, the phrases “CD-ROM”, “CD-R” and “CD-RW” are in order of desirability in a computer, as evaluated in computer technology. Once again, the order and ranking may be determined manually or automatically. Further, if the discontinuous phrase cannot be evaluated, in step 89, the ranking for the discontinuous phrase is input and the next phrase is analyzed. Of course, since such a discontinuous phrase is not evaluable, the ranking for that phrase is probably lower compared to an evaluable discontinuous phrase.

そして、フレーズが不連続でなく数値でもなければ、ステップ87に示すように、フレーズがフリーフォームテキストとして設定され、ステップ89に示すように、ランキングが入力され次のフレーズが分析される。そのフレーズが製品特性とみなされるため、そのようなフリーフォームテキストは比較的珍しい。しかしながら、特定の製品では、そのようなフリーフォームテキストが好ましく製品に数値を付加する場合もあり、反対に、製品の数値を減少させて好ましくない場合もある。例えば、製品上の自署(autograph)や書込み(inscription)は、製品に数値を付加するフリーフォームテキストとして考慮してもよい。   If the phrase is not discontinuous and numerical, the phrase is set as free-form text as shown in step 87, the ranking is input and the next phrase is analyzed as shown in step 89. Such free-form text is relatively rare because the phrase is considered a product characteristic. However, for certain products, such free-form text may preferably add a numerical value to the product, and conversely, it may be undesirable to reduce the numerical value of the product. For example, autographing and inscription on a product may be considered as free-form text that adds a numeric value to the product.

図5に示す本発明の好ましい実施形態では、特性定義ツール80に示すように、製品フレーズデータベース76に格納された製品フレーズ情報で分析が完了すると、その結果として得られた製品特性は(すなわち、その製品や製品カテゴリを記述的に特徴づけるフレーズ)、製品特性データベース90に格納される。更に、特性定義ツール80を実行することで、これらの製品特性が製品特性データベース90に格納され、また、製品や製品カテゴリにおける重要性の順にランク付けされる。このため、上述した本例のコンピュータでは、製品特性データベース90は、MHz、Mb RAM、Gb、CD−ROM、CD−R、CD−RW等の製品特性、及び、コンピュータを評価するために関連する多くの他の製品特性及び属性の記録を有してもよい。更に、特性定義ツール80の実行を通じて、これらの製品特性が同様にランク付けされる。以下に更に詳細に説明するように、個々の小売商ウェブページ上で種々の小売商から入手できる製品の評価に使用するカタログ26を作成し、その小売商ウェブページにより複数のオンライン小売商をシームレスに統合する単一のショッピングインターフェースを提供し、従って、オンライン環境における比較ショッピングを容易にするために製品特性データベースのこれらの格納された製品特性を検索し使用してもよい。   In the preferred embodiment of the present invention shown in FIG. 5, once the analysis is completed with product phrase information stored in the product phrase database 76, as shown in the property definition tool 80, the resulting product characteristics are (ie, The product or product category is descriptively characterized) and stored in the product characteristic database 90. Furthermore, by executing the characteristic definition tool 80, these product characteristics are stored in the product characteristic database 90, and ranked in the order of importance in the products and product categories. For this reason, in the computer of this example described above, the product characteristic database 90 is relevant for evaluating product characteristics such as MHz, Mb RAM, Gb, CD-ROM, CD-R, CD-RW, and the computer. You may have a record of many other product characteristics and attributes. In addition, through the execution of the property definition tool 80, these product properties are similarly ranked. As described in more detail below, a catalog 26 is created on each individual retailer web page that is used to evaluate products available from various retailers, which allows multiple online retailers to be seamlessly connected. Provides a single shopping interface that integrates into the database, and thus may search and use these stored product characteristics in the product characteristics database to facilitate comparative shopping in an online environment.

もちろん、本発明の上述した態様ではコンピュータに適用した例を説明したが、本発明はこれらに限定されるものではなく、製品広告巡回者72及び特性定義ツール80がどのように使用されるかの例としてコンピュータが選択されたに過ぎないことに注目すべきである。この点では、インターネット100等のネットワーク接続された環境上で有効に取引される全ての異なる製品及びサービスに対して本発明が適用可能であることを評価すべきである。このため、保険、財務サービス、レンタル、住居、運送、休暇パック、等を含む全ての商品及び多くのサービスに、上述した同様の方法で本発明を適用することができる。   Of course, in the above-described aspect of the present invention, examples applied to computers have been described. However, the present invention is not limited to these, and how the product advertisement patrol person 72 and the characteristic definition tool 80 are used. It should be noted that only a computer has been selected as an example. In this regard, it should be appreciated that the present invention is applicable to all different products and services that are effectively traded on a networked environment such as the Internet 100. For this reason, the present invention can be applied to all products and many services including insurance, financial services, rental, housing, transportation, vacation packs, and the like in the same manner as described above.

図6は、本発明の好ましい実施形態に従い、オンライン小売商の製品提案を有効にし、製品特性に基づいて新しい製品記録を作成するための方法のブロックダイアグラムを示している。図で判るように、図6の下側の部分は、製品広告巡回者72により製造者の製品特性ウェブページ46及び他の情報源から集められたときに製品特性を決定するための方法を基本的に説明した上述の図5の略図を提供している。同様の方法で、製品フレーズ情報は、ショッピングサーバ20で生成される製品提案巡回者74により小売商のウェブページ42等の小売商の情報源から集めることができる。このため、製品広告巡回者72と同様に、製品提案巡回者74は、コンピュータ言語モジュール(不図示)を使用するフレーズ及びそのフレーズの少なくとも1つの特性を含む小売商のウェブページ42から製品フレーズ情報を集める。また、そのフレーズの特性は、ウェブページにおけるフレーズの頻度、場所、フォントサイズ、フォントスタイル、フォントケース、フォント効果及びフォント色、及び、語順の頻度、フレーズの同時出現である。   FIG. 6 shows a block diagram of a method for validating an online retailer product proposal and creating a new product record based on product characteristics, in accordance with a preferred embodiment of the present invention. As can be seen, the lower portion of FIG. 6 is based on a method for determining product characteristics as collected by the product ad circulator 72 from the manufacturer's product characteristics web page 46 and other sources. FIG. 5 provides a schematic illustration of the above-described FIG. In a similar manner, product phrase information may be gathered from a merchant information source, such as the merchant web page 42, by a product suggester 74 generated at the shopping server 20. For this reason, as with product advertisement circulator 72, product proposal circulator 74 receives product phrase information from retailer web page 42 that includes a phrase that uses a computer language module (not shown) and at least one characteristic of the phrase. Collect. The characteristics of the phrase are phrase frequency, location, font size, font style, font case, font effect and font color, word order frequency and phrase appearance on the web page.

更に、1以上の製造者の種々のモデルを各小売商が提案しそうなため、製品提案巡回者74は、製品モデル及び製造者の特性に関する情報も獲得する。また、各製品が特定の小売商により設定された特別の価格でその特定の小売商を通じて購入されるため、小売商のURL、提案された各製品用の価格情報等の小売商特定情報もまた製品提案巡回者74により集められ、このため、製品、価格及び与えられた価格で製品を提案する小売商の特定に関する情報が全て互いに関連している。上述した集められた情報の全ては、製品提案データベース92に格納される。製造者の特定、製品モデル、製品フレーズ情報、小売商特定情報及び価格情報がどのように全て集められるかの詳細は、図5の製品広告巡回者72について上述した方法と基本的に同様であり、このため、繰り返しを避けるためここでは省略する。しかしながら、上述した教示に基づいて、そのような情報が製品提案巡回者74を使用してどのように集められ、製品提案データベース92にどのようにセーブされ、製品カタログ26の作成にどのように使用されるかは、当業者に明らかである。   In addition, because each retailer is likely to propose various models of one or more manufacturers, the product proposal circulator 74 also obtains information regarding product models and manufacturer characteristics. Also, because each product is purchased through that particular retailer at a special price set by a particular retailer, retailer specific information such as the retailer's URL and suggested price information for each product is also available. Information about the product, the price, and the identification of the merchant who proposes the product at a given price are all related to each other, gathered by the product proposal trooper 74. All of the collected information described above is stored in the product proposal database 92. The details of how the manufacturer identification, product model, product phrase information, retailer identification information, and price information are all collected are basically the same as the method described above for the product ad circulator 72 in FIG. Therefore, it is omitted here to avoid repetition. However, based on the teachings described above, how such information is gathered using the product suggester 74, how it is saved in the product proposal database 92, and how it is used to create the product catalog 26. It will be clear to those skilled in the art.

このため、上述したコンピュータの例に関連して、コンピュータ小売商のウェブページ42で提案されたコンピュータの各製造及びモデルに関する要求された情報の全て及び小売商の関連したURL等の小売商特定情報を集めるために、製品提案巡回者74はコンピュータ小売商の種々のウェブページを訪問することができる。この情報は、更なる処理のために同じ書式で、製品提案データベース92に格納される。   Thus, in connection with the computer example described above, the merchant specific information such as all of the requested information about each computer make and model proposed on the computer merchant web page 42 and the URL associated with the merchant. In order to collect information, the product suggester 74 can visit various web pages of computer retailers. This information is stored in the product proposal database 92 in the same format for further processing.

図6に示すように、本発明の好ましい実施形態に従うと、上述した情報が集められ製品提案データベース92に格納されれば、種々の小売商の提案が図1に示すショッピングサーバ20の製品カタログ26に格納された製品情報にマッチすることが確認ツール93を使用して確認される。先に説明したように、ショッピングサーバ20の製品カタログ26は、複数の小売商用の製品記述、価格及び他の製品情報等の製品情報を格納し、それらの複数の小売商が自動化された製品提案巡回者74を使用して小売商サーバ40から選択されてもよい。ショッピングサーバ20は、クライアントサーバ12にアクセスして製品カタログ26に格納された製品情報を表し、それによりシームレスに統合された複数のオンライン小売商を有する単一のショッピングインターフェースを提供し、それによりオンライン環境における比較ショッピングを容易にする。   As shown in FIG. 6, according to a preferred embodiment of the present invention, if the information described above is collected and stored in the product proposal database 92, various merchant proposals can be obtained from the product catalog 26 of the shopping server 20 shown in FIG. It is confirmed using the confirmation tool 93 that it matches the product information stored in. As described above, the product catalog 26 of the shopping server 20 stores product information such as product descriptions, prices and other product information for a plurality of retail businesses, and the product proposals for which the plurality of retailers are automated. The patrol person 74 may be used to select from the merchant server 40. The shopping server 20 accesses the client server 12 to represent product information stored in the product catalog 26, thereby providing a single shopping interface with multiple online retailers that are seamlessly integrated thereby providing online Facilitates comparative shopping in the environment.

製品提案データベース92における各製品提案用として、ステップ94に示すように、製品カタログ26に相当する適合が存在するかを決定するために製品カタログ26が検索される。そのような適合が存在していれば、その確認は特定の製品提案用として完了したと判断され、製品提案カタログ92における別の製品提案が確認ツール93を通じて確認用として選択される。コンピュータや他の手段を通じて製品カタログ26にアクセスする人の編集者が確認ツール93を実行するようにしてもよいことに注目すべきである。しかしながら、確認ツール93はコンピュータや他の自動化されたデバイスで実行するようにしてもよい。   For each product proposal in the product proposal database 92, the product catalog 26 is searched to determine if a match corresponding to the product catalog 26 exists, as shown in step 94. If such a match exists, it is determined that the confirmation has been completed for a particular product proposal, and another product proposal in the product proposal catalog 92 is selected for confirmation through the confirmation tool 93. It should be noted that an editor of a person accessing the product catalog 26 through a computer or other means may execute the verification tool 93. However, the confirmation tool 93 may be executed on a computer or other automated device.

しかしながら、製品カタログ26に相当する適合が見つからなければ、製品提案データベース92に見出される新しい製品提案で製品カタログ26をアップデートするために、製品記録作成ツール95が実行される。この点では、製品や製品カテゴリのランク付けされた製品特性を製品記録作成ツール95に提供するために、上述した製品特性データベース90にアクセスする。そして、製品提案データベース92に見出された新しい製品提案用として製品カタログ26に記録を作成し、その記録により新しい製品提案用として重要な製品特性の獲得を保証するために、製品広告巡回者72を通じて獲得されたこのようなランク付けされた製品特性が使用される。製品記録作成ツール95を人の編集者が実行するようにしてもよいことに注目すべきである。しかしながら、製品記録作成ツール95は、コンピュータや他の自動化されたデバイスで実行するようにしてもよい。   However, if no match corresponding to product catalog 26 is found, product record creation tool 95 is executed to update product catalog 26 with a new product proposal found in product proposal database 92. In this regard, the product characteristics database 90 described above is accessed to provide the product record creation tool 95 with the product characteristics ranked by product or product category. Then, a record is created in the product catalog 26 for the new product proposal found in the product proposal database 92, and in order to guarantee the acquisition of important product characteristics for the new product proposal by the record, the product advertisement patrol person 72 Such ranked product characteristics obtained through are used. It should be noted that the product record creation tool 95 may be executed by a human editor. However, the product record creation tool 95 may be executed on a computer or other automated device.

同様に、コンピュータの例について、製品定義ツール80を通じて処理され製品特性データベース90に格納されたランク付けされた製品特性は、製品記録作成ツール95に提供され、このため、新しい記録が作成されるときに、新しい製品提案用として重要な製品特性の全てが獲得され製品カタログ26に納められる。これらの製品特性は、MHz、Mb RAM、Gb、CD−ROM、CD−R、CD−RW、等、及び、コンピュータの評価に関連する製品特性データベース90に格納された多くの他の製品特性及び属性を含んでもよい。また、もちろん、コンピュータ販売への適用は一例として選択されたに過ぎず、インターネット100等のネットワーク接続された環境上で有効に取引される全ての異なる製品及びサービスに対して本発明が適用可能であることに注目すべきである。   Similarly, for the computer example, the ranked product characteristics processed through the product definition tool 80 and stored in the product characteristics database 90 are provided to the product record creation tool 95 so that a new record is created. In addition, all of the important product characteristics for a new product proposal are acquired and stored in the product catalog 26. These product characteristics include MHz, Mb RAM, Gb, CD-ROM, CD-R, CD-RW, etc. and many other product characteristics stored in the product characteristic database 90 related to computer evaluation and Attributes may be included. Of course, the application to computer sales is only selected as an example, and the present invention is applicable to all different products and services that are effectively traded in a network-connected environment such as the Internet 100. It should be noted that there is.

このため、この方法では、市場における有効な新しい製品提案に、製品カタログ26に容易に統合されるべきことを許容し、それにより、最新の製品及び価格の正確な提案をクライアントコンピュータ12に保証するために製品カタログ26が定期的にアップデートされる。しかしながら、先に評価したように、アップデートが製品提案巡回者74を通じて行われるため、製品情報はリアルタイムにアップデートされるばかりでなく、ショッピングサーバ20のバックグランドで定期的にアップデートされる。先に説明したように、ショッピングサーバ20のインターフェースを使用する望ましい方法で製品タイプ、識別番号、価格、キーワードや製品の特徴により購入用として有効な製品を表示するために、製品カタログ26上の製品情報を使用することができる。製品情報に基づいて1又は1以上の小売商サーバ40からショップを比較し製品を選択することを買い手に許可するために、クライアントコンピュータ12のブラウザウィンドウに製品情報を並べて表示することができる。全ての望ましい小売商から全ての望ましい製品及びオプションを買い手が選択すると、先に説明したように、望ましい購入の価格情報、運送情報及び他の詳細情報を確認する注文書を認証することで、買い手はショッピング及び「チェックアウト」を完了する。   For this reason, this method allows valid new product proposals in the market to be easily integrated into the product catalog 26, thereby assuring the client computer 12 an accurate proposal for the latest products and prices. Therefore, the product catalog 26 is regularly updated. However, as evaluated above, since the update is performed through the product proposal patrol person 74, the product information is not only updated in real time, but is also periodically updated in the background of the shopping server 20. As previously described, products on the product catalog 26 are displayed in order to display valid products for purchase by product type, identification number, price, keyword and product characteristics in a desirable manner using the shopping server 20 interface. Information can be used. Product information can be displayed side by side in the browser window of the client computer 12 to allow the buyer to compare shops and select products from one or more retailer servers 40 based on the product information. Once the buyer has selected all desired products and options from all desired retailers, as described above, the buyer can authenticate the purchase order to confirm the price information, shipping information and other details of the desired purchase. Completes shopping and "checkout".

上述した実施形態では、特性定義ツール80,確認ツール93及び製品記録作成ツール95は、コンピュータや他のデバイスを使用する人の編集者で行われることが好ましく、このため、それらの実行が半自動であることが注目される。本発明が異なる機能を有するこれらの異なるツールを提供するため、異なる能力及び知識を有する人の編集者が各ツールを使用することができる。例えば、確認ツール93及び製品記録作成ツール95を実行するためには比較的低レベルの能力及び知識を求められるが、特性定義ツール80を実行するためにはより高い程度の能力及び知識が求められる。それゆえ、ツール及びそれらの個々の機能が区別されることが好ましいため、本実施形態は有能な人資源の管理を許容し、特性定義ツール80を実行するために経験豊富な人の編集者を任命することができ、その他のツールを実行するために経験の乏しい人の編集者を任命することができる。もちろん、代わりの実施形態では、上述したツールが部分的に又は全体に結びつけられてもよく、また、コンピュータや他のデバイスを通じて自動的に実行されてもよく、このため、人の編集者の使用が不要となる。   In the above-described embodiment, the property definition tool 80, the confirmation tool 93, and the product record creation tool 95 are preferably performed by an editor of a person who uses a computer or other device. Therefore, the execution thereof is semi-automatic. It is noted that there is. Since the present invention provides these different tools with different functions, each editor can be used by a human editor with different capabilities and knowledge. For example, a relatively low level of capability and knowledge is required to execute the confirmation tool 93 and product record creation tool 95, but a higher level of capability and knowledge is required to execute the property definition tool 80. . Therefore, since it is preferred that the tools and their individual functions be distinguished, the present embodiment allows for the management of competent human resources and is an experienced human editor for executing the property definition tool 80. You can appoint an inexperienced editor to perform other tools. Of course, in alternative embodiments, the tools described above may be combined in part or in whole, and may be automatically performed through a computer or other device, which can be used by a human editor. Is no longer necessary.

本発明の他の実施形態を図8に示す。図8の実施形態では、小売商サーバ40及び製造者サーバ44等の複数の情報源から製品情報を集め、高度に自動化された方法で製品カタログ26を生成するために取り入れられる特性定義ツールを含んでいる。特性定義ツール800は、図8の実施形態におけるショッピングサーバ20等の汎用コンピュータ上で実行するソフトウェアの形式とすることができる。特性定義ツール800は、クラスタラ(集合)モジュール802、カテゴライザ(カテゴリ化)モジュール804、名称セレクタ/クレンザ(cleanser)モジュール806、イメージセレクタモジュール808、特性スクレーパモジュール810、補助キーワードジェネレータモジュール812、特性アグリゲータモジュール814、ディスクリプション(記述)ジェネレータモジュール816、類似製品ディスカバリモジュール818及びポストプロセッシング(後処理)モジュール820を含んでいる。   Another embodiment of the present invention is shown in FIG. The embodiment of FIG. 8 includes a property definition tool that is incorporated to gather product information from multiple sources, such as merchant server 40 and manufacturer server 44, and generate product catalog 26 in a highly automated manner. It is out. The property definition tool 800 can be in the form of software executed on a general-purpose computer such as the shopping server 20 in the embodiment of FIG. A property definition tool 800 includes a clusterer module 802, a categorizer module 804, a name selector / cleaner module 806, an image selector module 808, a property scraper module 810, an auxiliary keyword generator module 812, and a property aggregator module. 814, a description generator module 816, a similar product discovery module 818, and a post-processing module 820.

好ましい実施形態の特性定義ツール800のハイレベルの機能のフローチャートを図9に示す。図9のそれぞれのステップを以下にさらに詳細に説明する。ステップ900では、クラスタラモジュール802が小売商サーバ40に格納された記録等の複数の製品情報記録から小売商提案を分析し、同じ製品であることが最も起こりやすいことに従いそれらを集め、すなわちグループ化し、それぞれにUPID(ユニバーサル製品ID)を指定又は作成する。もちろん、製品情報は、上述した広告巡回者72等の巡回者を使用して製品情報記録から集めることができる。本実施形態では、巡回者は、特性定義ツール800による自動処理用として製品情報記録をそっくりそのまま引き出すことができる。   A high level functional flow chart of the preferred embodiment property definition tool 800 is shown in FIG. Each step of FIG. 9 is described in further detail below. In step 900, clusterer module 802 analyzes retailer proposals from a plurality of product information records, such as records stored on retailer server 40, and collects them according to what is most likely to be the same product, ie, group. And specify or create a UPID (Universal Product ID) for each. Of course, product information can be gathered from product information records using patrolmen such as the ad patroler 72 described above. In the present embodiment, the patrol person can extract the product information record as it is for automatic processing by the characteristic definition tool 800.

ステップ902では、分類のカテゴリに既に分類された他の製品とその製品との比較分析に基づいて、カテゴライザモジュール804が製品カタログ分類におけるカテゴリにそれぞれのUPIDを位置付ける。製品カタログ分類の決定は一般によく知られている。ステップ904では、名称セレクタ/クレンザモジュール806が製品記録のグループに見出される製品用の多種の異なった名称から最良名を選択し、製品の名称フィールドに一般に見出される余分に挿入されたテキストやつなげられたテキストの名称を除去する。そして、一致したスタイルであり、問題の特定のカテゴリ用として最も関連したコンテントのみを有するオプションの長い名称を組み立てる。   In step 902, based on a comparative analysis of the product with other products already classified in the category of classification, the categorizer module 804 positions each UPID in the category in the product catalog classification. The determination of product catalog classification is generally well known. In step 904, the name selector / cleanser module 806 selects the best name from a variety of different names for the products found in the group of product records and connects the extra inserted text commonly found in the product name field. Remove the name of the given text. We then assemble an optional long name that has a consistent style and has only the most relevant content for the particular category in question.

ステップ906では、サイズ、タイプ、品質、調和、情報源の信頼性その他の因子に基づいて、イメージセレクタモジュール808がグループにおける全ての種々の製品情報記録から最も好ましい製品イメージを選択する。ステップ908では、特性スクレーパモジュール810が各有効な製品情報記録からそれぞれの製品用として標準化された属性値をかき集め(scrape)、それを実行するかき集めの各行為に信頼等級を供給する。ステップ910では、補助キーワードジェネレータモジュール812が、標準化された属性用というより、それぞれのグループ用として拡張可能なキーワードに関連すること以外はステップ908の処理と同様の処理を繰り返す。   In step 906, based on size, type, quality, harmony, source reliability, and other factors, the image selector module 808 selects the most preferred product image from all the various product information records in the group. In step 908, the property scraper module 810 scrapes the attribute values standardized for each product from each valid product information record and provides a confidence rating for each act of scraping that performs it. In step 910, the auxiliary keyword generator module 812 repeats the same processing as in step 908 except that it relates to keywords that can be expanded for each group rather than for standardized attributes.

ステップ912では、多くのかき集めたもの(scrapings)を組合せ、各製品の各属性用の最終の数値を決定するために、重み付けされた決定用(voting)エンジンを使用することで、特性アグリゲータモジュールが特性スクレーパモジュール810の出力を処理する。また、ステップ810では、補助キーワードが種々のアルゴリズムの1つに基づいて標準化される。   In step 912, the characteristic aggregator module uses a weighted decision engine to combine many scrapings and determine a final number for each attribute of each product. Process the output of the characteristic scraper module 810. Also, at step 810, auxiliary keywords are standardized based on one of various algorithms.

ステップ914では、ジェネレータ816がそれぞれの製品を記述する短いテキストを構成する。そのテキストは、評価可能ではなく、ステップ810及び812で達成された属性値を使用するテンプレートに基づいている。例えば、製品の最も重要な特性に対する参照文で例示することができる多くの記述テンプレートの1つをランダムに選択し、単調さを回避するために重要でないワードやフレーズの変化を実行することでこれを達成することができる。最終ステップは適切な文の書式設定、句読点、大文字化を確保する。   In step 914, generator 816 constructs a short text describing each product. The text is not evaluable and is based on a template that uses the attribute values achieved in steps 810 and 812. For example, this can be done by randomly selecting one of many descriptive templates that can be illustrated with references to the most important characteristics of the product and performing unimportant word or phrase changes to avoid monotony. Can be achieved. The final step is to ensure proper sentence formatting, punctuation and capitalization.

ステップ916では、類似製品モジュール818が、アクセサリ、部品、コネクタ等の関連した類似製品、及び類似製品のセットを構成する組(bundle)やキットを認識する。マニュアルでも自動的でも種々の方法で信頼限界以下のいかなるアイテムも特別に取り扱うことができる。類似製品モジュール818を以下に詳細に説明する。   In step 916, the similar product module 818 recognizes related similar products such as accessories, parts, connectors, etc., and the bundles or kits that make up the set of similar products. Any item below the confidence limit can be specially handled in various ways, either manually or automatically. The similar product module 818 is described in detail below.

クラスタラモジュール802で実行されたクラスタリング(clustering)は、予め付されたUPIDを有していない種々の小売商提案を一緒にグループ化し、各グループ用として新しいUPIDを作成する処理である。この処理は、1製品対多価格の関係の結果となる。クラスタリングを可能にするために、多くの特徴が製品を記述する小売商の提案記録、製造者記録、配給者記録及びその他の記録(ここでは集合的に「製品情報記録」に相当する)から抽出される。   Clustering performed by the clusterer module 802 is a process of grouping together various retailer proposals that do not have a pre-assigned UPID and creating a new UPID for each group. This process results in a one product to multi-price relationship. Many features are extracted from retailer proposal records, manufacturer records, distributor records, and other records (collectively referred to here as “product information records”) to enable clustering. Is done.

クラスタリングを製造者が実行してもよく、すなわち、処理の「プライマリ(第1)キー」は製造者名となる。このため、解決すべき第1の課題は、同じ製造者に対する参照文の異なるフォームが本当に同じであることを決定することである。異なる製造者の製品を偶然にクラスタリングするリスクは僅かであるが、それが生じたときは非常に重大なエラーとなり、それゆえ、このエラーを回避することがシステムにとって重要である。製造者の識別番号及びモデル識別子におけるパターンを発見することでシステムは非常に大規模になっている。このことが製造者を既に製品名のほかに分けていることの証しであり、−ある製品情報記録が製造者やブランド名を製品名フィールドの部分として含むケースは通常ではない。従って、クラスタリングに使用するための製造者名フィールドを構成するために第1パスを要求してもよい。   Clustering may be performed by the manufacturer, that is, the “primary (first) key” of the process is the manufacturer name. Thus, the first problem to be solved is to determine that the different forms of reference text for the same manufacturer are really the same. The risk of accidentally clustering products from different manufacturers is small, but when it happens it is a very serious error and therefore it is important for the system to avoid this error. Discovering patterns in manufacturer identification numbers and model identifiers has made the system very large. This is a proof that the manufacturer has already been separated from the product name-it is unusual for a product information record to include the manufacturer or brand name as part of the product name field. Thus, a first pass may be required to configure a manufacturer name field for use in clustering.

製造者名(又はブランド名)が別々に得られさえすれば、クラスタラモジュール802は、全ての製品情報記録を選択するためにサブ配列検索に使用するデータ列としてこの名称を付与し、その製品情報記録では製造者名がこのサブ配列で始まる。例えば、「ベル(bell)」で始まる製造者名を有する製品提案のスペース上でクラスタラモジュール802を開始することができる。「ベル アトランティック」、「ベル インダストリーズ、インコーポレイテッド」、「ベル マイクロプロダクツ」等の製造者列を有する製品提案を選択したときに、このことがデータセットを処理用として定義する。これらの名称は標準化され(「インコーポレイテッド」や「コーポレーション」等の不要な部分が除かれ)、カタログからの1製造者名とマッチする最小の製造者名がカタログから見出されるまで、更にワードが終端から除かれる。例として、「ソニー(sony)」を付している全てのデータプロバイダには今日では複数の異なる名称があり、このため、複数の「ソニー様(sony like)」製造者名のどれを「標準」として使用すべきかを決定するために更なる作業が要求される。そのシステムは種々のデータ情報源から製造者の別名を使用してもよく、更に、マニュアルでもUPCマッチ(小売商に製造者名を要求しない)を通じてでも、カタログが「ブートストラップされ(bootstrapped)」、製品が作成され、小売商提案が新しい製品に配置されたときに、別名を引用してもよい。   As long as the manufacturer name (or brand name) is obtained separately, the clusterer module 802 assigns this name as the data string used for the sub-sequence search to select all product information records, and the product In the information record, the manufacturer name starts with this sub-array. For example, clusterer module 802 can be started on a product proposal space having a manufacturer name that begins with “bell”. This defines the data set for processing when selecting a product proposal with a manufacturer column such as “Bell Atlantic”, “Bell Industries, Inc.”, “Bell Micro Products”. These names are standardized (excluding unnecessary parts such as “Incorporated” and “Corporation”), and more words are found until the smallest manufacturer name that matches one manufacturer name from the catalog is found in the catalog. Removed from the end. As an example, all data providers labeled with “Sony” today have several different names, and therefore, one of several “Sony Like” manufacturer names is designated as “Standard”. Further work is required to determine what should be used. The system may use manufacturer aliases from various data sources, and the catalog is “bootstrapped” either manually or through a UPC match (which does not require the retailer to supply the manufacturer name). The alias may be quoted when the product is created and the retailer proposal is placed on a new product.

特定のパス用としてデータセットを定義した後、クラスタラモジュール804がクラスタリングするステップを開始する。多くの公知の標準AI「クラスタリング」アルゴリズムが存在しており、いずれの1つも基線(baseline)クラスタリングを満たすことができる。しかしながら、製品の十分なクラスタリングは、以下に説明するように多くの要素及び調整を有する基線クラスタリングをしばしば増加させることとなる。基線クラスタリング手順の単純な概要は以下の通りである:
a.いずれのクラスタ、すなわち製品グループもまだ存在しなければ、最初の製品が最初のクラスタとなる
b.別の方法で、密接な適合用のクラスタを通じて検索する
c.密接な適合であればそれを結合する
d.密接な適合がなければ、単独のクラスタとなる
After defining a data set for a particular path, the clusterer module 804 begins the clustering step. There are many known standard AI “clustering” algorithms, any one of which can satisfy a baseline clustering. However, sufficient clustering of the product will often increase baseline clustering with many elements and adjustments as described below. A simple overview of the baseline clustering procedure is as follows:
a. If none of the clusters, i.e. the product group already exists, the first product becomes the first cluster b. Another way to search through clusters for close matching c. Combine close fits d. If there is no close match, it becomes a single cluster

「密接な適合」を決定するためのいくつかのアプローチがある。以下のセクションではそのアプローチの例について説明する。製品が同じであるもの、すなわち同じグループにすべきかを決定する第1のアプローチでは、製造者識別番号、可能であればUPCやモデルIDsを検査し、その名称における表面上の変化を標準化する。その間に、クラスタラモジュール802は、その可能性を制限するように、いくつかのパスを作成し、最初に別のクラスタであったものを一緒に組み合わせてもよい。この制限は、多くの場合では、クラスタラモジュール802の効力であり、その効力は、文字−数字パターンが、誘導的に、その工業周辺の種々の製品ファミリィにあると思われることを「それ自身に教える「こと及び不良データを除外するためにこの知識を使用することである。全てのデータ情報源が原始的であるアイディアル(ideal)ワールドでいかに動作するかに対して、不良データが一般的である事実のため、本当に、クラスタラモジュール802は、多くの点で異なって作動する。   There are several approaches to determine “close fit”. The following section describes an example of that approach. The first approach to determining if products are the same, i.e., the same group, is to examine manufacturer identification numbers, possibly UPCs and model IDs, and normalize surface changes in their names. In the meantime, the clusterer module 802 may create several paths and combine together what was originally another cluster together to limit that possibility. This limitation is often the potency of the clusterer module 802, which says that the letter-number pattern is inductive and appears to be in various product families around the industry. Is to use this knowledge to filter out bad data. For all data sources, bad data is common to how it works in an ideal world. The clusterer module 802 really works differently in many ways due to the fact that it is.

一例では、1つの製造者がビデオカムコーダの全てに「VCM」の文字で始まり1以上の文字が続く識別番号を与えてもよく、そして3つの番号を与えてもよい。しかしながら、ある小売商は、製造者識別番号フィールドに彼らの内部のSKUをあちこちに挿入する(実際には非常に一般的な問題である)。小売商の内部のSKUは上述した番号−文字パターンに適合せず、実際には非常に異なるため、予想された書式における識別番号を検索するためにプログラムされたシステムは、内部のSKUを有する配列をエラーとみなし、記録の他の部分を検査し続け、その記録には問題の提案のクラスタリングを可能にするためにいくつかの他のデータが見出される(例えば、不良な製造者識別番号にもかかわらず、その製品名が完全な形であり、データベースにおける多くの他の提案に完全にマッチしている)。   In one example, one manufacturer may give all of the video camcorders an identification number that begins with the letters “VCM” followed by one or more letters, and may give three numbers. However, some merchants insert their internal SKUs in the manufacturer identification number field (actually a very common problem). Since the retailer's internal SKU does not conform to the number-character pattern described above and is actually very different, the system programmed to retrieve the identification number in the expected format is an array with the internal SKU. Will continue to inspect other parts of the record, and the record will find some other data to allow clustering of problem proposals (for example, a bad manufacturer identification number) Regardless, the product name is complete and perfectly matches many other proposals in the database).

クラスタラモジュール802は、製品のUPCを変更している(それらのほとんどがそのままではない)小売商に多くの方法を適応させることもできる。あるものは最初のゼロを除き、彼ら独自の内部の意味を有する1桁又は2桁を終端に加え、検査合計の桁を除く。自動化された試行錯誤を通じて、クラスタラモジュール802は、UPCsを引っ張る特定の小売商パターンを脱構成し再構成することを試みる。変換ルールが小売商の特有のUPCから最終的なUPCを十分に再構成することを調べるために、一定で完全なUPCが公知の少なくとも1つの情報源を有し、多くの公知の実践的な技術を適用することでこのことが可能とされる(例えば、ヒドゥン マルコフ モデルやスタンダードロジックプログラムを使用することでこれを行うことができる)。ヒドゥンマルコフモデル(HMM)は、制限された状態マシン(machine)の公知の変種であり、1組の状態Q、出力アルファベットO、変換確率A、出力確率B及び初期状態確率Piを有している。現在の状態は検出できない。その代わり、それぞれの状態が特定の確率Bを有する出力を生成する。通常、状態Q及び出力Oが考慮され、HMMが3つ(A、B、Pi)で示される。HMMsはスピーチ認識及び他の応用における使用するものとして知られている。   The clusterer module 802 can also adapt many methods to retailers that are changing the UPC of a product (most of which are not intact). Some remove the first zero, add one or two digits with their own internal meaning to the end, and exclude the checksum digits. Through automated trial and error, clusterer module 802 attempts to deconfigure and reconfigure specific merchant patterns that pull UPCs. In order to see that the transformation rules fully reconstruct the final UPC from the retailer's unique UPC, the constant complete UPC has at least one known source of information, and many known practical This can be done by applying technology (for example, this can be done using a Hidden Markov model or a standard logic program). The Hidden Markov Model (HMM) is a known variant of a restricted state machine that has a set of states Q, output alphabet O, conversion probability A, output probability B, and initial state probability Pi. . The current state cannot be detected. Instead, each state produces an output with a certain probability B. Normally, the state Q and the output O are considered, and three HMMs (A, B, Pi) are indicated. HMMs are known for use in speech recognition and other applications.

クラスタラモジュール802には以下に説明する多くの他の機能がある。図8のステップ900でクラスタリングが完了した後、ステップ900におけるオリジナルのクラスタリングと通常同じ方法を使用して、週及び月の期間を越えて現れる追加の小売商の提案がマッチ(適合)することの自動確認が実行される。   The clusterer module 802 has many other functions described below. After clustering is completed in step 900 of FIG. 8, additional merchant proposals that appear beyond the week and month periods are typically matched using the same method as the original clustering in step 900. Automatic verification is performed.

存在するとき、別の製品記述記録におけるアイテムが同じであり、このため、クラスタラモジュール802で同じグループに一緒にクラスタリングされるべきかを判断するために、モデルIDや製品名はしばしば最良の手がかりである。しかしながら、これが失敗となる多くの方法があり、失敗とみなすべきである。第1には、句読点及び大文字化にすぎず、以下の違い等である:
「$69.49 Sony MD−74 Mini−Disc player」
「$75.99 Sony MD74」
「$68.00 Sony MD 74 Mini Disc Personal Player」
When present, model IDs and product names are often the best clues to determine if items in different product description records are the same, and therefore clusterer module 802 should be clustered together in the same group. It is. However, there are many ways this can fail and should be considered a failure. The first is only punctuation and capitalization, with the following differences:
"$ 69.49 Sony MD-74 Mini-Disc player"
"$ 75.99 Sony MD74"
"$ 68.00 Sony MD 74 Mini Disc Personal Player"

別のものはモデルIDに次のような余分な用語がつなげられている:
「$59.99 Sony Black MD 74」
「$68.99 Sony Silver MD−74 BB」
Another one has the following extra term attached to the model ID:
"$ 59.99 Sony Black MD 74"
"$ 68.99 Sony Silver MD-74 BB"

ここで、「BB」は「バスブースト」を意味しており、全てのそのようなモデルが有する単純な特徴であり、異なる製品であることを本当には示していない。対照的に、ブラック(Black)及びシルバ(Silver)間の違いは明確な違いを示している。シルバモデルを買い求める多くの人はブラックモデルを有することを望んでおらず、ある場合には、小売商が他の点では同じデバイスのもう1つよりはもう1色を担当してもよい。   Here, “BB” means “bass boost”, which is a simple feature of all such models and does not really indicate that it is a different product. In contrast, the difference between Black and Silver shows a clear difference. Many people who want to buy a silver model do not want to have a black model, and in some cases a retailer may be responsible for one more color than the other in the same device.

句読点における違いを取り扱い解決するために基本的なロジックのみが要求されるが、次に示すように、製品やキットの色、サイズ及び優れた特徴等のアイテム用の特別な取り扱いを獲得することができる。
「$99.50 Special!Sony MD−74 Plemium Kit with Mini Speakers and Leather Case」(99.50ドル スペシャル、ソニー製MD−74、プレミアムキット、ミニスピーカ及びレザーケース付き)
この場合では、価格の違い;「キット」の存在;それら自身における又はそれら自身の製品の別のカテゴリであるべきことを示す製品データベースのアイテムの記述(スピーカ、ケース)が全ての手がかり、すなわち、この提案がMD−74を含み単なるMD−74それ自身だけではない製品の「組」である高い可能性があることを伝えている。
Only basic logic is required to handle and resolve differences in punctuation, but you can gain special handling for items such as product and kit colors, sizes and superior features, as shown below: it can.
"$ 99.50 Special! Sony MD-74 Premium Kit with Mini Speakers and Leather Case" ($ 99.50 Special, with Sony MD-74, Premium Kit, Mini Speaker and Leather Case)
In this case, the price differences; the presence of “kits”; the description of the product database items (speakers, cases) that indicate what should be in their own or another category of their own products, all clues, It conveys that this proposal is likely to be a “set” of products, including MD-74, not just MD-74 itself.

多くの場合には、曖昧な配列の適合が、提案が同じであるかのようないくつかの手がかりを提供し、情報源データのスペルエラに注意することにおいて重要である。スペルエラは、例えば、次の通りである:
「$74.50 Sony Mini−Disc Player MD−74」
「$69.49 Sony Mini−Discc [sic] Player MD74」
In many cases, ambiguous sequence matching is important in providing some clue as if the proposals are the same and paying attention to the spelling of the source data. Spellera is, for example, as follows:
"$ 74.50 Sony Mini-Disc Player MD-74"
"$ 69.49 Sony Mini-Discc [sic] Player MD74"

第1パスとして、全体の配列上での曖昧な適合がクラスタリング用の第1の候補群を容易に完成させることができる。例えば、単独の曖昧な適合で、最初のクラスタとして数え切れない多数の提案から次のリストが選択される:
「Sony MD−80 Mini−Disc Player」(ソニー製MD−80 ミニディスクプレイヤ)
「Mini−Disc Player MD−74 from Sony」(ミニディスクプレイヤ MD−74 ソニー製)
「Sony New MD−74 music disc player」(ソニー製新MD−74 ミュージックディスクプレイヤ)
「M−740 Symphony Synth from Moog」(M−740 シンフォニィ シンセ ムーク製)
「Sony MD−74 Personal Music Device」(ソニー製MD−74 パーソナルミュージックデバイス)
「Sony 8−inch Mini−TV−80」(ソニー製8−インチ ミニ−TV−80)
As a first pass, an ambiguous match on the entire array can easily complete the first candidate group for clustering. For example, the following list is chosen from a number of suggestions that are countless as the first cluster, with a single ambiguous match:
"Sony MD-80 Mini-Disc Player" (Sony MD-80 Mini Disc Player)
"Mini-Disc Player MD-74 from Sony" (Mini Disc Player MD-74 made by Sony)
"Sony New MD-74 music disc player"(Sony's new MD-74 music disc player)
"M-740 Symphony Synth from Moog" (M-740 Symphony Synthetic Mook)
"Sony MD-74 Personal Music Device" (Sony MD-74 personal music device)
"Sony 8-inch Mini-TV-80" (Sony 8-inch mini-TV-80)

全てこれらは、テキストコンテントの明らかに重なり合う部分を有していることに注目する。しかしながら、「Symphony」及び「Sony」は67%の曖昧な適合を有している−両者のワードをつなげた12文字のうち8文字が同じであり、同じ順序である。いくつかの曖昧な適合の候補がまだ間違っていることをいかに避けることができないかをこのことが示している。それでもなお、クラスタラモジュール802が処理するために6製品だけを有しており600,000ではないことは、途方もなく大幅に制限されている。残りのものは、上述したリストにおける第1アイテムをリスト中の残りのアイテムから分けるために、MD−74及びMD−80間の違いが重要であることを特定するためのものであり、「Synth」(又は「Moog」)及び「TV」の存在が第4及び第6アイテムをそれぞれ無効にすることを決定するためである。   Note that all these have clearly overlapping portions of text content. However, “Symphony” and “Sony” have a 67% ambiguous match—8 of the 12 characters that connect both words are the same and in the same order. This shows how some ambiguous candidate matches still cannot be avoided. Nevertheless, the fact that the clusterer module 802 has only 6 products to process and not 600,000 is tremendously limited. The remaining is to specify that the difference between MD-74 and MD-80 is important in order to separate the first item in the above list from the remaining items in the list. ”(Or“ Moog ”) and“ TV ”to determine to invalidate the fourth and sixth items, respectively.

クラスタラモジュール802は特定のワードも無視する。上述した例では、ワード「New」及び「Player」は本当に何も加えないことに注目する。「New」は、全ての種類の製品市場で非常にしばしば使用される例外的なワードの一例であり、ランダムワードが取り扱われる方法とは別に取り扱われる。特に、新製品を中古品や修復製品から区別することを除いて、全ての目的で無視されるべきことが必要である。一方、「Player」は、初期クラスタを作成するための初期パスで役に立つが、しかしながら、この一語の存在対非存在が異なる製品としてカウントされることに、そのシステムはそのような大きな重要性を示していない。これは、「Player」が製品の全体のカテゴリに関連する「共通の名詞」である事実に基づいている。他の例は、「TV」、「CD」、「ビデオ」その他である。特に、クラスタリングステップ900の後の段階では、取引業者が製品名にそれを含めるか含めないかは単なるオプションであるため、共通の名詞が無視される。それらが初期クラスタに含まれるべき第1パスを作成することにおいて重要な手がかりである事実をこのことが取り除くものではない。   Clusterer module 802 also ignores certain words. Note that in the example above, the words “New” and “Player” really do not add anything. “New” is an example of an exceptional word that is very often used in all types of product markets and is handled separately from the way random words are handled. In particular, it should be ignored for all purposes except to distinguish new products from second-hand and restored products. On the other hand, “Player” is useful in the initial path to create the initial cluster, however, the system has such great importance that the presence vs. absence of this word is counted as a different product. Not shown. This is based on the fact that “Player” is a “common noun” associated with the entire category of products. Other examples are “TV”, “CD”, “video” and others. In particular, at a stage after the clustering step 900, common nouns are ignored because it is merely an option for the trader to include or not include it in the product name. This does not remove the fact that they are an important clue in creating the first pass to be included in the initial cluster.

「MD−74」及び「MD−80」における「74」及び「80」等の番号は、製品の2つのモデルを互いに区別するために明らかに決定的である。一般的なルールとして、モデル名や製品名における異なる番号は、異なる製品であることを示すため採用すべきである。しかしながら、同様にこれを例外とすべき必要もある。例えば、次の通りである:
「$12.99 Hasbro Wayne Gretzky #13 ActionFigure」
「$13.99 Hasbro Wayne Gretzky 6−inch Action Figure Mighty Ducks」
Numbers such as “74” and “80” in “MD-74” and “MD-80” are clearly decisive to distinguish the two models of the product from each other. As a general rule, different numbers in model names and product names should be used to indicate different products. However, there should be exceptions as well. For example:
"$ 12.99 Hasbro Wayne Gretzky # 13 ActionFigure"
"$ 13.99 Hasbro Wayne Gretzky 6-inch Action Figure Mighty Ducks"

「13」及び「6」間のここでの違いは、これらが実際には同じであるときに異なる製品であることをクラスタラモジュール802に予想させる。これを解決するための最良の方法は、特定のカテゴリ用の属性が番号に表されることがあり、製品名の部分としてつなげられることもあることをシステムとして認識することである。この場合、スポーツアクションフィギュアは、可能な属性としてジャージ番号(「#13」)を有し、インチ単位の高さ(「6−inch」)を有する。これらのパラメータ用のシステムチェックを有することで、製品名配列での異なる番号の単なる出現のために適合の確率を劇的に低下させることを回避することができる。そのようなパラメータを発見しない場合、製品名に異なる番号が存在するときはいつでも、そのシステムは適合する製品の推定の確率を低下させる。   The difference here between “13” and “6” makes the clusterer module 802 expect that they are different products when they are actually the same. The best way to solve this is to recognize as a system that attributes for a particular category may be represented in numbers and may be connected as part of the product name. In this case, the sports action figure has a jersey number (“# 13”) as a possible attribute and a height in inches (“6-inch”). Having system checks for these parameters can avoid dramatically reducing the probability of matching due to the mere appearance of different numbers in the product name array. Without finding such a parameter, whenever there is a different number in the product name, the system reduces the probability of a matching product estimate.

このことにもかかわらず、次に示す「3」及び「4」間の違い等の名称における付加的な番号がクラスタリングを除外する:
「$13.99 Hasbro Wayne Gretzky #13 ActionFigure Series 3」
「$14.99 Hasbro Wayne Gretzky 6−inch Action Figure Mighty Ducks Series 4」
Despite this, additional numbers in names such as the difference between “3” and “4” below exclude clustering:
"$ 13.99 Hasbro Wayne Gretzky # 13 ActionFigure Series 3"
"$ 14.99 Hasbro Wayne Gretzky 6-inch Action Figure Mighty Ducks Series 4"

クラスタを分ける、すなわち特定の製品に相当するアイテムのグループを形成するために重要であると考えられる名称を決定するには、特定のカテゴリに専門化した小売商及び多くのカテゴリを広範囲にカバーする小売商間;同様に、特定のカテゴリに既にカタログ化された提案及び全体のカタログ間で、差分頻度分析が実行される。この分析の結果は、各カテゴリ用として、一般に全体の資料におけるよりそのカテゴリにおいて非常に頻繁にある用語のリストである。1つのカテゴリでの非常に一般的なワード(又はフレーズ)が、通常は、システムがそのカテゴリにおける製品間の差異を示していないとみなすワードであるため、これは、新アイテムのカテゴリ化に有効であり(後述)、クラスタリング用としても有効である。ワード「サーベル(saber)」を例としてあげる。これは全体の資料では稀に挙げられるワードであるが、アクションフィギュアでは非常に頻繁に挙げられ、「ライトサーベルと共に現れる」スターウォーズアクションフィギュアの優越に与えられる。ここで、システムが次のような2つの提案を見出したと仮定する:
「$5.99 Obi Wan Kenobi 6” Nabo garb withlight saber」
「$5.99 Obi Wan Kenobi 6” Naboo garb」
To broadly cover specialized retailers and many categories specialized for a particular category to determine the names that are considered important to divide the cluster, i.e. form a group of items corresponding to a particular product Similarly, a difference frequency analysis is performed between proposals already cataloged in a particular category and the entire catalog. The result of this analysis is, for each category, a list of terms that are generally more frequently in that category than in the entire source. This is useful for categorizing new items because a very common word (or phrase) in one category is usually a word that the system considers not showing any differences between products in that category. (Described later) and is also effective for clustering. Take the word "saber" as an example. This is a rare word in the whole document, but it is mentioned very often in action figures and is given to the superiority of Star Wars action figures that "appear with light sabers". Now assume that the system has found two proposals:
"$ 5.99 Obi Wan Kenobi 6" Nabo garb withlight saber "
"$ 5.99 Obi Wan Kenobi 6" Naboo garb "

通常は、一方にあり他方にない「サーベル」の存在はアイテムを異なるものとして計数する方に重きを置かれるが、しかしながら、このカテゴリにおいてあげられるべき「サーベル」についていかに一般的であるかのシステムの認識が、そのワードがオプションの記述的フレーズに過ぎず、一方のアクションフィギュアが他方に対して特別ではないことの可能性を高める。また、これは蓋然的であり評価されうる多くの因子の1つに過ぎない。   Usually, the presence of a "saber" on one side but not on the other places more emphasis on counting items as different, however, a system of how common is the "saber" to be listed in this category Recognition increases the possibility that the word is only an optional descriptive phrase and that one action figure is not special to the other. This is also probable and only one of many factors that can be evaluated.

クラスタリングステップ900でシステムを援助する別の実際的なチェックは、前の確率をチェックすることであり、例えば、有効な製品情報記録や他の情報のコンテントで証明されるような、いかに多くの非常に類似した製品が市場にあるかを検査することである。その数値が高ければ、そのシステムでは製品名における重要でない差異でさえも疑わしくなる。しかしながら、その数値が低ければ、システムは重要でない差異を容認することができる。例えば、データベースに1つだけ又は2つの「アブラハムリンカーン アクションフィギュア」製品があると、追加製品を配置する提案の確率は比較的乏しい。対照的に、データベースに100以上の異なる「ルークスカイウォーカ アクションフィギュア」の製品があると、その名称における重要でない違いを有する新しいルークスカイウォーカの提案が非常によくある新しい異なるモデルであることを示唆している。換言すれば、間違ってクラスタ化されるルークスカイウォーカのアクションフィギュアの可能性は、最初は、非常に大きい−それが与えられたグループに属するチャンスは100のうち1である。一方では、2つのアブラハムリンカーンのアクションフィギュアがあると、そのクラスタ又は他のクラスタに属する提案のチャンスはすぐに50−50になる。これは、クラスタリング予測の信頼における因子となる。   Another practical check that assists the system in the clustering step 900 is to check previous probabilities, for example how much emergency, as evidenced by valid product information records and other information content. Is to check if there is a similar product on the market. The higher the number, the more suspicious even the insignificant differences in product names in the system. However, if the number is low, the system can tolerate minor differences. For example, if there are only one or two “Abraham Lincoln Action Figure” products in the database, the probability of a proposal to place additional products is relatively poor. In contrast, having more than 100 different “Luke Skywalker Action Figure” products in the database suggests that a new Luke Skywalker proposal with an insignificant difference in its name is a very different new model. is doing. In other words, the chances of a Luke Skywalker action figure being clustered incorrectly are initially very large—the chance of belonging to the group to which it is given is 1 out of 100. On the other hand, if there are two Abraham Lincoln action figures, the chances of a proposal belonging to that cluster or another cluster will be immediately 50-50. This is a factor in the reliability of clustering prediction.

グループ数の決定では、小売商の範囲は、(1)単一の小売商により提案された類似アイテムの最大の選択がそのアイテムのファミリィ用の最小のグループ数として供給されるように考慮されてもよく、(2)適切なグループ数であるように更なる手がかりを提供するために種々の小売商の製品範囲の相違点が推測されるように考慮されてもよい。例えば、システムが「ルークスカイウォーカ アクションフィギュア」に見られるような数百の提案を番地付けし、37の異なる「ルークスカイウォーカ」の提案のうち1つの小売商を仮定すると、システムは、(この1つの特定の小売商がデータセットにおける多すぎる提案を複製しないことを信じて)この製品のファミリィ用として少なくとも37のクラスタが必要であることを推定することができる。更にまた、既にUPID化された製品中に、全体の10の提案ごとに約1.5のユニーク(unique)な提案があると(例えば、KBキッズが23のそのようなアクションフィギュアを有しており、KBキッズのみにより提案されたものにおいて23のうち3がユニークなことを意味し、この種の割合がルークスカイウォーカのアクションフィギュアが既にUPID化された全ての小売商中に見出されるような割合の平均であることを意味する)、仮に、同じ歴史的相違点の割合を得るとすれば、いかに多くの推定された新しいユニークな製品が存在するかについて推定するために(UPID化された製品の提案をまだ有していない小売商の残りのセットを越える)、そのシステムはこの情報を使用することができる。これら全ての計測は、種々の一時的なクラスタリング結合の信頼レベルに重みを付けるために実施することができる「実際的」又は「実践的」計測に効果的である−上述した計測とよく一致する(すなわち、推定されたフィギュアに密接になる)結合は、その計測から大幅に外れるものより高い信頼レベルを有する。   In determining the number of groups, the retailer's scope is considered (1) so that the maximum selection of similar items proposed by a single retailer is provided as the minimum number of groups for that item's family. (2) It may be considered that differences in the product range of different retailers may be inferred to provide further clues to the appropriate number of groups. For example, if the system addresses hundreds of proposals as seen in the “Luke Skywalker Action Figure” and assumes one retailer out of 37 different “Luke Skywalker” proposals, the system ( It can be estimated that at least 37 clusters are needed for this product family (believing that one particular retailer does not replicate too many proposals in the dataset). Furthermore, if there are about 1.5 unique proposals for every 10 proposals already in UPID products (for example, KB Kids has 23 such action figures) This means that 3 out of 23 are unique among those proposed by KB Kids only, and this kind of proportion is found in all retailers where Luke Skywalker action figures are already UPID. (Meaning that it is the average of the percentages), if we get the same percentage of historical differences, to estimate how many presumed new unique products exist (UPIDized) Beyond the remaining set of merchants who do not yet have product proposals), the system can use this information. All these measurements are effective for “practical” or “practical” measurements that can be performed to weight the confidence levels of the various temporary clustering joins-in good agreement with the measurements described above Couplings (ie close to the estimated figure) have a higher confidence level than those that deviate significantly from the measurement.

名称、記述及び仕様がクラスタラモジュール802に2つの製品が同じであるかを決定することを難しくさせる多くの場合には、それ自身の価格が重要な、おそらく明確な因子である。例えば、1つの提案が7.99ドル($)であり別の提案が59.99ドルなら、そして表面的には同様の記述なら、同じ製品であることはなさそうである。しかしながら、いくつかの注意がある。まず、見切り品処分や在庫一掃セール、修復されたアイテム及び再認証されたアイテム(開封された箱内の返送された製品等)等の例外的な状況についてクラスタラが解析し分析することに注意すべきである。ある場合には、これらのアイテムは更にコストが下げられている。   In many cases, the name, description, and specification make the clusterer module 802 difficult to determine if two products are the same, its own price is an important and possibly obvious factor. For example, if one proposal is $ 7.99 ($) and another proposal is $ 59.99, and superficially the description is unlikely to be the same product. However, there are some cautions. First, note that the clusterer analyzes and analyzes exceptional situations such as part-time disposal, inventory clean-up sales, repaired items, and re-certified items (such as returned products in unsealed boxes). Should. In some cases, these items are further reduced in cost.

仲買された別の違いは小売商価格における典型的な差分である。多くの第1階層小売商は、型通りに、30%まで又はあるディスカウント小売商以上に請求する。別の考慮は、価格競争力及びカタログにおける一貫性である。あるカテゴリでは、そのシステムは、既にカタログ化されたアイテムから、小売商間の価格変動が典型的には他のカテゴリのそれより大きいことを決定することができる。これら全ての因子を考慮した後、価格の違いがまだ大きければ、同じ製品にある提案の可能性がそれにつれ低下する。   Another difference that has been brokered is the typical difference in retailer prices. Many first tier retailers typically charge up to 30% or more than some discount retailers. Another consideration is price competitiveness and consistency in the catalog. In one category, the system can determine from an already cataloged item that price fluctuations between retailers are typically greater than that of other categories. After considering all these factors, if the price difference is still large, the likelihood of a proposal in the same product decreases accordingly.

小売商の価格設定を考慮せずに、ほとんどの小売商は−小売商価格及びそのMSRPの差として派生した明らかな「節約(savings)」を通常自慢するために製品のMSRPをリスト化する。小売商は、通常、製造者及び配給者から同じMSRPを取り入れるため、実際の小売商価格それ自身におけるMSRPであると解釈するものにおいて小売商が互いに同じとなる傾向がある。そして、この情報が有効であるときは、クラスタラモジュール802で重み付けがされ、実際には、小売商の価格設定と同様のものより重くなる。多くの他の因子も同様に、データがときどき不完全となるため(すなわち、小売商の誤植を通じて、又は、稀に、別の小売商が更に最新式のMSRPを反映しているのに対して旧式のMSRPを有する小売商を通じて)、ブール検査だけではなく、重み付けも行うべきである。   Without considering retailer pricing, most retailers list the MSRP of a product to typically boast obvious “savings” derived as the difference between the retailer price and its MSRP. Since retailers typically incorporate the same MSRP from manufacturers and distributors, retailers tend to be the same in what they interpret as MSRP at the actual retailer price itself. When this information is valid, the clusterer module 802 is weighted, and actually is heavier than the retailer pricing. Many other factors as well, because the data is sometimes incomplete (ie, through a typographical error in a retailer or, rarely, another retailer reflects more up-to-date MSRP). Through retailers with older MSRPs, weighting should be done as well as Boolean checks.

これらのパラメータに見出されるジレンマは、クラスタリングが理想的にはカテゴリ化の前に行われることである。クラスタリングが終了するまでカテゴリ化が終了しないにもかかわらず、このことは、製品のカテゴリ化のような試験的な推測を要求する。このため、クラスタラモジュール802及びカテゴライザモジュール804のアルゴリズム間の弁証的又は反復の処理流れは、ときどき望ましく、必然的でさえある。クラスタラモジュール802は、試験的なカテゴリ化の観点でクラスタメンバシップを修正するが、これに続いて、カテゴリ化が再度チェックされ、その場合にカテゴライザモジュール804は、そのカテゴリ「推測」を変更されたクラスタの結果として修正する。クラスタリングステップ900及びカテゴリ化ステップ902の両者の結果が安定化し、両者が要求された信頼限界を越えるまで、この反復の処理が続けられる。クラスタラモジュール802及びカテゴライザモジュール804の両者間の最も高い最小信頼スコアを有する両者の結果の結合が有力である。換言すれば、クラスタラモジュール802がクラスタC1及びC2を有し、カテゴライザモジュール804がカテゴリA及びBを出力するなら、下表1に示す成果のマトリックスが結果となる。なお、表1において、*印はクラスタリング信頼/カテゴリ化信頼を示している。   The dilemma found in these parameters is that clustering is ideally performed before categorization. This requires a trial guess like product categorization, even though categorization does not finish until clustering is finished. Thus, a dialectical or iterative process flow between the algorithms of the clusterer module 802 and the categorizer module 804 is sometimes desirable and even necessary. The clusterer module 802 modifies the cluster membership in terms of experimental categorization, but this is followed by a re-check of the categorization, in which case the categorizer module 804 changes its category “guess”. Correct as a result of the cluster. This iterative process continues until the results of both clustering step 900 and categorization step 902 stabilize and both exceed the required confidence limits. The combination of both results with the highest minimum confidence score between both the clusterer module 802 and the categorizer module 804 is dominant. In other words, if clusterer module 802 has clusters C1 and C2 and categorizer module 804 outputs categories A and B, the outcome matrix shown in Table 1 below results. In Table 1, * indicates clustering reliability / categorization reliability.

Figure 2006527886
Figure 2006527886

クラスタラモジュール802及びカテゴライザモジュール804の両者に0.70の信頼限界を仮定すると、そのシステムはクラスタC1及びカテゴリBで進行し、そのシナリオにおける最小信頼が0.71である−他のシナリオより優れており、上述した限界を両者とも越えている。もちろん、クラスタラモジュール802及びカテゴライザモジュール804の結果に相関関係を示す他のアルゴリズムを使用してもよい。   Assuming a confidence limit of 0.70 for both clusterer module 802 and categorizer module 804, the system proceeds in cluster C1 and category B, and the minimum confidence in that scenario is 0.71-superior to other scenarios Both exceed the aforementioned limits. Of course, other algorithms that correlate the results of the clusterer module 802 and the categorizer module 804 may be used.

一般に、そのシステムは、2つの製品名において異なるワードが多くなるほど、それらが同じ製品であることの可能性が小さくなることを推測する。しかしながら、そのシステムは、知的方法で同義語、下位語、上位語を解釈できることが必要である。例えば、次のものを考える:
「Sony MD−74 mini−disc player」(ソニー MD−74 ミニディスクプレイヤ)
「Sony Inc., MD−74 muic listening device」(ソニー インコーポレイテッド、MD−74 ミュージックリスニングデバイス)
In general, the system speculates that the more different words in two product names, the less likely they are the same product. However, the system needs to be able to interpret synonyms, narrower terms, and broader terms in an intelligent manner. For example, consider the following:
"Sony MD-74 mini-disc player" (Sony MD-74 Mini Disc Player)
"Sony Inc., MD-74 muic listening device" (Sony Inc., MD-74 Music Listening Device)

表面上、異なるワードが同じワードより多いように見える。しかしながら、「プレイヤ」は「デバイス」の下位語である(逆に言えば、「デバイス」は「プレイヤ」の上位語である)。一方では、「ソニー」及び「ソニー インコーポレイテッド」は同義語として扱われる。これらのワードは、適合について部分的な信頼を示している。モデル番号の適合を有する結合では、クラスタラモジュール802にとってこれらの提案を確信的にクラスタ化するためにはこれらの事実は十分であると思われる。   On the surface, different words appear to be more than the same word. However, “player” is a narrower term for “device” (in other words, “device” is a broader term for “player”). On the other hand, “Sony” and “Sony Incorporated” are treated as synonyms. These words show partial confidence in the fit. In a join with model number matching, these facts appear to be sufficient for the clusterer module 802 to confidently cluster these proposals.

また、1つの製品がしばしば2つ又はそれ以上の変種を有する。例えば、トースタオーブンは、ブラック及びホワイトを有してもよく、そのモデルIDは以下のいずれかである:
「PG−400−B」(ここで、Bはブラックを示す)
「PG−400−W」(ここで、Wはホワイトを示す)
「PG−400」(ここで、テキスト記述はブラック、ホワイト又は両者の記載に続く)
Also, one product often has two or more variants. For example, a toaster oven may have black and white, whose model ID is one of the following:
“PG-400-B” (where B represents black)
"PG-400-W" (W indicates white)
“PG-400” (where the text description follows black, white or both)

他の例では、右/左利き用ゴルフクラブ等がある。これらは、同様のものとして次のように示される:
「タイトリスト プロ700 ドライバ R」
「タイトリスト プロ700 ドライバ L」
Other examples include right / left-handed golf clubs. These are shown as follows:
Titleist Pro 700 Driver R
Titleist Pro 700 Driver L

一般に、これらの変種は、いくつかの観点では表面上であるが、それでも別の個々の識別番号が製造者から付されており、特定の買い手に対する重要性は小さくない。それゆえ、それらにはユニークな製品IDsが与えられる。しかしながら、それらは、単一の製品ラインの部分に、又は、基本モデルの構成の変種(例えば、右利き用ゴルフクラブを基本モデルと考えれば、左利き用は変種であり、ブラックのトースタオーブンを基本モデルと考えれば、アーモンド色は変種である、等)に関連している。   In general, these variants are superficial in some respects, but still have a separate individual identification number from the manufacturer and are not less important to a particular buyer. They are therefore given unique product IDs. However, they may be part of a single product line or a variation of a basic model configuration (eg, if you think of a right-handed golf club as a basic model, left-handed is a variant and is based on a black toaster oven. Think of it as a model, almond color is a variant, etc.).

製品をいかなる意図で集めるべきかは、部分的に手近な目的事項である。ところが、一般的にクラスタリングは、製品に対応する製品情報記録と一緒にグループ化することで、単一のモデル、すなわち製品を種々の価格提案に割り当てることに相当する。しかしながら、意味のある構成の変種があり、その変種は、技術的には異なるモデルとしてカウントされるが、しばしば顧客や小売商人(retailers)により「基本的に」同じモデルでありちょっと変更したスタイル、等であると考えられる。同様に、製品モデルはシリーズの部分であり、複数の製品シリーズが製品ファミリィの部分である等と考えられる。それゆえ、クラスタラモジュール802は、スーパー(上位)クラスタリング及び/又はサブ(下位)クラスタリングの複数のレベルを提供することができる。これらのレベル用として多くの可能な意味のラベルを付した図表中の1つは以下の通りである:
(1)製品ライン
(2)製品ファミリィ
(3)製品シリーズ
(4)モデル(*)
(5)モデルの構成
The intention to collect products is partly a matter of hand. However, clustering generally corresponds to assigning a single model, ie, product, to various price proposals by grouping together with product information records corresponding to the product. However, there are meaningful composition variants, which are counted as technically different models, but are often "basically" the same model and slightly modified styles by customers and retailers, And so on. Similarly, a product model is part of a series, and multiple product series are considered part of a product family. Thus, the clusterer module 802 can provide multiple levels of super (upper) clustering and / or sub (lower) clustering. One of the charts labeled with many possible meanings for these levels is as follows:
(1) Product line (2) Product family (3) Product series (4) Model (*)
(5) Model configuration

アスタリスク(*)は小売商の提案のレベルでクラスタラモジュール802により実行された基線クラスタリングを示しており、手順に従って、スーパークラスタリング(レベル1−3)及びサブクラスタリング(レベル5)の前に生じる。全ての5レベルの例では、384MBのRAMを有するFujistu ライフブック P−2040を挙げることができる。Fujitsuブランドは、「ライフブック」製品ラインを有し、そのラインにはノートブックコンピュータの「P」ファミリィを有し(「S」ファミリィに対して)、そのファミリィには「2000」シリーズを有し(「1000」シリーズに対して)、そのシリーズには「2040」モデルを有しており(2080及び2100モデルに対して)、選択的に384MBのRAMを有する製品のブランドを新しくすることができる(256又は512MB RAMを有するものに対して)。   The asterisk (*) indicates the baseline clustering performed by the clusterer module 802 at the retailer's suggestion level and occurs according to the procedure before super-clustering (level 1-3) and sub-clustering (level 5). An example of all five levels is the Fuji Lifebook P-2040 with 384 MB of RAM. The Fujitsu brand has the “Lifebook” product line, which has the “P” family of notebook computers (as opposed to the “S” family), and the family has the “2000” series. (For the “1000” series), which has a “2040” model (for the 2080 and 2100 models), and can optionally rebrand products with 384MB of RAM (For those with 256 or 512MB RAM).

クラスタリングの同じ基本的な方法は、ネーミングにおける違いの異なるセット及び問題のレベルに重要であると考えるか考えないかのいずれかの特徴を単に有する、いかなるレベルでも使用される。   The same basic method of clustering is used at any level, simply having features that either consider or do not consider to be important for different sets of differences in naming and problem levels.

カテゴリ化ステップ902は、分類700で適切なカテゴリにそれぞれのUPIDを指定する処理を含む。これは、2つの処理でたいてい実行される。第1に、その別名、同義語、上位語等に沿った公知の方法でそれぞれのカテゴリ用として定義された属性及び属性値セットを検査する。第2に、それぞれのカテゴリに既に分類された実際の製品情報記録を検査する。ケースを基礎とした理由付け、ジェネティックアルゴリズム、ニューラルネット等を制限されることなく含む分類用として、AI機械−学習アルゴリズムのいくつかを使用することができる。移入(importation)するものが機械−学習モジュールの呼び出しに先行する特徴抽出であり、特別な種類の機械−学習モジュールが使用されるほどではない。   Categorization step 902 includes processing for assigning each UPID to the appropriate category in classification 700. This is usually done in two processes. First, the attributes and attribute value sets defined for each category are examined in a known manner along their aliases, synonyms, broader terms, and the like. Secondly, the actual product information records already classified in their respective categories are examined. Several AI machine-learning algorithms can be used for classification including case-based reasoning, genetic algorithms, neural networks, etc. without limitation. What is imported is feature extraction that precedes the invocation of the machine-learning module, not so much that a special type of machine-learning module is used.

カテゴリ化ステップ902の特徴抽出処理では、属性名、数値、計測の単位、ブランド名、製品記述に見出されるキーワード及びフレーズ等であっても、製品情報記録に見出される適合する各アイテムがそのカテゴリに存在する製品の利益となるようにカウントする。反対に、競合すると思われることが見出された製品は確率スコアが主として差し引かれる。結局、最終スコアは各カテゴリに対する各UPIDに達する。信頼限界がリーフ−ノード(leaf−node)カテゴリの1つ、ただ1つを越えることが望ましい。この結果が得られない少数の場合には、マニュアル(又は他の外部)の認証が使用されてもよく、すなわちカテゴリ化が異なる。   In the feature extraction process of the categorization step 902, even if the attribute name, numerical value, unit of measurement, brand name, keyword and phrase found in the product description, each matching item found in the product information record is included in the category. Count to benefit existing products. Conversely, products that are found to be competitive are primarily deducted from the probability score. Eventually, the final score reaches each UPID for each category. It is desirable for the confidence limit to exceed one, only one of the leaf-node categories. In the few cases where this result is not obtained, manual (or other external) authentication may be used, i.e. the categorization is different.

通常、市場の理由のため、再販者は製品用として非常に長く非常に「不快な」名称を付ける。再販者が検索エンジンの巡回者を彼らが人であるのと同じように喜ばせようとする−すなわち、彼らが考えられる関連テキストの各断片を製品名に含めることを望むことを意味するオンラインの世界では、このことが特に真実である。一方、彼らは、希望するグーグルやヤフー!検索上でランキングする検索結果が得られないことをおそれている。その結果は、
「Sony MD−74 Mini−Disc Player」
等の理想的な製品名がしばしば次のように製品記録に記載される。
「New Sony MD−74 (MD74、MD 74) Mini−Disc Player Personal Music Listening Device with Rebate(割引) and Free Leather Case(フリーレザーケース) Now For Grads and Dads(推奨中)」
Usually, for market reasons, resellers give very long and very “unpleasant” names for their products. Resellers try to please search engine patrons just as they are people--that is, they want to include each possible fragment of relevant text in the product name This is especially true in the world. On the other hand, they want Google and Yahoo! I am afraid that I will not be able to obtain search results for ranking. The result is
"Sony MD-74 Mini-Disc Player"
The ideal product name is often written in the product record as follows:
“New Sony MD-74 (MD74, MD74) Mini-Disc Player Personal Music Listening Device with Rebate (Free Discount) and Free Leather Case (For Free Leather Case) Now For Grads D

幸運なことに、実際には、全ての名称がこの長く無関係なものではない。しかしながら、名称除去ステップ904は多くの場合でまだ要求されている。UPID製品記録用として使用されるべき魅力的な名称スクリーンを決定する始めの明らかなステップは、非常に長いものを削除し長くないものを好んで選ぶことである。   Fortunately, not all names are actually long and unrelated. However, the name removal step 904 is still required in many cases. The first obvious step in determining an attractive name screen to be used for UPID product records is to delete very long ones and prefer one that is not long.

好ましくない名称の別の種類は、ミニ製品仕様テーブルのように全てその名称フィールドに過剰に詰め込もうとすることであり、例えば、以下の通りである:
「Sony MD−74 23−hr battery(23時間バッテリ)、6 watt output(6ワット出力)、headphones(ヘッドフォン)、8 oz(8オンス)」
「これを次のものと一緒に考える:
「Sony Corp. MD−74 Mini−Disc Personal Music Listening Device」
ここで、両者ともほぼ同じ長さのため、名称単独の長さは助けにならないが、カタログ化する目的用としては後者が前者より好ましい。前者は製品記録からの多くの魅力的な名称及び属性値列を含んでいないことから、その名称に「デメリット」が指定され、すなわち、名称セレクタ/クレンザモジュール806で製品名として選択されることがないようにさせる。
Another type of unfavorable name is trying to overfill all its name fields, like a mini product specification table, for example:
"Sony MD-74 23-hr battery (23-hour battery), 6 watt output (6 watt output), headphones (headphones), 8 oz (8 ounces)"
“Think about this with:
“Sony Corp. MD-74 Mini-Disc Personal Music Listening Device”
Here, the length of the name alone is not helpful because they are almost the same length, but the latter is preferable to the former for the purpose of cataloging. Since the former does not include many attractive names and attribute value columns from the product record, the name is designated as “disadvantage”, ie, selected as the product name in the name selector / cleanser module 806 Let's not have.

また、販売業者は、製品の名称とは別に情報の多くの他の要素を持ち込むため、製品情報記録の名称フィールドを過負荷(overloading)にする慣習を有している。実際には語彙においてこれを制限するものではない。しかしながら、特定の言語の役割は意味としては市場に関連しており、その市場は、マニュアルリストを通じた市場、又は、製品名を乱す市場の「フラッフ(fluff)」に、より一般的に含まれているワードの統計的なアカウント処理を通じた市場のいずれかである。統計的なアプローチは、更に自動化されることが魅力的である。この手順は、その名称において「市場言語」を有するようにタグ付けするために、市場言語を有していない同じ製品名を示す比較するデータセットと共にいくつかのサンプルデータを要求する。ワード/フレーズ頻度、ワードの近接及び他の標準の統計的NLP法を伴う差分分析は、それぞれのカテゴリの製品用として市場言語を構成する良好な確率的プロフィールを決定するために適用することができる。   In addition, vendors have a convention of overloading the name field of the product information record to bring in many other elements of information apart from the name of the product. In practice, this is not a limitation in vocabulary. However, the role of a particular language is semantically related to the market, and that market is more commonly included in the market through manual lists, or in the “fluff” of markets that disrupt product names. Is one of the markets through the statistical account processing of Word. The statistical approach is attractive to be further automated. This procedure requires some sample data with a comparing data set showing the same product name that does not have a market language in order to tag it to have “market language” in its name. Differential analysis with word / phrase frequency, word proximity and other standard statistical NLP methods can be applied to determine a good probabilistic profile that constitutes the market language for each category of product. .

名称セレクタ/クレンザ806が可能な名称を単純で簡潔で完全な製品名に制限すれば、任意のさらに長い標準の名称を生成するために望ましい。標準の名称は、それがカテゴリを通じて一貫したフォームに従うことを意味し、(a)最も重要な変種の構成要素(色、右手用等)及び(b)最も重要な属性(デジタルカメラの解像度等)のみに言及している。長い名称の信頼できる一貫したスタイルを有することは、短い名称又は長い名称をそれらの適用への最良の適合として表面化させることにおける最大の融通性をそのカタログを使用するものに経験させる。   It would be desirable to generate any longer standard names if the name selector / cleanser 806 limits the possible names to simple, concise and complete product names. The standard name means that it follows a consistent form throughout the category: (a) the most important variant components (color, right hand etc.) and (b) the most important attributes (digital camera resolution etc.) Only mentions. Having a reliable and consistent style of long names allows those using that catalog to experience maximum flexibility in making short names or long names surface as the best fit for their application.

ステップ906では、サイズ、タイプ、品質、調和、情報源の信頼性等に基づいて、イメージセレクタモジュール808が全ての種々の情報源から最も好ましいイメージを選択する。最も好ましいイメージの選択のために、種々のルール及び限界を使用することができる。例えば、そのイメージが特定の最小解像度及びサイズを有していてもよい。これに代えて、有効性の順に好ましい情報源(例えば、小売商サーバ40)のリストからの製品情報記録からイメージを使用するために、イメージセレクタモジュール808がプログラムされていてもよい。   In step 906, based on size, type, quality, harmony, source reliability, etc., the image selector module 808 selects the most preferred image from all the various sources. Various rules and limits can be used to select the most preferred image. For example, the image may have a certain minimum resolution and size. Alternatively, the image selector module 808 may be programmed to use an image from a product information record from a list of preferred information sources (eg, merchant server 40) in order of effectiveness.

ステップ908では、特性スクレーパモジュール810は、その情報源から製品仕様情報を標準化されたフォームで抽出するために、小売商、製造者、配給者、評論家等の情報源を形成するウェブページやPDF文書等の製品情報記録を解析し分析する。特性スクレーパモジュール810は、問題の製品情報記録のテキストを放棄するか又は残しておく。   In step 908, the property scraper module 810 extracts a web page or PDF that forms a source of information for retailers, manufacturers, distributors, critics, etc. to extract product specification information from the source in a standardized form. Analyze and analyze product information records such as documents. The property scraper module 810 discards or leaves the text of the product information record in question.

特性かき集めステップ908は次のように実行される。まず、そのページの主要な製品仕様部分をクロス販売(cross−sell)やアップ販売(up−sell)の商品から、及び、リンクされたアクセサリ等から分けるために、DOM(文書対象モデル化)を実行する。次に、個別の仕様を一度に1つずつそのページに配置するために、異なる文、フレーズ及びテーブル構造を解析する。存在しないもの及び他の機能が別々に取り扱われ、このため、特性スクレーパモジュール810が間違ってこれらを製品に組み込むものとして構成することはない。属性名及び数値の両者用として種々の製品情報記録中に使用された特殊用語を標準化するために、同義語及び別名を解析することを実行する。「裂け目間に落ちることになる」新規な仕様を集めることを含み、問題の製品のカテゴリ用として予め定義された仕様に適合しないボーナス(付加的)キーワードや仕様が引き出される。属性名及び数値が両方見出されるか、単に数値列が見出されるかに基づいて、又は、属性名及び数値間にいくつかの無関係なワードが見出されるか、又は、テーブル中にラインの中断や隣接したセルがあるかに基づいて、かき集めのそれぞれの行為に信頼レベルが割り当てられる(これらのアイテムの全てがあるリスクを導入し、そのリスクでは、仕様がともかく変更され、制限され、放棄されており、それゆえ、あるべき仕様が正確に現れていないおそれがある)。また、スクレーパは、そのページで矛盾する情報(例えば、彼らが単一のサイズを販売するが、後で多くのサイズで有効であることを説明する)を取り上げることがあり、これが信頼を低下させ、そして正しいと思われるテキスト(すなわち、そのページで他の仕様と共に更に密接に配置されるテキスト)に更に高い信頼が与えられる。全てのこれらの方法の重み付けされた結合の結果は、かき集められた各製品情報記録から個別の各仕様用の信頼スコアである。   The property gathering step 908 is performed as follows. First, in order to separate the main product specifications of the page from cross-sell and up-sell products, and linked accessories, DOM (document object modeling) Execute. Next, different sentences, phrases and table structures are analyzed in order to place individual specifications one at a time on the page. What does not exist and other functions are handled separately, so that the characteristic scraper module 810 is not mistakenly configured to incorporate them into the product. Parsing synonyms and aliases to standardize the special terms used in various product information records for both attribute names and numerical values. Bonus (additional) keywords and specifications are drawn that do not fit the pre-defined specifications for the product category in question, including collecting new specifications that will “fall between rifts”. Based on whether both the attribute name and numeric value are found, or just a numeric string, or some irrelevant word is found between the attribute name and numeric value, or a line break or adjacency in the table A level of confidence is assigned to each act of collection based on whether there is a selected cell (introducing the risk that all of these items are present, the specification has been changed, limited and abandoned anyway) Therefore, the specifications that should be may not appear correctly). Scrapers may also pick up conflicting information on the page (eg, explaining that they sell a single size but later are valid for many sizes), which reduces trust. , And text that appears to be correct (ie, text that is more closely placed with other specifications on the page) is given greater confidence. The result of the weighted combination of all these methods is a confidence score for each individual specification from each product information record collected.

同義語、例えば「lb」に対する「lbs」、及び、変換、例えば「1kg」に対する「2.2 lb」の両方を取り扱い、各仕様用の標準への計測単位の変換及び認識を行うことはそのシステムにとってしばしば重要である。つまり、属性名が見出されないことは、ときどきその単位が正しい値であると確かに認めることができる(例えば、3.1メガピクセルのカメラでは、そのカテゴリ内での「メガピクセル」単位の一意性のため、「3.1メガピクセル」が解像度であると推論するために「解像度」のワードは必要ない)。番号はすべての様々に表現されたスタイルで解析されてもよく、そのスタイルは分数、ローマ数字及びコンマを有する書式を含んでいる。数値範囲は両方を属性セットアップにおける可能性として認識すべきことが必要であり、すなわち、「最小」及び「最大」の原始属性で構成される複合的属性を有している。異なるタイプの言い回しは、コンマで分けられた数値のリスト(例えば、1、2又は3プレイヤ)、ハイフンでつなげられた最小−最大範囲等の範囲を示してもよい。   Handling both synonyms, eg “lbs” for “lb”, and conversions, eg “2.2 lb” for “1 kg”, converting and recognizing units of measure to standards for each specification Often important to the system. In other words, the fact that the attribute name is not found can sometimes be certain that the unit is the correct value (eg, for a 3.1 megapixel camera, the uniqueness of the “megapixel” unit within that category). Because of the nature, the word “resolution” is not necessary to infer that “3.1 megapixel” is the resolution). Numbers may be parsed in all differently represented styles, including styles with fractions, Roman numerals, and commas. Numeric ranges need to be recognized both as possibilities in attribute setup, i.e. they have a composite attribute composed of "minimum" and "maximum" primitive attributes. Different types of phrases may indicate ranges such as a comma-separated list of numbers (eg, 1, 2 or 3 players), a minimum-maximum range connected by a hyphen.

本文タイプの属性は異なるルールを有してもよい。仕様では、ブールタイプ属性(ノー/イエス)が存在すべき属性名を要求し、ワード「イエス」を要求しない。正しく「ノー」値を決定することは、通常単純な「ノー」以外の他の否定する語(例えば、「選択的」や「含まれない」)を検索することをシステムに要求するため、やや扱いにくい。   Body type attributes may have different rules. The specification requires an attribute name for which a Boolean type attribute (no / yes) should be present, and does not require the word “yes”. Determining the correct “no” value usually requires the system to search for other negative words (eg, “selective” or “not included”) other than the simple “no”, so somewhat It is difficult to handle.

他の場合では、特に複数の数値を許容する属性を有する場合、又は、数値それ自身の言語が明らかである場合は、製品名フィールドや製品テキストにおける限定的な記述での属性の包含により制限を要求するのに十分ではなく、例えば、「このHDTVテレビジョンは・・・」は、読み取り機に「HDTV」が「適合性」の属性に相当することをはっきり示している。   In other cases, especially if you have an attribute that allows multiple numeric values, or if the language of the numeric value itself is obvious, limit it by including the attribute in a limited description in the product name field or product text. For example, “This HDTV television is ...” clearly indicates to the reader that “HDTV” corresponds to the attribute “compatibility”.

特定の製品情報記録からの情報源の文書は、しばしば、HTML、XML、PDFや他のタグに詰め込まれた(tag−laden)文書タイプである。これは特性スクレーパモジュール810に対する利益及び損失の両方であり、これらのタグが要求されている仕様を示すこともでき隠すこともできる。それゆえ、以下に示すように、複数のパス(タグを取り扱う異なる方法を使用すること)を使用してもよい。   The source document from a particular product information record is often a tag-laden document type in HTML, XML, PDF or other tags. This is both a benefit and a loss to the property scraper module 810, and these tags can indicate or hide the required specifications. Therefore, multiple paths (using different methods of handling tags) may be used, as shown below.

1つの方法は、タグを解析することで単純にタグを無視することである。この方法は、単純であるが、実際に多くの仕様を得ることができる。例えば、ウェブサイトでアクションフィギュア製品ページから「高さ:6インチ」を読み取れるとするなら、HTML情報源では「Height:<TC><Font:Helvetica></B><I>6inches」として読み取ることができる。換言すれば、テーブル中での情報の位置を決めること、1つの欄から次の欄へフォントを変えること、等を目的とするタグが介在している。そのテーブルの一列でタグを単に混乱させることで(情報は1つの列に保ちながら)、スクレーパは「高さ:6」を見出し、その仕様がかき集められるように非常に近くなる。   One way is to simply ignore the tag by analyzing the tag. Although this method is simple, many specifications can be obtained in practice. For example, if you can read “Height: 6 inches” from the action figure product page on the website, read “Height: <TC> <Font: Helvetica> </ B> <I> 6inches” in the HTML information source. Can do. In other words, there are tags for the purpose of determining the position of information in the table, changing the font from one column to the next, and the like. By simply confusing the tags in one row of the table (while keeping the information in one row), the scraper finds "Height: 6" and gets very close to the specification being gathered.

しかしながら、多くの他の場合には、タグ付けは、望ましい結果を得るために、単に放棄されるというより解析され分析される。上述した同じ例で見ると、その列の上部には、次の語句を見ることができ、
「Phantom Series 4」(ファントムシリーズ4)
その列の下部には、次の語句を見ることができる。
「vehicle included」(乗り物を含む)
列記述のタグを保ち解析することで、特性スクレーパモジュール810は、「ファントムシリーズ4」が一列であり、「高さ:6インチ」が一列であり、「乗り物を含む」がもう一列であることを認知する。全てのタグが無視されると、特性スクレーパモジュール810は、この列の境界を失い、次のような連続した列を認知する:
「Phantom Series 4 Height:6 vehicle included」
このことは、解析し分析することを難しくし、おそらくいくつかのリスクがある。そのリスクは、アクションフィギュアが4インチの高さであり、6インチの乗り物と共にあることをそのシステムが考えてしまうことである。このため、実際にタグを解析しそれにより文書構造を保持することは重要である。
However, in many other cases, tagging is analyzed and analyzed rather than simply abandoned to obtain the desired result. Looking at the same example above, you can see the following words at the top of the column,
"Phantom Series 4" (Phantom Series 4)
At the bottom of the column, you can see the following words:
“Vehicle included” (including vehicles)
By analyzing and maintaining the tag of the column description, the characteristic scraper module 810 has “Phantom Series 4” in one row, “Height: 6 inches” in one row, and “Including vehicle” in another row. Recognize If all tags are ignored, the property scraper module 810 loses this column boundary and recognizes the following consecutive columns:
“Phantom Series 4 Height: 6 vehicle included”
This makes it difficult to analyze and analyze and probably has some risks. The risk is that the system thinks that the action figure is 4 inches high and is with a 6 inch vehicle. For this reason, it is important to actually analyze the tag and thereby maintain the document structure.

タグ付けが有効である無数の他の方法がある。別の場合では、そのシステムがテキストブロックで仕様のリストが終了することを決定しようとする。例えば、仕様が終了するとき及びクロス販売製品のリストが始まるときに、製品情報記録は、フォントやテキストスタイルや段落インデントをしばしば変更する。この変化が注目されることが重要であり、クロス販売製品が主要な製品それ自身の特性として不意に構成されることはない(例えば、デジタルカメラ用の任意のアクセサリであるメモリカードを構成するには、カメラと共にあるものとして構成する)。   There are countless other ways in which tagging is effective. In another case, the system tries to determine that the list of specifications ends with a text block. For example, product information records often change fonts, text styles, and paragraph indentations when the specification ends and when the list of cross-sold products begins. It is important that this change be noted, and cross-sold products will not be unexpectedly configured as a characteristic of the main product itself (for example, to configure a memory card that is an optional accessory for a digital camera) Is configured with the camera).

多くの製品情報記録は、全体で互いに密接な属性名及び価値を残念ながら配置しないテーブルを生成する。一例を下表2に示す。表2では、「あなたにふさわしいP−2000シリーズの構成」を取り上げている。   Many product information records produce tables that unfortunately do not place attribute names and values that are closely related together. An example is shown in Table 2 below. In Table 2, "P-2000 series configuration suitable for you" is taken up.

Figure 2006527886
Figure 2006527886

この例では、多くの変種のモデルが1つのテーブルに一緒にリスト化されており、各モデル用として正しく仕様を集めるために、ヘッダの列は解析され一度に1欄ずつかき集められる。   In this example, many variant models are listed together in one table, and the header column is parsed and collected one column at a time to correctly collect specifications for each model.

製品情報記録に見出されるいくつかのテーブルは、もっと複雑であり、多次元の結合の仕様を表している。ごく一般的な例は、パンツのウェストサイズ及び股下サイズの結合であり、通常、全ての可能な結合ではなくいくつかが有効である。下表3に一例を示す。なお、表3において、*印は奇数及び偶数サイズが有効を示し、**印は偶数サイズが有効を示す。   Some tables found in product information records are more complex and represent multi-dimensional join specifications. A very common example is the waist size and crotch size combination of pants, usually some are valid instead of all possible combinations. An example is shown in Table 3 below. In Table 3, * indicates that odd and even sizes are valid, and ** indicates that even numbers are valid.

Figure 2006527886
Figure 2006527886

スクレーパ用として実際に下表4に示す「標準」テーブルを集めるためにそのテーブルが解析されるばかりではなく、注釈も理解されることに注目する。   Note that not only is the table parsed to actually collect the “standard” tables shown in Table 4 below for the scraper, but also the annotations are understood.

Figure 2006527886
Figure 2006527886

システムは、属性について言及していない複数の情報源があるとき及びそれを記述する情報源が1つもないときに、いくつかの属性値を強制的にデフォルトの「ノー」や「ノン」に構成する。販売業者では、かれらの製品が特徴を欠落するときに記述せず、製品が特徴を有するときにのみそれを記述する傾向があるため、このことが必要とされる。例えば、ハイエンドなデジタルカメラの少数のみが交換可能なレンズを有している。製品ページにこの特徴の記述が全くなされていなければ、そのカメラがそれを有していないことが実際に保証される。しかしながら、販売業者は、このタイプのレンズを有する彼らのカメラを、仮に有していなくても、自慢するための機会を逃していない。それゆえ、システムは、特定のカメラ用として特徴の記述に失敗している複数の確かな情報源を見出したときに、このパターンを検出し属性「交換可能なレンズ」でデフォルトの「ノー」を始めることができる。   The system forces some attribute values to default to “no” or “non” when there are multiple sources that do not mention the attribute and when there is no source that describes it. To do. This is required because vendors tend not to describe when their products are missing features, but only when the products have features. For example, only a small number of high-end digital cameras have interchangeable lenses. If there is no description of this feature on the product page, it is actually guaranteed that the camera does not have it. However, merchants do not miss the opportunity to brag, even if they do not have their camera with this type of lens. Therefore, when the system finds multiple reliable sources that fail to describe features for a particular camera, it detects this pattern and sets the default “No” for the attribute “Interchangeable Lens”. You can start.

補助キーワードジェネレータ812は、標準化された仕様用より各カテゴリ用として開放キーワードに対する参照文と共に各製品情報記録を分析する。これらはDOM分析から続いており、DOM分析では、製品情報記録が仕様として前に置かれていると思われる列や証拠をシステムが認識し、システムでの予め定義された仕様にきちんと適合しない。この捉えたものが非常に特別な一度限りの仕様であり一方では裂け目間に落ち込む。例えば、50の異なるベビーカーシートには、「片手ハーネス解除」と称する僅かに1又は2の製品があるが、この特性は、属性がリスト化されているカテゴリでは認識され標準化された仕様ではない。それにもかかわらず、同じカーシート用の他の仕様と正しく一緒の製品情報記録の一組で表されることが、標準化された仕様に対し「付属書」の部類としてそのままフレーズを追加することをそのシステムに可能にする。(1)十分に標準化されていない多くの秘密でユニークな特徴があるカテゴリ、又は、(2)製造者が彼らの製品に新しい特徴を加えたときに現れる仕様の新しい組合せのトップにとどまるシステム管理者を援助することのために、このことは非常に強力な特徴である(その管理者は、警告され、多数の重なり合う補助キーワード仕様が特定のカテゴリ用として加えられたケースを再検査し、そのケースが標準化された方法で加えられるべき新しい仕様を構成するかを調べることを目的とする)。   The auxiliary keyword generator 812 analyzes each product information record with a reference to the open keyword for each category rather than for standardized specifications. These continue from the DOM analysis, where the system recognizes the columns and evidence that the product information record is supposed to be placed in front of the specification and does not properly conform to the pre-defined specifications in the system. This capture is a very special one-off specification, but on the other hand falls into the rift. For example, in 50 different stroller seats there are only one or two products called "one hand harness release", but this characteristic is not a recognized and standardized specification in the category in which the attributes are listed. Nonetheless, being represented in a set of product information records that are correctly combined with other specifications for the same car seat adds a phrase as an “Appendix” to the standardized specifications. Make that system possible. (1) Categories with many secret and unique features that are not well standardized, or (2) System management that stays on top of new combinations of specifications that appear when manufacturers add new features to their products This is a very powerful feature to help the administrator (the administrator has re-examined the case where a warning was issued and a number of overlapping auxiliary keyword specifications were added for a particular category, and the The purpose is to find out if the case constitutes a new specification to be added in a standardized way).

好ましい実施形態の特性アグリゲータモジュール814は、ある製品情報記録に他より大きい重み付けを指定する決定用エンジンであり、特定の製品用として全ての製品情報記録からかき集められた仕様を最終セットに存在する仕様に組み合わせようとする。これは、多くの情報源中に見出される非常に一般的な矛盾を解消する。特性アグリゲータは、仕様のための複数の証言を見出すことに大きな重要性を指定し、−その仕様は、異なる書式を有し問題の仕様の基本的なコンテントで一致する複数の情報源のデータを有するように定義されている。   The preferred embodiment characteristic aggregator module 814 is a decision engine that assigns a weight to one product information record that is greater than the others, and specifications that are collected from all product information records for a particular product in the final set. Try to combine. This eliminates the very common contradiction found in many sources. A characteristic aggregator specifies great importance in finding multiple testimonies for a specification-that specification contains data from multiple sources that have different formats and match in the basic content of the specification in question. Defined to have.

重みは自動的にセットされてもよくマニュアルでセットしてもよい。自動的なセットでは、時間において、最終結果でその製品情報記録がいかにしばしば取り消されるかの結果となる。重み付けには、完全な製品情報記録上の全体、単に1つのカテゴリ、1つのカテゴリにおける単に1つの属性、そのカテゴリにおける1つの属性の単に1つの数値、そのカテゴリにおける製品の単に1つの製造者のいずれかをセットすることができる。また、イメージ信頼用として、全体的に、カテゴリごとに、製造者ごとに、カテゴリにおける製造者ごとに個別に重み付けすることができる。   The weight may be set automatically or manually. An automatic set will result in how often the product information record is canceled in time with the final result. The weighting includes the entire product information record, just one category, just one attribute in one category, just one numeric value of one attribute in that category, just one manufacturer of the product in that category Either can be set. Also, for image reliability, overall weighting can be performed for each category, for each manufacturer, and for each manufacturer in the category.

好ましい実施形態の類似の製品モジュールの主要な構成要素は、以下の通りである:
1)製品及びカテゴリ間のアクセサリ関係を制約と共にマニュアルで定義するため、及び、自動的に作成された類似の製品として指定の特定の製品を注視するか又はマニュアルで無視するための製品関係ツール、2)関係のある製品関係が自動的に「発見された」ところからの生の情報源データを捜索するための論理及びアルゴリズムを含む類似製品エンジン。
The main components of a similar product module of the preferred embodiment are as follows:
1) Product-related tools for manually defining accessory relationships between products and categories with constraints, and for gazing or manually ignoring specific products designated as similar products created automatically, 2) A similar product engine that includes logic and algorithms to search for raw source data from where the relevant product relationships have been “discovered” automatically.

以下の関係を全て定義することができる。   All of the following relationships can be defined:

カテゴリ−カテゴリ関係:カテゴリAの製品がカテゴリBの製品と類似することを条件として要求する。特性の制約は任意である。例えば、コンパクトフラッシュ(登録商標)カードは、PDAのカテゴリと類似であり、その関係用として得るためにPDA用のメモリモジュールタイプが「コンパクトフラッシュ」であることの制限を有している。   Category-category relationship: Requested on condition that the product of category A is similar to the product of category B. Characteristic constraints are arbitrary. For example, CompactFlash® cards are similar to the PDA category, and have the limitation that the memory module type for PDAs is “compact flash” in order to obtain for that relationship.

カテゴリ−製品関係:製品のカテゴリが特定の製品と類似であることを条件として要求する。一例としては、完全なカテゴリとして採用された「XBOXカートリッジ」が特定の製品「XBOXゲームコンソール」と類似である。   Category-product relationship: Requests that the product category is similar to a specific product. As an example, the “XBOX cartridge” adopted as a complete category is similar to the specific product “XBOX game console”.

製品−カテゴリ関係:特定の製品が完全な製品のカテゴリと類似であることを任意の制約と共に条件として要求する。例えば、特定のレザーケースは「デジタルカメラ」の完全なカテゴリと類似であり、「形態因子」の特性が「コンパクト」として示される条件を有している。   Product-category relationship: Require that a particular product is similar to a complete product category, with any constraints. For example, a particular leather case is similar to the complete category of “digital camera” and has the condition that the characteristic of “form factor” is shown as “compact”.

製品−製品関係:特定の製品が別の特定の製品と関係することを条件として要求し、例えば、特定モデルのプリンタカートリッジが特定モデルのフォトプリンタと類似である。   Product-product relationship: requires a specific product to be related to another specific product, for example, a specific model printer cartridge is similar to a specific model photo printer.

マニュアルで定義される上述した関係の全てを許容するソフトウェアツールが制約と共に又は制約を伴わずに提供されてもよく、選択的に「ポテンシャル(潜在的)」とマークされる。ソフトウェアツールは、類似の製品を「アクセサリ」や「部品」や「サプライ(supply)」等の1つとして示すことをユーザに許容するために定義されてもよい。また、それぞれのタイプには「強調された(highlighted)」タイプがあり、それらは人の編集者の知識が特別な興味があるように指令する。それぞれの製品用としてマニュアルで強調された関係の欠落では、強調された関係の上位3つに変動を与えるために、発見エンジンが密接に似通った製品を削除しつつ(カテゴリ及び曖昧な名称の比較を使用して)、最高スコアの関係を自動的に強調する(例えば、同じコンパクトフラッシュカードのサイズ変動が最高スコアを有するけれども、そのサイズ変動を単純に強調することを望んでもよい)。否定されるべき潜在的な関係を許容するために、すなわち、カテゴリが他のカテゴリと類似すると考えるべきではないことをユーザに示すために、ソフトウェアツールが提供されてもよい。これは、発見エンジンが誤ったむだな処理を回避することを助けるためである。これは、マニュアルスコアの0を有する潜在的なカテゴリ−カテゴリ関係を作成することで達成される。   Software tools that allow all of the above-mentioned relationships defined in the manual may be provided with or without constraints and are selectively marked as “potential”. A software tool may be defined to allow the user to show similar products as one of “accessories”, “parts”, “supply”, and the like. Each type also has a “highlighted” type, which commands the knowledge of a human editor to be of special interest. In the absence of relationships highlighted in the manual for each product, the discovery engine removes products that are closely similar (the comparison of categories and ambiguous names) to give variation to the top three highlighted relationships. Automatically emphasize the relationship of the highest score (eg, the same compact flash card size variation has the highest score, but it may be desired to simply emphasize that size variation). A software tool may be provided to allow a potential relationship to be negated, i.e., to show the user that the category should not be considered similar to other categories. This is to help the discovery engine avoid erroneous wasteful processing. This is accomplished by creating a potential category-category relationship with a manual score of zero.

類似製品モジュール818は、種々の製品情報の情報源の構成要素がそのウェブページ又は他の情報源での「類似製品テーブル」であることを確認するためのアルゴリズムを含む。例えば、小売商ウェブページのHTMLテンプレートの部分がそのアクセサリリストにあることが確かに見出される。小売商のページを訪問し、現在のハイスコア及びマニュアルの関係を検索し、これらのリンクが見出されたページの領域を特定し、記録することで、このことが実行される。従って、小売商サイトへの後の訪問では、そのページ上で見いだされるおそらく関連した製品に対するリンクに依存して、スコアを調整するためにこの情報を使用することができる。類似製品モジュール818は、種々の類似製品テーブルで見出されたリンクに従い、公知のカテゴリの製品をチェックする。現在スキャニングしているカテゴリにおける製品用として同じカテゴリにおける製品のn繰り返された例をスキャナが見出したとき、「ポテンシャル」としてマークされた適切なカテゴリ−カテゴリ関係が自動的に作成され、eメイル又は他の通信チャネルを通じて適切なカテゴリ管理者に通知される。   Similar product module 818 includes an algorithm for verifying that the components of the various product information sources are “similar product tables” on that web page or other information source. For example, it is certainly found that the HTML template portion of the merchant web page is in its accessory list. This is done by visiting the merchant's page, searching the current high score and manual relationships, and identifying and recording the area of the page where these links were found. Thus, on subsequent visits to the merchant site, this information can be used to adjust the score, depending on the links to possibly related products found on the page. Similar product module 818 checks for products in a known category according to links found in various similar product tables. When the scanner finds n repeated examples of products in the same category for products in the currently scanning category, an appropriate category-category relationship marked as “potential” is automatically created, e-mail or Appropriate category managers are notified through other communication channels.

類似製品モジュール818は、ステップ916で類似製品を作り出すために、通常、次のようなアルゴリズムに従って動作する。
1.カテゴリにおける各製品用
a.各小売商用として、全ての小売商の提案を得る(この部分は複数につながれている)
i.小売商のウェブページをロードし解析する(また、そのページをキャッシュ(cache)する)
ii.ページ上の「関連した製品」に対するリンクを検索する
iii.補助のアクセサリページに導くリンクがそのページ上にあれば、そのリンクに従い、1.a.i.に戻る
iv.製品参照文を逆に検索しカタログに戻ってそれらを関連づけ、製品関連スコアを算出しその配置及びスコアを記録する
2.最終的な製品関係スコアの算出
ここで、これらのアルゴリズムステップのそれぞれについて詳細に説明する。類似製品モジュール818の主要な課題は、小売商がそのウェブページ上で製品に関連しているときに認識することができることである。製品名の表現における変動性のため、製品を明確に認めることができる信頼できる方法のみが「小売商SKUs」又は小売商が製品を関連づけるために使用するユニークな製品識別子を通り抜けられる。小売商のページ上のリンクが実際にカタログにおける製品に既に関連づけられていることを認識可能とするために、「小売商SKU発見「のステップを実行することが必要である。類似製品モジュール818が小売商のURLを検索する最初のときは、以前にこのステップを実行したかを調べることに注意する。実行していなければ、そのプログラムは、カタログ26に存在する小売商からURLsの全てをロードする。そのURLsが互いに比較され、可変的な部分がSKUとして決定される。これらのSKUsは、カタログ26における製品IDsに戻って配置すると共に、小売商SKUをそのURLから遊離させることを助ける記号の範囲を定めることと一緒に、それぞれの小売商用として記録される。小売商ページ上でURLに遭遇するとき、そのURLは、区切り記号(delimiter)を使用して分析され、URLの各サブ配列が小売商から以前に記録されたSKUsのリストで検索される。適合が見出されると、類似製品モジュール818は、そのURLがカタログにおける製品に関連していることを認知する。
Similar product module 818 typically operates in accordance with the following algorithm to create a similar product at step 916.
1. For each product in category a. As each retailer, get proposals from all retailers (this part is connected to multiple)
i. Load and parse a retailer's web page (and cache the page)
ii. Search for links to “related products” on the page iii. If there is a link on that page that leads to the auxiliary accessory page, follow that link: a. i. Return to iv. Reversely search for product reference sentences, return to the catalog, associate them, calculate product-related scores, and record their placement and scores. Calculation of Final Product Relationship Score Each of these algorithm steps will now be described in detail. The main challenge of the similar product module 818 is that the merchant can recognize when it is associated with a product on its web page. Because of the variability in the representation of product names, only reliable methods that can clearly recognize a product can go through “retailers SKUs” or unique product identifiers that retailers use to associate products. In order to be able to recognize that the link on the merchant page is actually already associated with the product in the catalog, it is necessary to perform the “Retail Merchant SKU Discovery” step. Note that the first time you search for a merchant URL, check to see if you have performed this step before, otherwise the program will load all of the URLs from the merchant present in catalog 26. The URLs are compared with each other and the variable part is determined as SKU, which is placed back to the product IDs in the catalog 26 and a symbol that helps free the merchant SKU from the URL Recorded as each retailer, along with defining the scope of the URL encountered on the retailer page The URL is analyzed using a delimiter and each sub-sequence of the URL is searched in a list of previously recorded SKUs from the merchant. 818 recognizes that the URL is associated with a product in the catalog.

しばしば、類似製品モジュール818が、関連した製品リンクを検索するために、小売商のページ又は他の製品情報の情報源を処理するとき、小売商はその製品のリストを他のページにおくことを決定する。そのページは、例えば、http://www.buydig.com/shop.php?prod_id=CNPSA70&adv=cnet.である。その場合、類似製品モジュール818は、このようなリンクにおいて、及びそれらに続いて製品の関係を見出すために、その言語を分析する。類似製品モジュール818は、ミニ語彙集(lexicon)を使用することができ、各結果の製品関連用の最終的なスコアに対し与えられた製品用のアクセサリにこのリンクが実際に関連していることの信頼を含むことができる。リスト化するアクセサリに対するリンクは、ときどき実際には小さいイメージでもよい。公知の方法でそのイメージを使ってテキストを得るためにOCRを使用することができる。   Often, when a similar product module 818 processes a merchant's page or other source of product information to retrieve relevant product links, the merchant may place a list of that product on other pages. decide. The page is, for example, http: // www. buydig. com / shop. php? prod_id = CNPSA70 & adv = cnet. It is. In that case, the similar product module 818 analyzes the language to find product relationships at and following such links. A similar product module 818 can use a mini lexicon, and that this link is actually related to the accessory for the given product for each resulting product-related final score. Trust can be included. Sometimes the links to the accessories to list may actually be small images. OCR can be used to obtain text using the image in a known manner.

各小売商で発見された関連用の製品関連スコアを計算するのに多くのファクタが使用される。これらは次のものを含んでいる:
・関連した製品が同じ会社で製造されたかどうかに基づいて、より高いスコアを提供する。
・そのリンクが「・・・ための・・・」等の言語を含んでいれば、そのテキストの残りがいかによく適合しているかを検査し、それに従ってスコアを増加又は減少させる。これは「Palm500シリーズ用」等の参照文の考慮に組み込まれ、この場合、ワード「シリーズ」がその515がそのシリーズの部分であることを示すため、Palm515がボーナスを得ることを決定する。対照的に、そのリンクが「Palm505単独用」であれば、ワード「単独」の存在がこの製品に関連するPalm515がより低いスコアを得ることを示す。この種の分析は、モデルIDs、言語の包含/排除の異なるタイプの認識、シリーズ特性及びモデルIDsの適合の確認を要求する。
・そのリンクが完全なカテゴリや製品に対する汎用の参照文を含んでいれば、例えば、PDAカテゴリがスキャンされるときに、「Viking MMC32M 32MB MultiMedia Card(マルチメディアカード) for a MP3 player(MP3プレイヤ),PDA or digital camera(デジタルカメラ)」等のカテゴリの言い回しが適合するかどうかでボーナスを与える。このことは、カテゴリ名用として良好な語彙集の同義語の範囲を要求する。
・小売商からHTML文書を解析しリンクが見出されたときは、そのリンクの前に生じている「グループテキストコンセプト」が検索される。例えば、関連した製品リンクのセットの前に「アド−オン(Add−ons)」や「×××用アクセサリ」等がある。小売商がHTMLにこのような見出しを付ける多くの方法があるため、この検索は難しい。これらの製品リンクが関連するものを検索するときは、配置、テキスト特徴及び言語を全て考慮する。グループテキストコンセプトが見出されたときは、リンクのリストが関連した製品を構成することをその言語が示していればスコアを増加させる。「この製品を購入する他の人はこれらも購入・・・」等の他のタイプの関連ではスコアを減少させる。これらの「ヘッダ」が実際にはときどき小さいイメージであり、イメージを使ってテキストを得るためのOCRをこれらの場合に使用してもよい。
・同じカテゴリでの製品に対する関連を放棄する。
・デジタルカメラやノートブックコンピュータ等の主要製品のアクセサリが、一般的に、主要製品より低コストのとき、関連した製品の価格を考慮する。
A number of factors are used to calculate the product relevance score for relevance found at each retailer. These include the following:
Provide a higher score based on whether the related product was manufactured by the same company.
-If the link contains a language such as "... for ...", check how well the rest of the text fits and increase or decrease the score accordingly. This is incorporated into the consideration of a reference sentence such as “For Palm 500 Series”, where the word “Series” indicates that 515 is part of that series, so Palm 515 decides to get a bonus. In contrast, if the link is “Palm505 only”, the presence of the word “alone” indicates that Palm 515 associated with this product gets a lower score. This type of analysis requires confirmation of model IDs, different types of recognition of language inclusion / exclusion, series characteristics and conformance of model IDs.
If the link contains a general reference to a complete category or product, for example, when the PDA category is scanned, “Viking MMC32M 32MB MultiMedia Card (multimedia card) for a MP3 player (MP3 player) , PDA or digital camera (digital camera) "or the like, a bonus is given depending on whether or not the wording of the category matches. This requires a good vocabulary range of synonyms for category names.
When a link is found by analyzing an HTML document from a retailer, the “group text concept” that occurs before the link is searched. For example, there are “Add-ons” and “XXX accessories” in front of a set of related product links. This search is difficult because there are many ways for retailers to put such headings in HTML. Consider all placement, text features, and language when searching for relevant product links. When a group text concept is found, the score is increased if the language indicates that the list of links constitutes the associated product. Other types of associations such as “Other people who purchase this product also purchase these ...” reduce the score. These “headers” are actually sometimes small images, and OCR to obtain text using the images may be used in these cases.
• Abandon associations for products in the same category.
• Consider the price of related products when accessories of major products such as digital cameras and notebook computers are generally lower cost than major products.

小売商の全てから製品用として関連の全てが集められれば、関連スコアの全体を計算する。その計算におけるファクタは次のとおりである:
・小売商の参照文の全てを集め、1以上の小売商により関連付けされた関連した製品に、更に高いスコアを与える。スキャンされる製品をもたらす小売商が全てでなければ、これはまったく確かなものではなく、例えば、与えられた製品用の小売商のわれわれのリストにおいて単に1小売商であってもよい。
・関連した製品をいかによく特徴づけしているかについて評価する(カタログ編集者によりマニュアルでセットされた)小売商は、与えられた関係用のスコア全体に対する貢献を増加させ又は減少させる。
・潜在的なカテゴリ−カテゴリ関係はそのスコアを変更することに対して考慮し貢献もする。その関係は、以前発見された潜在的な関係のスコアに肯定的又は否定的の両方で依存している。
If all of the relevance is collected for the product from all of the retailers, the entire relevance score is calculated. The factors in the calculation are:
Collect all of the merchant references and give higher scores to related products linked by one or more merchants. If not all retailers yielding the product to be scanned, this is not entirely certain, for example it may be just one retailer in our list of retailers for a given product.
• Retailers who evaluate how well characterized the related product (set manually by the catalog editor) increases or decreases the contribution to the overall score for a given relationship.
A potential category-category relationship takes into account and contributes to changing its score. The relationship depends either positively or negatively on the previously discovered potential relationship score.

製品の全カテゴリがスキャンされたとき、その全カテゴリ自身がある製品又は他のあるカテゴリと類似するかを決定するために、以下のことを考慮する:
・カテゴリ計数−それぞれのカテゴリにおける関連した製品の全数を計数する。更なる関連した製品を有するカテゴリは、製品の類似カテゴリの全体に確かに関連していることが更に考えやすく、従って、そのスコアがそのカテゴリの計数に基づいて調整される。例えば、「携帯用デバイスケース」のカテゴリでは、このカテゴリのほぼ全ての製品が既に他の製品に対する関係(又は多くの関係)を有している。この事実は、完全なカテゴリそれ自身、すなわち、「携帯用デバイスケース」は、製品の類似カテゴリとしていくつかの製品にそれ自身が確かに関連するより多くの機会を有している。
・「雑多な」タイプの関連したカテゴリにスコアのペナルティ(penalty)を付与−そのようなカテゴリは確かな関連を有するいくつかの製品を有しているが、通常雑多なカテゴリでは、全体として、特定の製品に何も関連していない。
・カテゴリツリーの長さがよく考えられており、そのような関係は通常は好ましくないため、兄弟(sibling)カテゴリからの関係にスコアのペナルティを付与する(例えば、ノートブックに関連したデスクトップ)。
・関連した製品を有することの可能性について向上又は悪化するとカタログ編集者は特定のカテゴリにマークし、システムがスコアを調整するためにその情報を使用する(これらが潜在的なカテゴリ−カテゴリ関係である?)。
・スコアがスキャニングの限界を越えると、必要であればスコアがマニュアルで無効とされるデータベースにそれらがセーブされる。実際には2つの限界、「スキャニング限界」及び「公表(publish)限界」がある。「スキャニング限界」が満たされると、その関係がセーブされるが、公表された限界ではセーブされない。ここでのアイディアは、良好な関係がいくつかの理由で低スコアを得るが、ユーザは、その関係が公表にふさわしいと考えるなら、マニュアルでそのスコアを無視してもよい。
When all categories of a product have been scanned, consider the following to determine whether the entire category itself is similar to a product or some other category:
Category counting-count the total number of related products in each category. It is more likely that a category with further related products is certainly related to the overall similar category of products, and thus its score is adjusted based on the category count. For example, in the “portable device case” category, almost all products in this category already have relationships (or many relationships) with other products. This fact indicates that the complete category itself, i.e., "portable device case", has more opportunities to be surely associated with some products as a similar category of products.
• Giving score penalties to related categories of "miscellaneous" types-such categories have several products that have a solid association, but usually in miscellaneous categories, Nothing related to a specific product.
• Given the length of the category tree and such relationships are usually undesirable, give a penalty for scores to relationships from sibling categories (eg, desktops associated with notebooks).
Catalog editors mark specific categories as they improve or worsen the likelihood of having an associated product, and the system uses that information to adjust the score (these are potential category-category relationships) is there?).
• If the scores exceed the scanning limits, they are saved in a database where the score is manually invalidated if necessary. There are actually two limits: a “scanning limit” and a “publish limit”. When the “scanning limit” is met, the relationship is saved, but not at the published limit. The idea here is that a good relationship gets a low score for several reasons, but the user may ignore the score manually if he thinks the relationship is appropriate for publication.

各製品用の最終的なパスは、その上位3つ(又は上位n)の製品を「強調」することである。強調された関連した製品は、(その関連した製品のページが最初に表示されたときにユーザに良好な変化を与えるために)最高スコアの製品及び少しも類似しない製品で構成される。類似製品モジュール818は、最高スコアを有する関連を採用し、次のページに移動してその製品名がありその製品名に類似するカテゴリをチェックする。その製品が類似の限界を越えると、第2の製品は強調されず、システムは第3の最高スコアの製品等に移動する。カタログ編集者は、マニュアルで製品を強調し、それらが実行される。   The final path for each product is to “emphasize” the top three (or top n) products. The highlighted related products are composed of the highest-scoring products and products that are not at all similar (to give the user a good change when the related product page is first displayed). The similar product module 818 takes the association with the highest score and moves to the next page to check the category that has the product name and is similar to the product name. If the product exceeds the similar limit, the second product is not highlighted and the system moves to the third highest score product, etc. The catalog editor highlights the products in the manual and they are executed.

多くの関係はときどき非常に類似することが見出され、それらの製品のブラウジングを退屈なものにする。類似製品モジュール818は応用を許容するクラスタリング情報を提供する。クラスタにおける最高スコアの関係を任意に示し、他を示さず、代わりに「更にこのような・・・」リンクを示す。クラスタは、強調するフレーズ及びそれらの類似性における関係のスコアの正反対のロジックを使用して作成され、その関係のスコアはカテゴリ、製造者、あいまいな製品名の適合(1つの属性で異なることを含む異なるタイプの言語等に焦点を当てる違い)、マニュアルで作成されたクラスタパターン、価格等を含んでいる。   Many relationships are sometimes found to be very similar, making browsing of those products tedious. Similar product module 818 provides clustering information that allows application. The highest score relationship in the cluster is shown arbitrarily, the others are not shown, and a “more like this” link is shown instead. Clusters are created using the opposite logic of relationship scores in emphasis phrases and their similarities, where the relationship score is a category, manufacturer, ambiguous product name match (one attribute is different Including differences in focus on different types of languages including manual), manually created cluster patterns, prices, etc.

類似製品リストが作成されセーブされると、その分類にマークされたアクセサリカテゴリにおける製品用として小売商から製品情報記録が取り戻される。これと類似する製品/モデルであることを示す製品リンクや言語は、製品データベースを検索し、公知の洗練された解析技術を使用してその結果に信頼レベルを指定することで、配置される。全ての小売商からの結果が集められ、選挙機構が適用され、別のリストが作成される。これらの関係のリストの両者が集めたスコアを誘導するために使用してもよい。そのスコアが予め定められた限界より大きければ、そのテーブル中に製品−製品関係が作成される。主要製品が製品ラインにある、例えば、1つの場合がPalm Mシリーズの全てに適合するため、これが他の製品関係に対する推論を含んでいる。   When a similar product list is created and saved, a product information record is retrieved from the retailer for products in the accessory category marked for that category. Product links and languages that indicate similar products / models are located by searching the product database and using known sophisticated analysis techniques to assign confidence levels to the results. Results from all retailers are collected, an election mechanism is applied, and another list is created. Both of these lists of relationships may be used to derive a score collected. If the score is greater than a predetermined limit, a product-product relationship is created in the table. This includes inferences for other product relationships because the main product is in the product line, for example, one case fits all of the Palm M series.

第2−パスのスキャニングでは、単なる「潜在的な」関係が考慮され;そのエンジンはこれらの潜在的な関係に従うことが見出されないリンクを無効にし;このため無効とされたアイテムを1つにまとめる。そのようなアイテムが特定量になると(又は特定の時間が経過すると)、第1−パスのスキャニングが繰り返される。   In the second-pass scanning, only “potential” relationships are considered; the engine invalidates links that are not found to follow these potential relationships; To summarize. When such an item reaches a specific amount (or when a specific time elapses), the first-pass scanning is repeated.

クラスタラモジュール802、カテゴライザモジュール804、特性スクレーパモジュール810、特性アグリゲータモジュール814、記述ジェネレータモジュール816及び類似製品モジュール818の上述した手順では、製品や提案(又は関係や組)の数値は、要求された信頼限界以下となることが可能でありまたそうなる。ポストプロセッシングモジュール820ではそのような製品を取り扱う。これらのモジュールは、それから作動するための自動化されたシステム用として更なるデータが有効となるまで延期されセーブされるか、又は、それらが不完全な、単なる表面上の「UPID化された」形態に保持されるかのいずれかである。これに代えて、これらのモジュールは、それらを可能な限り修繕するために人の編集者用としてツールに移動されてもよい。例えば、製品がCRT TV及びポータブルTV間にTVを十分な信頼性を有して分類するための十分な情報を有していなくてもよく、適当なエラー状態がセットされていてもよく、人の注意を問題の属性に適切にひきつけ、このため、それが満たされる。   In the procedures described above for clusterer module 802, categorizer module 804, characteristic scraper module 810, characteristic aggregator module 814, description generator module 816, and similar product module 818, numerical values of products and proposals (or relationships and sets) are required. It is possible and will be below the confidence limit. Post processing module 820 handles such products. These modules can then be deferred and saved until further data becomes available for an automated system to operate, or they can be incomplete, just a “UPIDized” form on the surface Is held in either. Alternatively, these modules may be moved to a tool for a human editor to repair them as much as possible. For example, a product may not have enough information to classify a TV with sufficient reliability between a CRT TV and a portable TV, an appropriate error condition may be set, Attach the attention of the problem to the attribute in question, so that it is satisfied.

この文書で概説された全体の手順の以前のテストでは、少なくとも80%の自動化及びいくつかのカテゴリでは96%程度の結果となり(すなわち、マニュアルでデータ入力する「暴力的な」方法と比較して動作の減少となる)、一方では、マニュアルの方法に対して、比較可能な正確さ及び実際には優れた標準化を保持する;このことは、アクションフィギュアからベビーカーシートの心臓モニタまでを範囲とする20以上の異なる製品カテゴリのテストから得られた結果である。   Previous testing of the overall procedure outlined in this document has resulted in at least 80% automation and in some categories on the order of 96% (ie, compared to “violent” methods of manual data entry). On the one hand, it maintains comparable accuracy and indeed good standardization for manual methods; this ranges from action figures to stroller seat heart monitors Results from testing over 20 different product categories.

更に、本発明の1実施形態では、インターネットがネットワーク接続されたコンピュータ環境であり、巡回者がウェブ巡回者であることを上で説明していることに注目されるべきである。更に、上述した実施形態では、製造者の製品特徴ウェブページが製造者の製品特徴の情報源と考えられており、小売商のウェブページが小売商の情報の情報源と考えられている。しかしながら、本発明は、それらに制限されるものではなく、ネットワーク接続されたコンピュータ環境の他のタイプ及び他の情報源に同様に適用してもよい。本発明は、インターネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、直接的なコンピュータの接続、その他の通信チャネルのいかなるタイプ上で、通信用ハードウェア及びプロトコルのいかなるタイプを使用して実施してもよい。いかなるタイプのハードウェアやハードウェアの組合せを種々のクライアント及びサーバ用として使用してもよい。従って、上述した用語「コンピュータ」はいかなるタイプのコンピュータデバイスやデータ端末にも相当し、例えば、パーソナルコンピュータ、ポータブルコンピュータ、ダム(dumb)端末、シンクライアント、携帯デバイス、無線電話、これらのデバイスのいかなる組合せも挙げることができる。種々のクライアント及びサーバは、単一の場所で単独のコンピュータでもよく、又は、単一又は複数の場所で複数のコンピュータでもよい。例えば、小型化する(facilitate scalability)ための種々の場所で共通に設置された複数の過剰なコンピュータでサーバを構成してもよい。いかなる適切なサーバやクライアントソフトウェアが使用されてもよく、いかなる通信プロトコルが使用されてもよい。通信は、電気ケーブル、光ファイバケーブル、その他のケーブル上で、又は、ラジオ周波数、赤外線を使用する無線方法やその他の技術で実行されてもよい。いかなるインターフェースが購入用の製品を選択するために使用されてもよい。種々の情報がいかなる書式で格納されてもよく、このため、上述した用語「データベース」は、データベースファイル、索引テーブル、等のいかなる情報の収集にも相当する。   Furthermore, it should be noted that in one embodiment of the present invention, it is described above that the Internet is a networked computer environment and the patroller is a web patroller. Further, in the above-described embodiment, the manufacturer's product feature web page is considered as the information source of the manufacturer's product feature, and the retailer's web page is considered as the information source of the retailer's information. However, the invention is not so limited and may be applied to other types of networked computer environments and other information sources as well. The present invention uses any type of communication hardware and protocol over any type of Internet, local area network (LAN), wide area network (WAN), direct computer connection, or other communication channel. You may implement. Any type of hardware or combination of hardware may be used for various clients and servers. Thus, the term “computer” described above corresponds to any type of computer device or data terminal, such as a personal computer, portable computer, dumb terminal, thin client, portable device, wireless telephone, any of these devices. Combinations can also be mentioned. The various clients and servers may be a single computer at a single location, or multiple computers at a single or multiple locations. For example, the server may be configured by a plurality of excess computers that are installed in common at various places for downsizing (facility scalability). Any suitable server or client software may be used and any communication protocol may be used. Communication may be performed on electrical cables, fiber optic cables, other cables, or by radio methods using radio frequencies, infrared, or other techniques. Any interface may be used to select a product for purchase. Various information may be stored in any format, so the term “database” described above corresponds to the collection of any information such as database files, index tables, and the like.

このため、本発明の実施形態に従う上述した方法及び装置は、望ましい製品情報を集めるために非常に効果的なシステム及び方法を提供する。ここで十分に評価されたたように、本発明は、買い手に重要な製品情報の準備を許容し、それにより買い手による通知された購入決定を容易にすることで、オンライン商取引を容易にする。また、本発明は、ネットワーク化されたコンピュータ環境からそのような製品情報を効果的に集めるための新規な方法を提供し、買い手にアップデートされた製品情報を提供しそれにより買い手の購入決定を容易にするための新規な方法を提供する。   Thus, the methods and apparatus described above according to embodiments of the present invention provide a highly effective system and method for gathering desired product information. As well appreciated herein, the present invention facilitates online commerce by allowing the buyer to prepare important product information, thereby facilitating the buyer's informed purchase decision. The present invention also provides a novel method for effectively collecting such product information from a networked computer environment, providing buyers with updated product information, thereby facilitating buyer purchase decisions. Provide a new way to

本発明を好ましい実施形態を通じて説明してきた。しかしながら、添付された特許請求の範囲及びその均等の範囲で定義される本発明の範囲から外れることなく種々の変更がなされてもよい。   The invention has been described through preferred embodiments. However, various modifications may be made without departing from the scope of the present invention as defined in the appended claims and their equivalents.

<用語説明>   <Glossary>

類似製品:他の製品と共に機能的に統合される製品−例えば、アクセサリ(プリンタ用の封筒供給機)、部品(PDA用の交換スクリーン)、サプライ(用紙やプリンタカートリッジ)、保守用品(テープヘッドクリーナ)である。これら間の相違は、そのアイテムの消耗性、典型的に1回購入するか、何度も購入するか等に関連して重要である。   Similar products: products that are functionally integrated with other products-eg accessories (envelope feeder for printers), parts (replacement screens for PDAs), supplies (paper and printer cartridges), maintenance supplies (tape head cleaners) ). The difference between them is important in relation to the wearability of the item, typically whether it is purchased once or purchased many times.

関連した製品:全ての類似、変種、ファミリィ及び組製品を包含する広範囲の用語。   Related Products: A broad term that encompasses all similarities, variants, families and assembled products.

属性値セット:特定の属性用としてシステムに記録された(又は記録可能な)すべての可能な値。   Attribute value set: All possible values recorded (or recordable) in the system for a particular attribute.

属性:製品の機能、関連、品質、量、目的、材料、書式、構造、製造された効果。特性も参照。   Attributes: Product function, association, quality, quantity, purpose, material, format, structure, manufactured effect. See also characteristics.

カテゴリ化:最も適当に属する分類におけるカテゴリに製品を指定するプロセス。   Categorization: The process of assigning products to categories in the most appropriate classification.

カテゴリ:同じ基本的な特性定義を互いに共有し分類における同じノードを互いに占領する製品のグループ。   Category: A group of products that share the same basic property definition with each other and occupy each other with the same node in the classification.

クラスタリング:同じ製品(又は製品の同じ結合)の異なる小売商からの提案をグループに集めるプロセス。   Clustering: The process of collecting proposals from different retailers of the same product (or the same combination of products) into a group.

信頼スコア:データが正しく又は確実である信頼性の尺度−例えば、製品名や参照文が解析され、他の製品の類似製品としてデータ情報源により提出されたものと正しく特定されること、すなわち、製品Aが製品B用のアクセサリであることを与えられたウェブページで言っているシステムがいかに確かであるか?   Confidence score: A measure of confidence that the data is correct or reliable-for example, product names and references are parsed and correctly identified as submitted by data sources as similar products to other products, How certain is the system saying on the web page that Product A is an accessory for Product B?

DOM:(文書対象モデル化):例えば、ヘッダ、フッタ、製品仕様テーブル、製品テキスト記述、推奨されたアクセサリ、クロス販売/アップ販売製品リスト、ナビゲーション用バー、アドブロック等の種々の領域に分けるためにHTMLウェブページを分析すること。これは、特性かき集め、アイテムクラスタリング、アクセサリ発見等をセットアップするための予備的ステップである。   DOM: (Document target modeling): To divide into various areas such as header, footer, product specification table, product text description, recommended accessories, cross-sell / up-sell product list, navigation bar, ad block, etc. Analyzing HTML web pages. This is a preliminary step for setting up feature collection, item clustering, accessory discovery, etc.

最小製造社名:製造社名の列が「インコーポレイテッド」、「コーポレーション」等の種々の無関係で共通の接尾語を除かれた後の結果の列。   Minimum manufacturer name: The column of results after the manufacturer name column is stripped of various unrelated and common suffixes such as “Incorporated”, “Corporation”.

標準化:同じ意味を有するが表面上異なる命名法で表現された属性名及び/又は属性値を決定し、それらを単一の一貫した表現形態に配置すること。   Standardization: Determining attribute names and / or attribute values that have the same meaning but are expressed in different superficial nomenclatures and place them in a single consistent representation.

標準化された属性値セット:適用可能な計測の単位を含む十分に標準化された属性値。属性名それ自身は標準化されてもよくされなくてもよい。   Standardized attribute value set: A fully standardized attribute value that includes applicable units of measurement. The attribute name itself may or may not be standardized.

標準化された属性:標準化された属性は、それぞれの属性の名称が標準化されたものである。その属性用の数値セットは標準化されてもよくされなくてもよい。   Standardized attribute: A standardized attribute is a standardized name of each attribute. The numeric set for that attribute may or may not be standardized.

標準化された仕様:要素の全てが標準化された属性名/数値/単位情報で構成されるデータのセット。   Standardized specification: A set of data in which all elements are composed of standardized attribute names / numerical values / unit information.

潜在的関係:定義によれば適性であるが特定の製品適合性テストに従うような関係を確立すること。例えば、スタイラス(styluses)は通常はPDAsに「潜在的に」リンクしているが、適合性に従う。   Potential relationship: Establishing a relationship that, by definition, is suitable but follows specific product suitability tests. For example, styluses are usually “potentially” linked to PDAs, but follow suitability.

先の確率:概念的に存在する全ての可能性から確かであるランダム推測の差異。例えば、クラスタリングで、カタログ中に与えられたタイプの2製品があり、新しい未知の提案が分析されるべきであるとすれば、そのクラスタリングは先の確率0.33である(そのデータベースにおける2製品の1つと同じであるか、第3の新しいものであるかのいずれかの3チャンスのうち1つを反映する)。カタログ化された製品の99に対して比較された1つの新しい提案は、クラスタリングの先の確率0.01である。先の確率は、クラスタリングの種々の段階で信頼推定に影響を及ぼす。先の確率は、必要な変更を加えて、カタログの自動生成で種々の他の態様における役割を果たす。   Earlier probability: The difference in random guess that is certain from all the possibilities that exist conceptually. For example, if there are two products of the given type in the catalog in clustering and a new unknown proposal is to be analyzed, the clustering has the previous probability of 0.33 (two products in the database One of the three chances, either the same as one of the three or the third new one). One new proposal compared against 99 of the cataloged products is an earlier probability of clustering of 0.01. Earlier probabilities affect confidence estimates at various stages of clustering. The prior probabilities play a role in various other aspects in automatic catalog generation, with the necessary changes.

製品組:いくつかのアクセサリ、部品、サプライと結合された主要製品。   Product suite: The main product combined with several accessories, parts and supplies.

特性:本質的な又は他のいずれかがその本質的な特性について製品の認知又は使用から単に派生する属性。製品の使用とは別の他の外部の作用から派生するため、ブランド、価格、及び配給者SKU等のいくつかの製品属性は特性ではない。   Characteristic: An attribute that is essentially or otherwise derived from the product's perception or use of its essential characteristics. Some product attributes, such as brand, price, and distributor SKU, are not characteristic because they are derived from other external effects apart from product use.

準UPID化:製品の提案を表すデータのセットは、ほとんどの例では、UPID化されているが、少数の製品の提案はUPID化されていない(UPID参照)。   Semi-UPID: A set of data representing product proposals is UPID in most examples, but a few product proposals are not UPID (see UPID).

兄弟製品:同じ製品ライン、シリーズ、ファミリィのメンバであるまったく異なる製品であるが、同様のもの、例えば、Palm Vに対するPalm Vx。   Sibling product: An entirely different product that is a member of the same product line, series, family, but the same, for example, Palm Vx for Palm V.

分類:製品カテゴリの階層的ツリー又は他のグループ化   Classification: Hierarchical tree or other grouping of product categories

UPID:「ユニバーサル製品ID」複数の様々に記述された様々に命名された提案中の1つの特定の製品の識別子。有効な場所は、製造者識別番号、モデルID、カタログ番号、ISBN番号がUPIDとして役に立つ。多くの場合、そのようなUPIDは外部のデータ情報源には存在せず、そのシステムにより作成され割り当てられる。   UPID: “Universal Product ID” An identifier of one particular product in the variously named variously named proposals. For valid locations, the manufacturer identification number, model ID, catalog number, and ISBN number are useful as UPIDs. In many cases, such UPIDs do not exist in external data sources and are created and assigned by the system.

変種製品:製造者や商人からの特徴構成において異なるが基本的に同じ製品である製品のバージョン。例えば、128MBのRAMを有するノートブック及び同じノートブックであるが256MBのRAMを有するもの。   Variant product: A version of a product that is basically the same product, but with different features from the manufacturer or merchant. For example, a notebook with 128 MB of RAM and the same notebook but with 256 MB of RAM.

本発明の好ましい実施形態に従う複数の製造者のサーバを含むコンピュータ構成を示すブロックダイアグラムである。2 is a block diagram illustrating a computer configuration including a plurality of manufacturer's servers according to a preferred embodiment of the present invention. 自動化された購入手順用として通信チャネル接続を模式的に示し図1の構成の一部を示すブロックダイアグラムである。FIG. 2 is a block diagram schematically illustrating communication channel connections for an automated purchase procedure and illustrating a portion of the configuration of FIG. 好ましい実施形態のクッキー取扱手順を示すブロックダイアグラムである。2 is a block diagram illustrating a cookie handling procedure of a preferred embodiment. 好ましい実施形態のショッピングサーバの内部の自動化された購入手順を示す模式的な説明図である。It is typical explanatory drawing which shows the automated purchase procedure inside the shopping server of preferable embodiment. 本発明の1実施形態に従う複数の製造者のサーバから集められた製品特性情報を処理するステップの方法を示すブロックダイアグラムである。2 is a block diagram illustrating a method of processing product characteristic information collected from a plurality of manufacturer's servers according to one embodiment of the present invention. 本発明の1実施形態に従うオンライン小売商の売り出す製品を確認するステップ及び決定された製品特性に基づいた新製品記録を作成するステップの方法を示すブロックダイアグラムである。FIG. 6 is a block diagram illustrating a method of identifying a product for sale by an online retailer and creating a new product record based on the determined product characteristics according to an embodiment of the present invention. 好ましい実施形態のカタログ分類を示す模式的な説明図である。It is typical explanatory drawing which shows the catalog classification | category of preferable embodiment. 別の好ましい実施形態の特性定義ツールを示す模式的な説明図である。It is typical explanatory drawing which shows the characteristic definition tool of another preferable embodiment. 図8の特性定義ツールの操作を示すフローチャートである。It is a flowchart which shows operation of the characteristic definition tool of FIG.

Claims (72)

製品情報用として全く異なる書式を有する複数の製品情報源から製品情報を集め分類装置に前記情報を格納することでコンピュータ読み取り可能な媒体に格納された製品カタログの作成方法であって、
製品情報記録が前記同じ製品に対応して適当であることに基づいて1又は1以上のグループに前記製品情報源からの複数の製品情報記録を処理するステップと、
前記製品を特定するために、前記各グループに関連づけられた前記製品に対応するユニークな製品IDを相関させるステップと、
前記分類装置における前記特定された製品用のカテゴリを決定するために、特定された各製品を分類装置のカテゴリと比較するステップと、
各グループに対応する前記製品情報記録に基づいて、カテゴリ化された各製品用の属性を決定するステップと、
前記決定された属性に基づいて製品特性を作成するステップと、
前記分類装置の前記対応して決定されたカテゴリに前記製品特性を格納するステップと、
を有する方法。
A method for creating a product catalog stored on a computer readable medium by collecting product information from a plurality of product information sources having completely different formats for product information and storing the information in a classification device,
Processing a plurality of product information records from the product information source into one or more groups based on the fact that product information records are appropriate for the same product;
Correlating a unique product ID corresponding to the product associated with each group to identify the product;
Comparing each identified product with a category of the classifier to determine a category for the identified product in the classifier;
Determining an attribute for each categorized product based on the product information record corresponding to each group;
Creating product characteristics based on the determined attributes;
Storing the product characteristic in the correspondingly determined category of the classifier;
Having a method.
前記処理するステップは、前記製品に関連づけられたデータ列を比較することで前記製品情報記録において相当する製品が同じであることが適当であることを決定するステップ、及び、共通のデータ列を決定するステップを含むことを特徴とする請求項1に記載の方法。   The step of processing determines that it is appropriate that the corresponding products in the product information record are the same by comparing data sequences associated with the products, and determines a common data sequence The method of claim 1 including the step of: 前記データ列は、製造者識別番号、モデル識別子及び単一の製品コードの少なくとも1つを含むことを特徴とする請求項2に記載の方法。   The method of claim 2, wherein the data string includes at least one of a manufacturer identification number, a model identifier, and a single product code. 前記処理するステップは、前記製品情報記録における製品名を比較し実質的に類似の製品名を有する全ての製品を一緒にグループ化するステップを有することを特徴とする請求項1に記載の方法。   The method of claim 1, wherein the step of processing comprises comparing product names in the product information record and grouping together all products having substantially similar product names. 前記製品名は、大文字使用及び句読点の違いに関せず比較されることを特徴とする請求項4に記載の方法。   The method of claim 4, wherein the product names are compared regardless of capitalization and punctuation differences. 前記グループを決定するステップで、前記製品に関連づけられた共通の名詞を解析し無視する第2の処理するステップを更に有することを特徴とする請求項4に記載の方法。   The method of claim 4, further comprising a second processing step of analyzing and ignoring common nouns associated with the product in the step of determining the group. 前記処理するステップは、前記グループを決定するステップで、選択された形容詞を解析し、前記選択された形容詞を無視するステップを有することを特徴とする請求項1に記載の方法。   The method of claim 1, wherein the step of processing comprises analyzing the selected adjectives and ignoring the selected adjectives in the step of determining the group. 前記処理するステップは、前記製品に関連づけられた前記製品情報記録における価格を考慮するステップを有することを特徴とする請求項1に記載の方法。   The method of claim 1, wherein the step of processing comprises considering a price in the product information record associated with the product. 前記処理するステップは、前記製品情報記録における前記製品の記述において同義語、上位語及び下位語の関係を考慮するステップを有することを特徴とする請求項1に記載の方法。   The method of claim 1, wherein the step of processing comprises considering a relationship between synonyms, broader terms, and narrower terms in the description of the product in the product information record. 前記処理するステップは、前記製品情報記録に示された小売商の適用範囲を考慮するステップを有することを特徴とする請求項1に記載の方法。   The method of claim 1, wherein the step of processing comprises considering a merchant scope indicated in the product information record. 前記処理するステップは、前記製品をサブグループ及び/又は上位グループにグループ化するステップを含むことを特徴とする請求項1に記載の方法。   The method of claim 1, wherein the step of processing includes grouping the products into subgroups and / or supergroups. 前記決定するステップは、
グループにおける複数の製品情報記録から属性値を集め、集められた各属性値に信用格付を割り当てるステップと、
前記信用格付に基づいた一組の製品特性属性に前記属性値を組み合わせるステップと、
を有することを特徴とする請求項1に記載の方法。
The determining step includes:
Collecting attribute values from multiple product information records in the group and assigning a credit rating to each collected attribute value;
Combining the attribute value with a set of product characteristic attributes based on the credit rating;
The method of claim 1, comprising:
それぞれの特定された製品用の製品名を決定するステップを更に含むことを特徴とする請求項1に記載の方法。   The method of claim 1, further comprising determining a product name for each identified product. 前記製品名を決定するステップは、
グループにおける製品情報記録から複数の変種製品名の最良名を選択するステップと、
過剰なつなげられたテキストの最良名を取り除き、所定のスタイルの製品名に前記取り除かれた最良名をフォーマットするステップと、
を有することを特徴とする請求項13に記載の方法。
Determining the product name comprises:
Selecting the best name of multiple variant products from the product information records in the group;
Removing the excess connected text best name and formatting the removed best name into a predetermined style product name;
The method of claim 13, comprising:
前記製品情報記録から最も好ましい製品イメージを選択することで特定された各製品用の製品イメージを決定するステップを更に有することを特徴とする請求項1に記載の方法。   The method of claim 1, further comprising determining a product image for each identified product by selecting a most preferred product image from the product information record. 前記決定された属性の少なくとも一部から特定された各製品の記述を生成するステップを更に有することを特徴とする請求項1に記載の方法。   The method of claim 1, further comprising generating a description of each identified product from at least a portion of the determined attributes. 前記処理するステップは、前記製品情報記録に存在する特定コードを解析することで各製品情報記録に関連づけられた特定コードを検査し、コード間の共通性を決定するために前記解析された特定コードを比較するステップを有することを特徴とする請求項1に記載の方法。   The processing step includes examining the specific code associated with each product information record by analyzing the specific code present in the product information record and determining the commonness between the codes. The method of claim 1, comprising the steps of: 各製品に関連づけられた共通の特定コードを決定するために各製品情報記録を一回以上検査することを特徴とする請求項17に記載の方法。   18. The method of claim 17, wherein each product information record is examined one or more times to determine a common specific code associated with each product. 前記比較ステップ後に前記処理するステップを繰り返し、そして、前記比較ステップを再度実行するステップを更に有することを特徴とする請求項1に記載の方法。   The method of claim 1, further comprising the step of repeating the processing step after the comparing step and executing the comparing step again. 前記処理するステップ、相関させるステップ、比較するステップ及び決定するステップの1又は1以上の結果が所定の信用レベル以下のときに決定し、更に処理するために前記結果を警告するステップを更に有することを特徴とする請求項1に記載の方法。   Further comprising determining when one or more results of the processing, correlating, comparing and determining steps are below a predetermined confidence level and alerting the results for further processing. The method of claim 1, wherein: 更なる製品情報源が有効となるときに、前記警告された結果が延期され、セーブされ、再処理されることを特徴とする請求項20に記載の方法。   21. The method of claim 20, wherein the alerted result is deferred, saved, and reprocessed when additional product information sources become available. 前記警告された結果は、マニュアル操作のために処理ツールに移動されることを特徴とする請求項20に記載の方法。   21. The method of claim 20, wherein the alerted result is moved to a processing tool for manual operation. 製品情報用として全く異なる書式を有する複数の製品情報源から製品情報を集めることでコンピュータ読み取り可能な媒体に格納された製品カタログの作成方法であって、
製品情報記録が前記同じ製品に対応して適当であることに基づいて1又は1以上のグループに前記製品情報源からの複数の製品情報記録を処理するステップと、
前記各グループ用として特定された製品に対応するユニークな製品IDを相関させるステップと、
前記分類装置における前記特定された製品用のカテゴリを決定するために、特定された各製品を分類装置におけるカテゴリと比較するステップと、
前記複数の製品情報記録が属するグループを修正するために、前記比較するステップの実行後に前記処理するステップ及び相関させるステップを繰り返すステップと、
各グループに対応する前記製品情報記録に基づいて、カテゴリ化された各製品用の属性を決定するステップと、
前記決定された属性に基づいて製品特性を作成するステップと、
前記分類装置の前記対応して決定されたカテゴリに前記製品特性を格納するステップと、
を有する方法。
A method for creating a product catalog stored on a computer readable medium by collecting product information from a plurality of product information sources having completely different formats for product information,
Processing a plurality of product information records from the product information source into one or more groups based on product information records being appropriate for the same product;
Correlating unique product IDs corresponding to the products identified for each group;
Comparing each identified product with a category in the classifier to determine a category for the identified product in the classifier;
Repeating the processing step and the correlating step after execution of the comparing step to modify a group to which the plurality of product information records belong;
Determining an attribute for each categorized product based on the product information record corresponding to each group;
Creating product characteristics based on the determined attributes;
Storing the product characteristic in the correspondingly determined category of the classifier;
Having a method.
前記処理するステップは、前記製品に関連づけられたデータ列を比較することで前記製品情報記録において相当する製品が同じであることが適当であることを決定するステップ、及び、共通のデータ列を決定するステップを含むことを特徴とする請求項23に記載の方法。   The step of processing determines that it is appropriate that the corresponding products in the product information record are the same by comparing data sequences associated with the products, and determines a common data sequence 24. The method of claim 23, comprising the step of: 前記データ列は、製造者識別番号、モデル識別子及び単一の製品コードの少なくとも1つを含むことを特徴とする請求項24に記載の方法。   The method of claim 24, wherein the data string includes at least one of a manufacturer identification number, a model identifier, and a single product code. 前記処理するステップは、前記製品情報記録における製品名を比較し実質的に類似の製品名を有する全ての製品を一緒にグループ化するステップを有することを特徴とする請求項24に記載の方法。   The method of claim 24, wherein the step of processing comprises comparing product names in the product information record and grouping together all products having substantially similar product names. 前記処理するステップで生成した情報のグループ化に集合信用スコアを割り当てるステップ、前記比較するステップで生成したカテゴリに信用スコアをカテゴリ化するステップ及び前記信用スコアが安定化するまで前記繰り返しステップを繰り返すステップを更に含むことを特徴とする請求項23に記載の方法。   Assigning a collective credit score to the grouping of information generated in the processing step, categorizing a credit score into the category generated in the comparing step, and repeating the repeating step until the credit score is stabilized 24. The method of claim 23, further comprising: 前記処理するステップ及びカテゴリ化するステップの一方又は両者に関連づけられた前記信用スコアが所定の最小値以下のときに前記処理するステップ及びカテゴリ化するステップの一方又は両者の結果を警告するステップを更に含むことを特徴とする請求項27に記載の方法。   Further warning the result of one or both of the processing and categorizing steps when the credit score associated with one or both of the processing and categorizing steps is less than or equal to a predetermined minimum value. 28. The method of claim 27, comprising: 更なる製品情報源が有効となるときに、前記警告された結果が延期され、セーブされ、再処理されることを特徴とする請求項28に記載の方法。   29. The method of claim 28, wherein the alerted result is deferred, saved, and reprocessed when a further product information source becomes available. 前記警告された結果は、マニュアル操作のために処理ツールに移動されることを特徴とする請求項28に記載の方法。   29. The method of claim 28, wherein the alerted result is moved to a processing tool for manual operation. 前記比較するステップは、各カテゴリに設定された前記属性及び属性値を検査するステップ及び既に各カテゴリに分類された実際の製品情報記録を検査するステップを含むことを特徴とする請求項23に記載の方法。   The comparing step includes a step of inspecting the attribute and attribute value set in each category and a step of inspecting an actual product information record already classified in each category. the method of. 前記相関させるステップは、色違いの前記同じ製品に異なる製品IDを割り当てることを特徴とする請求項23に記載の方法。   The method of claim 23, wherein the correlating assigns different product IDs to the same product of different colors. 前記処理するステップは、前記製品情報源に対しサーバから巡回者を生成するステップを有することを特徴とする請求項1に記載の方法。   The method of claim 1, wherein the step of processing comprises generating a patrol person from a server for the product information source. ネットワーク接続されたコンピュータ環境における複数の製品情報源から製品情報を集めるための方法であって、
前記複数の情報源を訪問するために前記ネットワークコンピュータ環境に相互接続されたサーバから巡回者を生成するステップと、
前記巡回者を通じて前記複数の情報源のそれぞれから製品フレーズ情報及び前記製品フレーズ情報の特徴を寄せ集めるステップと、
前記製品フレーズ情報及び前記製品フレーズ情報の特徴に基づいて製品のカタログを作成するステップと、
を有する方法。
A method for collecting product information from a plurality of product information sources in a networked computer environment comprising:
Generating a patrol person from a server interconnected to the network computing environment to visit the plurality of information sources;
Collecting product phrase information and features of the product phrase information from each of the plurality of information sources through the patrolperson;
Creating a product catalog based on the product phrase information and features of the product phrase information;
Having a method.
前記フレーズの前記少なくとも1つの特徴は、前記複数の情報源のそれぞれにおける前記フレーズの頻度、位置、フォントサイズ、フォントスタイル、フォントケース、フォント効果、フォント色、配列及び同時出現の少なくとも1つを含むことを特徴とする請求項34に記載の方法。   The at least one feature of the phrase includes at least one of the frequency, position, font size, font style, font case, font effect, font color, arrangement, and co-occurrence of the phrase in each of the plurality of information sources. 35. The method of claim 34. 前記複数の情報源は、製造者の製品特性情報源、製品広告情報源及び小売商の情報源の少なくとも1つを含むことを特徴とする請求項35に記載の方法。   36. The method of claim 35, wherein the plurality of information sources includes at least one of a manufacturer product property information source, a product advertisement information source, and a retailer information source. 前記巡回者は、前記製造者の製品特性情報源及び前記製品広告情報源の少なくとも1つから製品フレーズ情報を寄せ集める製品広告巡回者を含むことを特徴とする請求項30に記載の方法。   31. The method of claim 30, wherein the patroller includes a product advertisement patroller gathering product phrase information from at least one of the manufacturer's product property information source and the product advertisement information source. 前記製品フレーズ情報により記述された製品の製品カテゴリを決定するために前記製品フレーズ情報を分類装置のカテゴリと比較するステップを更に有することを特徴とする請求項34に記載の方法。   35. The method of claim 34, further comprising comparing the product phrase information to a category of a classifier to determine a product category of a product described by the product phrase information. 前記製品の少なくとも1つについて類似の製品を決定するステップを更に有することを特徴とする請求項1に記載の方法。   The method of claim 1, further comprising determining a similar product for at least one of the products. 前記類似の製品を決定するステップは、
製品に対応する少なくとも1つの製品情報記録を解析するステップと、
関連した製品に対する前記製品情報記録にリンクが存在するなら、関連した製品情報記録に対する前記リンクを追跡するステップと、
前記関連した製品情報記録における前記製品に対する参照文を逆に検索するステップと、
前記カタログにおける前記製品に前記関連した製品情報記録における前記関連した製品を関連づけるステップと、
を有することを特徴とする請求項39に記載の方法。
Determining the similar product comprises:
Analyzing at least one product information record corresponding to the product;
Tracking the link to the associated product information record if a link exists in the product information record for the associated product;
Reversely searching for a reference to the product in the associated product information record;
Associating the associated product in the associated product information record with the product in the catalog;
40. The method of claim 39, comprising:
前記製品の少なくとも1つについて類似の製品を決定するステップを更に有することを特徴とする請求項23に記載の方法。   The method of claim 23, further comprising determining a similar product for at least one of the products. 前記類似の製品を決定するステップは、
製品に対応する少なくとも1つの製品情報記録を解析するステップと、
関連した製品に対する前記製品情報記録にリンクが存在するなら、関連した製品情報記録に対する前記リンクを追跡するステップと、
前記関連した製品情報記録における前記製品に対する参照文を逆に検索するステップと、
前記カタログにおける前記製品に前記関連した製品情報記録における前記関連した製品を関連づけるステップと、
を有することを特徴とする請求項23に記載の方法。
Determining the similar product comprises:
Analyzing at least one product information record corresponding to the product;
Tracking the link to the associated product information record if a link exists in the product information record for the associated product;
Reversely searching for a reference to the product in the associated product information record;
Associating the associated product in the associated product information record with the product in the catalog;
24. The method of claim 23, comprising:
前記製品の少なくとも1つについて類似の製品を決定するステップを更に有することを特徴とする請求項34に記載の方法。   35. The method of claim 34, further comprising determining a similar product for at least one of the products. 前記類似の製品を決定するステップは、
製品に対応する少なくとも1つの製品情報記録を解析するステップと、
関連した製品に対する前記製品情報記録にリンクが存在するなら、関連した製品情報記録に対する前記リンクを追跡するステップと、
前記関連した製品情報記録における前記製品に対する参照文を逆に検索するステップと、
前記カタログにおける前記製品に前記関連した製品情報記録における前記関連した製品を関連づけるステップと、
を有することを特徴とする請求項34に記載の方法。
Determining the similar product comprises:
Analyzing at least one product information record corresponding to the product;
Tracking the link to the associated product information record if a link exists in the product information record for the associated product;
Reversely searching for a reference to the product in the associated product information record;
Associating the associated product in the associated product information record with the product in the catalog;
35. The method of claim 34, comprising:
製品情報用として全く異なる書式を有する複数の製品情報源から製品情報を集め分類装置に前記情報を格納することで製品カタログを作成するためのシステムにおいて、
製品情報記録が前記同じ製品に対応して適当であることに基づいて1又は1以上のグループに前記製品情報源からの複数の製品情報記録を処理するための手段と、
前記製品を特定するために、前記各グループに関連づけられた前記製品に対応するユニークな製品IDを相関させるための手段と、
前記分類装置における前記特定された製品用のカテゴリを決定するために、特定された各製品を分類装置のカテゴリと比較するための手段と、
各グループに対応する前記製品情報記録に基づいて、カテゴリ化された各製品用の属性を決定するための手段と、
前記決定された属性に基づいて製品特性を作成するための手段と、
前記分類装置の前記対応して決定されたカテゴリに前記製品特性を格納するための手段と、
を有するシステム。
In a system for creating a product catalog by collecting product information from a plurality of product information sources having completely different formats for product information and storing the information in a classification device,
Means for processing a plurality of product information records from the product information source into one or more groups on the basis that a product information record is appropriate for the same product;
Means for correlating a unique product ID corresponding to the product associated with each group to identify the product;
Means for comparing each identified product with a category of the classifier to determine a category for the identified product in the classifier;
Means for determining an attribute for each categorized product based on the product information record corresponding to each group;
Means for creating product characteristics based on the determined attributes;
Means for storing the product characteristics in the correspondingly determined categories of the classifier;
Having a system.
前記処理するための手段は、前記製品に関連づけられたデータ列を比較することで前記製品情報記録において相当する製品が同じであることが適当であることを決定するための手段、及び、共通のデータ列を決定するための手段を含むことを特徴とする請求項45に記載のシステム。   The means for processing includes means for determining that it is appropriate that the corresponding products in the product information record are the same by comparing data strings associated with the products, and a common The system of claim 45, comprising means for determining a data string. 前記データ列は、製造者識別番号、モデル識別子及び単一の製品コードの少なくとも1つを含むことを特徴とする請求項45に記載のシステム。   The system of claim 45, wherein the data string includes at least one of a manufacturer identification number, a model identifier, and a single product code. 前記処理するための手段は、前記製品情報記録における製品名を比較するための手段、及び、実質的に類似の製品名を有する全ての製品を一緒にグループ化するための手段を有することを特徴とする請求項45に記載のシステム。   The means for processing comprises means for comparing product names in the product information record and means for grouping together all products having substantially similar product names. 46. The system of claim 45. 前記製品名は、大文字使用及び句読点の違いに関せず比較されることを特徴とする請求項48に記載のシステム。   49. The system of claim 48, wherein the product names are compared regardless of capitalization and punctuation differences. 前記決定するための手段で、前記製品に関連づけられた共通の名詞を解析し該共通の名詞を処理することから排除するための手段を更に有することを特徴とする請求項48に記載のシステム。   49. The system of claim 48, further comprising means for analyzing the common noun associated with the product and excluding it from processing the common noun with the means for determining. 前記決定手段で、選択された形容詞を解析し該選択された形容詞を処理することから排除するための手段を更に有することを特徴とする請求項45に記載のシステム。   The system of claim 45, further comprising means for analyzing the selected adjective from the determining means and excluding it from processing the selected adjective. 前記処理するための手段は、前記製品に関連づけられた前記製品情報記録における価格を考慮するための手段を有することを特徴とする請求項45に記載のシステム。   The system of claim 45, wherein the means for processing comprises means for considering a price in the product information record associated with the product. 前記処理するための手段は、前記製品情報記録における前記製品の記述に関連する同義語、上位語及び下位語を考慮するための手段を有することを特徴とする請求項45に記載のシステム。   46. The system of claim 45, wherein the means for processing comprises means for considering synonyms, broader terms, and narrower terms associated with the product description in the product information record. 前記処理するための手段は、前記製品情報記録に示された小売商の適用範囲を考慮するための手段を有することを特徴とする請求項45に記載のシステム。   46. The system of claim 45, wherein the means for processing comprises means for considering a merchant scope indicated in the product information record. 前記処理するための手段は、前記製品をサブグループ及び/又は上位グループにグループ化するための手段を有することを特徴とする請求項45に記載のシステム。   46. The system of claim 45, wherein the means for processing comprises means for grouping the products into subgroups and / or supergroups. 前記決定するための手段は、
グループにおける複数の製品情報記録から属性値を集め、集められた各属性値に信用格付を割り当てるための手段と、
前記信用格付に基づいて前記属性値を一組の製品特性属性に組み合わせるための手段と、
を有することを特徴とする請求項45に記載のシステム。
The means for determining is
Means for collecting attribute values from multiple product information records in the group and assigning a credit rating to each attribute value collected;
Means for combining the attribute value into a set of product characteristic attributes based on the credit rating;
46. The system of claim 45, comprising:
特定された各製品用の製品名を決定するための手段を更に有することを特徴とする請求項44に記載のシステム。   45. The system of claim 44, further comprising means for determining a product name for each identified product. 前記製品名を決定するための手段は、
グループにおける製品情報記録から複数の変種製品名の最良名を選択するための手段と、
過剰なつなげられたテキストの最良名を除外し、所定のスタイルの製品名に前記除外された名称をフォーマットするための手段と、
を有することを特徴とする請求項57に記載のシステム。
Means for determining the product name are:
Means for selecting the best name of multiple variant names from product information records in the group;
Means for excluding the best name of excess connected text and formatting the excluded name into a predetermined style product name;
58. The system of claim 57, comprising:
前記製品情報記録から最も好ましい製品イメージを選択することで特定された各製品用の製品イメージを決定するための手段を更に有することを特徴とする請求項45に記載のシステム。   The system of claim 45, further comprising means for determining a product image for each product identified by selecting a most preferred product image from the product information record. 前記決定された属性の少なくとも一部から特定された各製品の記述を生成するための手段を更に有することを特徴とする請求項45に記載のシステム。   46. The system of claim 45, further comprising means for generating a description of each product identified from at least a portion of the determined attributes. 前記処理するための手段は、前記製品情報記録に存在する特定コードを解析することで各製品情報記録に関連づけられた特定コードを検査し、コード間の共通性を決定するために前記解析された特定コードを比較するための手段を有することを特徴とする請求項45に記載のシステム。   The means for processing examines the specific code associated with each product information record by analyzing the specific code present in the product information record and is analyzed to determine the commonality between the codes 46. The system of claim 45, comprising means for comparing specific codes. 前記検査するための手段は、各製品に関連づけられた共通の特定コードを決定するために各製品情報記録を一回以上検査することを特徴とする請求項61に記載のシステム。   62. The system of claim 61, wherein the means for inspecting inspects each product information record one or more times to determine a common specific code associated with each product. 前記処理するステップ、相関させるステップ、比較するステップ及び決定するステップの1又は1以上の結果が所定の信用レベル以下のときに決定し、更に処理するために前記結果を警告するための手段を更に含むことを特徴とする請求項45に記載のシステム。   Means for determining when one or more results of the processing, correlating, comparing and determining steps are below a predetermined confidence level and alerting the results for further processing; 46. The system of claim 45, comprising: 更なる製品情報源が有効となるときに、前記警告された結果が延期され、セーブされ、再処理されることを特徴とする請求項63に記載のシステム。   64. The system of claim 63, wherein the alerted result is deferred, saved, and reprocessed when a further product information source becomes available. 前記警告された結果は、マニュアル操作のために処理ツールに移動されることを特徴とする請求項63に記載のシステム。   64. The system of claim 63, wherein the alerted result is moved to a processing tool for manual operation. ネットワーク接続されたコンピュータ環境における複数の製品情報源から製品情報を集めるためのシステムにおいて、
前記複数の情報源を訪問するために前記ネットワークコンピュータ環境に相互接続されたサーバから巡回者を生成するための手段と、
前記巡回者を通じて前記複数の情報源のそれぞれから製品フレーズ情報及び前記製品フレーズ情報の特徴を寄せ集めるための手段と、
前記製品フレーズ情報及び前記製品フレーズ情報の特徴に基づいて製品のカタログを作成するための手段と、
を有するシステム。
In a system for collecting product information from multiple product information sources in a networked computer environment,
Means for generating a patrol person from a server interconnected to the network computing environment to visit the plurality of information sources;
Means for gathering product phrase information and features of the product phrase information from each of the plurality of information sources through the patroller;
Means for creating a catalog of products based on the product phrase information and features of the product phrase information;
Having a system.
前記フレーズの前記少なくとも1つの特徴は、前記複数の情報源のそれぞれにおける前記フレーズの頻度、位置、フォントサイズ、フォントスタイル、フォントケース、フォント効果、フォント色、配列及び同時出現の少なくとも1つを含むことを特徴とする請求項66に記載のシステム。   The at least one characteristic of the phrase includes at least one of the frequency, position, font size, font style, font case, font effect, font color, arrangement, and co-occurrence of the phrase in each of the plurality of information sources. 68. The system of claim 66. 前記複数の情報源は、製造者の製品特性情報源、製品広告情報源及び小売商の情報源の少なくとも1つを含むことを特徴とする請求項67に記載のシステム。   68. The system of claim 67, wherein the plurality of information sources includes at least one of a manufacturer product property information source, a product advertisement information source, and a retailer information source. 前記巡回者は、前記製造者の製品特性情報源及び前記製品広告情報源の少なくとも1つから製品フレーズ情報を寄せ集める製品広告巡回者を含むことを特徴とする請求項66に記載のシステム。   67. The system of claim 66, wherein the patroller includes a product advertisement patroller gathering product phrase information from at least one of the manufacturer's product property information source and the product advertisement information source. 前記製品フレーズ情報により記述された製品の製品カテゴリを決定するために、前記製品フレーズ情報を分類装置のカテゴリと比較するための手段を更に有することを特徴とする請求項66に記載のシステム。   The system of claim 66, further comprising means for comparing the product phrase information with a category of a classifier to determine a product category of a product described by the product phrase information. 前記製品の少なくとも1つについて類似の製品を決定するための手段を更に有することを特徴とする請求項45に記載のシステム。   The system of claim 45, further comprising means for determining a similar product for at least one of the products. 前記類似の製品を決定するための手段は、
製品に対応する少なくとも1つの製品情報記録を解析し、関連した製品に対する前記製品情報記録にリンクが存在するなら、関連した製品情報記録に対する前記リンクを追跡するための手段と、
前記関連した製品情報記録における前記製品に対する参照文を逆に検索するための手段と、
前記カタログにおける前記製品に前記関連した製品情報記録における前記関連した製品を関連づけるための手段と、
を有することを特徴とする請求項71に記載のシステム。
The means for determining the similar product is:
Means for analyzing at least one product information record corresponding to a product and tracking the link to the associated product information record if a link exists in the product information record for the associated product;
Means for reversely retrieving a reference to the product in the associated product information record;
Means for associating the associated product in the associated product information record with the product in the catalog;
72. The system of claim 71, comprising:
JP2006517102A 2003-06-18 2004-04-29 Content collection method and apparatus for online purchasing system Pending JP2006527886A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US47915303P 2003-06-18 2003-06-18
US10/659,740 US7082426B2 (en) 1993-06-18 2003-09-11 Content aggregation method and apparatus for an on-line product catalog
PCT/US2004/013650 WO2005001595A2 (en) 2003-06-18 2004-04-29 Content aggregation method and apparatus for on-line purchasing system

Publications (1)

Publication Number Publication Date
JP2006527886A true JP2006527886A (en) 2006-12-07

Family

ID=33555518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006517102A Pending JP2006527886A (en) 2003-06-18 2004-04-29 Content collection method and apparatus for online purchasing system

Country Status (3)

Country Link
EP (1) EP1639505A4 (en)
JP (1) JP2006527886A (en)
WO (1) WO2005001595A2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012132170A1 (en) * 2011-03-30 2012-10-04 株式会社日立製作所 Product information administration assistance device
JP2013517561A (en) * 2010-01-13 2013-05-16 アリババ・グループ・ホールディング・リミテッド Attribute aggregation for standard product units
JP2013527958A (en) * 2010-04-21 2013-07-04 マイクロソフト コーポレーション Product synthesis from multiple sources
JP2014512614A (en) * 2011-04-14 2014-05-22 アリババ・グループ・ホールディング・リミテッド Method and apparatus for determining product category information
JP2016062270A (en) * 2014-09-17 2016-04-25 Kddi株式会社 Ambiguity removal device capable of removing ambiguity of product name in message on network, as well as program
KR20210012809A (en) * 2019-07-26 2021-02-03 주식회사 메이커빌 Method for providing product information, server for provding product information and system for providing product information
US20220121187A1 (en) * 2019-03-28 2022-04-21 Kabushiki Kaisha Toshiba Device control support apparatus, program, and control support method
JP2025115968A (en) * 2024-01-26 2025-08-07 デザイノブル Product planning support device and product planning support method

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT8155U3 (en) * 2005-02-24 2006-08-15 Shanker Bhawani Dipl Ing PROCESS AND COMPUTER TECHNICAL IMPLEMENTATION FOR THE FLEXIBLE CLASSIFICATION OF PRODUCTS AND PRODUCT SYSTEMS
US20070174440A1 (en) * 2006-01-24 2007-07-26 Brier John J Jr Systems and methods for data mining and interactive presentation of same
CN108717639A (en) * 2018-07-17 2018-10-30 北京引领海逛科技有限公司 Barcode scanning is quickly obtained the method and system of product details
CN111626808B (en) * 2020-02-26 2024-11-29 京东科技控股股份有限公司 Data processing method and device, storage medium and electronic device

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5231566A (en) * 1991-03-29 1993-07-27 Shoppers Express Method and apparatus for producing a catalog
US5740425A (en) * 1995-09-26 1998-04-14 Povilus; David S. Data structure and method for publishing electronic and printed product catalogs
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US5890175A (en) * 1996-09-25 1999-03-30 Wong; Garland Dynamic generation and display of catalogs
US6154738A (en) * 1998-03-27 2000-11-28 Call; Charles Gainor Methods and apparatus for disseminating product information via the internet using universal product codes
US6304864B1 (en) * 1999-04-20 2001-10-16 Textwise Llc System for retrieving multimedia information from the internet using multiple evolving intelligent agents
AU4825900A (en) * 1999-05-05 2000-11-17 Decide.Com Web-based comparison shopping for consumer services
US6405175B1 (en) * 1999-07-27 2002-06-11 David Way Ng Shopping scouts web site for rewarding customer referrals on product and price information with rewards scaled by the number of shoppers using the information
JP2003522356A (en) * 1999-12-17 2003-07-22 ワールド シアター,インコーポレイティド Systems and methods for enabling customers to order selected products from a wide range of products offered by multiple participating merchants
WO2001073624A1 (en) * 2000-03-29 2001-10-04 British Telecommunications Public Limited Company Electronic commerce

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013517561A (en) * 2010-01-13 2013-05-16 アリババ・グループ・ホールディング・リミテッド Attribute aggregation for standard product units
JP2013527958A (en) * 2010-04-21 2013-07-04 マイクロソフト コーポレーション Product synthesis from multiple sources
US9384233B2 (en) 2010-04-21 2016-07-05 Microsoft Technology Licensing, Llc Product synthesis from multiple sources
WO2012132170A1 (en) * 2011-03-30 2012-10-04 株式会社日立製作所 Product information administration assistance device
JP2014512614A (en) * 2011-04-14 2014-05-22 アリババ・グループ・ホールディング・リミテッド Method and apparatus for determining product category information
US9418147B2 (en) 2011-04-14 2016-08-16 Alibaba Group Holding Limited Method and apparatus of determining product category information
JP2016062270A (en) * 2014-09-17 2016-04-25 Kddi株式会社 Ambiguity removal device capable of removing ambiguity of product name in message on network, as well as program
US20220121187A1 (en) * 2019-03-28 2022-04-21 Kabushiki Kaisha Toshiba Device control support apparatus, program, and control support method
KR20210012809A (en) * 2019-07-26 2021-02-03 주식회사 메이커빌 Method for providing product information, server for provding product information and system for providing product information
KR102284165B1 (en) * 2019-07-26 2021-07-30 주식회사 메이커빌 Method for providing product information, server for provding product information and system for providing product information
JP2025115968A (en) * 2024-01-26 2025-08-07 デザイノブル Product planning support device and product planning support method

Also Published As

Publication number Publication date
EP1639505A2 (en) 2006-03-29
WO2005001595A3 (en) 2005-09-09
EP1639505A4 (en) 2006-08-02
WO2005001595A2 (en) 2005-01-06

Similar Documents

Publication Publication Date Title
US8930370B2 (en) Content aggregation method and apparatus for on-line purchasing system
US7082426B2 (en) Content aggregation method and apparatus for an on-line product catalog
US7941383B2 (en) Maintaining state transition data for a plurality of users, modeling, detecting, and predicting user states and behavior
CN101203856B (en) System for generating relevant search queries
JP5355733B2 (en) How the processor performs for advertising or e-commerce
US8249885B2 (en) Knowledge-based e-catalog procurement system and method
US8548987B2 (en) System and method for efficiently providing a recommendation
US7693805B2 (en) Automatic identification of distance based event classification errors in a network by comparing to a second classification using event logs
US20100306249A1 (en) Social network systems and methods
US20100250513A1 (en) Aggregating Context Data for Programmable Search Engines
US20070038614A1 (en) Generating and presenting advertisements based on context data for programmable search engines
US10817522B1 (en) Product information integration
CN107241914B (en) System and method for search query rewrite
US20060074843A1 (en) World wide web directory for providing live links
JP2006527886A (en) Content collection method and apparatus for online purchasing system
WO2001027712A2 (en) A method and system for automatically structuring content from universal marked-up documents
Markellou et al. Personalized e-commerce recommendations
KR101655368B1 (en) Method and system to search and provide shopping postscript
JP2002215642A (en) Feedback type internet retrieval method, and system and program recording medium for carrying out the method
Ali et al. Golden path analyzer: using divide-and-conquer to cluster web clickstreams
Silverman et al. Buyer Decision Support Systems and Search Agents for eCommerce Websites
Honarvar et al. Analysis of user behavior to find interest priorities in big data log of web proxies
JP2002269153A (en) Method of presenting link commentary information, program for presenting link commentary information, and recording medium on which program for presenting link commentary information is recorded