JP2014191600A - Order support device - Google Patents
Order support device Download PDFInfo
- Publication number
- JP2014191600A JP2014191600A JP2013066798A JP2013066798A JP2014191600A JP 2014191600 A JP2014191600 A JP 2014191600A JP 2013066798 A JP2013066798 A JP 2013066798A JP 2013066798 A JP2013066798 A JP 2013066798A JP 2014191600 A JP2014191600 A JP 2014191600A
- Authority
- JP
- Japan
- Prior art keywords
- page
- product
- catalog
- support apparatus
- order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】 中高齢の利用者にもなじみのある一般の紙媒体のカタログをそのまま利用して、カタログに掲載されている商品を購買する注文を電子的に受付ける、注文支援装置を提供する。
【解決手段】 利用者が注文支援装置のカメラの前に紙媒体のカタログを提示して閲覧することで、注文支援装置はカタログの紙面を撮影し、画像認識してカタログの種類と開いているページを認識し、モニタ上に紙面を表示する。ここで、利用者がカタログ内の商品を音声で指定すると、注文支援装置は音声認識してカタログ紙面中の商品を選択し、購買対象とする。利用者は選定した購買対象品を注文支援装置を用いて注文する。
【選択図】図1PROBLEM TO BE SOLVED: To provide an order support device for electronically receiving an order for purchasing a product listed in a catalog by using a general paper medium catalog familiar to middle-aged and elderly users as it is.
When a user presents and browses a catalog of a paper medium in front of the camera of the order support apparatus, the order support apparatus takes a picture of the paper of the catalog, recognizes the image, and opens the catalog type. Recognize the page and display the page on the monitor. Here, when the user designates a product in the catalog by voice, the order support apparatus recognizes the voice and selects the product in the catalog sheet to be a purchase target. The user orders the selected item to be purchased using the order support device.
[Selection] Figure 1
Description
本発明は、紙媒体の商品カタログを利用して、利用者からの商品購買の注文を電子的に受付ける注文支援装置に関する。 The present invention relates to an order support apparatus that electronically accepts a purchase order for a product from a user using a product catalog of paper media.
従前より、紙媒体のカタログと同等の紙面を持つ電子カタログを利用者装置のディスプレイに表示して、商品購買の注文を電子的に受付ける、いわゆるカタログビューアを用いた購買方法が存在している。しかし、これには利用者装置やビューアの立ち上げ、カタログの指定など、装置に対する操作方法が煩雑で、紙媒体のカタログと注文シートや電話を用いた従来の方式に比べ、中高齢者などデジタル機器の操作に不慣れな利用者が利用するには敷居が高いという問題があった。 Conventionally, there is a purchasing method using a so-called catalog viewer in which an electronic catalog having a paper surface equivalent to that of a paper medium catalog is displayed on a display of a user device, and an order for product purchase is received electronically. However, this requires complicated operation methods for the device, such as launching user devices and viewers, and specifying catalogs. Compared with conventional methods using paper catalogs, order sheets, and telephones, digital systems such as those for middle-aged and elderly people are required. There is a problem that the threshold is high for a user unfamiliar with the operation of the device.
電子カタログを用いて、利用者が興味を持った商品の情報を利用者装置のディスプレイに表示させ、注文を行う電子商取引の方法は、既に広く用いられている。また、従来型の紙媒体のカタログを使用する方法として、例えば特許文献1では、一般の紙媒体のカタログや広告のような、記事番号を含む情報誌の記事を利用者装置のカメラで撮影して、撮影画像データを情報サーバ装置に送信すると、情報サーバ装置は記事番号を認識して、その記事番号に基づいた記事データ関連情報を携帯端末装置に表示させる方法が示されている。
An electronic commerce method for placing an order by using a digital catalog to display information on a product that the user is interested in on the display of the user device is already widely used. As a method of using a conventional paper medium catalog, for example, in
ここで、撮影画像データから記事番号を認識するプロセスについて詳細な説明がなされている、先ず撮影画像データからいくつかの矩形領域画像を切り取り、それらの属性を分析して、ある矩形領域画像を記事番号画像と判定する。さらに抽出した記事番号画像を文字毎に分解して記事番号を認識するといった技術が開示されている。 Here, the process of recognizing the article number from the captured image data is described in detail. First, several rectangular area images are cut out from the captured image data, their attributes are analyzed, and a certain rectangular area image is analyzed. It is determined as a number image. Further, a technique is disclosed in which the extracted article number image is decomposed for each character to recognize the article number.
上述のように、撮影画像データから特定の情報を抽出するいわゆる画像認識の技術は、既に周知のものがある。例えば、3次元の被写体を撮影した画像はいわゆる透視画像となり、近いものほど大きく、遠いものほど小さく撮影されるが、この撮影された透視画像を正面方向から平面的に見た画像(平面正則画像)に補正する技術はいくつか呈示されている(詳細は後述する)。また、特許文献2には、魚眼レンズで撮影したような歪曲円形画像を平面正則画像に補正する技術が呈示されている。これらのような、撮影画像中の物体の座標情報と実空間の座標情報とを座標変換する三次元透視変換行列を算出するアルゴリズムが、非特許文献1に記載されている。なお、後述するように、本願発明においても、これらの既存技術のアルゴリズムを利用する。
As described above, a so-called image recognition technique for extracting specific information from captured image data is already known. For example, an image obtained by photographing a three-dimensional object is a so-called fluoroscopic image. The closer the image is, the larger the image is, and the smaller the image is, the smaller the image is. ) Are presented (details will be described later). Japanese Patent Application Laid-Open No. H10-228561 presents a technique for correcting a distorted circular image taken with a fisheye lens into a planar regular image.
また、撮影画像の画像認識技術に関連して、高速に画像の特徴点を抽出するSURF(SpeededUpRobustFeatures)アルゴリズムが、非特許文献2に記載されている。また、本願発明においても、これらのアルゴリズムを利用することが可能であり、このアルゴリズムが動作するプログラムは、OpenCV(非特許文献3)にて利用することが可能である。
Further, in relation to the image recognition technology for captured images, Non-Patent
さらに、音声認識技術について説明する。音声認識は、人の声である「音声」を「文字」に置き換える仕組みであるが、人の声の音声の波形データを単音節ごとに集めた音響データと言葉の並び方の知識を備えた言語モデルを保持し、取得した人の音声の波形データを言語モデルを用いて単音節に分割し、保持している音響データとマッチングさせる方法が主に用いられている。しかし、この方法では、例えば自然言語の認識には処理の負荷が大きく、専用の音声認識エンジンが必要となっている。 Furthermore, a voice recognition technique will be described. Speech recognition is a mechanism that replaces "voice", which is a human voice, with "characters", but it is a language that has knowledge of how to arrange acoustic data and words arranged in a single syllable of waveform data of human voice. A method of holding a model, dividing acquired waveform data of human speech into single syllables using a language model, and matching with the stored acoustic data is mainly used. However, with this method, for example, a natural language recognition requires a large processing load and requires a dedicated speech recognition engine.
これに対して、音声認識すべき対象の音節を制限したり、語彙数を減らしたりして、データベースとの比較処理回数を少なくすることによって、簡易な処理装置によっても音声認識の精度と速度を向上する技術が呈示されている。特許文献3には、音声認識すべき対象を階層化することによって、ある語を音声認識した場合に、次に認識すべき語を絞り込むようにして照合比較すべき語彙数を減らす技術が開示されている。
On the other hand, by limiting the number of syllables that should be recognized or reducing the number of vocabularies and reducing the number of comparisons with the database, the accuracy and speed of speech recognition can be improved even with a simple processing device. Techniques to improve are presented.
しかしながら、特許文献1に開示された方法においては、記事番号を含む情報誌の記事に対して、記事番号画像の画像認識を行うというもので、画像データ中に記事番号画像のような所定の特徴を持ったマークの存在が必要となっており、一般の紙媒体のカタログや広告のページを認識するようになされているとは言えない。
However, in the method disclosed in
本発明は、デジタル機器の操作に不慣れな利用者にもなじみのある一般の紙媒体のカタログをそのまま利用して、カタログに掲載されている商品を購買する注文を電子的に受付ける、注文支援装置を提案するものである。 The present invention provides an order support apparatus for electronically receiving an order for purchasing a product listed in a catalog by using a general paper medium catalog familiar to a user unfamiliar with the operation of a digital device. This is a proposal.
前記課題を解決するための、本願の第1の発明は、一つ以上の紙面の画像データと各紙面に掲載されている商品の商品名と商品名の読みを保持するデータベースと、呈示された紙面をカメラで撮影し、撮影した画像データを前記データベースの画像データを用いて画像認識することによって該紙面を特定し、特定された紙面に関する情報を表示させるページ認識手段と、利用者の音声の波形データに対して、該特定された紙面に掲載されている商品を前記データベースを用いて選択してこれらの商品名の読み得られる音声の波形データを優先的に照合処理して音声認識することによって商品を特定する音声認識部と、該特定された商品の購買の注文を受付ける注文受付手段と、所定の外部装置との間で情報を送受信する送受信手段と、前記各手段を制御する制御手段と、を備えることを特徴とする注文支援装置である。これによって、利用者は従来どおりの商品カタログを用いて、音声による簡易な操作で電子的に商品購買の注文を行うことができる。 In order to solve the above problems, the first invention of the present application is presented with one or more image data on a paper surface, a database for storing a product name and a product name reading of each product on each paper surface, and presented. A page recognizing unit for photographing a paper surface with a camera, identifying the paper image by recognizing the captured image data using the image data of the database, and displaying information relating to the identified paper surface; For the waveform data, the product listed on the specified paper is selected using the database, and the speech waveform data obtained by reading these product names is preferentially collated to recognize the speech. A voice recognition unit for identifying a product by means of, an order receiving unit for receiving an order for purchase of the identified product, a transmission / reception unit for transmitting / receiving information to / from a predetermined external device, And control means for controlling the stage, is an order support apparatus, characterized in that it comprises a. As a result, the user can place an order for product purchase electronically with a simple voice operation using the conventional product catalog.
第2の発明は、前記音声認識部は、利用者の音声を外部ライブラリを用いて音声認識することによって商品を特定することを特徴とする、第1の発明における注文支援装置である。これによって、音声認識の精度や自然言語による注文ができ、利用者は更に安易な操作で商品購買の注文を行うことができる。 A second invention is the order support apparatus according to the first invention, wherein the voice recognition unit identifies a product by voice recognition of a user's voice using an external library. As a result, it is possible to place an order in the accuracy of voice recognition and natural language, and the user can place an order for product purchase with a simpler operation.
第3の発明は、前記ページ認識手段は、呈示された紙面を魚眼レンズを付設したカメラで撮影することを特徴とする、第1または第2の発明における注文支援装置である。これによって、カタログ等の紙面を呈示する位置についての制限が緩和される。 A third invention is the order support apparatus according to the first or second invention, wherein the page recognition means photographs the presented paper surface with a camera provided with a fisheye lens. As a result, the restriction on the position where the page of the catalog or the like is presented is relaxed.
第4の発明は、前記ページ認識手段は、現在呈示された紙面を撮影した画像データと直前に撮影した画像データとの画像特徴量情報の比較によりページめくりを検知して前記特定された紙面を変更し、現在撮影した画像データと前記データベースの新たに特定された紙面の画像データとを優先的に照合処理することによって該紙面を再度特定することを特徴とする、第1から第3の発明のいずれかにおける注文支援装置である。これによって、予め、現在呈示されている紙面が新たに特定された紙面であることが予測でき、画像処理による紙面の再特定を迅速に行うことができる。 According to a fourth aspect of the invention, the page recognition means detects the page turning by comparing image feature amount information between the image data obtained by photographing the currently presented paper surface and the image data photographed immediately before, and uses the specified paper surface. The first to third aspects of the invention are characterized in that the paper surface is specified again by preferentially comparing the image data that has been photographed and the image data of the newly specified paper surface of the database with priority. The order support apparatus in any of the above. Accordingly, it is possible to predict in advance that the currently presented paper surface is a newly specified paper surface, and it is possible to quickly re-specify the paper surface by image processing.
本発明によれば、注文支援装置が閲覧中のカタログの紙面を撮影して、撮影画像データを画像認識することにより、カタログの種類号数やページおよび商品を認識し、電子的に商品購買の注文などのサービスの提供を支援するもので、注文支援装置に対して煩わしい操作をすることなく、利用者に負荷の少ない操作で利用することができる。 According to the present invention, the order support device captures the page of the catalog being browsed and recognizes the image data of the captured image data, thereby recognizing the number and page of the catalog and the product, and electronically purchasing the product. This is to support the provision of services such as orders, and can be used with less burden on the user without troublesome operations on the order support apparatus.
以下に、本発明の一つの実施形態に係るシステムの構成について図面を参照してさらに詳細に説明する。 Hereinafter, the configuration of a system according to an embodiment of the present invention will be described in more detail with reference to the drawings.
図1は、本実施形態の全体構成を示す図である。100は注文支援装置であり、ネットワーク500を介して小売業者の注文受付装置300や外部ライブラリ400との間で情報の送受信を行う。本装置はコンピュータプログラム(詳細な説明は後述)といくつかのデータベース(詳細な説明は後述)を備えている。
FIG. 1 is a diagram showing an overall configuration of the present embodiment.
注文支援装置100は、ディスプレイなどの表示部105とキーボードやマウスなどの入力部104を備えるとともに、ディスプレイの上部にカメラ111とマイク112を、またスピーカー113を備える。
The
ネットワーク500は簡略化されて表示しているが、例えばインターネットのようなゲートウェイを介した複数のネットワークの組合せであり、LAN(Local Area Network)、電話回線、移動体通信網等から構成され、複数のアクセスポイントを備え、注文支援装置100と小売業者の注文受付装置300や外部ライブラリ400との間で有線または無線を用いて情報の送受信を可能とするためのものである。
Although the
図2は、本実施形態の注文支援装置100についてより詳しく説明する機能ブロック図である。注文支援装置100は、所定のカタログの全頁の画像データと商品名及び商品名の読みをページ単位で蓄積するカタログ商品データベース170と、音声による操作案内のための録音音声を蓄積する音声ガイダンス180のデータベースを備える。
FIG. 2 is a functional block diagram for explaining the
また、カメラ111より取り込んだ画像データとカタログ商品データベース170に蓄積している画像データのマッチングにより、現在呈示されているカタログのページがどのページであるかを認識するページ認識手段150と、利用者からの商品購買の注文を受付ける注文受付手段160と、これらの手段で用いる画像と音声に関する解析処理を行う画像・音声処理部190と、これらの手段と前記データベースを関連付けて制御する制御手段130と、ネットワーク500を通じて小売業者の注文受付装置300や外部ライブラリ400とデータの送受信を行う送受信手段120のそれぞれのプログラムを備える。また画像・音声処理部190は、画像補正を行う透視補正部(191)と魚眼補正部(192)、画像認識を行う画像認識部(193)、および音声認識を行う音声認識部(194)の各機能モジュールを備える。
Further, a page recognition means 150 for recognizing which page of the catalog currently presented by matching the image data captured from the
図3は、前記カタログ商品データベース170のレコード構成の一例を示す図である。カタログ商品データベース170は、カタログ号数を識別する識別子とその冊子内のページを表す識別子を備え、それぞれのページ毎に画像認識照合用のページの画像データを保有している。さらに、該ページ内に掲載されている全ての商品の商品名と商品名の読みを備えている。
FIG. 3 is a diagram showing an example of the record configuration of the
図4は、注文支援装置100のハードウェア構成を示す図である。注文支援装置100はハードウェアとしては一つのコンピュータシステムである。注文支援装置100は、制御部101、記憶部102、周辺機器I/F部103、入力部104、表示部105、通信部106を備え、それらがバス109を介して接続される。尚、図4のハードウェア構成は一例であり、別途、目的に応じて様々な構成を採ることが可能である。
FIG. 4 is a diagram illustrating a hardware configuration of the
制御部101は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。CPUは、記憶部102、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス109を介して接続された各装置を駆動制御し、コンピュータが行う処理を実現する。ROMは、不揮発性メモリであり、注文支援装置100のブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。RAMは、揮発性メモリであり、記憶部102、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部101が各種処理を行う為に使用するワークエリアを備える。
The
記憶部102は、HDD(ハードディスクドライブ)であり、制御部101が実行するプログラム、プログラム実行に必要なデータ、OS(オペレーティングシステム)等が格納される。プログラムに関しては、OS(オペレーティングシステム)に相当する制御プログラムや、ページ認識手段150として機能するプログラムコード、注文受付手段160として機能するプログラムコード、画像・音声処理部190して機能するプログラムコードが格納されている。これらのプログラムコードは、制御部101により必要に応じて読み出されてRAMに移され、CPUに読み出されて実行されることにより各種の手段として機能する。
The
周辺機器I/F部103は、注文支援装置100に周辺機器を接続させるためのポートであり、周辺機器I/F部103を介してコンピュータは、カメラ111、マイクロフォン112、スピーカー113などの周辺機器とのデータの送受信を行う。
The peripheral device I /
入力部104は、データの入力を行い、例えば、キーボード、マウス、タッチパネル等の入力装置を有し、入力部104を介して、注文支援装置100に対して、操作指示、動作指示、データ入力等を行うことができる。表示部105は、液晶パネル等のディスプレイ装置である。
The
通信部106は、通信制御装置、通信ポート等を有し、注文支援装置100とネットワーク500間の通信を媒介する有線または無線の通信インタフェースであり、ネットワーク500を介して、他のコンピュータ特に小売業者の注文受付装置300との通信制御を行う通信手段を備える。バス109は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
The
図5は、本装置を利用する利用者の注文の流れの例を示す図である。先ず、利用者は装置を立ち上げると、注文したい商品が掲載されているカタログの表紙を注文支援装置100のカメラ111の前に提示する。注文支援装置100の制御手段130はページ認識手段150を起動させ、カタログの表紙を撮影する(S01)。ページ認識手段150はカタログの表紙の画像データからカタログの号数を識別(詳細は後述する)して、操作開始のガイダンスとともに識別した号数を音声化しスピーカー113より出力する(S02)。
FIG. 5 is a diagram showing an example of an order flow of a user who uses this apparatus. First, when the user starts up the apparatus, the front cover of the catalog on which the product to be ordered is posted is presented in front of the
続いて利用者は、注文したい商品を探すためにカタログのページをめくり、注文したい商品が掲載されているページを閲覧する(S03)。注文支援装置100のページ認識手段150はカメラ111で現在開いているページを撮影し、カタログの画像データからそれが何ページであるかを識別(詳細は後述する)して、該ページに係るコンテンツ(たとえば該ページの画像や掲載商品の広告など)とマイクアイコンを画面上に表示する(S04、図6(a)参照)。
Subsequently, the user turns the catalog page in order to search for a product to be ordered, and browses a page on which the product to be ordered is posted (S03). The
利用者は、注文したい商品が決定した場合、画面上のマイクアイコンをマウスでクリックまたはタッチパネル上でタッチする。ここで、注文支援装置100の制御手段130は注文受付手段160を起動させ、音声入力モードにして、商品名の読みあげを促す画面(図6(b)参照)を表示し、ガイダンスを流す。利用者はこれに従い注文したい商品名を読みあげる(S05)。その後、1秒程度の無声時間を検出した場合、音声入力モードは解除される。注文支援装置100はこの間に音声をマイク112で収録して音声認識処理(詳細は後述する)を行い、画面に認識結果を表示する(S06、図6(c)参照)。
When the product to be ordered is determined, the user clicks the microphone icon on the screen with the mouse or touches it on the touch panel. Here, the control means 130 of the
利用者は、この認識結果に対して、この商品を選定するか(○のアイコンを選択)選定しないか(×のアイコンを選択)を決定する。利用者がこの商品を選定した場合、ショッピングカートの画面が表示され、該商品が購入のために選定された旨表示する。また、高い精度の音声認識処理を行うことで、利用者に認識結果の確認を取ることなく商品が選定されるようにしてもよい(図6(d)参照)。ここで、購入のために選定された商品が一つでもある場合、注文のアイコンが表示されるので、利用者は随時このアイコンを選択することにより、ショッピングカートに入っている商品を注文することができる(S07)。この購入商品の情報は送受信手段120を介してネットワーク500を通じて店舗の端末300に送信される。
The user decides whether to select this product (select the circle icon) or not select (select the x icon) for this recognition result. When the user selects this product, a shopping cart screen is displayed, indicating that the product has been selected for purchase. Further, by performing voice recognition processing with high accuracy, a product may be selected without confirming the recognition result by the user (see FIG. 6D). Here, when there is at least one item selected for purchase, an order icon is displayed, so the user can select this icon at any time to order the item in the shopping cart. (S07). Information on the purchased product is transmitted to the
図7は、本装置の典型的な使用例を示す図である。図1で説明したように、注文支援装置100の表示部105である液晶ディスプレイモニタ上には、カメラ111とマイク112が据付固定されている。利用者は本装置を利用するとき、利用者と液晶ディスプレイモニタとの間にカタログの紙面を利用者から見て正対するように呈示する(図7(a)参照)。図7(b)は、これを横から見た模式図である。この図のように、固定されたカメラ111はカタログの紙面全面を良好に映写できるように前傾しているのが望ましい。
FIG. 7 is a diagram illustrating a typical usage example of the present apparatus. As described with reference to FIG. 1, the
図8は、本装置のもう一つの使用例を示す図である。注文支援装置100は図1で説明した構成を備えつつ、例えばタブレット型のコンピュータであってもよい。この場合、入力部104はタッチパネルとして、表示部105に組み込まれていてもよいし、カメラ111、マイク112およびスピーカー113はコンピュータに内蔵されているものを用いればよい。
FIG. 8 is a diagram showing another example of use of the present apparatus. The
タブレット型のコンピュータを注文支援装置100として用いる場合、カメラ111の向きが図8(a)のように前方一方向に固定されて前傾できない可能性があり、このとき画角の制限で紙面がカメラの撮影範囲に入らないおそれがある。このようなときは、図8(b)のように後付け可能な魚眼レンズを利用して画角を広げて(理論上180度)カメラの撮影範囲に紙面全体が入るようにしてもよい。
When a tablet-type computer is used as the
注文支援装置100がタブレット型にせよディスプレイモニタが独立している形態にせよ、前述のように、利用者はカタログの紙面を利用者から見て正対するようにカメラ111の前に呈示する。このとき、注文支援装置100は、カメラ111で現在撮影している映像をディスプレイに映し、呈示するカタログの位置を認識に最適な位置に置くよう誘導して呈示位置を固定させるようにするのが望ましい(図9参照)。
Regardless of whether the
図10は、注文支援装置100におけるカタログの号数及びページを識別する、ページ認識手段150の画像認識のプロセスのブロック図である。先ず、ページ認識手段150はカメラ111で撮影した撮影画像データの二値化処理を行う(S11)。二値化のためのパラメータ(表色(色座標)系やスライスレベル)は所定の決められたものを用いる。これは、最終的に比較するサンプル画像(カタログ商品データベースの画像データ)との整合性を取るためである。
FIG. 10 is a block diagram of the image recognition process of the
さらに、二値化した撮影画像データに対し、画像切出し処理を行う(S12)。前述したように、撮影されるカタログの位置が認識に最適な位置に置かれていれば、特に輪郭抽出などの手順を経ることなく、画像の切出し位置を決定してもよい。図11は画像の切出し位置を説明する図である。図11(a)は通常のカメラ111で撮影した場合の切出し範囲(図の点線で囲まれた範囲)を示している。また、図11(b)は魚眼レンズを備えたカメラ111で撮影した場合の切出し範囲(図の点線で囲まれた範囲)を示している。
Further, image clipping processing is performed on the binarized captured image data (S12). As described above, as long as the position of the catalog to be photographed is placed at the optimum position for recognition, the cutout position of the image may be determined without going through a procedure such as contour extraction. FIG. 11 is a diagram for explaining an image cut-out position. FIG. 11A shows a cutout range (a range surrounded by a dotted line in the figure) when the image is taken with the
次に、切出した撮影画像データに対し、画像補正処理を行う(図10のS13)が、通常のカメラ111で撮影した場合は、透視補正(191)を行う。透視補正の方法は数多く提案されているが、ここでは、例として、射影変換といわれる手法を紹介する。図12のように、変換前の図形の四隅の座標を(X1,Y1)、(X2,Y2)、(X3,Y3)、(X4,Y4)とし、変換後の図形の四隅の座標を(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)とすると、変換前の任意の座標(X,Y)は下記の式によって(x,y)に変換される。
(x,y)=((AX+BY+C)/(GX+HY+1),(DX+EY+F)/(GX+HY+1))
ここで、A,B,C,D,E,F,G,Hの値は、下記の8つの連立方程式を解くことにより求められる。
X1*A+Y1*B+C−x1*X1*G−x1*Y1*H=x1
X1*D+Y1*E+F−y1*X1*G−y1*Y1*H=y1
X2*A+Y2*B+C−x2*X2*G−x2*Y2*H=x2
X2*D+Y2*E+F−y2*X2*G−y2*Y2*H=y2
X3*A+Y3*B+C−x3*X3*G−x3*Y3*H=x3
X3*D+Y3*E+F−y3*X3*G−y3*Y3*H=y3
X4*A+Y4*B+C−x4*X4*G−x4*Y4*H=x4
X4*D+Y4*E+F−y4*X4*G−y4*Y4*H=y4
Next, image correction processing is performed on the captured image data that has been cut out (S13 in FIG. 10). Many methods for perspective correction have been proposed. Here, as an example, a method called projective transformation is introduced. As shown in FIG. 12, the coordinates of the four corners of the graphic before conversion are (X1, Y1), (X2, Y2), (X3, Y3), (X4, Y4), and the coordinates of the four corners of the graphic after conversion are ( Assuming x1, y1), (x2, y2), (x3, y3), (x4, y4), arbitrary coordinates (X, Y) before conversion are converted to (x, y) by the following equation: .
(X, y) = ((AX + BY + C) / (GX + HY + 1), (DX + EY + F) / (GX + HY + 1))
Here, the values of A, B, C, D, E, F, G, and H are obtained by solving the following eight simultaneous equations.
X1 * A + Y1 * B + C-x1 * X1 * G-x1 * Y1 * H = x1
X1 * D + Y1 * E + F-y1 * X1 * G-y1 * Y1 * H = y1
X2 * A + Y2 * B + C-x2 * X2 * G-x2 * Y2 * H = x2
X2 * D + Y2 * E + F-y2 * X2 * G-y2 * Y2 * H = y2
X3 * A + Y3 * B + C-x3 * X3 * G-x3 * Y3 * H = x3
X3 * D + Y3 * E + F-y3 * X3 * G-y3 * Y3 * H = y3
X4 * A + Y4 * B + C-x4 * X4 * G-x4 * Y4 * H = x4
X4 * D + Y4 * E + F-y4 * X4 * G-y4 * Y4 * H = y4
また、魚眼レンズを備えたカメラ111で撮影した撮影画像データに対しては、魚眼補正(192)を行う。先に述べたように、特許文献2には、魚眼レンズで撮影したような歪曲円形画像を平面正則画像に補正する技術が呈示されている。特許文献2の方法は、歪曲円形画像上の切出中心点P(x0,y0)を中心とした切出領域E内の画像を、平面正則画像に変換する。ここでは、切出中心点P(x0,y0)および切出領域Eは、図11(b)に示される点線の範囲とその中心点を用いるように固定することとする。
In addition, fish-eye correction (192) is performed on the captured image data captured by the
こうすることによって、特許文献2で述べられている、切出中心点P(x0,y0)を通りZ軸に平行な直線と仮想球面Hとの交点G(x0,y0,z0)と、この点において仮想球面Hに接する接平面が一意に決定される。また、この接平面上にG(x0,y0,z0)が原点となるようにUV座標系を定義する(この接平面をUV平面と称す)。ここで、点G(x0,y0,z0)は方位角と天頂角により表すこともでき、方位角0度、天頂角(90°−θ)度(図8(b)参照)と表してもよく、本願においては、G(x0,y0,z0)の座標の値は一意に定まる。
By doing so, the intersection G (x0, y0, z0) of the phantom spherical surface H and the straight line passing through the cut-out center point P (x0, y0) and parallel to the Z-axis described in
更に、U軸とX′軸とのなす角度φを定義する。ここで、X′軸は、交点G(x0,y0,z0)を通りX軸に平行な軸である。これは、UV座標系の回転ファクターを示すパラメータであるため「平面傾斜角」と称されるが、本願においてはこの角度φの値も一つに定まる。また、下式の半径Rは、撮影に用いた魚眼レンズに固有の数値であるので、この値も一つに定まる。 Further, an angle φ formed by the U axis and the X ′ axis is defined. Here, the X ′ axis is an axis that passes through the intersection point G (x0, y0, z0) and is parallel to the X axis. Since this is a parameter indicating the rotation factor of the UV coordinate system, it is referred to as a “planar inclination angle”, but in the present application, the value of this angle φ is also set to one. Further, the radius R in the following expression is a numerical value unique to the fisheye lens used for photographing, and thus this value is also set to one.
ここで、下式を用いて、座標(u,v)と座標(x,y)とを対応づけ、座標(u,v)で示される位置に配置された平面正則画像上の画素の画素値を、対応する座標(x,y)で示される位置に配置された歪曲円形画像上の参照画素の画素値に基づいて決定する。
x=R[(u−x0)A+(v−y0)B+(w−z0)E]/ √((u−x0)**2+(v−y0)**2+(w−z0)**2)
y=R[(u−x0)C+(v−y0)D+(w−z0)F]/ √((u−x0)**2+(v−y0)**2+(w−z0)**2)
ここで、
A=1−(1−cosφ)(y02+z02)
B=−z0sinφ+x0y0(1−cosφ)
C=z0sinφ+x0y0(1−cosφ)
D=1−(1−cosφ)(z02+x02)
E=y0sinφ+z0x0(1−cosφ)
F=−x0sinφ+y0x0(1−cosφ)
w=mR(但し、mは所定の変換倍率)
尚、上の数式で√(根号)の後ろにある「**2」は2乗を表している)。
Here, the pixel value of the pixel on the planar regular image arranged at the position indicated by the coordinates (u, v) by associating the coordinates (u, v) with the coordinates (x, y) using the following expression: Is determined based on the pixel value of the reference pixel on the distorted circular image arranged at the position indicated by the corresponding coordinates (x, y).
x = R [(u−x0) A + (v−y0) B + (w−z0) E] / √ ((u−x0) ** 2+ (v−y0) **** + (w−z0) ** 2 )
y = R [(u−x0) C + (v−y0) D + (w−z0) F] / √ ((u−x0) ** 2+ (v−y0) ** 2+ (w−z0) ** 2 )
here,
A = 1- (1-cosφ) (y02 + z02)
B = −z0sinφ + x0y0 (1-cosφ)
C = z0sinφ + x0y0 (1-cosφ)
D = 1- (1-cosφ) (z02 + x02)
E = y0sinφ + z0x0 (1-cosφ)
F = −x0sinφ + y0x0 (1-cosφ)
w = mR (where m is a predetermined conversion magnification)
In the above formula, “** 2” after √ (root sign) represents the square).
続いて、画像認識部(193)による処理を行う。前記画像補正処理を施した撮影画像データに対し、特徴抽出処理を行う(S14)。特徴抽出処理は、画像補正処理を施した撮影画像データから抽出した特徴量情報(たとえば、先に述べた非特許文献2に記載のSURFアルゴリズムにて特徴点を抽出して、その特徴点の局所特徴量)を算定する。
Subsequently, processing by the image recognition unit (193) is performed. A feature extraction process is performed on the captured image data subjected to the image correction process (S14). In the feature extraction processing, feature amount information extracted from the captured image data subjected to the image correction processing (for example, feature points are extracted by the SURF algorithm described in
最後に、撮影画像データから抽出した特徴量情報とカタログ商品データベース170の画像データの特徴量情報とを総当り制のマッチング処理を行うことによって、最も近い画像を選定し、その画像のページ番号(表紙であればカタログ号数)を予想現在ページ(現在閲覧されていると予想されるページ)として決定し、該ページに係るコンテンツ(たとえば該ページの画像や掲載商品の広告など)を画面上に表示して画像の識別を完了する。
Finally, by performing a round-robin matching process between the feature amount information extracted from the captured image data and the feature amount information of the image data in the
音声認識部(194)は、人の声である「音声」を「文字」に置き換える仕組みである。この音声認識の技術に関しても様々な方法が提案されている。しかし、先に述べたように、基本的には、人の声の音声の波形データを単音節ごとに集めた音響データと言葉の並び方の知識を備えた言語モデルを保持し、外部から取得した音声の波形データを言語モデルを用いて単音節に分解し、保持している音響データとマッチングさせて文字に置き換える方法が主となっているため、特に自然言語による話し言葉の音声認識には処理の負荷が高く、専用の音声認識エンジンが必要とされている。 The voice recognition unit (194) is a mechanism for replacing “voice”, which is a human voice, with “character”. Various methods have been proposed for the speech recognition technology. However, as I mentioned earlier, basically, we have a language model with acoustic data collected for each single syllable, and knowledge of how to arrange words, and acquired from the outside. Since speech waveform data is mainly decomposed into single syllables using a language model and replaced with characters by matching with the stored acoustic data, processing is particularly necessary for spoken language speech recognition in natural language. The load is high and a dedicated speech recognition engine is required.
これに対し、例えば近年玩具や照明機器で用いられるように、音声認識すべき対象を単語などに限って音節を制限することと、照合比較すべき語彙数を減らし、データベースとの比較処理回数を少なくして、専用の処理装置でなくても音声認識の精度と速度を向上する工夫がなされている。 On the other hand, for example, as used in toys and lighting equipment in recent years, restricting syllables by limiting words to speech recognition targets, reducing the number of vocabularies to be compared, and reducing the number of comparison processes with a database. There is a contrivance to improve the accuracy and speed of speech recognition even if it is not a dedicated processing device.
認識すべき単語(語彙)を制限する方法は、認識すべき対象によって異なるが、例えば特許文献3には、ナビゲーション装置による音声認識として、認識対象とする地名の数を削減するために、地名を階層化し、例えば都道府県、市区町村といった階層に分け、認識対象とする地名の数を限定する方法が示されている。
The method for restricting the word (vocabulary) to be recognized differs depending on the object to be recognized. For example,
本願においては、音声認識すべき対象は、利用者が購入する商品の商品名であるが、先に説明したカタログページの画像認識によって、現在閲覧しているページが判っているため、カタログ商品データベース170を参照してそのページにどんな商品名の商品が掲載されているか知ることができ、音声認識の対象となる商品名を優先的に設定したり、対象商品の数を限定したりすることができる。これにより、本願の注文支援装置100を用いても、音声認識の精度と速度の向上を図ることが可能である。
In the present application, the object to be voice-recognized is the product name of the product purchased by the user, but since the page currently being viewed is known by the image recognition of the catalog page described above, the
具体的には、注文支援装置100の制御手段130は、注文受付手段160を起動して音声入力モードとし、音声入力モードになっている間に利用者からの音声をマイク112で収録すると、入力した音声信号を波形データに変換して利用者の音声波形データとし、これに対してカタログ商品データベース170を参照して、現在閲覧しているカタログのページに掲載されている全商品について商品名の読みを用いて単音節の音響データを連結することにより作成される音声の波形データを優先的にマッチング処理することにより、誤りなく高速に音声認識を行い、認識した結果を画面に表示する(図6(c)参照)。
Specifically, the
この他に、音声認識部(194)の処理については、外部ライブラリ400を用いるようにしてもよい。注文支援装置100は、音声入力モードになっている間に音声をマイク112で収録すると、入力した音声信号と音声認識の候補となる商品名の読みのリストを、送受信手段120を介し、ネットワーク500を通じて外部ライブラリ400に送信する。外部ライブラリ400は、音声認識を行い、認識結果をネットワーク500を通じて注文支援装置100に返信する。このような音声認識を行う外部ライブラリとしては,Google社のGoogle音声検索やApple社のSIRI(登録商標)などが知られている。
In addition, the
図13は、本装置のページ認識に係る処理を示すフローチャートである。以上のようにして、取り込んだ撮影画像データの識別が完了し、予想現在ページのページ番号が決定されたら、カメラ111で紙面を撮影し、直前に撮影した画像との比較によって、大きな変化があるかないか調べ、ページめくり動作の有無を検知する(S21)。
FIG. 13 is a flowchart showing processing related to page recognition of this apparatus. As described above, when identification of captured captured image data is completed and the page number of the expected current page is determined, the paper is photographed by the
具体的には、直前に撮影した画像との特徴量情報の比較で、例えばカメラから見て左側(利用者から見て右側)の特徴量情報が大きく変化した場合、ページ番号が増える方向にページめくりがなされたと判断し、カメラから見て右側(利用者から見て左側)の特徴量情報が大きく変化した場合、ページ番号が減る方向にページめくりがなされたと判断して、予想現在ページを増減させ(S22)、後述の紙面確認を行う。尚、このページめくりについては遷移状態の画像が複数点連続して撮影されることが予想されるため、一連のページめくりに際してページカウントを1回のみ増減するように留意する。 Specifically, when the feature information on the left side as viewed from the camera (on the right side as viewed from the user) is greatly changed by comparing the feature amount information with the image taken immediately before, for example, the page number is increased in the page direction. If it is judged that the page has been turned and the feature information on the right side (left side as viewed from the user) changes significantly, it is judged that the page has been turned in the direction of decreasing the page number, and the expected current page is increased or decreased. (S22), and a paper surface check described later is performed. Note that with regard to this page turning, it is expected that a plurality of transitional images will be taken continuously, so care should be taken to increase or decrease the page count only once during a series of page turning.
ページめくりがない場合は、商品を選択中と考えられるので、そのまま待機するか、音声ガイダンスで商品の注文を促すアナウンスをスピーカー113を用いてしてもよい。
If there is no page turning, it is considered that a product is being selected. Therefore, the
音声による注文があった場合、注文支援装置100の制御手段130は、まず、予想現在ページ中の商品の中に注文された商品があるかないかチェックする(S23)。これについては、カタログ商品データベース170を参照し、予想現在ページに掲載されている全商品の商品名を獲得して、前記注文受付手段160による音声認識において、音声認識する対象をこれらの商品に絞り込み、認識の精度と速度の向上を図ることができる。ここで、予想現在ページに注文された商品がない場合、カタログ商品データベース170を参照して注文された商品が掲載されているページを予想現在ページとして、表示するコンテンツをそれに合わせて変更し(S24)、後述の紙面確認を行う。
When there is an order by voice, the control means 130 of the
直前のページ認識時刻から所定の時間(例えば10秒)経過していた場合、カメラ111を用いて現在開かれているページを撮影し、画像認識部(193)による処理を行う(S25)。このとき、予想現在ページが現在開かれていると想定し(S26)、後述の紙面確認を行う。
When a predetermined time (for example, 10 seconds) has passed since the previous page recognition time, the currently opened page is photographed using the
前記の各動作において、紙面確認を行うこととなった場合、先ず、予想現在ページについて、カタログ商品データベース170のページの画像データとのマッチング処理による紙面確認を行う(S27)。こうすることで、画像認識対象を限定して認識速度の向上を図ることができる。ここで、マッチングが取れれば予想現在ページはそのままとし、認識結果が異なれば、総当り制のマッチング処理を行って、マッチングが取れたページを新たな予想現在ページとする(S28)。また、所定の時間を経過していない場合は、処理を終了し、再度ページめくり動作の確認から処理を繰り返す。 In each of the operations described above, when a paper space check is to be performed, first, a paper surface check is performed on the predicted current page by matching processing with the image data of the page of the catalog product database 170 (S27). In this way, the recognition speed can be improved by limiting the image recognition target. Here, if a match is obtained, the predicted current page is left as it is. If the recognition results are different, a round-robin matching process is performed, and the matched page is set as a new predicted current page (S28). If the predetermined time has not elapsed, the process ends, and the process is repeated from the confirmation of the page turning operation again.
本実施形態によれば、利用者が注文支援装置100の前でカタログを閲覧することにより、カメラ111が逐次閲覧中のページを認識し、カタログの該ページと関連情報をモニタディスプレイに表示するとともに、利用者は商品を選定し、商品購入の注文を行える、利用者にも店舗側にもメリットがある注文支援装置が提供される。
According to the present embodiment, when the user browses the catalog in front of the
本発明は、上述の実施形態に限定されることなく、特許請求の範囲内で種々変更、応用が可能である。例えば、注文支援装置100はネットワーク500と有線で結ばれているように描かれているが、無線で接続されていても構わない。また、説明ではタブレットPCが例示されているが、スマートフォンであっても同様に本発明を実施することが可能である。
The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims. For example, the
100 注文支援装置
120 送受信手段
130 制御手段
150 ページ認識手段
160 注文受付手段
170 カタログ商品データベース
180 音声ガイダンス
190 画像・音声処理部
300 小売業者の注文受付装置
400 外部ライブラリ
500 ネットワーク
DESCRIPTION OF
Claims (4)
呈示された紙面をカメラで撮影し、撮影した画像データを前記データベースの画像データを用いて画像認識することによって該紙面を特定し、特定された紙面に関する情報を表示させるページ認識手段と、
利用者の音声の波形データに対して、該特定された紙面に掲載されている商品を前記データベースを用いて選択してこれらの商品名の読みから得られる音声の波形データを優先的に照合処理して音声認識することによって商品を特定する音声認識部と、
該特定された商品の購買の注文を受付ける注文受付手段と、
所定の外部装置との間で情報を送受信する送受信手段と、
前記各手段を制御する制御手段と、を備えることを特徴とする注文支援装置。 A database that stores image data of one or more pages, the names of products listed on each page, and readings of product names;
Page recognition means for photographing the presented paper surface with a camera, identifying the photographed image data using the image data of the database to identify the paper surface, and displaying information on the identified paper surface;
With respect to the waveform data of the user's voice, the products listed on the specified paper are selected using the database, and the waveform data of the voice obtained from reading these product names is preferentially verified. A voice recognition unit that identifies the product by voice recognition,
Order accepting means for accepting an order for purchasing the specified product;
Transmitting / receiving means for transmitting / receiving information to / from a predetermined external device;
An order support apparatus comprising: control means for controlling each means.
利用者の音声を外部ライブラリを用いて音声認識することによって商品を特定することを特徴とする、請求項1に記載の注文支援装置。 The voice recognition unit
The order support apparatus according to claim 1, wherein a product is specified by recognizing a user's voice using an external library.
呈示された紙面を魚眼レンズを付設したカメラで撮影することを特徴とする、請求項1または請求項2に記載の注文支援装置。 The page recognition means
The order support apparatus according to claim 1, wherein the presented paper surface is photographed by a camera provided with a fisheye lens.
現在呈示された紙面を撮影した画像データと直前に撮影した画像データとの画像特徴量情報の比較によりページめくりを検知して前記特定された紙面を変更し、現在撮影した画像データと前記データベースの新たに特定された紙面の画像データとを優先的に照合処理することによって該紙面を再度特定することを特徴とする、請求項1から請求項3のいずれかに記載の注文支援装置。 The page recognition means
The page data is detected by comparing the image feature amount information between the image data obtained by photographing the currently presented paper surface and the image data obtained immediately before, and the specified paper surface is changed. The order support apparatus according to any one of claims 1 to 3, wherein the paper surface is specified again by preferentially comparing the image data of the newly specified paper surface.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013066798A JP2014191600A (en) | 2013-03-27 | 2013-03-27 | Order support device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013066798A JP2014191600A (en) | 2013-03-27 | 2013-03-27 | Order support device |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2014191600A true JP2014191600A (en) | 2014-10-06 |
Family
ID=51837793
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013066798A Pending JP2014191600A (en) | 2013-03-27 | 2013-03-27 | Order support device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2014191600A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019518483A (en) * | 2016-03-17 | 2019-07-04 | カーリー ケア, インコーポレイテッドKali Care, Inc. | Network connection cap for container |
-
2013
- 2013-03-27 JP JP2013066798A patent/JP2014191600A/en active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019518483A (en) * | 2016-03-17 | 2019-07-04 | カーリー ケア, インコーポレイテッドKali Care, Inc. | Network connection cap for container |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111279413B (en) | Combined audio-video facial animation system | |
| CN113297891B (en) | Video information processing method, device and electronic equipment | |
| CN110692048A (en) | Detection of task changes in a session | |
| KR20190067870A (en) | Image analysis and prediction-based visual search | |
| CN114727193B (en) | Systems and methods for performing acoustic zoom | |
| JP2009540414A (en) | Media identification | |
| US10043069B1 (en) | Item recognition using context data | |
| US9280973B1 (en) | Navigating content utilizing speech-based user-selectable elements | |
| US11635883B2 (en) | Indication of content linked to text | |
| US9892648B2 (en) | Directing field of vision based on personal interests | |
| JP5142306B1 (en) | Product information providing system, product information providing device, and product information output device | |
| WO2016103287A1 (en) | Intelligent interactive shopping assistance system and method | |
| CN117711400A (en) | Digital image capture session and metadata association | |
| US20200090656A1 (en) | Sensor Based Semantic Object Generation | |
| CN114154520B (en) | Training method of machine translation model, machine translation method, device and equipment | |
| CN111652624A (en) | Ticket purchase processing method, ticket checking processing method, apparatus, device, and storage medium | |
| EP3648069B1 (en) | Method and apparatus for selling commodity, vending machine and storage medium | |
| CN111614924A (en) | Computer system, resource sending method, device, equipment and medium | |
| KR20220151721A (en) | Self-interior service platform system and provision method using artificial intelligence and AR | |
| CN112825180A (en) | Validated video commentary | |
| CN111598651A (en) | Item donation system, item donation method, item donation device, item donation equipment and item donation medium | |
| JP2009519542A (en) | Alternative graphics pipe | |
| JP2015164020A (en) | Information processing device, processing method, and program | |
| JP2014191600A (en) | Order support device | |
| CN116580707A (en) | Method and device for generating action video based on voice |