図1は、本発明の実施形態であるボイスレコーダ(音声情報記録装置)の正面図であり、図2はその右側面図、図3はその左側面図である。
ボイスレコーダ101には、その筐体表面にスピーカ102が設けられており、音声情報の再生出力が可能となっている。スピーカ102の上方には、録音・停止ボタン103,録音再生表示部104、リンク表示部105、左上方には音声情報入力用のマイク107が設けられている。
なお、ボイスレコーダ101の筐体表面には図9に示すような液晶画面901を設けてもよい。この液晶画面901には、録音状態、再生状態、停止状態、リンク状態、録音・再生トラック番号等を表示することが可能である。
ボイスレコーダ101の右側面には、電源スイッチ108とボリューム109が配置されており、ボイスレコーダ101の電源投入とスピーカ102から再生される音声情報の音量調節が可能となっている。
ボイスレコーダ101の左側面には、コネクタ端子(SCANNER)110、音声出力端子(PHNE)111および外部電源端子(DC IN)112が設けられている。コネクタ端子110は、たとえばUSB端子等の汎用シリアルインターフェースであり、図4に示すようにスキャナ113(光学読取手段)のケーブル114の端部に設けられたUSBコネクタ115が装着されるようになっている。
スキャナ113には、図5に示すように、CMOS撮像素子(CMOSS)が配置されており、LED(IRLED)からの照射光をドットパターンの印刷面に照射し、その反射光が可視光フィルタ(図示せず)を介することによって赤外線領域のみの波長光として受光し、これがレンズを介してCMOS撮像素子によって撮影され、該撮影画像が中央処理装置(MPU)によって解析され、解析結果のコード情報(32bitのドットコード)または座標情報としてボイスレコーダ101に送信される。なお、このときドットパターンにはキードット2(図12および図14参照)が配置されてドットパターンを構成するブロックの向き(角度)も角度情報として受信可能となっている。
つまり、ドットパターンの撮影画像をビデオメモリに展開することで、各ドットのXY座標値がわかるので、これを元に格子ドットとキードットを探索することで当該ドットパターンの向き(ビデオメモリの正XY座標軸に対するドットパターンの角度)が検出できる。
なお、スキャナ内には解析ソフトウエアがROM等に格納されており、中央処理装置(MPU)は、当該ROMから当該ソフトウエアを読み込むことによって撮影画像の解析処理(ドットパターンの認識→数値変換→ドットコード、座標情報、角度情報に変換)を実行する。
ボイスレコーダ101本体内は、図5に示すように、中央処理装置(MPU)を中心に構成されている。すなわち、中央処理装置(MPU)の制御によって、マイクから入力された音声情報は、アンプを介してA/Dコンバータ、圧縮回路によって処理され、デジタル音声情報として、コネクタを介してメモリカード106(記憶手段)に記録される。
このメモリカード106の外観を示したのが図11である。このメモリカード106は、たとえばメモリとしてのICチップを内蔵したクレジットカードサイズのプラスチックカードであり、信号ピン、電源ピンを構成する接触型の電極106aを有している。なお、非接触の無線通信型のRFIDカードであってもよい。また、このようなカードの他、SDカード(商標名)、ミニSDカード(商標名)、メモリースティック(商標名)、メモリースティック・デュオ(商標名)等の規格型のメモリカードであってもよい。
当該ボイスレコーダ101において、音声情報を再生する際には、メモリカード106(記憶手段)から読み出されたデジタル音声情報は、コネクタを介して中央処理装置(MPU)に読み込まれ、圧縮回路で逆圧縮(展開)されて、A/Dコンバータでアナログ情報に変換されてアンプ(AMP)を介してスピーカから出力される。
なお、ボイスレコーダ101の駆動電流は、電池からDC−DCコンバータを介して、中央処理装置(MPU)、圧縮回路、アンプ(AMP)に供給されるようになっている。
図6は、ボイスレコーダ101の操作指示をスキャナ113の読み取りで行うための指示ボード600(ペーパーコントローラ:印刷媒体)である。この指示ボード600は、ボイスレコーダ101の操作指示を示すシンボルが印刷されている。このシンボルの領域には操作指示に対応したコードを意味するドットパターンが印刷されている。ドットパターンについては後述する。
この指示ボード600は紙材で構成され、紙材の表面にドットパターンが印刷され、さらにはその上層にラミネート加工が施されている。
指示ボード600上には、録音601、音声品質602a〜602c、再生604、早送り605、停止606、一時停止619、戻り・再生607、送り・再生608、先頭・再生609、後尾・再生610が設けられておりボイスレコーダ101でのそれぞれの機能が命令可能となっている。
また、指示ボード600の下部には、リンク関連の指示シンボルが印刷されている。すなわち、リンク開始611、リンク終了612、リンク解除613、全リンク解除614の各指示シンボルが配置されている。
さらには、指示ボード600の最下部には、音声消去615、全音声消去616の各指示シンボルと、実行617、中止618の各指示シンボルが配置されている。
なお、図示はしなかったが、この他に指示ボード600には、音声ナビゲーションのシンボルを印刷しておいてもよい。この音声ナビゲーションは、ボイスレコーダ101や指示ボード600を操作する際の音声ガイダンスの有無を指示入力するためのシンボルである。
図7は、記憶手段(メモリカード)に記録される音声情報のフォーマットを示している。音声情報は、インデックス701と、複数の音声ファイルトラック702とで構成されている。
インデックス701には、トラック毎の管理情報と、再生フラグが登録されるようになっている。
また、インデックス701は各音声ファイルトラック702の音声情報の消去・更新の禁止情報が記録されており、これによって音声ファイルトラックは消去・更新が可能なトラックと、消去・更新が禁止されているトラックの2種類に分けて管理することが可能となっている。
たとえば、消去・更新を禁止するトラックとしては、ボイスレコーダ101や指示ボード600の次の操作を音声で指示するナビゲーション音声ファイルが格納されたトラックや、絵本等とのセットで販売されたメモリカード106であらかじめ絵本のストーリーにしたがって声優が音声を記録しているトラック等が考えられる。一方、消去・更新が可能なトラックには、購入したユーザが絵本の登場人物になって発声するセリフ等を入力しておくことができる。
また、消去・更新を禁止するトラックには、前述の音声ナビゲーションのガイダンス音声等を登録しておいてもよい。
図8は、記憶手段(メモリカード)に設けられた照合テーブルおよび照合コードを示している。
同図に示すように、本実施形態での照合テーブルはC8〜C22,C31の値を照合範囲として設定しており、この範囲に存在する照合コードがドットパターンから読み取った照合コードと一致する場合には、当該ドットパターンが当該ボイスレコーダに適合しているものとして音声情報の再生を許可する。
なお、照合テーブルは任意に変更可能であり、たとえば当該ボイスレコーダのメーカー毎、メモリカードのメーカー毎、ゲームの種類毎に照合テーブルの照合範囲を変更してもよい。
このような照合テーブル、照合コードをメモリカード106に登録しておくことにより、当該照合コードと同一のコードがドットパターンとして印刷されている絵本でしか音声情報の録音・再生ができないようにすることが可能である。すなわち、セットで販売されている絵本とメモリカード106との組合せでなければ音声録音・再生が行えない仕組みを提供することができる。
このとき、中央処理装置(MPU)はスキャナ113が読み込んだドットパターンに基づいて、所定の領域のドットコード(照合コード)をスキャナ113から受信して、これをメモリカード106の照合コードと比較して一致していればメモリカード106内の音声情報の録音・再生を許可する。
図10は、リンクテーブルについて説明したものであり、当該リンクテーブルはメモリカード106に設けられている。リンクテーブルは、同図に示すように、登録順を示すラベルと、音声ファイルトラック番号と、32bitのドットコードとで構成されている。本実施形態において、1つの音声ファイルトラック番号に対して複数のドットコードを関係付けることができるようになっている。これによって、異なる多数のドットパターンの印刷された写真、シール、絵本等の媒体をスキャナ113で読み取った場合でも同一の音声情報を再生させることが可能となる。
次に、本実施形態で用いられるドットパターンについて説明する。
図12は本発明のドットパターンの一例であるGRID1を示す説明図である。図13はドットパターンの情報ドットおよびそれに定義されたデータのビット表示の一例を示す拡大図である。図14(a)、(b)はキードットを中心に配置した情報ドットを示す説明図である。
本発明のドットパターンを用いた情報入出力方法は、ドットパターン1の生成と、そのドットパターン1の認識と、このドットパターン1から情報およびプログラムを出力する手段とからなる。すなわち、ドットパターン1をカメラにより画像データとして取り込み、まず、格子ドットを抽出し、次に本来格子ドットがある位置にドットが打たれていないことによってキードット2を抽出し、次に情報ドット3を抽出することによりデジタル化して情報領域を抽出して情報の数値化を図り、その数値情報より、このドットパターン1から音声情報を出力させる。
本発明のドットパターン1の生成は、ドットコード生成アルゴリズムにより、音声等の情報を認識させるために微細なドット、すなわち、キードット2、情報ドット3、格子ドット4を所定の規則に則って配列する。図12に示すように、情報を表すドットパターン1のブロックは、キードット2を中心に5×5の格子ドット4を配置し、4点の格子ドット4に囲まれた中心の仮想点の周囲に情報ドット3を配置する。このブロックには任意の数値情報が定義される。なお、図12の図示例では、ドットパターン1のブロック(太線枠内)を4個並列させた状態を示している。ただし、ドットパターン1は4ブロックに限定されないことはもちろんである。
1つのブロックに1つの対応した情報を出力させ、または、複数のブロックに1つの対応した情報を出力させることができる。
格子ドット4は、カメラでこのドットパターン1を画像データとして取り込む際に、そのカメラのレンズの歪みや斜めからの撮像、紙面の伸縮、媒体表面の湾曲、印刷時の歪みを矯正することができる。具体的には歪んだ4点の格子ドット4を元の正方形に変換する補正用の関数(Xn,Yn)=f(X´n,Y´n)を求め、その同一の関数で情報ドットを補正して、正しい情報ドット3のベクトルを求める。
ドットパターン1に格子ドット4を配置してあると、このドットパターン1をカメラで取り込んだ画像データは、カメラが原因する歪みを補正するので、歪み率の高いレンズを付けた普及型のカメラでドットパターン1の画像データを取り込むときにも正確に認識することができる。また、ドットパターン1の面に対してカメラを傾けて読み取っても、そのドットパターン1を正確に認識することができる。
キードット2は、図12に示すように、矩形状に配置した格子ドット4の略中心位置にある1個の格子ドット4を一定方向にずらして配置したドットである。このキードット2は、情報ドット3を表す1ブロック分のドットパターン1の代表点である。たとえば、ドットパターン1のブロックの中心の格子ドット4を上方に0.1mmずらしたものである。情報ドット3がX,Y座標値を表す場合に、キードット2を下方に0.1mmずらした位置が座標点となる。ただし、この数値はこれに限定されずに、ドットパターン1のブロックの大小に応じて可変し得るものである。
情報ドット3は種々の情報を認識させるドットである。この情報ドット3は、キードット2を代表点にして、その周辺に配置すると共に、4点の格子ドット4で囲まれた中心を仮想点にして、これを始点としてベクトルにより表現した終点に配置したものである。たとえば、この情報ドット3は、格子ドット4に囲まれ、図13に示すように、その仮想点から0.1mm離れたドットは、ベクトルで表現される方向と長さを有するために、時計方向に45度ずつ回転させて8方向に配置し、3ビットを表現する。したがって、1ブロックのドットパターン1で3ビット×16個=48ビットを表現することができる。
なお、図示例では8方向に配置して3ビットを表現しているが、これに限定されずに、16方向に配置して4ビットを表現することも可能であり、種々変更できることはもちろんである。
キードット2、情報ドット3または格子ドット4のドットの径は、見栄えと、紙質に対する印刷の精度、カメラの解像度および最適なデジタル化を考慮して、0.05mm程度が望ましい。
また、撮像面積に対する必要な情報量と、各種ドット2,3,4の誤認を考慮して格子ドット4の間隔は縦・横0.5mm前後が望ましい。格子ドット4および情報ドット3との誤認を考慮して、キードット2のずれは格子間隔の20%前後が望ましい。
この情報ドット3と、4点の格子ドット4で囲まれた仮想点との間隔は、隣接する仮想点間の距離の15〜30%程度の間隔であることが望ましい。情報ドット3と仮想点間の距離がこの間隔より遠いと、ドット同士が大きな塊りと視認されやすく、ドットパターン1として見苦しくなるからである。逆に、情報ドット3と仮想点間の距離がこの間隔より近いと、隣接するいずれの仮想点を中心にしてベクトル方向性を持たせた情報ドット3であるかの認定が困難になるためである。
たとえば、情報ドット3は、図14(a)に示すように、キードット2を中心に時計回りでI1からI16を配置する格子間隔は0.5mmであり、2mm×2mmで3ビット×16=48ビットを表現する。
なお、ブロック内に、個々に独立した情報内容を有し、かつ他の情報内容に影響されないサブブロックをさらには設けることができる。図14(b)はこれを図示したものであり、4つの情報ドットで構成されるサブブロック[I1,I2,I3,I4]、[I5,I6,I7,I8]、[I9,I10,I11,I12]、[I13,I14,I15,I16]は各々独立したデータ(3ビット×4=12ビット)が情報ドットに展開されているようになっている。このようにサブブロックを設けることより、エラーチェックをサブブロック単位で容易に行うことができる。
情報ドット3のベクトル方向(回転方向)は、30度〜90度毎に均等に定めるのが望ましい。
図15は情報ドットおよびそこに定義されたデータのビット表示の例であり、他の形態を示すものである。
また、情報ドット3について格子ドット4で囲まれた仮想点から長・短の2種類を使用し、ベクトル方向を8方向とすると、4ビットを表現することができる。このとき、長い方が隣接する仮想点間の距離の25〜30%程度、短い方は15〜20%程度が望ましい。ただし、長・短の情報ドット3の中心間隔は、これらのドットの径より長くなることが望ましい。
4点の格子ドット4で囲まれた情報ドット3は、見栄えを考慮し、1ドットが望ましい。しかし、見栄えを無視し、情報量を多くしたい場合は、1ベクトル毎に、1ビットを割り当て情報ドット3を複数のドットで表現することにより、多量の情報を有することができる。たとえば、同心円8方向のベクトルでは、4点の格子ドット4に囲まれた情報ドット3で28の情報を表現でき、1ブロックの情報ドット16個で2128となる。
図16は情報ドットおよびそこに定義されたデータのビット表示の例であり、(a)はドットを2個、(b)はドットを4個および(c)はドットを5個配置したものを示すものである。
図17はドットパターンの変形例を示すものであり、(a)は情報ドット6個配置型、(b)は情報ドット9個配置型、(c)は情報ドット12個配置型、(d)は情報ドット36個配置型の概略図である。
図12と図14に示すドットパターン1は、1ブロックに16(4×4)の情報ドット3を配置した例を示している。しかし、この情報ドット3は1ブロックに16個配置することに限定されずに、種々変更することができる。たとえば、必要とする情報量の大小またはカメラの解像度に応じて、情報ドット3を1ブロックに6個(2×3)配置したもの(a)、情報ドット3を1ブロックに9個(3×3)配置したもの(b)、情報ドット3を1ブロックに12個(3×4)配置したもの(c)、または情報ドット3を1ブロックに36個(6×6)配置したもの(d)がある。
このようなドットパターンは、写真116(図4参照)や、絵本、カード等の表面に印刷されている。また、図6で説明した指示ボード600(ペーパーコントローラ)の各シンボル部分にも設けられている。
次に、本実施形態のボイスレコーダ101を用いた操作手順について説明する。
(基本機能)
ドットパターンが絵柄と重畳印刷された絵本と、録音済みメモリカード106とがセットで販売されており、これを購入したユーザは、メモリカード106をボイスレコーダ101に装着する。そして、図4に示すように、スキャナ113のコネクタ115をコネクタ端子110に装着する。そして、絵本のたとえば犬の絵に重畳印刷されているドットパターンをスキャナ113が読み取ると、スキャナの中央処理装置(MPU)は当該ドットパターンを解析ソフトによって解析し、ドットコード(コード情報)に変換する。このドットコードはボイスレコーダ101の中央処理装置(MPU)に送信される。ボイスレコーダ101では、当該ドットコードに基づいてメモリカード106のリンクテーブル(図10参照)を検索する。そして、このドットコードに対応する音声ファイルトラック702を索出して、メモリカード106内の該当する音声ファイルトラック702(たとえば、犬の鳴き声)を読み出す。この音声ファイルトラック702の音声情報は、圧縮回路で逆圧縮(展開)され、A/Dコンバータでアナログ音声情報に変換されて、アンプ(AMP)を介してスピーカから出力される。このようにして、絵本の犬の絵の部分をスキャナ113で読み取ると、ボイスレコーダ101のスピーカ102から犬の鳴き声が再生される。
(再生手順)
次に、あらかじめメモリカード106内に、ドットパターンに音声情報が関係付けられている場合の種々の再生方法について詳しく説明する。
まず、スキャナでドットパターンが印刷された絵本、写真、シール等をクリック(撮像)すると、前記のようにドットパターンに対応したドットコードが解析されて、リンクテーブルが参照されて、当該ドットコードに対応する音声情報が再生される。このとき、中央処理装置(MPU)は、音声情報の再生とともに、録音・再生表示部のLEDを点灯させる。
次に、音声再生中に、スキャナ113で指示ボード600の早送り605のシンボルがクリック(撮像)されると、早送り再生(x倍速再生:xは任意の整数)が実行される。
ここで再生速度を元に戻したい場合(通常音声再生)には、指示ボード600の早送り605のシンボルを再度クリックするか、再生604のシンボルをクリックする。
また、音声再生中に、スキャナ113で指示ボード600の一時停止619のシンボルがクリックされると、再生が一時停止(ポーズ状態)となる。再度一時停止619のシンボルがクリックされることによって再生が再開される。
さらには、音声再生中に、送り・再生608がクリックされると、中央処理装置(MPU)は、メモリカード106内のリンクテーブル(図10参照)を検索し、現在再生している音声ファイルトラック702の次のラベル(登録順)に登録されている音声ファイルトラック702の再生を開始する。また、戻り・再生607がクリックされると、中央処理装置(MPU)は、リンクテーブル(図10参照)を検索し、現在再生している音声ファイルトラック702の前のラベル(登録順)に登録されている音声ファイルトラック702の再生を開始する。
また、音声再生中に、後尾・再生610がクリックされると、中央処理装置(MPU)は、メモリカード106内のリンクテーブル(図10参照)を検索し、音声ファイルトラック702の最後のトラック(図10では音声ファイルトラックNo.4)の再生を開始する。また、先頭・再生609がクリックされると、音声ファイルトラック702の先頭のトラック(図10では音声ファイルトラックNo.3)の再生を開始する。
(録音手順)
ボイスレコーダ101に新たに音声を録音する場合、スキャナ113で指示ボード600の録音601のシンボルをクリックするか、本体の録音・再生ボタン103を押すことによって録音が開始される。マイク107に向かって発声された音声はA/Dコンバータによりデジタル変換され、圧縮回路によって圧縮される。このような圧縮データ形式で音声情報は順次メモリカード106に登録される。
この録音中に、スキャナ113で指示ボード600の録音601のシンボルまたは停止606のシンボルをクリックするか、本体の録音・停止ボタン103を押すことによって録音を停止する。このときまでに録音された音声情報がメモリカード106に記録される。
これらの音声を消去する場合には、スピーカ102から音声が再生されている状態、または音声の再生終了後5秒以内に指示ボード600の音声消去615のシンボルがスキャナ113でクリックされるとスピーカ102から「ピー」音が出力されて録音・再生表示部106のLEDが5秒間点滅する。この5秒間の間に、指示ボード600の実行617のシンボルがクリックされると再生されている音声が消去される。このとき中央処理装置(MPU)は当該音声ファイルトラック702のデータをメモリカード106から削除する処理を行う。
また、前記5秒間の間に中止618のシンボルがスキャナ113でクリックされるか、5秒間の間いずれのシンボルもクリックされない場合には、この音声消去モードを終了する。
また、メモリカード106に録音されている全ての音声情報を消去したい場合には、上記音声消去615の代わりに全音声消去616のシンボルをスキャナ113でクリックすればよい。
(リンク作業)
本実施形態では、ユーザが自分自身で録音した音声情報またはメモリカード106に記憶された既存の音声情報をどのドットパターンと関係付けるかを自由に設定することができる。これをリンク設定という。
リンク設定は図10に示すリンクテーブル(メモリカード106内に設定)によって管理されている。
リンクを作成する際には、まず指示ボード600の録音601のシンボルをスキャナ113でクリックするか、録音・停止ボタン103を押して音声の録音を開始する。このとき録音再生表示部104のLEDが点滅状態となる。
次に、録音状態を維持したまま、絵本、写真、シール、カード等に印刷されたドットパターンがスキャナ113でクリック(撮像)されると、中央処理装置(MPU)は録音状態を停止するとともに、録音された音声ファイルトラック番号に対して撮像したドットパターンのドットコードを関連付けて登録する。このとき、スピーカ102から「ピッ」音を出力させてリンクの生成をユーザに通知する。
また、ドットパターンをスキャナ113でクリックしたときに、既にリンクテーブルに当該ドットパターンに対応するドットコードに他の音声ファイルトラック702が関係付けられて登録されている場合には、中央処理装置(MPU)は、スピーカ102から「ブッ」音を出力させてリンク作成ができないことをユーザに通知する。
次に、既にメモリカード106に音声情報が登録されている場合に、ドットパターンとのリンクを生成する手順について説明する。
まず、指示ボード600のリンク開始611のシンボルをスキャナ113でクリックすると、ボイスレコーダ101の中央処理装置(MPU)は、リンク表示部105のLEDを点滅させてリンク開始をユーザに通知する。
次に、指示ボード600の再生604のシンボルをスキャナ113でクリックしてリンクさせる音声ファイルトラック702の音声を再生させる。このとき、ユーザは指示ボード600の送り・再生608、戻り・再生607、先頭・再生609、後尾・再生610をクリックすることによって再生する音声ファイルトラック702を順次切り替えて所望の音声ファイルトラック702を探し出す。
このようにして所望の音声ファイルトラック702を再生している間、または音声再生終了後5秒以内に絵本、写真、シール、カード等に印刷されたドットパターンをスキャナ113でクリックすると、当該音声ファイルトラック702とドットパターンのドットコードとが関係付けられてリンクテーブルに登録される。なおここで、既にリンクテーブルに当該ドットパターンに対応するドットコードに他の音声ファイルトラック702が関係付けられて登録されている場合には、中央処理装置(MPU)は、スピーカ102から「ブッ」音を出力させてリンク作成ができないことをユーザに通知する。
このように、1つのドットパターン(ドットコード)は1つの音声ファイルトラックにしかリンクさせることはできないが、逆に1つの音声ファイルトラック702は複数のドットパターン(ドットコード)とリンクさせることができる。したがって、全く異なるドットパターンであってもクリックすることによって同一の音声情報を再生させることが可能となる。
以上のリンクモードを終了する場合には、指示ボード600のリンク終了612のシンボルをスキャナ113でクリックする。これによって、ボイスレコーダ101は、電源スイッチ108をオン状態にしたときの初期状態に戻る。
次に、以上のように設定されたリンクテーブルのリンクを消去する手順について説明する。
いずれかのリンクを消去したい場合には、まずリンクテーブルに既にリンクが生成されているドットパターンをスキャナ113でクリックして、中央処理装置(MPU)は、関係付けられた音声ファイルトラックを読み出して再生する。
次に、当該音声の再生中、または再生終了後5秒間の間にリンク解除613のシンボルをスキャナ113でクリックする。次に、中央処理装置(MPU)はスピーカ102から「ピー」音を5秒間出力するとともに、リンク表示部105のLEDを点滅させる。この間に指示ボード600の実行617のシンボルをスキャナ113でクリックすると、当該ドットパターン(ドットコード)と音声ファイルトラックとのリンクが解除される。このとき、リンクが解除されるだけで関係付けられていた音声ファイルトラックは消去されない。
また、前記5秒間の間に中止618のシンボルがスキャナ113でクリックされるか、5秒間の間いずれのシンボルもクリックされない場合には、このモードを終了する。
次に、リンクテーブル内の全てのリンクを解除する場合には、前記リンク解除613のシンボルの代わりに、全リンク解除614のシンボルをスキャナ113でクリックすればよい。その手順は前記の個々のリンクの解除と同様であるので説明は省略する。
(その他の機能)
ボイスレコーダ101は、以上の機能の他に以下の付加機能を有している。
5分間いずれのスイッチやボタンも操作されず、かつスキャナ113でいずれのドットパターンまたはシンボルもクリックされない場合には電源オフ状態となる。これは中央処理装置(MPU)がクロックを用いて5分間の計数を行い、中央処理装置(MPU)とDC−DCコンバータとの間にあるスイッチを開放する制御を行うことによって実現される。
ボイスレコーダ101は録音する音声に対して音声品質(ビットレート)を可変にすることができる。音声品質の「低」602cのシンボルをスキャナ113でクリックした場合、録音されるビットレートが低く設定されて長時間録音が可能となる。一方、「高」602aのシンボルがクリックされた場合にはビットレートが高く設定され高品位な録音が可能となる。「中」602bのシンボルはその中間のビットレートに設定可能となっている。
中央処理装置(MPU)はメモリカード106の空き容量を監視しており、空き容量が0.2Mbyte未満になると録音・再生表示部104のLEDを点滅させて録音可能時間が少ないことをユーザに通知するようになっている。このとき、前述のように、指示ボード600で音声ナビゲーションのシンボルをスキャナ113でクリックした場合には、ユーザへの通知を音声情報、たとえば「メモリが残り少なくなっています」というような音声情報をスピーカ102から出力させてもよい。
なお、以上の実施形態では、写真、絵本、カード、シール等に形成されたドットパターンとしてコード情報(ドットコード)の場合のみを説明したが、これに限らず座標情報、コード情報と座標情報の組合せ、さらにはキードット2による角度情報の組合せをスキャナで読み取るようにしてもよい。
角度情報を組合せた場合、たとえばスキャナ113に対して読み取るドットパターンが印刷されたカードの向き(角度)によって異なる音声情報を出力させることも可能となる。
図18、図19は、本発明の他の実施形態を示すものである。
図18に示すボイスレコーダ101aは、図1に示したボイスレコーダ101とほぼ同様のものであるが、メモリカードとしてSDカード106Aを用いたものである。その他の機能は図1で説明したものと同じであるので説明は省略する。なお、図18ではSDカードを例示したが、メモリ媒体であればminiSD、メモリースティック、メモリースティックDuo等いかなる媒体であってもよい。
図19は、スキャナを一体化したボイスレコーダ1901を示している。
このボイスレコーダ1901の装置本体の先端(図で上端)には、センサユニット1903が内蔵されており、図示は省略するが、赤外線LED等の赤外線照射手段やドットパターンからの反射光を撮影するCCDやCMOSからなる撮像手段が設けられている。すなわち、図4および図5で説明したスキャナ113がボイスレコーダ1901の本体に一体的に内蔵された構造となっている。
本体の底部近傍の側面にはスピーカ1902が設けられており、マイク1908から入力した音声や、SDカード106A(図19では図示せず)や内蔵されたメモリにあらかじめ登録された音声、音楽等が出力されるようになっている。
本ボイスレコーダ1903の正面(操作面、図19(b)に示す面)には、センサユニット側からスキャンボタン1904、録音ボタン1905、ボリューム1906、LED1907およびマイク1908がそれぞれ配置されている。
<回転パラメータを有する実施形態>
図20から図27は、本発明の他の実施形態を示すものである。
これらの実施形態は、ドットパターン(フィギアの向き)の角度を認識することにより、ドットコードおよびその角度に対応した音声を出力することのできる台座(音声情報記録装置)に関するものである。
本実施形態は、図20に示す如く、台座2001と、それに接続されたスキャナ113とそのスキャナ113で読み取るためのペーパーコントローラ2006と、台座2001の上面のステージ2002に載置されるフィギア2003とで構成される。
また、台座2001の周面の正面側には、マイク2004と液晶表示部2005とが設けられている。
フィギア2003の底面には図12〜17で説明したドットパターンが印刷されたシールが貼付されている。
台座2001の内部には、図示しない赤外線照射手段(たとえば赤外線照射LED)と、撮像手段(CCD、CMOS等)が設けられており、台座2001のステージ2002に設けられた読取孔を介してフィギア2003底面のドットパターンが撮像可能となっている。
本実施形態に用いる指示ボード(ペーパーコントローラ2006)は、図21に示すものである。
このペーパーコントローラ2006には、録音を指定する録音領域、リンク領域、回転パラメータ領域、再生、早送り、戻り・再生、送り・再生、先頭・再生、後尾・再生等の再生制御を行う再生制御領域、リンクの生成や解除ならびに音声の消去を制御するリンク制御領域が設けられ、それぞれにドットパターンが印刷されている。
すなわち、ペーパーコントローラ2006のこれらの領域をスキャナ113で撮像することによって、音声の入力、再生、フィギアとの関係付け(リンク)が制御できるようになっている。
さらには、ペーパーコントローラ2006には、回転パラメータのON/OFF領域が設けられている。
この回転パラメータON/OFF領域は、フィギアの底面に設けられたドットパターンの向きのパラメータをON状態(向きのパラメータも付加して制御を行うモード)にするかOFF状態(向きのパラメータを無視して制御を行うモード)にするかを指示するための領域であり、ONの領域をスキャナ113で撮像したときには、ステージ2002上でのフィギア2003の向き、たとえば正面を向かせて載置したとき(図20(a))、横に向かせて載置したとき(図20(b))、正面に背中を向けて載置したとき(図20(c))のそれぞれで異なる音声を出力することが可能となる。
図25は、ドットパターンの向きを検出するための技術を説明した図である。
図12で説明したように、ドットパターン1は、キードット2を中心に情報ドット3を配置した構成となっている。したがって、ドットパターン1から情報ドットの意味する値を抽出するためのアルゴリズム(中央処理装置によって実行される解析プログラム)では、スキャナ113やセンサユニット1903で撮像されたドットパターン1の画像データをビデオメモリに展開し、このビデオメモリの画素を解析してまずキードット2を探す。したがって、キードット2が索出されるとドットパターン1の向き(撮像基準線2501(ここではY正方向)に対するドットパターン1の傾きの角度θ)が計算できる。
本実施形態はこの向きの角度をドットパターンが意味するコード値にパラメータとして付加したものであり、同一のドットパターンであっても角度によって出力させる音声データ(ボイスアドレス)を変化させることができる。
なお、ここではY正方向に対するドットパターンの向きとの角度で説明したが、X正方向を基準にしてもよいことはいうまでもない。
図26はその角度をパラメータとして付加した場合の音声決定テーブルである。これを具体的に図20で説明したフィギア2003の向きと対応付けて説明すると、フィギア2003が正面を向いて載置されているとき(図20(a))には、角度は−46〜+45(0±45)度であるので、音声決定テーブルにより角度No.001が選択されボイスアドレスaに登録された「おはよう」という音声が台座2001のスピーカ(図示省略)から発声される。
また、図20(b)に示すようにフィギア2003を左方向に向けて載置した場合には、角度は+46〜+135(90±45)度であるので、音声決定テーブルにより角度No.002が選択され、ボイスアドレスbに登録された「こんにちは」という音声が台座2001のスピーカ(図示省略)から発声される。
さらには、図20(c)に示すようにフィギア2003が正面からみて後ろ向きに載置された場合、角度は+136〜+225(180±45)度であるので、音声決定テーブルにより角度No.003が選択され、ボイスアドレスcに登録された「こんばんは」という音声が台座2001のスピーカ(図示省略)から発声される。
<録音およびリンク処理>
次に、図22〜24を用いて、本実施形態のボイスレコーダの操作手順について説明する。
まず、スキャナの中央処理装置(MPU)は、プログラムに基づいて、ユーザにより、回転パラメータON804のシンボルがクリックされたか否かを判定する(2201)。ここで、クリックされたと判断した場合にはステップ2202に処理を移し、クリックされたと判断しなかった場合には、本処理を終了する。
ステップ2202では、回転パラメータをONにする。スキャナの中央処理装置(MPU)は、ステップ2201で読み取られたドットパターンを解析ソフトによって解析し、ドットコード(コード情報)に変換する。このドットコードが台座2001の中央処理装置(MPU)に送信される。そして、台座2001の中央処理装置(MPU)は、回転パラメータをONにする。
次に、録音801がクリックされたか否かを判断する(2203)。クリックされたと判断した場合にはステップ2204に処理を移し、クリックされたと判断しなかった場合には、本処理を終了する。
ステップ2204では、録音モードをONにする。
次に、録音処理を行う(2205)。台座2001の中央処理装置(MPU)は、マイク2004に向かって発声された音声をA/Dコンバータによりデジタル変換し、圧縮回路によって圧縮する。このような圧縮データ形式で音声情報を順次メモリに登録する。
次に、リンク開始802のシンボルがクリックされたか否かを判断する(ステップ2206)。クリックされたと判断した場合には録音を停止し(2301)、クリックされたと判断しなかった場合にはステップ2207に処理を移す。
ステップ2207では、音声の録音が完了したか否かを判断する(2207)。録音801のシンボルまたは停止808のシンボルがクリックされたと判断した場合には、録音が完了したと判断する。録音が完了したと判断した場合には本処理を終了し、録音が完了したと判断しなかった場合には、再度ステップ2207の処理を行う。
ステップ2301では、録音状態を停止する。そして、リンクモードをONにする(2302)。
次に、リンク終了803のシンボルがクリックされたか否かを判断する(2303)。クリックされたと判断した場合には本処理を終了し、クリックされたと判断しなかった場合にはステップ2304に処理を移す。
ステップ2304では、フィギア2003が台座2001のステージ2002に載置されているか否かを判断する。フィギア2003が載置されているか否かの判断は、台座のセンサユニットがフィギア2003底面のドットパターンを読取可能な状態となっているか否かで判断する。載置されている場合には、センサが読み取ったドットパターンを中央処理装置(MPU)に送信する。
ステップ2305では、コード情報の抽出および角度の検出を行う。中央処理装置(MPU)は、画像処理アルゴリズムにより、読み取った画像情報からコード情報を抽出する。そして、キードットの位置から当該ドットパターンの角度を計算する。
次に、ドットコードと角度が既にリンクされているか否かを判断する(2306)。台座の中央処理装置(MPU)は、既にリンクテーブルに、当該ドットコードかつ当該角度に他の音声ファイルトラックが関係付けられて登録されているか否かを判断する。既にリンクされている場合にはステップ2303からの処理を再度行い、リンクされていると判断しなかった場合には、ステップ2307に処理を移す。
ステップ2307では、リンク処理を行う。中央処理装置(MPU)は、録音された音声ファイルトラック番号に対して、コード情報および角度を関連付けて登録する。
次に、中央処理装置(MPU)は、タイマの値を読み取り、リンク開始802のシンボルがクリックされてから5秒経過したか否かを判断する。5秒未満である場合にはステップ2303からの処理を再度行い、5秒経過した場合には、本処理を終了する。
なお、本処理においては、録音とリンクを連続して行ったが、既にメモリに登録されている音声情報とのリンクを生成することも可能である。
<リンク済音声再生処理>
次に、図22、23の処理によりリンクした音声を再生する手順について、図24を用いて説明する。
まず、スキャナの中央処理装置(MPU)は、ユーザにより、回転パラメータON804のシンボルがクリックされたか否かを判断する。クリックされたと判断した場合には回転パラメータをONとし(2402)、クリックされたと判断しなかった場合には、本処理を終了する。
次に、フィギアが載置されたか否かを判断する(2403)。フィギアが載置されていると判断した場合には、センサが読み取ったドットパターンを中央処理装置(MPU)に送信する。そして、読み取った画像情報からコード情報を抽出し(2404)、キードットの位置から当該ドットパターンの角度を計算する(2405)。
次に、音声再生処理を行う(2406)。中央処理装置(MPU)は、メモリ内のリンクテーブルを検索し、コード情報と角度の両方に対応する音声ファイルトラックを索出して、メモリ内の該当する音声ファイルトラックを読み出す。この音声ファイルトラック702の音声情報は、圧縮回路で逆圧縮(展開)され、A/Dコンバータでアナログ音声情報に変換されて、アンプ(AMP)を介してスピーカから出力される。
<角度検出方法>
前述のように、図25は、ドットパターン1の角度を説明したものであり、前述のキードット2の位置を検出することによって、平面方向でのドットパターン1の傾きの角度(向き)を検出することができるようになっている。図26の音声決定テーブルは、キャラクタコード、角度、角度No.、ボイスアドレスから構成されている。センサによりドットパターン1が読み取られると、このドットパターン1に記録されたキャラクタコードがまず決定される。次に、キードット2を基準としてドットパターン1の角度が計算されると、この角度より角度No.が決定される。そして、キャラクタコードおよび角度No.により、対応するボイスアドレスが決定される。ボイスアドレスと音声とは対応付けられており、たとえば、ボイスアドレスがaの場合は「こんにちは」、bの場合は「さようなら」との音声が出力される。
なお、図26では、90度毎、すなわち4方向で角度No.を決定している。この場合、角度情報は2bitで表現される。しかし、本発明はこれに限らず、任意の方向数で角度No.を決定してよい。たとえば、8方向の場合は45度毎に角度No.を設け、角度情報は3bitで表現される。16方向の場合は22.5度毎に角度No.を設け、角度情報は4bitで表現される。
図27は、センサの傾きと角度との関係を説明した図である。
(a)に示す如く、ドットパターンの向きと、センサの向きとが成す角度をαとする。また、(b)に示す如く、センサの傾きとセンサの向きとが成す角度をβとする。この場合に、ドットの向きとセンサの傾きとが成す角度γが、フィギアを傾けた角度となる。すなわち、角度γは、γ=α+βとなる。
<角度パラメータがOFFの場合>
次に、角度パラメータがOFFの場合に、ドットパターンにリンクされた音声を再生する手順について説明する。
ユーザにより、角度パラメータOFF805のシンボルがクリックされると、角度パラメータがOFFとなる。次に、台座2001のセンサが、ステージ上に載置されたフィギア2003底面のドットパターンを読み取ると、中央処理装置(MPU)は当該ドットパターンを解析ソフトによって解析し、ドットコード(コード情報)に変換する。そして、当該ドットコードに基づいてメモリのリンクテーブルを検索し、このドットコードに対応する音声ファイルトラックを読み出す。ここで、当該ドットコードに、異なる角度で複数の音声がリンクされている場合は、最後に録音された音声が読み出される。
<パーソナルコンピュータに接続して操作>
上述した実施形態では、指示ボード800を用いて操作を行ったが、本発明では、これに限られない。
たとえば、図28に示す如く、台座2001を、コネクタを用いてパーソナルコンピュータ2801に接続する形態としてもよい。この場合ユーザは、キーボードおよびマウス(図示せず)を用いて録音、再生、リンク等の操作を行う。
<台座にボタンを設けて操作>
また、図29に示すように、この台座2001自体をパーソナルコンピュータ2801のUSB端子に接続できるようにし、パーソナルコンピュータ側で音声の制御やアラーム時間の設定等を行うようにしてもよい。この場合、台座2001に設けた液晶表示部2005は不要としてもよい。
また、図30に示すように、台座2001上にカードを載置し、カードに印刷されたドットパターンを読み取ることにより上記操作を行うようにしてもよい。
<音声認識機能付ボイスレコーダ>
図31は、スキャナを一体化したボイスレコーダの、他の形態を示したものである。
このボイスレコーダ3101は、図19で示した一体型ボイスレコーダの機能に加え、音声認識のための入力機能と液晶表示画面3110を有している。
このボイスレコーダ3101は、録音ボタン3105が音声入力ボタンを兼用しており、音声入力機器として用いる場合には、当該録音ボタン3105を押しながらマイク3108に向かって発声することによって、この音声情報がボイスレコーダ3101内に入力される。
そして、この発声情報は、ボイスレコーダ内の図示しないA/Dコンバータによってデジタル変換された後に、音声認識回路によって解析されて、発声情報に対応するテキスト情報に変換される。
たとえば、あらかじめ出張等のスケジュール情報が登録されている場合には、ユーザは録音ボタン3105を押しながら「スケジュール」または「予定」と発声すると、これが音声認識回路によって解析されて、それぞれ「スケジュール」または「予定」というテキストデータに変換され、これらのテキストデータを検索キーとしてメモリに構築されたデータベースが検索されて、「○○出張」というテキスト情報が抽出され、これが音声情報に変換されてスピーカ3102より「○○出張」と発声される。
なお、データベースには「○○出張」という音声情報自体がメモリに記憶されており、これにテキストで日付情報(たとえば「4月28日」)が関連付けられていてもよい。
この場合、ボイスレコーダ3101に対して音声で「4月28日」と発声するだけで、この音声がテキストデータに変換されてデータベースを検索し、このテキストデータに対応する「○○出張」の音声情報をスピーカ3102から出力させてもよい。
なお、上記の例では、入力された音声情報に基づいてボイスレコーダ内のデータベースを検索して索出したデータをスピーカ3102から発声させた場合で説明したが、当該ボイスレコーダを音声認識のための入力機器としてのみ使用してもよいし、録音機能を省略してスキャナ機能を備えた音声認識用端末として使ってもよい。また、パーソナルコンピュータには複数のボイスレコーダを接続して互いにボイスメールのやりとりをしてもよい。
たとえば、ユーザが録音ボタン3105を押しながら発声した音声情報が入力されると、当該ボイスレコーダの中央処理装置(MPU)は、この音声情報を図示しない通信インターフェースを通じてアンテナ3109からパーソナルコンピュータに送信し、パーソナルコンピュータ内の音声認識プログラムによって当該音声情報を解析し、これをテキストデータに変換してパーソナルコンピュータ内に構築されたデータベースまたはネットワーク上のデータベースを検索し、検索結果をパーソナルコンピュータのディスプレイ装置に出力してもよい。
また、検索結果データを通信機能を用いてボイスレコーダに返信させてボイスレコーダのスピーカ3102から音声情報として発声させてもよい。
図32は、この音声認識精度を高めるため、および入力した音声情報の分類のためのペーパーコントローラ3200の構成を示したものである。
同図に示すように、このペーパーコントローラ3200には、「氏名入力」(3208)、「郵便番号入力」(3209)、「住所入力」(3210)、「電話番号入力」(3211)、「メールアドレス入力」(3214)等の入力音声カテゴリがそれぞれ領域として印刷されており、これらの領域にはそれぞれ異なるコードがドットパターンとして印刷されている。また同じく入力機能として、「上へ」、「決定」、「下へ」の領域が印刷されており、ディスプレイ画面上に表示された候補またはメニューを選択できるようになっている。
すなわち、本ボイスレコーダ3101の録音ボタン3105を押して音声入力を行う際に、前もってカテゴリコード(ドットパターン)をセンサユニット3103でスキャンすることによって、音声認識精度を高めるとともに、入力した音声情報を分類するものである。
たとえば、「上野」と発声した場合、それが地名の上野なのか人名の上野なのかを把握することは難しいが、「住所入力」がスキャンされた後に「上野」という発声が音声情報として入力された場合、住所入力のカテゴリコードとともに「上野」の音声情報がパーソナルコンピュータに送信される。
パーソナルコンピュータの中央処理装置(MPU)は、住所入力のカテゴリコードが付加されていることによって、当該「上野」の音声情報が「住所」のカテゴリであることが容易に判別できるため、ただちに上野近辺の地図情報をパーソナルコンピュータのディスプレイ画面に表示することができる。
なお、ボイスレコーダの通信先はこのようなパーソナルコンピュータに限定されず、カーナビゲーション装置、情報家電、制御機器、ロボット等いかなるものであってもよい。つまり、本ボイスレコーダを音声認識機能の入力装置として用いることによって、あらゆる情報機器、情報家電の制御が可能となる。
次に、本実施形態の一例として、図32に示す指示ボート(ペーパーコントローラ)3200を用いて音声認識を行う場合について説明する。
指示ボード3200は、通信販売のカタログから商品を注文する場合等に使用される。通信販売のカタログ(図示せず)には、商品の写真上にドットパターンが重畳印刷されており、ユーザがボイスレコーダ3101のセンサユニット3103で商品の写真をクリック(センサユニットで当該写真部分のドットパターンを撮像)すると、パーソナルコンピュータ(図示せず)のディスプレイ画面上に、当該ドットパターンの意味するコードに対応した商品説明の画面が表示される。また、カタログの商品番号を印刷した部分にもドットパターンが重畳印刷されており、商品番号の印刷面をクリックすると、パーソナルコンピュータのディスプレイ画面上に注文商品情報が表示され、クリックした商品が注文リストに登録される。次に、確認3201をクリックすると、画面上に注文リストが表示される。注文リストに登録された商品を選択する場合には上へ3202および下へ3203の各シンボルをクリックし、注文数を変更する場合には、注文数を増加3204または注文数を減らす3205の各シンボルをクリックする。登録した商品の注文リストを取り消す場合には全取消3206をクリックし、注文する商品および個数が決定した場合には、ご注文3207をクリックする。また、最後に閲覧した商品カタログ画面に戻るには戻る3212をクリックし、注文プログラムを終了する場合には、終了3213をクリックする。これらの操作を行う場合には、ユーザは、スキャンボタン3104を押下しながら、所望の商品写真およびシンボルをクリックする。
ユーザは、注文する商品が決定した後で、氏名、住所等の入力を行う。ユーザが、スキャンボタン3104を押下しながら氏名入力3208をクリックすると、スキャナ3101に内蔵された中央処理装置(MPU)で当該ドットパターンを解析し、ドットコード(コード情報)に変換する。このドットコードがコンピュータの中央処理装置(MPU)に送信されると、当該ドットコードに基づいて、音声認識モードをONにする。
次にユーザは、録音ボタン3105を押下しながら、マイク3108に向かって氏名を発声する。すると、中央処理装置(MPU)は、マイクに向かって発声された音声をA/Dコンバータ(図示せず)によりデジタル変換し、圧縮回路によって圧縮および/または変換する。このような圧縮データを、アンテナ3109を通してコンピュータに送信する。コンピュータの中央処理装置(MPU)は、当該音声データを音声解析ソフトによって解析し、文字情報に変換し、当該文字情報を画面上に表示する。同様の操作により、郵便番号、住所、電話番号も、音声入力機能により入力される。
このような音声入力機能を有することにより、ユーザは、キーボードやスキャナを用いた煩雑な操作を行うことなく、簡易な操作で住所等の情報を入力することが可能となる。
なお、本実施形態においては、前述した如く、スキャンボタン3104が押下された状態でドットパターンがクリックされたときのみ、ドットパターンが読み取られる。センサユニット3103内には、LED、CMOSセンサ等が内蔵されているが、これらは、電力を消費する。さらに、当該ボイスレコーダ3101はワイヤレスであるため、通信機能を常に維持しておくためのアイドリング電力が必要なため、電池(充電器も含む)を使用しており、この電力の消費を抑制する必要がある。
そこで、電力の消費を最小限とするために、スキャンボタン3104が押下された場合にのみ、センサユニット3103に通電が行われ、機能するようにした。
また、音声認識機能においても、録音ボタン3105が押下されている間のみ、音声の入力が行われる。常時音声入力が行われる状態であると、マイク3108は、ユーザが入力しようとしていない音声も認識してしまい、ユーザの意図しない情報が入力されてしまう可能性がある。ユーザが所望する情報のみを入力することが可能となるように、音声入力ボタン3105が押下されている間のみ、音声の入力が行われるようにした。
なお、図31に示したボイスレコーダ3101では、アンテナ3109を設けてワイヤレス通信方式でパーソナルコンピュータと通信を行うようにし、これで音声情報とドットパターンを読み取ったコード情報とをパーソナルコンピュータ側に送信するようにしたが、音声情報のみ、またはコード情報のみをパーソナルコンピュータに送信するようにしてもよい。
<ボイスメールシステム>
図33から図39は、本発明におけるボイスレコーダを用いたボイスメールシステムについて説明するものである。
図33は、本実施形態におけるネットワーク構成図である。本発明のボイスメールシステムにおいては、パーソナルコンピュータがインターネット等のネットワークを介して他のパーソナルコンピュータと接続されており、データの送受信が可能となっている。そしてこれらのパーソナルコンピュータは、ブルートゥース等の近距離無線通信システムによって、ボイスレコーダとの通信が可能となっている。なお、ボイスレコーダとパーソナルコンピュータとの通信はこのようなブルートゥースに限らず、赤外線通信、無線LAN、USBケーブルによる有線接続等いかなるものであってもよい。
図34は、ユーザがボイスメールの登録、送受信等を行うときに用いるペーパーコントローラ3400について説明した図である。
ペーパーコントローラ3400の左部には、音声の録音、再生、リンクを行うためのシンボルが印刷され、右側には、ボイスメールの送受信等を行うためのシンボルが印刷されている。
図35は、ボイスメールデータベースについて説明した図である。
同図は、ボイスレコーダ同士がブルートゥースインターフェース(I/F)を介して、ボイスメール制御部と通信を行いながらボイスレコーダで入力されたボイスメール、すなわち音声データを送受信するシステムである。
ボイスメール制御部は、ネットワーク接続可能な汎用のサーバまたはパーソナルコンピュータで構成されており、このサーバまたはパーソナルコンピュータに接続されたハードディスク装置にボイスデータ格納部が設けられている。
ボイスデータ格納部には、受信用インデックステーブルと、送信用インデックステーブルが設けられている。ここで受信用インデックステーブルには、受信ID(発信元のアドレスまたは受信側ボイスレコーダのID番号)とデータ格納アドレスとが関係付けられて登録されている。また、送信用インデックステーブルには送信ID(送信先のアドレスまたは送信先ボイスレコーダのID番号)とデータ格納アドレスとが関係付けられて登録されている。
すなわち、ボイスメール制御部は、そのボイスメール制御部が管理すべきボイスレコーダのIDを受信用インデックステーブルに登録しておき、当該ボイスレコーダに定義付けられた受信IDを宛先とするボイスメールを自身のボイスデータ格納部の受信用インデックステーブルに登録するようになっている。
一方、ボイスメール制御部が管理するボイスレコーダよりボイスメールが入力されたときには、送信用インデックステーブルに送信ID(送信先のアドレスや送信先のボイスレコーダのID)を一旦登録しておく。その後、ボイスメール制御部は、定期的に送信用インデックステーブルにアクセスして、ここに未送信のボイスメールがある場合には、ネットワークインターフェース(NW I/F)およびネットワークを介してボイスメールデータを送信IDを管理する図示しないボイスメール制御部に対して送信する。
図36は、ボイスレコーダとパーソナルコンピュータ(ボイスメール制御部)間でのデータの送受信について説明するフローチャートである。
まず、通信可能エリアにボイスレコーダがあるかどうかを判断する(3601)。ボイスレコーダが、パーソナルコンピュータの近傍に配置されると、ブルートゥース等の近距離無線通信システムにより、ボイスレコーダIDがパーソナルコンピュータに送信される。このボイスレコーダIDが送信された場合には、通信可能エリアにボイスレコーダがあると判断する。
次に、ボイスレコーダIDが読み込まれたか否かを判断する(3602)。パーソナルコンピュータは、ブルートゥースI/Fを介してボイスレコーダIDを読み込む。
次に、受信インデックステーブルに一致するIDがあるか否かを判断する(3603)。制御部は、ボイスデータデータベース内の受信インデックステーブルに、読み込んだボイスレコーダIDに一致するIDが存在するかどうかを判断する。受信IDが存在すると判断した場合には、受信IDに対応するデータ格納アドレスにアクセスし、受信データを読み出す(3604)。そして、読み出した受信データを、ブルートゥースI/Fを介してボイスレコーダに転送し(3605)、本処理を終了する。
一方、受信インデックステーブルに一致するIDがなかった場合には、ボイスレコーダ内に送信データがあるか否かを判断する(3606)。送信データがある場合には、送信データ、すなわち、送信先のアドレスとボイスデータを読み込み、データベース内の送信データインデックステーブルに登録する(3607)。登録が完了したら、本処理を終了する。
図37は、ユーザ同士でボイスメールの送受信を行う具体例を示したものである。同図は図38にも示したように、ネットワーク上にボイスメール管理サーバが接続されて、ボイスメールを一元的に管理するシステムとなっている。
ユーザAが、屋外でボイスレコーダのマイクに向かって入力したい音声を発すると、ボイスレコーダのマイクを介してそのメモリ内に、ボイスデータがデジタルデータとして蓄積される。
次にユーザAは、ボイスメールの送信先を決定する。すなわち、ペーパーコントローラを用いて、送信先のアドレスを入力する。入力したアドレスは、ボイスレコーダのメモリ内に登録される。
ユーザAは、自宅や職場等の屋内に入り、ボイスメールの送信処理を行うときには、まずユーザは、ボイスメールをパーソナルコンピュータの近傍に配置する。すると、ブルートゥース通信機能により、パーソナルコンピュータは、ボイスレコーダ毎に定義された装置ID、すなわちボイスレコーダIDの読み込みを行う。次に、メモリに蓄積されたボイスデータ及びメールアドレスが、パーソナルコンピュータに送信される。
パーソナルコンピュータ(ボイスメール制御部)は、ボイスデータ及びメールアドレスを受信すると、モニタ(ディスプレイ装置)に「ボイスメール受信中」の表示を行う。そして、ボイスメール管理サーバに対して前記ボイスデータ及びメールアドレスを送信する。
ボイスメール管理サーバは、受信したボイスデータ及びアドレスを、サーバ内のデータベースに登録する。そして、ネットワークI/Fを介して、ボイスデータを該当するメールアドレス宛てに送信する。ボイスメールを受信したパーソナルコンピュータは、モニタ(ディスプレイ装置)に「ボイスメール取得・送信」の表示を行う。そして、ブルートゥースI/Fを通じて、ボイスデータをユーザBのボイスレコーダに送信する。ボイスレコーダは、ボイスデータを受信すると、「ボイスメールが届いています」と、音声および/またはボイスレコーダのモニタで、ユーザBに通知する。これによりユーザBは、ユーザAが送信したメッセージを受信する。
図38は、パーソナルコンピュータ(PC)にインストールされた制御プログラム(ボイスメールマネージャ)によって、ボイスメール管理サーバと連動しつつボイスレコーダを使用する場合の例を示したものである。
ユーザはCD−ROM、もしくはインターネットの配信サーバにアクセスしてダウンロードしたインストールプログラムをパーソナルコンピュータ(PC)上で実行し、OS(オペレーティングシステム)上にボイスメールマネージャを常駐プログラムとして登録する。
次に、ボイスレコーダが、パーソナルコンピュータ(PC)の近傍に配置されると、ブルートゥース等の近距離無線通信システムにより、パーソナルコンピュータ(PC)にボイスレコーダIDが送信される。パーソナルコンピュータ(PC)内の中央処理装置(CPU)は、ボイスメール管理サーバにおいて、ボイスレコーダIDの認証を行う。すなわち、送信されたボイスレコーダIDが、当該パーソナルコンピュータ(PC)を用いてデータの送受信をすることが可能なボイスレコーダのIDであるかどうかの認証を行う。
ここで、送受信可能なボイスレコーダである場合には、パーソナルコンピュータ(PC)内のボイスメール管理テーブル(ドットコード管理テーブル)を参照し、当該ボイスレコーダID宛てに送信されたボイスメールが格納されているかどうかを確認する。
ボイスメールが格納されている場合には、中央処理装置(CPU)は、そのボイスメールを読み出し、ブルートゥース等の近距離無線通信システムにより、ボイスレコーダに送信する。
次に、パーソナルコンピュータから受信した(ダウンロードした)ボイスデータを当該ボイスレコーダで再生することによって、受信者はボイスメールを聞くことができるようになっている。
ボイスメール管理テーブル(ドットコード管理テーブル)にボイスメールが格納されていない場合には、インターネット上のボイスメール管理サーバを参照する。ここで、ボイスメール管理サーバのボイスメール管理テーブルに、当該ボイスレコーダID宛てに送信されたボイスメールが格納されていれば、そのボイスメールを読み出し、パーソナルコンピュータ(PC)内にダウンロードする。
ボイスレコーダを管理しているパーソナルコンピュータ毎に必要なボイスメールがパーソナルコンピュータ(PC)内にダウンロードされたときには、そのボイスメールとともに、そのボイスメールを起動するためのボイスメール管理テーブルの追加データ(ボイスデータ格納アドレス、ドットコード)もダウンロードされ、以後はパーソナルコンピュータ内のボイスメール管理テーブルのみで管理されるようになっている。
したがって、その後は前記と同一のボイスレコーダIDが送信された場合、再度インターネット上のボイスメール管理サーバにアクセスすることはなく、新たに追加されたデータを含むボイスメール管理テーブルに基づいて、パーソナルコンピュータのハードディスク装置(HD)内にダウンロードされたボイスメールを読み出すことになる。
なお、ボイスレコーダを使用した送信処理を行う場合には、パーソナルコンピュータは、自身が管理するボイスレコーダが近傍に配置されたときは、当該ボイスレコーダとのブルートゥース通信を行い、ボイスレコーダのID(デバイスID)を読み込むとともに、当該ボイスレコーダのメモリから蓄積されたボイスメールを読み込む。このとき、ボイスレコーダでの録音時にドットパターンをスキャンしたときのドットコードをデバイスIDに関係付けて登録しておく。
そして、バッチ処理により、定期的に当該パーソナルコンピュータはボイスメール管理サーバへのアクセスを行い、当該ボイスメール管理テーブルのデータをボイスメール管理サーバに送信する。ボイスメール管理サーバでは、当該データを受信すると、このデータに基づいて自身のボイスメール管理テーブルを更新する。
<音声認識データ通信>
図40は、本発明の実施形態について説明したものである。本発明では、音声認識データ通信を行うことにより、種々の制御を行うことができる。図40は、その一例として、工場で制御を行う場合の具体例を示したものであり、図41は、制御の際に用いるペーパーコントローラを示したものである。
このように、本願発明では、ドットパターンで入力を制御したボイスレコーダを用いて、工作ロボットや印刷機の制御が可能になる。
なお、本発明は、本実施形態で説明した態様の他に、たとえば取材用のボイスレコーダの制御技術としても応用可能である。たとえば、インタビューアがインタビューするときのボイスレコーダとして使い、音声認識の制御を図34で示したペーパーコントローラにより行ってもよい。
また、図37および図38で説明したボイスレコーダはネットワークを介してボイスデータを送受信する機能を有しているため、当該ボイスレコーダをたとえばIP電話のマイクとスピーカを備えた端末として使うこともできる。この場合、ボイスレコーダが常にパーソナルコンピュータの近傍に配置されている場合には、通常のIP電話端末として使用可能であるため、音声データを蓄積しておく内蔵メモリは不要となるが、このようなメモリを装備しておくことにより、パーソナルコンピュータとの通信ができない隔離された場所にいるときでもボイスメールを当該ボイスレコーダに登録しておくことができる。この場合、パーソナルコンピュータの近傍にボイスレコーダが配置されたときに、ブルートゥース通信によりパーソナルコンピュータにインストールされたボイスメールマネージャ等により自動的にボイスメールが送信されたり、受信されたりすることも可能になる。
図39はこのような用途に用いるペーパーコントローラを示しており、パーソナルコンピュータで受信された自分宛のボイスメールを再生したり、ダウンロードすることができる。
また、パーソナルコンピュータに対してボイスメールを作成・登録したり、アップロードすることができる。
また、パーソナルコンピュータ内のボイスメールとボイスレコーダのメモリの内容をシンクロナイズするモード(PCとシンクロ)のドットパターンが登録された領域も用意されている。