以下に、本発明による映像表示装置及び音声出力装置の実施の形態を、図面を参照して説明する。
(第1の実施形態)
図1は、本発明の第1の実施形態に係わる映像表示装置が適用された移動通信端末装置と、本発明の第1の実施形態に係わる音声出力装置が適用されたヘッドフォン装置が接続された構成を示すブロック図である。移動通信端末装置MSと、ヘッドフォン装置HPとは、近距離無線通信回線BTによって接続される。ここで、近距離無線通信回線BTは、ブルートゥース(R)方式による通信回線である。
図2は、移動通信端末装置MSの構成を示すブロック図である。この移動通信端末装置MSは、装置全体の制御を行う制御部11と、基地局(図示せず)との間で電波の送受を行うアンテナ12aと、通信部12bと、送受信部13と、受話用のスピーカ14aと、送話用のマイクロフォン14bと、通話部14cと、表示部15と、入力装置16とを備える。
この移動通信端末装置MSは、更に、テレビ処理部21と、映像バッファ22と、時刻を示すSTC(System Time Clock)部23と、音声バッファ24と、映像再生部31と、音声データ切替部41と、音声再生部42と、音声再生用のスピーカ42aと、近距離無線通信回線BTによる通信を行う近距離無線処理部43とを備える。映像バッファ22には、テレビ処理部21によって復号された映像データが記憶される。音声バッファ24には、テレビ処理部21によって復号された音声データが記憶される。なお、図2で、映像データ及び音声データの流れを太実線の矢印で示す。
図3は、テレビ処理部21の詳細な構成を示すブロック図である。このテレビ処理部21は、テレビ放送電波を受信するアンテナ21aと、チューナ部21bと、DEMUX部21cと、映像バッファ22と接続される映像復号化部21dと、STC部23と接続されるSTC校正部21eと、音声バッファ24と接続される音声復号化部21fとを備える。
図4は、近距離無線処理部43の詳細な構成を示すブロック図である。この近距離無線処理部43は、STC部23と接続され、更に音声データ切替部41を経由して音声バッファ24と接続される音声符号化部43aと、符号化音声バッファ43bと、近距離無線送受信部43cと、近距離無線通信部43dと、近距離無線通信回線BTの電波の送受を行うアンテナ43eとを備える。符号化音声バッファ43bには、音声符号化部43aによって符号化された音声データが記憶される。
図5は、ヘッドフォン装置HPの構成を示すブロック図である。このヘッドフォン装置HPは、装置全体の制御を行う制御部51と、近距離無線通信回線BTによる通信を行う近距離無線通信部52と、近距離無線通信回線BTの電波の送受を行うアンテナ52aと、近距離無線送受信部53と、符号化音声バッファ54と、音声復号化部55と、音声再生部56と、音声再生用のスピーカ56aと、表示部57と、入力装置58とを備える。符号化音声バッファ54には、近距離無線送受信部53によって受信された符号化された音声データが記憶される。
以上説明した移動通信端末装置MS及びヘッドフォン装置HPは、コンピュータと、コンピュータによって利用されるプログラムから構成されても良い。特に、後述するように、制御部11の動作及び制御部51の動作(特に、制御部11の動作。)は、必ずしも定型化されたものではないので、コンピュータと、コンピュータによって利用されるプログラムから構成されることが好ましい。
上記のように構成された、本発明の第1の実施形態に係る装置の各部の動作を図2ないし図5を参照して説明する。まず、移動通信端末装置MSの各部の動作を図2を参照して説明する。通信部12bは、アンテナ12aによって受信された高周波信号を送受信部13へ出力し、また、送受信部13から出力された高周波信号をアンテナ12aより送信する。
送受信部13は、通信部12bからの高周波信号を増幅、周波数変換及び復調し、それによってディジタル信号を得て、得られた通話音声信号を通話部14cに、制御信号を制御部11に送る。
更には、送受信部13は、ディジタル信号、即ち、通話部14cから出力された通話音声信号、制御部11から出力された制御信号を変調、周波数変換及び増幅し、高周波信号を得て、それを通信部12bに送って送信させる。
通話部14cは、送受信部13から出力されたディジタル音声信号をアナログ音声信号に変換し、それを増幅してスピーカ14aに送る。また、マイクロフォン14bから出力されたアナログ音声信号を増幅し、それをディジタル音声信号に変換して送受信部13に送信する。
表示部15は、例えば、LCDであり、制御部11に制御されることで、文字・数字や映像データの表示動作を行い、表示されているデータは、入力装置16からの入力操作や着信信号に応答して制御部11からの指示を受けることで切換わる。
入力装置16は、通信相手の電話番号などを指定するための数字キーと複数の機能キーを含むキーからなる。そして、入力装置16のキーが操作されると、そのキーの識別子が制御部11に通知され、制御部11によって、表示部15に文字として表示され、または、制御が行われる。
次に、テレビ処理部21の各部の動作を、図3を参照して説明する。テレビ処理部21は、制御部11の指示によって動作を開始する。そして、チューナ部21bは、アンテナ21aによって受信された高周波信号の中から、入力装置16の所定のキー操作によって指定されたチャンネルの高周波信号を選択する。
そして、チューナ部21bは、選択された高周波信号を中間周波数の信号に変換し、変換された信号を復調することによって、符号化されたテレビ放送コンテンツを得る。ここで、テレビ放送コンテンツは、MPEG方式によって符号化された信号であるが、これに限るものではない。
DEMUX部21cは、チューナ部21bによって得られた放送コンテンツを、符号化された映像信号と、符号化された音声信号と、PCR(Program Clock Reference、番組時刻基準参照値。)とに分離する。そして、符号化された映像信号を映像復号化部21dに、符号化された音声信号を音声復号化部21fに、それぞれ送る。更に、PCRをSTC校正部21eに送る。ここで、音声信号は、AAC方式によって符号化された信号であるが、これに限るものではない。
映像復号化部21dは、DEMUX部21cによって分離された符号化された映像信号を、映像フレーム毎に復号する。そして、復号された映像フレーム信号にそのフレーム信号が表示される時刻PTS(Presentation Time Stamp)を付加して映像バッファ22に記憶させる。なお、PTSは、符号化された映像フレーム信号に付加されていた場合、その付加されていたものを用いる。
一方、付加されていない場合、映像復号化部21dは、その符号化された映像フレーム信号と、その符号化された映像フレーム信号以前に受信され、かつ、その信号以前に表示される符号化された映像フレーム信号であって、PTSが付加されていた映像フレーム信号との間隔を符号化された映像フレーム信号の個数で数える。そして、付加されていたPTSに、映像フレーム信号が作成される時間間隔と上記の個数を乗じた時間を加えることによってPTSを得て付加する。
図6は、映像バッファ22に記憶される復号された映像信号の形式の一例を示す。この復号された映像信号22aは、PTS22bと、PTS22bが示す時刻に表示される映像フレーム信号22cとが関連付けられた情報であり、それらの情報がそれぞれの情報に含まれるPTS22b順に順序付けられて連なっている。
音声復号化部21fは、DEMUX部21cによって分離された符号化された音声信号を、音声フレーム毎に復号する。そして、復号された音声フレーム信号にそのフレーム信号が出力される時刻PTSを付加して音声バッファ24に記憶させる。なお、PTSは、符号化された音声フレーム信号に付加されていた場合、その付加されていたものを用いる。
一方、付加されていない場合、音声復号化部21fは、その符号化された音声フレーム信号と、その符号化された音声フレーム信号以前に受信され、かつ、その信号以前に出力される符号化された音声フレーム信号であって、PTSが付加されていた音声フレーム信号との間隔を符号化された音声フレーム信号の個数で数える。そして、付加されていたPTSに、音声フレーム信号が作成される時間間隔と上記の個数を乗じた時間を加えることによってPTSを得て付加する。
図7は、音声バッファ24に記憶される復号された音声信号の形式の一例を示す。この復号された音声信号24aは、PTS24bと、PTS24bが示す時刻に出力される音声フレーム信号24cとが関連付けられた情報であり、それらの情報がそれぞれの情報に含まれるPTS24b順に順序付けられて連なっている。
STC校正部21eは、DEMUX部21cによって分離されたPCRを受信し、そのPCRが示す時刻をSTC部23が示すように、STC部23を校正する。
図2を参照した移動通信端末装置MSの各部の動作の説明に戻る。映像再生部31は、制御部11の指示によって動作を開始する。そして、STC部23が示す時刻と、映像バッファ22に記憶されたPTS22bとが等しい復号された映像信号22aを得る。次に、得られた復号された映像信号22aの映像フレーム信号22cを表示部15に表示させる。映像再生部31は、この復号された映像信号22aを得て表示する動作を繰り返す。
なお、STC部23が示す時刻と、映像バッファ22に記憶されたPTS22bとが等しい際、映像フレーム信号22cが表示部15に表示されなければならない。そのため、映像再生部31は、STC部23が示す時刻が映像バッファ22に記憶されたPTS22bとが等しくなるより所定時間前に、上記の復号された映像信号22aを得る動作を行う。ここで、所定時間とは、映像再生部31の表示処理に必要な時間である。なお、以上の説明では、説明を簡明にするため、この映像再生部31の表示処理に必要な時間は0であるとした。以後も、同様に0であるとして説明する。
音声データ切替部41は、制御部11の指示に従って、音声再生部42と、近距離無線処理部43のいずれか一方に、音声バッファ24に記憶された復号された音声信号24aを読み出させる。
音声再生部42は、制御部11の指示によって動作を開始する。そして、STC部23が示す時刻と、音声バッファ24に記憶されたPTS22bとが等しい復号された音声信号24aを得る。次に、得られた復号された音声信号24aの音声フレーム信号24cをアナログ信号に変換して、スピーカ42aから出力させる。音声再生部42は、この復号された音声信号24aを得て、出力させる動作を繰り返す。
なお、STC部23が示す時刻と、音声バッファ24に記憶されたPTS22bとが等しい際、音声フレーム信号24cによる音声がスピーカ42aから出力されなければならない。そのため、音声再生部42は、STC部23が示す時刻と、音声バッファ24に記憶されたPTS22bとが等しくなるより所定時間前に、上記の復号された音声信号24aを得る動作を行う。
ここで、所定時間とは、音声再生部42の音声出力処理に必要な時間である。なお、以上の説明では、説明を簡明にするため、この音声再生部42の音声出力処理に必要な時間は0であるとした。以後も、同様に0であるとして説明する。これは、映像再生部31の動作説明で述べたことと同じである。
次に、近距離無線処理部43の各部の動作を、図4を参照して説明する。近距離無線処理部43は、制御部11の指示によって動作を開始する。そして、音声符号化部43aは、STC部23が示す時刻と、PTS22bとが等しい復号された音声信号24aを音声バッファ24から得る。
音声符号化部43aは、得られた復号された音声信号24aの音声フレーム信号24cを符号化し、符号化された音声信号を符号化音声バッファ43bに記憶させる。符号化は、例えば、SBC(Sub Band Codec)方式により、符号化は、所定のフレーム(以後、このフレームをSBCフレームと称する。)単位で行うが、これに限るものではない。音声符号化部43aは、この復号された音声信号24aを得て、符号化し、記憶させる動作を繰り返す。
近距離無線送受信部43cは、符号化音声バッファ43bに記憶された符号化された音声信号を、先に符号化音声バッファ43bに記憶された順にSBCフレーム単位で読み出し、読み出された符号化された音声信号と、制御部11から出力された制御信号を変調、周波数変換及び増幅し、高周波信号を得て、それを近距離無線通信部43dに送って、送信させる。更に、近距離無線送受信部43cは、近距離無線通信部43dによって受信された制御信号を制御部11に送る。
近距離無線通信部43dは、近距離無線送受信部43cから送られた高周波信号をアンテナ43eより送信する。また、アンテナ43eによって受信された高周波信号を近距離無線送受信部43cに送る。
次に、ヘッドフォン装置HPの各部の動作を、図5を参照して説明する。近距離無線通信部52は、アンテナ52aによって受信された高周波信号を近距離無線送受信部53に送る。また、近距離無線送受信部53から出力された高周波信号をアンテナ52aより送信する。
近距離無線送受信部53は、近距離無線通信部52からの高周波信号を増幅、周波数変換及び復調し、それによってディジタル信号を得て、得られたSBCフレーム単位の音声信号を符号化音声バッファ54に記憶させ、また、制御信号を制御部51に送る。
更に、近距離無線送受信部53は、ディジタル信号、即ち、制御部51から出力された制御信号を変調、周波数変換及び増幅し、高周波信号を得て、それを近距離無線通信部52に送って送信させる。
音声復号化部55は、符号化音声バッファ54に記憶された音声信号を、符号化音声バッファ54に記憶された順にSBCフレーム単位で読み出し、読み出された音声信号を復号する。そして、復号された音声信号を音声再生部56に送る。音声再生部56は、音声復号化部55によって復号された音声信号をアナログ信号に変換し、変換された音声信号をスピーカ56aから出力させる。
表示部57は、例えば、LCDであり、制御部51に制御されることで、文字・数字や映像データの表示動作を行い、表示されているデータは、入力装置58からの入力操作に応答して制御部51からの指示を受けることで切換わる。なお、表示部57は、例えば、LED等のランプであっても良い。
入力装置58は、複数の機能キーを含むキーからなる。そして、入力装置58のキーが操作されると、そのキーの識別子が制御部51に通知され、制御部51によって、表示部57に表示され、または、制御が行われる。
以下、本発明の第1の実施形態に係わる移動通信端末装置MSにおける映像の出力と、ヘッドフォン装置HPにおける音声の出力との同期を取る処理を説明する。
まず、ヘッドフォン装置HPにおける音声出力に遅延が発生する理由を説明する。上述した動作によると、テレビ処理部21によって受信された映像及び音声からなる放送コンテンツの再生にあたり、音声を移動通信端末装置MSのスピーカ42aから出力させる場合、音声の出力に遅延は発生しない。
即ち、STC部23が示す時刻と、映像バッファ22に記憶されたPTS22bとが等しい際、映像フレーム信号22cが表示部15に表示される。しかし、音声をヘッドフォン装置HPのスピーカ56aから出力させる場合、音声の出力は、PTS24bが示す時刻に出力されず、以下の理由により、遅延が生じる。
第1に、音声信号が移動通信端末装置MSにある際に発生する遅延であり、遅延時間は、音声符号化部43aによる符号化に要する時間、及び、その符号化された音声信号が符号化音声バッファ43bに記憶されてから読み出されるまでの時間の和である。
第2に、音声信号が近距離無線通信回線BTを介して伝送されるための遅延である。第3に、音声信号がヘッドフォン装置HPにある際に発生する遅延であり、遅延時間は、符号化された音声信号が符号化音声バッファ54に記憶されてから読み出されるまでの時間、及び、音声復号化部55による復号に要する時間の和である。
なお、これらの遅延時間の中で、最も大きい時間は、音声信号が移動通信端末装置MSにあり、符号化された音声信号が符号化音声バッファ43bに記憶されてから読み出されるまでの時間であることが多い。そして、次に大きい時間は、音声信号がヘッドフォン装置HPにあり、符号化された音声信号が符号化音声バッファ54に記憶されてから読み出されるまでの時間であることが多い。
そこで、制御部11は、以下に説明するように、上記第1〜第3の遅延によって発生する遅延時間を推定する。そして、映像再生部31による映像フレーム信号22cの表示を第1の所定時間に渡って遅延させる、及び/または、近距離無線処理部43による音声フレーム信号24cの符号化ないし送信を第2の所定時間に渡って先行して開始させる。ここで、第1の所定時間と、第2の所定時間との和を音声がスピーカ56aから出力させる際の遅延時間に等しくなるように制御することによって、その遅延を打ち消す。
映像再生部31による映像フレーム信号22cの表示を第1の所定時間に渡って遅延させるには、制御部11は、映像再生部31に指示して、STC部23が示す時刻に第1の所定時間を加算した和の時刻に等しいPTS22bと関連付けられた映像フレーム信号22cを得て、表示させる。
近距離無線処理部43による音声フレーム信号24cの符号化ないし送信を第2の所定時間に渡って先行して開始させるには、制御部11は、近距離無線処理部43の音声符号化部43aに指示して、STC部23が示す時刻から第2の所定時間を減算した差の時刻に等しいPTS24bと関連付けられた音声フレーム信号24cを得て、符号化させる。
なお、音声フレーム信号24cの符号化を先行させる処理によれば、音声を移動通信端末装置MSのスピーカ42aから出力させる場合と、音声をヘッドフォン装置HPのスピーカ56aから出力させる場合とで、映像が表示部15に表示される時刻の差が少ない。
そこで、音声を出力するスピーカを切り替えた際、表示部15を視認している装置の使用者へ与える違和感が少ない。ただし、この先行させる処理のためには、第2の所定時間に渡って出力されるデータ量の音声フレーム信号24cが音声バッファ24に記憶されている必要がある。
一方、映像フレーム信号22cの表示を遅延させる処理は、映像バッファ22に記憶されている映像フレーム信号22cの量、及び、音声バッファ24に記憶されている音声フレーム信号24cの量に無関係に行うことができ、これらの量を参照する必要はない。
次に、制御部11が、音声をヘッドフォン装置HPのスピーカ56aから出力させる場合に発生する遅延時間を推定する処理を説明する。図8は、制御部11が遅延時間を推定する動作のフローチャートを示す。
制御部11は、所定の時間間隔で遅延時間を推定する動作を開始する(ステップS11a)。ここで、遅延時間は、必ずしも一定とは限らないので、所定の時間間隔で推定することが望ましい。なお、所定の時間間隔は、推定された、または、予想される遅延時間と同程度以下であるのは妥当でない。なぜなら、後述するように、遅延時間の推定は、ヘッドフォン装置HPへSBCフレームを送信し、その送信されたSBCフレームに関する回答をヘッドフォン装置HPから受信することによって行う。
そこで、遅延時間と同程度以下の時間間隔で行うと、制御部11は、受信された回答がいずれのSBCフレームに関する回答かの判断に混乱をきたす可能性があるからである。また、この遅延時間の推定処理の負荷が過大になる可能性があるからである。一方、遅延時間は、必ずしも一定ではないので、遅延時間の推定は、所定の間隔で繰り返すことが妥当である。この間隔は、遅延時間の推定を繰り返し行い、推定された遅延時間の分散が小さい場合、より大きくし、分散が大きい場合、より小さくしても良い。
次に、制御部11は、近距離無線送受信部43cの音声符号化部43aに指示して、SBCフレームに、再生応答要求を付加させると共に符号化音声バッファ43bに記憶させ、そのフレームに係わる音声フレーム信号24cを、音声データ切替部41を介して音声バッファ24から読み出した時刻を報告させる(ステップS11b)。
この再生応答要求は、例えば、そのフレーム内のヘッダの1ビットを変化させることによって付加される。そして、制御部11は、音声符号化部43aによって報告された時刻をT11とする。ここで、音声符号化部43aは、時刻を、制御部11が備えるクロック(図示せず)が示す時刻によって得てもよく、STC部23が示す時刻によって得ても良い。その結果、以後、制御部11が遅延時間を推定する動作中で用いられる時刻は、これらの2つの時刻の中のいずれか一方である。
なお、STC部23が示す時刻は、放送されたコンテンツの番組の変化等に伴い、実時刻の変化とは異なる大きな変化をすることがある。そこで、遅延時間を推定する動作中で、STC部23が示す時刻を用いた場合、上記の動作によって、予想される範囲外の遅延時間、一例として、負の遅延時間が推定されることがある。制御部11は、それらの予想される範囲外の遅延時間を破棄する。
以上の説明では、SBCフレームが遅延時間を推定するために用いられる再生応答要求が付加されたフレームであるか否かは、そのフレーム内のヘッダの1ビットである識別情報によって示されるとしたが、再生応答要求が付加されたフレームであるか否かは、ヘッダの1ビットである識別情報によると限るものではない。
例えば、SBCフレームには整数であるフレーム番号が付され、そのフレーム番号がある整数で割り切れる場合、そのSBCフレームは、遅延時間を推定するために用いられると識別されるとしても良い。または、所定のフレーム番号が付されたSBCフレームは、遅延時間を推定するために用いられると識別されるとしても良い。
これらによれば、ある整数で割り切れるフレーム番号、または、所定のフレーム番号が、そのSBCフレームが遅延時間を推定するために用いられることを識別するための識別情報である。
これらの処理によれば、再生応答要求であるか否かを示すビットの伝送が不要であり、ヘッダのビット数の減少が得られる。なお、フレーム番号を除する整数、または、所定のフレーム番号は、予め定められているとしても良く、制御部11の指示によって定められるとしても良い。また、制御部11の指示によって、変更が可能としても良い。
制御部11は、近距離無線送受信部43cに指示して、上記再生応答要求が付加されたSBCフレームが近距離無線通信部43dによって近距離無線通信回線BTに送信された時刻を報告させる(ステップS11c)。報告された時刻をT12とする。続いて、近距離無線送受信部43cに指示して、上記再生応答要求が付加されたSBCフレームがヘッドフォン装置HPによって受信されたとの回答を得た時刻を報告させる(ステップS11d)。報告された時刻をT13とする。
制御部11は、更に、近距離無線送受信部43cに指示して、上記再生応答要求が付加されたSBCフレームがヘッドフォン装置HPによって出力されたとの回答を得た時刻を報告させる(ステップS11e)。報告された時刻をT14とする。
報告された時刻T11〜T14によって、制御部11は、遅延時間を推定して(ステップS11f)、遅延時間の推定動作を終了する(ステップS11g)。ここで、遅延時間は、
(T14−T11)−(T13−T12)/2
と算出して推定する。第1項の(T14−T11)は、SBCフレームに係わる音声フレーム信号24cが音声バッファ24から読み出されてから、そのSBCフレームに含まれる音声が出力されるまでの時間を示す。
ただし、この時間には、SBCフレームに係わる音声がヘッドフォン装置HPによって出力されたとの回答が近距離無線通信回線BTを介して伝送されるための遅延が加わっている。そこで、第2項の(T13−T12)/2は、その加わった遅延を差し引いて補正するための項である。
即ち、(T13−T12)は、SBCフレームが近距離無線送受信部43cからヘッドフォン装置HPへ送信される際の近距離無線通信回線BTを介して伝送されるための遅延と、ヘッドフォン装置HPがそのフレームを受信したとの回答を送信する際の近距離無線通信回線BTを介して伝送されるための遅延との2つの遅延による遅延時間の和である。そこで、第2項では、(T13−T12)を2で除している。
なお、上記のように推定された遅延時間が、予想される範囲外の値である場合、制御部11は、その値を一時的な変動とみなして破棄しても良い。また、制御部11は、直近の過去に推定された所定の個数の遅延時間の平均値を算出することによって遅延時間としても良い。
更に、推定された遅延時間が、時刻に対して単調増加、または、単調減少しているとみなされる場合、制御部11は、遅延時間を時刻に対して1次関数であると仮定しても良い。その関数のパラメータは、例えば、最小二乗法によって求めることができる。
また、推定された遅延時間が、時刻に対して、増加及び減少を繰り返す場合、制御部11は、遅延時間を一定数と、正弦関数との和の関数であると仮定しても良い。その関数のパラメータ、即ち、一定数と、正弦関数の振幅、周波数及び初期位相は、例えば、最小二乗法によって求めることができる。
次に、移動通信端末装置MSにおける映像の出力と、ヘッドフォン装置HPにおける音声の出力との同期を取る処理であって、ヘッドフォン装置HPの各部の処理を説明する。ヘッドフォン装置HPの近距離無線送受信部53は、上記要求が付加されたSBCフレームを受信すると、直ちにそのフレームが受信された旨を移動通信端末装置MSに送信する。そして、その要求が付加されたまま、SBCフレーム単位の音声信号を符号化音声バッファ54に記憶させる。
そして、音声復号化部55は、その要求が付加されたSBCフレームに係わる音声が音声再生部56からスピーカ56aに出力された際、そのSBCフレームに含まれる音声を再生した旨の回答を制御部51、近距離無線送受信部53を介して移動通信端末装置MSに送信させる。
なお、SBCフレームがヘッドフォン装置HPによって出力されたとの回答が近距離無線通信回線BTを介して伝送されるための遅延時間の推定は、上記要求が付加されたSBCフレームの送受信に併せて行われると限るものではない。
任意のデータが近距離無線送受信部43cからヘッドフォン装置HPに送信された後、ヘッドフォン装置HPの近距離無線送受信部53によってそのデータが受信された際に、近距離無線送受信部53が直ちに受信された旨を移動通信端末装置MSに送信することによって行われるとしても良い。
また、ヘッドフォン装置HPの近距離無線送受信部53が受信された旨を移動通信端末装置MSに送信することなく、近距離無線送受信部43cが近距離無線通信回線BTの通信で用いられる所定のプロトコルのステップを行った時刻からの算出によって推定されるとしても良い。また、その遅延時間は、予め近距離無線通信部43dの仕様に従って定められるとしても良い。
(第2の実施形態)
第2の実施形態が第1の実施形態と異なる点は、移動通信端末装置MSにある。そこで、第2の実施形態に係わる移動通信端末装置MSの構成及び動作を説明する。なお、第1の実施形態に係わる移動通信端末装置MSと同じ部分については、同じ符号を付して説明を省略する。なお、制御部11には同じ符号を付しているが、遅延時間の推定動作に相違があるので、その動作を説明する。
図9は、第2の実施形態に係わる移動通信端末装置MSの構成を示すブロック図である。この移動通信端末装置MSは、図2に構成を示す第1の実施形態に係わる移動通信端末装置MSと比較して、近距離無線処理部43に代えて近距離無線処理部43−2を備え、また、遅延時間推定用のマイクロフォン44を備えている。
図10は、近距離無線処理部43−2の詳細な構成を示すブロック図である。近距離無線処理部43−2は、第1の実施形態に係わる近距離無線処理部43と比較して、音声符号化部43aに代えて音声符号化部43a2を備えている。
音声符号化部43a2の動作を説明する。音声符号化部43a2は、第1の実施形態に係わる音声符号化部43aの復号された音声信号24aを得て、得られた音声フレーム信号24cを符号化し、符号化された音声信号を符号化音声バッファ43bに記憶させる動作に加えて、以下の動作を行う。
音声符号化部43a2は、制御部11の指示に基づいて、所定の遅延時間推定用音声信号を符号化し、符号化された遅延時間推定用音声信号を符号化音声バッファ43bに記憶させる。ここで、所定の遅延時間推定用音声信号は、音声バッファ24に記憶される音声フレーム信号24cには含まれない人工的な音声信号であって、1つまたは複数の所定の周波数の音声信号がそれぞれ所定の音量で加算され、使用者の聴覚器官に悪影響を及ぼさない音声信号である。
この所定の遅延時間推定用音声信号は、音声符号化部43a2によって符号化可能であり、ヘッドフォン装置HPによって出力可能であり、かつ、ヘッドフォン装置HPによって出力された音声をマイクロフォン44によって入力可能なものである。そして、ヘッドフォン装置HPによって出力された際、装置の使用者には聴取不可能、または聴取が困難であることが望ましい。即ち、人間の聴力によっては聴取が不可能、または困難な周波数からなる音声信号であることが望ましい。
次に、第2の実施形態に係わる制御部11が遅延時間を推定する動作を説明する。図11は、制御部11が遅延時間を推定する動作のフローチャートを示す。制御部11は、遅延時間を推定する動作を開始し(ステップS11i)、音声符号化部43a2に指示して、所定の遅延時間推定用音声信号を符号化させ、符号化音声バッファ43bに記憶させる。そして、その符号化を開始した時刻を報告させる(ステップS11j)。報告された時刻とT21とする。
次に、制御部11は、所定の時間の待ち時間を取る(ステップS11k)。この時間は、予想される遅延時間より短い時間であり、所定の遅延時間推定用音声信号が出力された音声以外の音声であって、その遅延時間推定用音声信号が出力されたものと同じ音声がマイクロフォン44によって入力されたことによる遅延時間の誤った推定を避けるためである。
続いて、制御部11は、マイクロフォン44によって入力された音声が所定の遅延時間推定用音声信号が出力されたものと一致するか否かを判断し(ステップS11m)、一致した場合、その音声がマイクロフォン44によって入力された時刻を得る(ステップS11n)。得られた時刻をT22とする。
そして、制御部11は、遅延時間を推定して(ステップS11o)、遅延時間の推定動作を終了する(ステップS11p)。ここで、遅延時間は、
T22−T21
と算出して推定する。
ステップS11mで、一致しない場合、制御部11は、ステップS11mの、一致するか否かを判断する動作を繰り返す。また、長時間に渡って一致しない場合、制御部11は、遅延時間の推定を行わないまま、その推定動作を終了する(ステップS11p)。ここで、長時間とは、予想される遅延時間の最大値を超える時間である。
長時間に渡って一致しない場合、ヘッドフォン装置HPから出力された音声がマイクロフォン44によって入力不可能である、即ち、ヘッドフォン装置HPが動作していないことに限らず、例えば、ヘッドフォン装置HPから出力された音声の音量が小さい、または、ヘッドフォン装置HPとマイクロフォン44との間が長距離である、などの理由が考えられ、制御部11は、遅延時間の推定が不可能と判断するためである。
所定の遅延時間推定用音声信号が装置の使用者には聴取不可能、または聴取が困難であり、かつ、ヘッドフォン装置HPから出力された音声をマイクロフォン44によって入力することが常に不可能と限らない場合、制御部11は、遅延時間を推定する動作を所定の時間間隔で行う。ここで、所定の時間間隔については、第1の実施形態のおける遅延時間を推定する動作説明の際に述べた通りである。
通常、移動通信端末装置MSと、ヘッドフォン装置HPとは、数十センチメートルから1メートル程度の距離をおいて使われる。また、ヘッドフォン装置HPのスピーカ56aは、ヘッドフォン装置HPの使用者の耳の方向に音声を出力する。しかし、ヘッドフォン装置HPのスピーカ56aから出力された音声は、ヘッドフォン装置HPの周囲に漏れるように設計されることがある。
また、マイクロフォン44は、所定の遅延時間推定用音声信号の受信のためにあり、周波数特性や、入力された音声の増幅率は、その信号の受信専用に設計される。そこで、ヘッドフォン装置HPから出力された音声をマイクロフォン44によって入力することが常に不可能であるとは限らない。そこで、制御部11は、遅延時間を推定する動作を所定の時間間隔で行うことが、有効である。ここで、推定が常に可能ではなくとも良い。
また、音声符号化部43a2は、所定の遅延時間推定用音声信号を符号化する際、音声バッファ24に記憶された符号化すべき音声フレーム信号24cが無音である時間帯を選択することが適切である。所定の遅延時間推定用音声信号を符号化によって、音声フレーム信号24cの符号化へ影響を与えることを避けるためである。
また、遅延時間推定用音声信号は、人間の聴力によっては聴取が不可能、または困難な周波数からなる音声信号であると限るものではない。人間の聴力によって聴取が可能な音声であっても、マスキング効果によって装置の使用者には聴取不可能、または聴取が困難である音声信号でも良い。
このマスキング効果を用いる場合、音声符号化部43a2は、遅延時間推定用音声信号の周波数に近い周波数で、かつ、大きな音量の音声信号が発生される時刻の前後にのみ、遅延時間推定用音声信号を音声フレーム信号24cに加えた上で符号化する。
そのため、遅延時間推定用音声信号が常に同じ周波数ではなく、適宜複数の周波数の中の1つを用いるとしても、所定の時間間隔で遅延時間推定用音声信号を符号化することはできない。しかし、所定の時間間隔ではないにせよ、繰り返して遅延時間を推定することによる効果がある。
一方、所定の遅延時間推定用音声信号が装置の使用者に常に聴取可能、かつ、ヘッドフォン装置HPから出力された音声をマイクロフォン44によって入力することが、使用者がヘッドフォン装置HPを使用している際に常に不可能とは限らない場合、音声符号化部43a2は、音声バッファ24に記憶される音声フレーム信号24cには含まれる音声信号であって、特徴のある音声信号を遅延時間推定用音声信号とする。
このように用いられる遅延時間推定用音声信号は、例えば、特徴のある周波数分布の音声信号、即ち、所定の楽器の音であり、また、所定の無音の後の大きな音量の音声信号である。この遅延時間推定用音声信号を用いる場合も、所定の時間間隔ではないにせよ、繰り返して遅延時間を推定することができる効果がある。
また、ヘッドフォン装置HPから出力された音声をマイクロフォン44によって入力することが、使用者がヘッドフォン装置HPを使用している際には常に不可能である場合、制御部11は、近距離無線処理部43−2に音声信号をヘッドフォン装置HPに送らせる制御をし、上記遅延時間の推定を行った後、音声データ切替部41を制御して、近距離無線処理部43−2に音声バッファ24に記憶された音声フレーム信号24cを読み出させても良い。
また、上記遅延時間の推定に先んじて、制御部11は、使用者に対して、ヘッドフォン装置HPのスピーカ56aをマイクロフォン44に近づけるように促す報知を行うことが好ましい。この報知は、表示部15への表示、スピーカ42aからの音声出力、スピーカ56aからの音声出力などによる。
なお、第2の実施形態に係わる移動通信端末装置MS及びヘッドフォン装置HPの各部は、第1の実施形態に係わる再生応答要求が付加されたSBCフレームを作成する機能、及び、そのフレームの作成及び送受信がされた時刻を報告する機能を要しない。
以上の説明では、第2の実施形態に係わる移動通信端末装置MSは、マイクロフォン14bとは異なるマイクロフォン44を備えるとしたが、これに限るものではない。マイクロフォン44を備えず、遅延時間推定に送話用のマイクロフォン14bを用いても良い。
この第2の実施形態におけるヘッドフォン装置HPは、ヘッドフォン装置HPの必須機能、即ち、近距離無線通信回線BTを介して受信された音声をスピーカ56aから出力する機能以外の動作を要しない。即ち、如何なるヘッドフォン装置HPにも、この第2の実施形態を適用することが可能である。
(第3の実施形態)
第3の実施形態が第1の実施形態と異なる点は、ヘッドフォン装置HPにある。そこで、第2の実施形態に係わるヘッドフォン装置HPの構成及び動作を説明する。なお、第1の実施形態に係わるヘッドフォン装置HPと同じ部分については、同じ符号を付して説明を省略する。なお、移動通信端末装置MSの制御部11には同じ符号を付しているが、遅延時間の推定動作に相違があるので、その動作を説明する。
図12は、第2の実施形態に係わるヘッドフォン装置HPの構成を示すブロック図である。このヘッドフォン装置HPは、図5に構成を示す第1の実施形態に係わるヘッドフォン装置HPと比較して、制御部51に代えて制御部51−3を、近距離無線送受信部53に代えて近距離無線送受信部53−3を、そして、音声復号化部55に代えて音声復号化部55−3を備える。
近距離無線送受信部53−3の動作と、第1の実施形態に係わる近距離無線送受信部53の動作との相違は、以下の点である。即ち、近距離無線送受信部53−3は、所定の識別情報が付加されたSBCフレームを受信すると、その旨を直ちに制御部51−3に通知する。一方、第1の実施形態に係わる近距離無線送受信部53は、その旨を移動通信端末装置MSに送信する。
音声復号化部55−3の動作と、第1の実施形態に係わる音声復号化部55の動作との相違は、以下の点である。即ち、音声復号化部55−3は、所定の識別情報が付加されたSBCフレーム単位の音声信号が音声再生部56からスピーカ56aに出力された際、その旨を直ちに制御部51−3に通知する。一方、第1の実施形態に係わる音声復号化部55は、その旨を移動通信端末装置MSに送信させる。
制御部51−3は、第1の実施形態に係わる制御部51の動作に加えて、近距離無線送受信部53−3から送られた上記通知が受信された時刻と、音声復号化部55−3から送られた上記通知が受信された時刻との差の時間を測定する。そして、その時間(T31)を近距離無線送受信部53−3を介して移動通信端末装置MSに送信させる。このT31は、音声信号がヘッドフォン装置HPにある際に発生する遅延時間である。
なお、音声信号がヘッドフォン装置HPにある際に発生する遅延時間を測定するための上記の処理は、移動通信端末装置MSから所定の識別情報が付加されたSBCフレームを受信することによって行われるとしたが、これに限るものではない。ヘッドフォン装置HP内で定められた所定のSBCフレームに関して行われるとしても良い。また、測定された時間(T31)の送信は、測定される度に行われるとしたが、これに限るものではない。移動通信端末装置MSから要求を受信する度に、最新の測定された時間(T31)を、または、近い過去に測定された時間の平均を算出した時間(T31)を送信しても良い。
制御部51−3は、上述のように、2つの通知が受信された時刻の間の差の時間を得れば良く、時刻を得る必要はない。言い換えると、クロックを備える必要はないので、複雑で高価な構成とする必要はない。
次に、第3の実施形態に係わる制御部11が遅延時間を推定する動作を説明する。図13は、制御部11が遅延時間を推定する動作のフローチャートを示す。なお、第1の実施形態に係わる制御部11が遅延時間を推定する動作に含まれる動作ステップについては、同じ符号を付して説明を省略する。
制御部11は、まず、ステップS11a〜ステップS11cの、遅延時間を推定する動作を開始し、所定の識別情報が付加されたSBCフレームに係わる音声フレーム信号24cを音声バッファ24から読み出した時刻T11を音声符号化部43aから得て、更に、上記所定の識別情報が付加されたSBCフレームが近距離無線通信回線BTに送信された時刻T12を近距離無線送受信部43cから得る動作を行う。
続いて、制御部11は、ヘッドフォン装置HPから送信された、音声信号がヘッドフォン装置HPにある際に発生する遅延時間T31を近距離無線送受信部43cを介して受信する(ステップS11r)。
そして、制御部11は、音声信号が近距離無線通信回線BTを介して伝送されるための遅延時間を推定する(ステップS11s)。この伝送されるための遅延時間は、第1の実施形態に係わる制御部11の動作説明の際に述べたような、以下の1つ、または複数の方法によって推定される。
第1に、任意のデータが近距離無線送受信部43cからヘッドフォン装置HPに送信された後、ヘッドフォン装置HPの近距離無線送受信部53−3が直ちに受信された旨を移動通信端末装置MSに送信することによって推定される。第2に、近距離無線送受信部43cが近距離無線通信回線BTの通信で用いられる所定のプロトコルのステップを行った時刻によって推定される。第3に、予め定められた近距離無線通信部43dの仕様に従って推定される。
そして、制御部11は、遅延時間を推定して(ステップS11t)、遅延時間の推定動作を終了する(ステップS11u)。ここで、遅延時間は、音声信号が移動通信端末装置MSにある際に発生する遅延時間の推定値と、音声信号がヘッドフォン装置HPにある際に発生する遅延時間の推定値と、音声信号が近距離無線通信回線BTを介して伝送されるための遅延時間の推定値との合計時間として推定される。
音声信号が移動通信端末装置MSにある際に発生する遅延時間は、ステップS11b及びステップS11cの動作によって得られた時刻を用いて
T12−T11
であると推定される。そして、音声信号がヘッドフォン装置HPにある際に発生する遅延時間は、ステップS11rで受信された
T31
であると推定される。また、音声信号が近距離無線通信回線BTを介して伝送されるための遅延時間は、ステップS11sの動作によって推定された値である。
なお、ステップS11b及びステップS11cの動作、ステップS11rの動作、ステップS11sの動作の3つの動作は、図13のフローチャートに示した順で行われると限るものではない。異なる順で行われても良い。また、3つの動作が行われる時間間隔は、独立に定められても良い。その場合、いずれかの動作が行われる度に、ステップS11tの遅延時間の推定が行われる。
以上の説明は、所定の識別情報が付加されたSBCフレームを用いて遅延時間を推定するとした。既に第1の実施形態の説明で述べた通り、所定の識別情報が付加されたSBCフレームは、例えば、SBCフレームに付されたフレーム番号がある整数で割り切れるSBCフレーム、また、SBCフレームに付されたフレーム番号がある整数であるSBCフレームであっても良い。
前述したように、最も大きい遅延時間は、音声信号が移動通信端末装置MSにある際に発生する遅延時間であり、次に大きい遅延時間は、音声信号がヘッドフォン装置HPにある際に発生する遅延時間であることが多い。そのため、制御部11は、ステップS11b及びステップS11cの動作をより頻繁に実行して、音声信号が移動通信端末装置MSにある際に発生する遅延時間を正しく推定することが望ましい。これらの動作は、ヘッドフォン装置HPの動作に何ら影響を与えず、近距離無線通信回線BTを介した通信が発生しないため、頻繁に実行しても、ヘッドフォン装置HPによる音声出力へ影響を与える可能性が非常に小さい。
一方、音声信号がヘッドフォン装置HPにある際に発生する遅延時間の推定には、ヘッドフォン装置HPの動作を必要とし、近距離無線通信回線BTを介した通信が発生する。そこで、音声信号がヘッドフォン装置HPにある際に発生する遅延時間の推定値に含まれる誤差を、音声信号がヘッドフォン装置HPにある際に発生する遅延時間の推定値に含まれる誤差よりも小さくする必要性は乏しい。
即ち、制御部11は、ステップS11rの動作を稀に実行しても良い。この音声信号がヘッドフォン装置HPにある際に発生する遅延時間の推定動作は、ヘッドフォン装置HPの動作を伴うので、この動作を稀に実行することは、ヘッドフォン装置HPによる音声出力への影響を避けるために望ましい。
稀に実行する一例として、ヘッドフォン装置HPによる音声出力が開始される直前に1回行うことでも良い。また、音声信号がヘッドフォン装置HPにある際に発生する遅延時間が予め得られている、または、予想される場合、その得られている、または、予想される値を用いても良い。また、制御部11は、音声信号がヘッドフォン装置HPにある際に発生する遅延時間を測定する間隔を制御せず、所定の時間間隔でその遅延時間をヘッドフォン装置HPに問い合わせるとしても良い。
稀に実行する別の例として、制御部11は、テレビ処理部21によって受信されているチャンネルが変更された際、遅延時間を推定するとしても良い。チャンネルの変更は、入力装置16の所定のキー操作によって行われるので、制御部11が把握できる。また、テレビ処理部21によって受信されている放送の番組の変更の際、遅延時間を推定するとしても良い。番組の変更は、DEMUX部21cによって分離されたPCRが実時間の変化と異なる不連続な変化をすることによって把握される。
(その他の実施形態)
上記の第1〜第3の実施形態は、必ずしも排他的ではない。適宜組み合わせた形態とすることができる。
以上の説明は、テレビ放送された映像データと、音声データとを例にとって行ったが、これに限るものではない。映像データと、音声データとが、例えば、RTPプロトコルに従って受信される場合、映像データが表示される時刻を示すタイムスタンプと、音声データが出力される時刻を示すタイムスタンプとは、異なるメディアクロックが示す時刻による。しかしながら、RTCPパケットを参照して、これらのメディアクロックが示す時刻と、共通の参照クロックが示す時刻との対応を付ける処理は周知である。そこで、共通の参照クロックをSTC部23とみなすことによって、本発明の適用が可能である。
以上の説明は、テレビ処理部21によって受信される放送は、映像と音声とからなるとしたが、これに限るものではない。例えば、更に表示部15に表示される文字を含んでいても良い。この文字の表示は、以上説明した、映像再生部31が映像フレーム信号22cの再生を遅延させる処理と同じ処理によって遅延させれば良く、説明を省略する。
以上の説明は、移動通信端末装置MSの音声データ切替部41は、音声再生部42と、近距離無線処理部43とのいずれか一方に音声バッファ24からのデータの読み取りをさせるとしたが、これに限るものではない。これらの両方にデータの読み取りをさせるとしても良い。
この両方にデータの読み取りをさせる処理のために、制御部11は、音声再生部42を制御して、音声フレーム信号24cのスピーカ42aからの出力に遅延をさせる。ここで、遅延時間は、映像再生部31に指示して映像フレーム信号22cの再生を遅延させた時間と同じ時間である。音声再生部42が音声フレーム信号24cの出力に遅延させる処理は、映像再生部31が映像フレーム信号22cの再生を遅延させる処理と同じであり、説明を省略する。
このような処理によれば、本発明は、移動通信端末装置MSの表示部15の表示と、移動通信端末装置MSのスピーカ42aから発生される音声と、ヘッドフォン装置HPのスピーカ56aから発生される音声との同期を取ることに有効である。更には、本発明は、移動通信端末装置MSの表示部15に表示を行うか否かに係らず、2つのスピーカから発生される音声の同期を取ることに有効である。
以上の説明は、本発明をヘッドフォン装置HPが1台である場合を例にとって行ったが、本発明は、複数のヘッドフォン装置HPを有する構成のシステムに適用することが当然に可能である。その場合、移動通信端末装置MSの制御部11は、各ヘッドフォン装置HP毎に遅延時間を推定する。
そして、制御部11は、ヘッドフォン装置HP毎の遅延時間の相違は、各ヘッドフォン装置HP向けに先行して音声信号を符号化し送信する動作で、先行する時間をヘッドフォン装置HP毎に異なる時間とすることにより打ち消す。または、符号化音声バッファ43bに記憶された音声信号を各ヘッドフォン装置HPへ送信させるにあたり、近距離無線送受信部43cに送信する時刻を各ヘッドフォン装置HP毎に異なる時刻とすることにより打ち消す。
以上の説明は、本発明を移動通信端末装置MS及びヘッドフォン装置HPに適用した例を用いた。しかし、本発明の適用は、これらの装置に限るものではない。例えば、移動通信端末装置MSに代えて、固定式または携帯式のテレビ受像機に適用しても良い。それによって、テレビ受像機から音声を出力することなく、または、小さい音量の音声を出力し、テレビ視聴者の近くに置かれたヘッドフォン装置HPから適切な大きさの音量で音声を出力させることができる。これによって、テレビ視聴者以外の者は、テレビ放送された音声によって静粛を破られることがない。
また、本発明を、ヘッドフォン装置HPに代えて、商用電源によって駆動され、大きな音量の音声を出力する音声出力装置に適用することが当然に可能である。
以上の説明は、音声信号はモノラル信号であるとしたが、これに限るものではない。ステレオ信号であっても全く同様に処理すれば良い。また、ステレオ信号の一方の音声が移動通信端末装置MSのスピーカ42aから出力され、他方の音声ヘッドフォン装置HPのスピーカ56aから出力されても良い。更に、ステレオ信号のそれぞれの音声が異なるヘッドフォン装置HPから出力されても良い。本発明は以上の構成に限定されるものではなく、種々の変形が可能である。