JP4270866B2

JP4270866B2 - 非音声のスピーチの高性能の低ビット速度コード化方法および装置

Info

Publication number: JP4270866B2
Application number: JP2002537002A
Authority: JP
Inventors: フアン、ペンジュン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2000-10-17
Filing date: 2001-10-06
Publication date: 2009-06-03
Anticipated expiration: 2021-10-06
Also published as: CN1470051A; HK1060430A1; EP1328925A2; EP1912207B1; EP1328925B1; KR100798668B1; ATE549714T1; US6947888B1; AU1345402A; US20050143980A1; EP1912207A1; TW563094B; US7191125B2; DE60133757T2; ATE393448T1; US20070192092A1; ES2302754T3; KR20030041169A; DE60133757D1; JP2004517348A

Description

【０００１】
【発明の属する技術分野】
本発明は、スピーチ処理の分野、特にスピーチの非音声セグメントの優秀で改良された低いビット速度コード化方法および装置に関する。
【０００２】
【従来の技術】
デジタル技術による音声の送信は特に長距離およびデジタル無線電話応用で普及している。これは再構成されるスピーチの知覚品質を維持しながら、チャンネルで送信されることができる最少量の情報を決定することにおいて関心を生んでいる。スピーチが単にサンプリングとデジタル化により送信されるならば、毎秒６４キロビット（ｋｂｐｓ）程度のデータ転送速度が通常のアナログ電話のスピーカ品質を実現するために必要とされる。しかしながら、スピーチ解析の使用と、それに続く適切なコード化、送信、受信機での再合成を通して、データ転送速度の大きな減少が実現されることができる。
【０００３】
人間のスピーチ発生のモデルに関するパラメータを抽出することによりスピーチを圧縮する技術を使用する装置はスピーチコーダと呼ばれる。スピーチコーダは入来するスピーチ信号を時間のブロックまたは解析フレームに分割する。スピーチコーダは典型的にエンコーダおよびデコーダまたはコデックを備えている。エンコーダはある関連するパラメータを抽出するために入来するスピーチフレームを解析し、その後パラメータを２進表示、即ち１組のビットまたは２進データパケットへ量子化する。データパケットは通信チャンネルによって受信機とデコーダに送信される。デコーダはデータパケットを処理し、パラメータを生成するためにそれらを逆量子化し、その後、逆量子化されたパラメータを使用してスピーチフレームを再合成する。
【０００４】
スピーチコーダの機能はスピーチ中の固有の全ての自然の冗長を除去することによりデジタル化されたスピーチ信号を低いビット速度の信号に圧縮することである。デジタル圧縮は入力スピーチフレームを１組のパラメータで表し、１組のビットでパラメータを表すために量子化を使用することにより実現される。入力スピーチフレームがビット数Ｎ_i を有し、スピーチコーダにより発生されるデータパケットがビット数Ｎ_o を有するならば、スピーチコーダにより実現される圧縮係数はＣ_r ＝Ｎ_i ／Ｎ_o である。ターゲットの圧縮係数を実現しながらデコードされるスピーチの高い音声品質を維持するための挑戦が試みられている。スピーチコーダの性能は（１）スピーチモデルまたは前述の解析および合成プロセスの組合わせの良好度、（２）フレーム当たりＮ_o ビットのターゲットビット速度でパラメータ量子化プロセスが行われる良好度に基づいている。したがって、スピーチモデルの目標は、各フレームで小さいセットのパラメータによりスピーチ信号の本質またはターゲット音声品質を捕捉することである。
【０００５】
スピーチコーダは時間ドメインコーダとして構成されてもよく、これは一度にスピーチの小さいセグメント（典型的に５ミリ秒（ｍｓ）サブフレーム）をエンコードするために高い時間解像度処理を使用することにより時間ドメインスピーチ波形を捕捉しようとする。各サブフレームでは、コードブックスペースからの高い正確度の見本が技術で知られている種々の検索アルゴリズム手段により発見される。その代わりに、スピーチコーダは周波数ドメインコーダとして構成されてもよく、これは１組のパラメータ（解析）により入力スピーチフレームの短時間のスピーチスペクトルを捕捉し、スペクトルパラメータからスピーチ波形を再生成するために対応する合成プロセスを使用する。パラメータ量子化装置は文献（A. Gersho & R. M. Gray、Vector Quantization and Signal Compression、1992年）に記載されている既知の量子化技術にしたがって記憶されたコードベクトル表示でパラメータを表すことによりパラメータを維持する。
【０００６】
良く知られた時間ドメインスピーチコーダはここで参考文献とされている文献（L. B. Rabiner & R. W. Schafer 、Digital Processing of Speech Signals、 396−453 頁、1978年）に記載されているコード励起線形予測（ＣＥＬＰ）コーダである。ＣＥＬＰコーダでは、スピーチ信号における短時間の相関または冗長は線形予測（ＬＰ）解析により除去され、これは短時間のホルマントフィルタの係数を発見する。短時間の予測フィルタを入来するスピーチフレームに適用することによって、ＬＰ残差信号を発生し、これはさらにモデル化され、長時間の予測フィルタパラメータおよびそれに続く統計的コードブックで量子化される。したがって、ＣＥＬＰコード化は時間ドメインスピーチ波形を符号化するタスクを、ＬＰ短時間フィルタ係数の符号化とＬＰ残差の符号化との別々のタスクに分割する。時間ドメインコード化は固定速度（即ち各フレームで同一数のビットＮ_o を使用）または可変速度（異なるビット速度が異なるタイプのフレーム内容で使用される）で行われることができる。可変速度のコーダはターゲット品質を得るのに適切なレベルにコデックパラメータを符号化するために必要とされるビット量だけを使用しようとする。例示的な可変速度のＣＥＬＰコーダは米国特許第5,414,796 号明細書に記載されており、これは本出願人に譲渡され、ここで参考文献とされている。
【０００７】
ＣＥＬＰコーダのような時間ドメインコーダは典型的に時間ドメインスピーチ波形の正確性を維持するためにフレーム当たり高いビット数Ｎ_o に依存する。このようなコーダは典型的にフレーム当たり比較的大きいビット数Ｎ_o （例えば８ｋｂｐｓ以上）を与えられた優秀な音声品質を与える。しかしながら低いビット速度（４ｋｂｐｓ以下）では、時間ドメインコーダは利用可能なビット数が限定されるために高品質で頑丈な性能を維持できない。低いビット速度では、限定されたコードブックスペースは、高い転送速度の商用応用で適切に配備される通常の時間ドメインコーダの波形整合能力を除去する。
【０００８】
典型的に、ＣＥＬＰ方式は短時間の予測（ＳＴＰ）フィルタと長時間の予測（ＬＴＰ）フィルタを使用する。合成による解析（ＡｂＳ）方法は、ＬＴＰ遅延および利得と、最良の統計的コードブック利得およびインデックスを発見するためにエンコーダで使用される。強化された可変速度コーダ（ＥＶＲＣ）のような現在の技術的水準のＣＥＬＰコーダは毎秒約８キロビットのデータ転送速度で良好な品質の合成されたスピーチを実現できる。
【０００９】
また非音声のスピーチは周期性を示さないことが知られている。通常のＣＥＬＰ方式におけるＬＴＰフィルタの符号化に消費される帯域幅は、スピーチの周期性が強くＬＴＰ濾波が意味をもつ音声のスピーチ程には非音声スピーチでは効率的に使用されない。それ故、さらに効率的な（即ち低いビット速度）コード化方式が非音声スピーチで望まれている。
【００１０】
低いビット速度でのコード化のために、スペクトルまたは周波数ドメインの種々の方法、スピーチのコード化が開発されており、それにおいてはスピーチ信号はスペクトルの時間可変エボリューションとして解析され、例えば文献（R. J. McAulay & T. F. Quatieri、Sinusoidal Coding 、Speech Coding and Synthesis 、第４章、（W. B. Kleijn & K. K.Paliwal 編、1995年））が参照される。スピーチコーダでは、目的は、１組のスペクトルパラメータによりスピーチの各入力フレームの短時間のスピーチスペクトルをモデル化または予測することであり、正確に時間的に変化するスピーチ波形を模倣することではない。その後、スペクトルパラメータは符号化され、スピーチの出力フレームは復号されたパラメータにより生成される。結果的に合成されたスピーチはもとの入力スピーチ波形と一致しないが、類似の知覚品質を与える。技術でよく知られている周波数ドメインコーダの例はマルチバンド励起コーダ（ＭＢＥ）、正弦波変換コーダ（ＳＴＣ）、高調波コーダ（ＨＣ）を含んでいる。このような周波数ドメインコーダは低いビット速度で有効な低いビット数で正確に量子化されることのできるコンパクトなセットのパラメータを有する高品質パラメトリックモデルを与える。
【００１１】
それにもかかわらず、低いビット速度のコード化は限定されたコード化分解能または限定されたコードブックスペースの臨界的な制約を有し、これは単一のコード化機構の効率を制限し、等しい正確性の種々の背景条件下でコーダが種々のタイプのスピーチセグメントを表すことができないようにする。例えば通常の低いビット速度の周波数ドメインコーダはスピーチフレームの位相情報を伝送しない。代わりに、位相情報はランダムに人工的に生成された初期位相値と線形補間技術を使用することにより再構成される。例えば文献（H. Yang 、Quadratic Phase Interpolation for Voiced Speech Synthesis in the MBE Model、29 Electronic Letters 、856 −57頁、1993年５月）を参照されたい。位相情報は人工的に生成されるので、正弦波の振幅が量子化−逆量子化プロセスにより完全に維持されても、周波数ドメインコーダにより生成される出力スピーチはもとの入力スピーチと整列されない（即ち主要なパルスは同期しない）。それ故、例えば周波数ドメインコーダにおける信号対雑音比（ＳＮＲ）または知覚ＳＮＲのような閉ループ性能の尺度を採用することは困難であることが証明された。
【００１２】
低いビット速度で効率的にスピーチを符号化する１つの有効な方法はマルチモードコード化である。マルチモードコード化技術は開ループモード決定プロセスと共に低い転送速度のスピーチのコード化を実行するために使用されている。１つのこのようなマルチモードコード化技術は文献Amitava Das 、Multimode and Variable-Rate Coding of Speech、Speech Coding and Synthesis 、第７章（W. B. Kleijn & K. K. Paliwal編、1995年）に記載されている。通常のマルチモードコーダは異なるタイプの入力スピーチフレームに異なるモードまたは符号化−復号化アルゴリズムを適用する。各モードまたは符号化−復号化プロセスは、最も効率的な方法で、例えば音声スピーチ、非音声スピーチまたは背景雑音（スピーチではない）のようなあるタイプのスピーチセグメントを表すようにカスタマイズされる。外部の開ループモード決定機構は入力スピーチフレームを検査し、フレームに適用されるモードに関する決定を行う。開ループモード決定は典型的に入力フレームから複数のパラメータを抽出し、そのパラメータを時間およびスペクトル特性について評価し、その評価にモード決定を基づかせることにより実行される。モード決定は、したがって、前もって出力スピーチの正確な状態、即ち音声品質または他の性能尺度に関して出力スピーチがどの程度入力スピーチに近いかを知らずに行われる。スピーチコデックの例示的な開ループモード決定は米国特許第5,414,796 号明細書に記載されており、これは本出願人に譲渡され、ここで参考文献とされる。
【００１３】
マルチモードコード化は各フレームに対して同一数のビットＮ_o を使用する固定速度でも、または、異なるビット速度が異なるモードに対して使用される可変速度でもよい。可変速度のコード化の目標はターゲット品質を得るのに適切なレベルにコデックパラメータを符号化するために必要なビット量だけを使用しようとすることである。結果として、固定速度で同一のターゲット音声品質は高速度のコーダでは可変ビット速度（ＶＢＲ）技術を使用して非常に低い平均速度で得られることができる。例示的は可変速度のスピーチコーダは米国特許第5,414,796 号明細書に記載されており、これは本出願人に譲渡され、ここで参考文献とされる。
【００１４】
現在、中間から低ビット速度（即ち２．４乃至４ｋｂｐｓ以下の範囲）の範囲で動作する高品質スピーチコーダの研究に対する関心とそれを開発する強い商用の要求が急増している。応用範囲には無線電話、衛星通信、インターネット電話、種々のマルチメディアおよび音声ストリーム応用、音声メール、他の音声記憶システムが含まれている。駆動力は高容量に対して必要であり、パケット損失状況下の頑丈な性能に対する要求がある。種々の最近のスピーチコード化標準化の努力は、低速度スピーチコード化アルゴリズムの研究と開発を推進する別の直接的な駆動力である。低速度スピーチコーダは許容可能な応用の帯域幅でさらに多くのチャンネルまたはユーザを生成し、適切なチャンネルコード化の付加的な層と結合する低速度スピーチコーダはコーダ仕様の総合的なビットバジェットに適合し、チャンネルエラー状況下で頑丈な性能を与える。
【００１５】
【発明が解決しようとする課題】
それ故、マルチモードＶＢＲスピーチコード化は低いビット速度でスピーチを符号化するための有効な機構である。通常のマルチモード方式はスピーチの種々のセグメント（例えば非音声、音声、転移）に対する効率的な符号化方式の設計、またはモードと、背景雑音または沈黙に対するモードを必要とする。スピーチコーダの総合的な性能は各モードの実行がどの程度良好に行われるかと、コーダの平均的な速度がスピーチの非音声、音声、他のセグメントに対して異なるモードのビット速度に基づいている。低い平均速度でターゲット品質を実現するために、効率がよく、高性能のモードを設計することが必要であり、その幾つかのモードは低ビット速度で動作しなければならない。典型的に音声と非音声のスピーチセグメントは高いビット速度で捕捉され、背景雑音および沈黙のセグメントは非常に低い速度で動作するモードで表される。したがって、フレーム当たり最少数のビット数を使用しながら、高い割合のスピーチの非音声セグメントを正確に捕捉する高性能の低ビット速度のコード化技術が必要とされている。
【００１６】
【課題を解決するための手段】
説明した実施形態は、フレーム当たり最少数のビット数を使用しながら、スピーチの非音声セグメントを正確に捕捉する高性能の低ビット速度のコード化技術を目的とする。したがって、本発明の１つの特徴では、スピーチの非音声セグメントのデコード方法は、複数のサブフレームに対して受信されたインデックスを使用して量子化された利得のグループを再生し、複数のサブフレームのそれぞれにおいてランダム数を有するランダムな雑音信号を発生し、複数のサブフレームのそれぞれにおいてランダム雑音信号の最高の振幅のランダム数の予め定められた割合を選択し、スケールされたランダム雑音信号を発生するために各サブフレームに対して再生された利得により選択された最高の振幅のランダム数をスケールし、スケールされたランダム雑音信号をバンドパスフィルタで濾波して成形し、受信されたフィルタ選択インジケータに基づいて第２のフィルタを選択し、さらにスケールされたランダム雑音信号を選択されたフィルタで成形することを含んでいる。
【００１７】
【発明の実施の形態】
説明される実施形態の特徴、目的、利点は図面を伴った以下の詳細な説明からより明白になるであろう。同一の参照符号は全体を通じて対応して使用されている。
ここに開示された実施形態は非音声スピーチの高性能の低ビット転送速度のコード化方法および装置を与える。非音声スピーチ信号の各フレームはデジタル化され、サンプルのフレームに変換される。非音声スピーチの各フレームは短時間の信号ブロックを発生するために短時間の予測フィルタにより濾波される。各フレームは多数のサブフレームに分割される。利得はその後、各サブフレームについて計算される。これらの利得はそれに続いて量子化され送信される。その後、ランダム雑音のブロックが以下詳細に説明する方法により発生され濾波される。この濾波されたランダム雑音は短時間の信号を表す量子化された信号を形成するために量子化されたサブフレーム利得によりスケールされる。デコーダでは、エンコーダでのランダム雑音と同一方法でランダム雑音のフレームが発生され、濾波される。デコーダにおいて濾波されたランダム雑音はその後、受信されたサブフレーム利得によりスケールされ、短時間予測フィルタを通過されて、もとのサンプルを表す合成されたスピーチのフレームを形成する。
【００１８】
開示された実施形態は種々の非音声スピーチの優秀なコード化技術を与える。毎秒２キロビットで、合成された非音声スピーチは非常に高いデータ転送速度を必要とする通常のＣＥＬＰ方式により生成されるスピーチに知覚的に等しい。高い割合（約２０パーセント）の非音声スピーチセグメントは開示された実施形態により符号化されることができる。
【００１９】
図１では、第１のエンコーダ10はデジタル化されたスピーチサンプルＳ（ｎ）を受信し、送信媒体12または通信チャンネル12で第１のデコーダ14へ送信するためにサンプルＳ（ｎ）を符号化する。デコーダ14は符号化されたスピーチサンプルを復号し、出力スピーチ信号Ｓ_SYNTH （ｎ）を合成する。反対方向の送信においては、第２のエンコーダ16はデジタル化されたスピーチサンプルＳ（ｎ）を符号化し、これは通信チャンネル18で送信される。第２のデコーダ20は符号化されたスピーチサンプルを受信して復号し、合成された出力スピーチ信号Ｓ_SYNTH （ｎ）を発生する。
【００２０】
スピーチサンプルＳ（ｎ）は例えばパルスコード変調（ＰＣＭ）、圧伸されたμ法則またはＡ法則を含む技術的に知られている任意の種々の方法にしたがってデジタル化され量子化されているスピーチ信号を表している。技術的に知られているように、スピーチサンプルＳ（ｎ）は入力データのフレームに組織され、ここで各フレームは予め定められた数のデジタル化されたスピーチサンプルＳ（ｎ）を含んでいる。例示的な実施形態では、８ｋＨｚのサンプリング速度が使用され、それぞれ２０ｍｓのフレームは１６０サンプルを含んでいる。以下説明する実施形態では、データ送信速度は８ｋｂｐｓ（全速度）から４ｋｂｐｓ（半速度）、２ｋｂｐｓ（１／４速度）、１ｋｂｐｓ（１／８速度）までフレーム対フレームベースで変更されることができる。その代わりに他のデータ速度が使用されてもよい。ここで使用されるように、用語“全速度”または“高速度”は通常８ｋｂｐｓ以上のデータ転送速度を示し、用語“半速度”または“低速度”は通常４ｋｂｐｓ以下のデータ転送速度を示す。データ送信速度の変更は低いビット速度が比較的少ないスピーチ情報を含むフレームで選択的に使用されることができるので有効である。当業者に理解されているように、他のサンプリング速度、フレームサイズ、データ送信速度が使用されてもよい。
【００２１】
第１のエンコーダ10と第２のデコーダ20は共に第１のスピーチコーダまたはスピーチコデックを構成している。同様に、第２のエンコーダ16と第１のデコーダ14は共に第２のスピーチコーダを構成している。スピーチコーダはデジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、ディスクリートなゲート論理装置、ファームウェアまたは任意の通常のプログラム可能なソフトウェアモジュール、およびマイクロプロセッサによって構成されることができることが当業者により理解されるであろう。ソフトウェアモジュールはＲＡＭメモリ、フラッシュメモリ、レジスタ、または任意の他の形態の技術で知られている書込み可能な記憶媒体中に含まれている。その代りに、任意の通常のプロセッサ、制御装置または状態マシンがマイクロプロセッサと置換されることができる。スピーチコード化用に特別に設計された例示的なＡＳＩＣは米国特許第5,727,123 号明細書と、米国特許出願第5,784,532 号明細書（発明の名称“APPLICATION SPECIFIC INTEGRATED CIRCUIT (ASIC) FOR PERFORMING RAPID SPEECH COMPRESSION IN A MOBILE TELEPHONE SYSTEM ”）に記載されており、この両者は説明している実施形態の出願人に譲渡され、ここで参考文献とされている。
【００２２】
図２のＡは現在説明している実施形態を使用してもよい図１で示されているエンコーダ（10、16）のブロック図である。スピーチ信号Ｓ（ｎ）は短時間予測フィルタ200 により濾波される、スピーチ自体Ｓ（ｎ）および／または短時間予測フィルタ200 の出力における線形予測残差信号ｒ（ｎ）はスピーチ分類装置202 へ入力を与える。
【００２３】
スピーチ分類装置202 の出力は、スピーチの分類されたモードに基づいてスイッチ203 が対応するモードエンコーダ（ 204、206 ）を選択することを可能にするためにスイッチ203 へ入力を与える。当業者はスピーチ分類装置202 が音声および非音声のスピーチ分類に限定されず、変位、背景雑音（沈黙）または他のタイプのスピーチを分類してもよいことを認識するであろう。
【００２４】
音声スピーチエンコーダ204 は任意の通常の方法、例えばＣＥＬＰまたはプロトタイプの波形補間（ＰＷＩ）により音声スピーチを符号化する。
【００２５】
非音声スピーチエンコーダ206 は以下説明する実施形態にしたがって低ビット速度で非音声スピーチを符号化する。非音声スピーチエンコーダ206 は１実施形態にしたがって図３を参照して詳細に説明されている。
【００２６】
エンコーダ204 またはエンコーダ206 による符号化後、マルチプレクサ208 はデータパケット、スピーチモード、送信のためのその他の符号化されたパラメータを有するパケットビット流を形成する。
【００２７】
図２のＢは現在説明している実施形態で使用してもよい図１（14、20）で示されているデコーダのブロック図である。
【００２８】
デマルチプレクサ210 はパケットビット流を受信し、ビット流からのデータをデマルチプレクスし、データパケット、スピーチモード、その他の符号化されたパラメータを再生する。
【００２９】
デマルチプレクサ210 の出力はスピーチの分類されたモードに基づいてスイッチ211 が対応するモードデコーダ（ 212、224 ）を選択することを可能にするためにスイッチ211 へ入力を与える。当業者はスイッチ211 が音声および非音声スピーチモードに限定されず、変位、背景雑音（沈黙）または他のタイプのスピーチを分類してもよいことを理解するであろう。
【００３０】
音声スピーチデコーダ212 は音声エンコーダ204 の逆動作を行うことにより音声スピーチを復号する。
【００３１】
１実施形態では、非音声スピーチデコーダ214 は図４を参照して詳細に説明されるように低ビット速度で送信された非音声スピーチを復号する。
【００３２】
デコーダ212 またはデコーダ214 による復号後、合成された線形予測残差信号は短時間の予測フィルタ216 により濾波される。短時間の予測フィルタ216 の出力における合成されたスピーチは最終的な出力スピーチを発生するために後置フィルタプロセッサ218 へ送られる。
【００３３】
図３は図２で示されている高性能の低ビット速度の非音声スピーチエンコーダ206 の詳細なブロック図である。図３は非音声エンコーダの１実施形態の装置および動作シーケンスを詳細にしている。
【００３４】
デジタル化されたスピーチサンプルＳ（ｎ）は線形予測コード化（ＬＰＣ）解析装置302 とＬＰＣフィルタ304 へ入力される。ＬＰＣ解析装置302 はデジタル化されたスピーチサンプルの線形予測（ＬＰ）係数を発生する。ＬＰＣフィルタ304 はスピーチ残差信号ｒ（ｎ）を発生し、これは利得計算コンポーネント306 およびスケールされない帯域エネルギ解析装置314 へ入力される。
【００３５】
利得計算コンポーネント306 はデジタル化されたスピーチサンプルの各フレームをサブフレームに分割し、各サブフレームに対して以後利得またはインデックスと呼ばれる１セットのコードブック利得を計算し、その利得をサブグループに分割し、各サブグループの利得を正規化する。スピーチ残差信号ｒ（ｎ），ｎ＝０，…，Ｎ−１はＫ個のサブフレームに区分され、Ｎは１フレーム中の残差サンプル数である。１実施形態ではＫ＝１０、Ｎ＝１６０である。利得Ｇ（ｉ），ｉ＝０，…，Ｋ−１は以下のように各サブフレームで計算される。
【数１】

【００３６】
利得量子化装置308 はＫ利得を量子化し、利得の利得コードブックインデックスは結果的に送信される。量子化は通常の線形またはベクトル量子化方式または任意の変数を使用して行われることができる。１つの実施される方式は多段ベクトル量子化である。
【００３７】
ＬＰＣフィルタ304 から出力された残差信号ｒ（ｎ）はスケールされない帯域エネルギ解析装置314 のローパスフィルタとハイパスフィルタを通過される。エネルギ値ｒ（ｎ）、Ｅ₁ 、Ｅ_lp1 、Ｅ_hp1 は残差信号ｒ（ｎ）に対して計算される。Ｅ₁ は残差信号ｒ（ｎ）のエネルギである。Ｅ_lp1 は残差信号ｒ（ｎ）中のローバンドエネルギである。Ｅ_hp1 は残差信号ｒ（ｎ）中のハイバンドエネルギである。スケールされない帯域エネルギ解析装置314 のローパスフィルタとハイパスフィルタの周波数応答特性は、１実施形態では図７のＡとＢにそれぞれ示されている。エネルギ値Ｅ₁ 、Ｅ_lp1 、Ｅ_hp1 は次式のように計算される。
【数２】

【００３８】
エネルギ値Ｅ₁ 、Ｅ_lp1 、Ｅ_hp1 は最も近いランダム雑音信号がもとの残差信号に似ているため、ランダム雑音信号を処理するため最終的な成形フィルタ316 で成形フィルタを選択するために後に使用される。
【００３９】
ランダム数発生器310 はＬＰＣ解析装置302 により出力されるＫのサブフレームのそれぞれで−１と１の間の均一に分布された１のバリアンスであるランダム数を発生する。ランダム数セレクタ312 は各サブフレーム中の大多数の低振幅ランダム数に対して選択する。最高振幅のランダム数の割合は各サブフレームで維持される。１実施形態では、維持されるランダム数の割合は２５％である。
【００４０】
ランダム数セレクタ312 からの各サブフレームのランダム数出力はその後、利得量子化装置308 から出力されたサブフレームのそれぞれの量子化された利得により、乗算器307 によって乗算される。乗算器307 のスケールされたランダム信号出力＾ｒ₁ （ｎ）はその後、知覚濾波により処理される。
【００４１】
知覚品質を強化し、量子化された非音声スピーチの自然度を維持するため、２ステップの知覚濾波プロセスがスケールされたランダム信号＾ｒ₁ （ｎ）で行われる。
【００４２】
知覚濾波プロセスの第１のステップでは、スケールされたランダム信号＾ｒ₁ （ｎ）は知覚フィルタ318 の２つの固定フィルタを通過される。知覚フィルタ318 の第１の固定フィルタは信号＾ｒ₂ （ｎ）を発生するためローエンドおよびハイエンド周波数を＾ｒ₁ （ｎ）から除去するバンドパスフィルタ320 である。バンドパスフィルタ320 の周波数応答特性は、１実施形態では図８のＡに示されている。知覚フィルタ318 の第２の固定フィルタは前置成形フィルタ322 である。エレメント320 により計算された信号＾ｒ₂ （ｎ）は信号＾ｒ₃ （ｎ）を生成するために前置成形フィルタ322 を通過される。前置成形フィルタ322 の周波数応答特性は１実施形態では図８のＢに示されている。
【００４３】
エレメント320 により計算された信号＾ｒ₂ （ｎ）とエレメント322 により計算された信号＾ｒ₃ （ｎ）は次式のように計算される。
【数３】

【００４４】
信号＾ｒ₂ （ｎ）と＾ｒ₃ （ｎ）のエネルギはＥ₂ とＥ₃ としてそれぞれ計算される。Ｅ₂ とＥ₃ は次式のように計算される。
【数４】

【００４５】
知覚濾波プロセスの第２のステップでは、前置成形フィルタ322 から出力された信号＾ｒ₃ （ｎ）はＥ₁ とＥ₃ に基づいて、ＬＰＣフィルタ304 から出力されたもとの残差信号ｒ（ｎ）と同一のエネルギを有するようにスケールされる。
【００４６】
スケールされた帯域エネルギの解析装置324 では、エレメント（322 ）により計算されるスケールされ濾波されたランダム信号＾ｒ₃ （ｎ）は、スケールされない帯域エネルギ解析装置314 によりもとの残差信号ｒ（ｎ）について先に行われた同一の帯域エネルギ解析を受ける。
【００４７】
エレメント322 により計算される信号＾ｒ₃ （ｎ）は次式で計算される。
【数５】

【００４８】
＾ｒ₃ （ｎ）のローパス帯域エネルギはＥ_lp2 として示され、＾ｒ₃ （ｎ）のハイパス帯域エネルギはＥ_hp2 として示される。＾ｒ₃ （ｎ）の高帯域および低帯域のエネルギは最終的な成形フィルタ316 で使用されるために次の成形フィルタを決定するためにｒ（ｎ）の高帯域および低帯域エネルギと比較される。ｒ（ｎ）と＾ｒ₃ （ｎ）との比較に基づいて、さらに濾波はされないか、２つの固定成形フィルタの一方がｒ（ｎ）と＾ｒ₃ （ｎ）の間での最も近い一致を生成するために選択される。最終的なフィルタ成形（または付加的な濾波なし）はもとの信号の帯域エネルギとランダム信号中の帯域エネルギとの比較により決定される。
【００４９】
もとの信号の低帯域エネルギとスケールされた予め濾波されたランダム信号の低帯域エネルギとの比Ｒ_ｌは次式のように計算される。
Ｒ_ｌ＝１０＊ｌｏｇ₁₀（Ｅ_lp1 ／Ｅ_lp2 ）
もとの信号の高帯域エネルギとスケールされた予め濾波されたランダム信号の高帯域エネルギとの比Ｒ_h は次式のように計算される。
Ｒ_h ＝１０＊ｌｏｇ₁₀（Ｅ_hp1 ／Ｅ_hp2 ）
比Ｒ_ｌが−３よりも小さいならば、ハイパスの最終的な成形フィルタ（フィルタ２）は＾ｒ（ｎ）を生成するためにさらに＾ｒ₃ （ｎ）を処理するために使用される。
【００５０】
比Ｒ_h が−３よりも小さいならば、ローパスの最終的な成形フィルタ（フィルタ３）は＾ｒ（ｎ）を生成するためにさらに＾ｒ₃ （ｎ）を処理するために使用される。
【００５１】
そうでなければ、＾ｒ₃ （ｎ）の更なる処理は行われず、それによって＾ｒ（ｎ）＝＾ｒ₃ （ｎ）である。
【００５２】
最終的な成形フィルタ316 からの出力は量子化されたランダム残差信号＾ｒ（ｎ）である。信号＾ｒ（ｎ）は＾ｒ₂ （ｎ）と同一のエネルギを有するようにスケールされる。
【００５３】
最終的なハイパス成形フィルタ（フィルタ２）の周波数応答特性は図９のＡで示されている。最終的なローパス成形フィルタ（フィルタ３）の周波数応答は図９のＢで示されている。
【００５４】
フィルタ選択インジケータは最終的な濾波のために選択されたフィルタ（フィルタ２、フィルタ３、またはフィルタなし）を示すために生成される。フィルタ選択インジケータは次にデコーダが最終的な濾波を複製できるように送信される。１実施形態では、フィルタ選択インジケータは２つのビットからなる。
【００５５】
図４は図２で示されている高性能の低ビット速度の非音声スピーチデコーダ214 の詳細なブロック図である。図４は非音声スピーチデコーダの１実施形態の装置および動作シーケンスを詳細にしている。非音声スピーチデコーダは非音声のデータパケットを受信し、図２で示されている非音声スピーチエンコーダ206 の逆の動作を行うことによりデータパケットから非音声スピーチを合成する。
【００５６】
非音声データパケットは利得逆量子化装置406 へ入力される。利得逆量子化装置406 は図３で示されている非音声エンコーダ中の利得量子化装置308 の逆の動作を行う。利得逆量子化装置406 の出力はＫ個の量子化された非音声利得である。
【００５７】
ランダム数発生器402 とランダム数セレクタ404 は図３の非音声エンコーダのランダム数発生器310 とランダム数セレクタ312 と正確に同じ動作を行う。
【００５８】
ランダム数セレクタ404 からの各サブフレームのランダム数出力はその後、利得逆量子化装置406 から出力されたサブフレームのそれぞれの量子化された利得により乗算器405 によって乗算される。乗算器405 のスケールされたランダム信号出力＾ｒ₁ （ｎ）はその後、知覚フィルタの濾波により処理される。
【００５９】
図３の非音声エンコーダの知覚フィルタ濾波プロセスと同一の２ステップの知覚フィルタ濾波プロセスが行われる。知覚フィルタ408 は図３の非音声エンコーダの知覚フィルタ318 と正確に同一の動作を行う。ランダム信号＾ｒ₁ （ｎ）は知覚フィルタ408 の２つの固定フィルタを通過する。バンドパスフィルタ407 と前置成形フィルタ409 は図３の非音声エンコーダの知覚フィルタ318 で使用されるバンドパスフィルタ320 と前置成形フィルタ322 と正確に同一である。バンドパスフィルタ407 と前置成形フィルタ409 後の出力はそれぞれ＾ｒ₂ （ｎ）、＾ｒ₃ （ｎ）として示される。信号＾ｒ₂ （ｎ）と＾ｒ₃ （ｎ）は図３の非音声エンコーダのときのように計算される。
【００６０】
信号＾ｒ₃ （ｎ）は最終的な成形フィルタ410 で濾波される。最終的な成形フィルタ410 は図３の非音声エンコーダの最終的な成形フィルタ316 と同じである。図３の非音声エンコーダで発生されるフィルタ選択インジケータにより決定されるように、最終的なハイパス成形、最終的なローパス成形が最終的な成形フィルタ410 により実行されるか、またはこれ以上の最終的なフィルタ処理は行われず、デコーダ214 でデータビットパケットで受信される。最終的な成形フィルタ410 から出力された量子化された残差信号は＾ｒ₂ （ｎ）と同一のエネルギを有するようにスケールされる。
【００６１】
量子化されたランダム信号＾ｒ（ｎ）は合成されたスピーチ信号＾Ｓ（ｎ）を発生するためＬＰＣ合成フィルタ412 により濾波される。
【００６２】
それに続く後置フィルタ414 は最終的な出力スピーチを発生するため合成されたスピーチ信号＾Ｓ（ｎ）に適用されることができる。
【００６３】
図５は非音声スピーチ用の高性能の低ビット速度のコード化技術の符号化ステップを示しているフローチャートである。
【００６４】
ステップ502 で、非音声スピーチエンコーダ（図示せず）には非音声のデジタル化されたスピーチサンプルのデータフレームが与えられる。新しいフレームは２０ミリ秒毎に与えられる。非音声スピーチが毎秒８キロビットの速度でサンプルされる１実施形態では、１フレームは１６０サンプルを含んでいる。制御フローはステップ504 に進む。
【００６５】
ステップ504 で、データフレームはＬＰＣフィルタにより濾波され、残差信号フレームを発生する。制御フローはステップ506 へ進む。
【００６６】
ステップ506 −516 は利得計算および残差信号フレームの量子化の方法ステップを記載している。
【００６７】
残差信号フレームはステップ506 でサブフレームに分割される。１実施形態では、各フレームはそれぞれ１６のサンプルの１０のサブフレームに分割される。制御フローはステップ508 へ進む。
【００６８】
ステップ508 で、利得は各サブフレームに対して計算される。１実施形態では、１０のサブフレーム利得が計算される。制御フローはステップ510 へ進む。
【００６９】
ステップ510 で、サブフレーム利得はサブグループに分割される。１実施形態では、１０のサブフレーム利得はそれぞれ５のサブフレームの２つのサブグループに分割される。制御フローはステップ512 へ進む。
【００７０】
ステップ512 で、各サブグループの正規化係数を生成するために各サブグループの利得は正規化される。１実施形態では、２つの正規化係数がそれぞれ５の利得の２つのサブグループに対して生成される。制御フローはステップ514 へ進む。
【００７１】
ステップ514 で、ステップ512 で生成される正規化係数はログドメインまたは指数関数形態に変換され、その後量子化される。１実施形態では、ここでは後にインデックス１として参照される量子化された正規化係数が生成される。制御フローはステップ516 へ進む。
【００７２】
ステップ516 で、ステップ512 で生成された各サブグループの正規化された利得は量子化される。１実施形態では、２つのサブグループはここでは以後インデックス２とインデックス３として呼ばれる２つの量子化された利得値を生成するために量子化される。制御フローはステップ518 へ進む。
【００７３】
ステップ518 −520 は、ランダム量子化された非音声スピーチ信号を発生する方法ステップを記載している。
【００７４】
ステップ518 で、ランダム雑音信号が各サブフレームに対して発生される。発生される最高振幅のランダム数の予め定められた割合がサブフレーム毎に選択される。選択されない数はゼロにされる。１実施形態では、選択されるランダム数の割合は２５％である。制御フローはステップ520 へ進む。
【００７５】
ステップ520 で、選択されたランダム数はステップ516 で発生された各サブフレームの量子化された利得によりスケールされる。制御フローはステップ522 へ進む。
【００７６】
ステップ522 −528 はランダム信号の知覚フィルタ処理の方法ステップを記載している。ステップ522 −528 の知覚フィルタ処理は知覚品質を強化し、ランダム量子化された非音声スピーチ信号の自然度を維持する。
【００７７】
ステップ522 で、ランダム量子化された非音声スピーチ信号は高および低エンドコンポーネントを除去するためにバンドパスフィルタで濾波される。制御フローはステップ524 へ進む。
【００７８】
ステップ524 で、固定した前置成形フィルタがランダム量子化された非音声スピーチ信号に適用される。制御フローはステップ526 へ進む。
【００７９】
ステップ526 で、ランダム信号ともとの残差信号の低および高帯域エネルギが解析される。制御フローはステップ528 へ進む。
【００８０】
ステップ528 で、ランダム信号の濾波がさらに必要であるか否かを決定するためもとの残差信号のエネルギ解析はランダム信号のエネルギ解析と比較される。解析に基づいて、フィルタが選択されないか、または２つの予め定められた最終的なフィルタの一方がさらにランダム信号を濾波するために選択される。２つの予め定められた最終的なフィルタは最終的なハイパス成形フィルタと最終的なローパス成形フィルタである。フィルタ選択指示メッセージが適用された最終的なフィルタ（またはフィルタのないこと）をデコーダに指示するために発生される。１実施形態では、フィルタ選択指示メッセージは２ビットである。制御フローはステップ530 へ進む。
【００８１】
ステップ530 で、ステップ514 で発生された量子化された正規化係数のインデックスと、ステップ516 で生成された量子化されたサブグループ利得のインデックスと、ステップ528 で生成されたフィルタ選択指示メッセージが送信される。１実施形態では、インデックス１、インデックス２、インデックス３、２ビットの最終的なフィルタ選択指示が送信される。量子化されたＬＰＣパラメータインデックスを送信するのに必要なビットを含み、１実施形態のビット速度は毎秒２キロビットである（ＬＰＣパラメータの量子化は説明する実施形態の技術的範囲内ではない）。
【００８２】
図６は非音声スピーチ用の高性能の低ビット速度のコード化技術の復号ステップを示しているフローチャートである。
【００８３】
ステップ602 で、正規化係数インデックス、量子化されたサブグループ利得インデックス、最終的なフィルタ選択インジケータは非音声スピーチの１フレームで受信される。１実施形態では、インデックス１、インデックス２、インデックス３および２ビットのフィルタ選択指示が受信される。制御フローはステップ604 へ進む。
【００８４】
ステップ604 で、正規化係数は正規化係数インデックスを使用して検索表から再生される。正規化係数はログドメインまたは指数関数形態から線形ドメインに変換される。制御フローはステップ606 へ進む。
【００８５】
ステップ606 で、利得は利得インデックスを使用して検索表から再生される。再生された利得はもとのフレームの各サブグループの量子化された利得を再生するため、再生された正規化係数によりスケールされる。制御フローはステップ608 へ進む。
【００８６】
ステップ608 で、ランダム雑音信号は符号化と正確に同様に各サブフレームに対して発生される。発生された最高振幅のランダム数の予め定められた割合はサブフレーム毎に選択される。選択されない数はゼロにされる。１実施形態では、選択されるランダム数の割合は２５％である。制御フローはステップ610 へ進む。
【００８７】
ステップ610 で、選択されたランダム数はステップ606 で再生された各サブフレームの量子化された利得によりスケールされる。
【００８８】
ステップ612 −616 はランダム信号の知覚フィルタ処理の方法ステップを記載している。
【００８９】
ステップ612 で、ランダム量子化された非音声スピーチ信号は高および低エンドコンポーネントを除去するためバンドパスフィルタで濾波される。バンドパスフィルタはコード化で使用されたバンドパスフィルタと同一である。制御フローはステップ614 へ進む。
【００９０】
ステップ614 で、固定前置成形フィルタがランダム量子化された非音声スピーチ信号に適用される。固定前置成形フィルタは符号化で使用される固定前置成形フィルタと同じである。制御フローはステップ616 へ進む。
【００９１】
ステップ616 で、フィルタ選択指示メッセージに基づいて、フィルタが選択されないか、または２つの予め定められたフィルタの一方が最終的な成形フィルタでさらにランダム信号を濾波するために選択される。最終的な成形フィルタの２つの予め定められたフィルタは、エンコーダの最終的なハイパス成形フィルタおよび最終的なローパス成形フィルタと同一の最終的なハイパス成形フィルタ（フィルタ２）および最終的なローパス成形フィルタ（フィルタ３）である。最終的な成形フィルタからの出力の量子化されたランダム信号はバンドパスフィルタの信号出力と同一のエネルギを有するようにスケールされる。量子化されたランダム信号は合成されたスピーチ信号を発生するためＬＰＣ合成フィルタにより濾波される。それに続いて後置フィルタは最終的な復号された出力スピーチを生成するために合成されたスピーチ信号に適用されてもよい。
【００９２】
図７のＡは、エンコーダのＬＰＣフィルタ（304 ）から出力された残差信号ｒ（ｎ）と、エンコーダの前置成形フィルタ（322 ）から出力されたスケールされ濾波されたランダム信号＾ｒ₃ （ｎ）の低帯域エネルギを解析するために使用される帯域エネルギ解析装置（314 、324 ）におけるローパスフィルタの正規化された周波数対振幅周波数応答特性のグラフである。
【００９３】
図７のＢは、エンコーダのＬＰＣフィルタ（304 ）から出力された残差信号ｒ（ｎ）と、エンコーダの前置成形フィルタ（322 ）から出力されたスケールされ濾波されたランダム信号＾ｒ₃ （ｎ）の高帯域エネルギを解析するために使用される帯域エネルギ解析装置（314 、324 ）におけるハイパスフィルタの正規化された周波数対振幅周波数応答特性のグラフである。
【００９４】
図８のＡは、エンコーダとデコーダの乗算器（307 、405 ）から出力されたスケールされたランダム信号＾ｒ₁ （ｎ）を成形するために使用されるバンドパスフィルタ（320 、407 ）における最終的なローバンドパス成形フィルタの正規化された周波数対振幅周波数応答特性のグラフである。
【００９５】
図８のＢは、エンコーダとデコーダのバンドパスフィルタ（320 、407 ）から出力されたスケールされたランダム信号＾ｒ₂ （ｎ）を成形するために使用される前置成形フィルタ（322 、409 ）におけるハイバンドパス成形フィルタの正規化された周波数対振幅周波数応答特性のグラフである。
【００９６】
図９のＡは、エンコーダとデコーダの前置成形フィルタ（322 、409 ）から出力されたスケールされ濾波されたランダム信号＾ｒ₃ （ｎ）を成形するために使用される最終的な成形フィルタ（316 、410 ）における最終的なハイパス成形フィルタの正規化された周波数対振幅周波数応答のグラフである。
【００９７】
図８のＢは、エンコーダとデコーダの前置成形フィルタ（322 、409 ）から出力されたスケールされ濾波されたランダム信号＾ｒ₃ （ｎ）を成形するために使用される最終的な成形フィルタ（316 、410 ）における最終的なローパス成形フィルタの正規化された周波数対振幅周波数応答特性のグラフである。
【００９８】
好ましい実施形態の先の説明は、当業者が開示された実施形態を実行または使用することを可能にするために行われたものである。これらの実施形態に対する種々の変更は当業者に容易に明白であり、ここで限定した一般原理は発明力を使用せずに他の実施形態に応用されてもよい。したがって、開示された実施形態はここで示した実施形態に限定されず、ここで説明した原理および優れた特徴と一貫して最も広い範囲にしたがうことを意図している。
【図面の簡単な説明】
【図１】スピーチコーダにより各エンドで終端する通信チャンネルのブロック図。
【図２】高性能の低ビット速度のスピーチコーダで使用されることができるエンコーダと、高性能の低ビット速度のスピーチコーダで使用されることができるデコーダのブロック図。
【図３】図２のエンコーダ中で使用される高性能の低ビット速度の非音声スピーチエンコーダのブロック図。
【図４】図２のデコーダで使用される高性能の低ビット速度の非音声スピーチデコーダのブロック図。
【図５】非音声スピーチ用の高性能の低ビット速度の符号化ステップを示しているフローチャート。
【図６】非音声スピーチ用の高性能の低ビット速度の復号化ステップを示しているフローチャート。
【図７】帯域エネルギ解析で使用するためのローパスフィルタ処理とハイパスフィルタ処理の周波数応答特性のグラフ。
【図８】知覚フィルタ処理で使用するためのバンドパスフィルタおよび初期成形フィルタの周波数応答特性のグラフ。
【図９】最終的な知覚フィルタ処理で使用されるための１つの成形フィルタおよび別の成形フィルタの周波数応答特性のグラフ。

Claims

残差信号フレームを複数のサブフレームに区分し、
複数のサブフレームのそれぞれに対してコードブック利得を計算することによりサブフレーム利得のグループを生成し、
サブフレーム利得のグループをサブフレーム利得のサブグループに区分し、
複数の正規化係数を生成するためにサブフレーム利得のサブグループを正規化し、複数の正規化係数のそれぞれはサブフレーム利得の正規化されたサブグループの１つに関連されており、
複数の正規化係数のそれぞれを指数関数形態に変換し、変換された複数の正規化係数を量子化し、
複数の量子化されたコードブック利得を生成するためにサブフレーム利得の正規化されたサブグループを量子化し、各コードブック利得は複数のサブグループの１つのコードブック利得インデックスに関連されており、
複数のサブフレームのそれぞれに対してランダム数を有するランダム雑音信号を発生させ、
複数のサブフレームのそれぞれに対するランダム雑音信号の最高の振幅のランダム数の予め定められた割合を選択し、
スケールされたランダム雑音信号を発生するために各サブフレームに対する量子化されたコードブック利得により、選択された最高の振幅のランダム数をスケールし、
スケールされたランダム雑音信号をバンドパスフィルタで濾波し成形し、
エネルギ解析を行うために残差信号フレームのエネルギおよび、スケールされたランダム信号のエネルギを解析し、
エネルギ解析に基づいて第２のフィルタを選択し、さらにスケールされたランダム雑音信号を選択されたフィルタによって成形し、
選択されたフィルタを識別するため第２のフィルタ選択インジケータを生成するスピーチの非音声セグメントの符号化方法。
残差信号フレームの複数のサブフレームへの区分は残差信号フレームを１０個のサブフレームに区分することを含んでいる請求項１記載の方法。
サブフレーム利得のグループのサブグループへの区分は、１０個のサブフレーム利得のグループをそれぞれ５個のサブフレーム利得の２つのグループに区分することを含んでいる請求項１記載の方法。
残差信号フレームは２０ミリ秒の期間中に毎秒８キロヘルツでサンプルされるフレーム当たり１６０個のサンプルを含んでいる請求項１記載の方法。
最高の振幅のランダム数の予め定められた割合は２５％である請求項１記載の方法。
２つの正規化係数はそれぞれ５個のサブフレームコードブック利得の２つのサブグループに対して生成される請求項１記載の方法。
サブフレーム利得の量子化は多段ベクトル量子化を使用して行われる請求項１記載の方法。
残差信号のフレームを複数のサブフレームに区分する手段と、
複数のサブフレームのそれぞれに対してコードブック利得を計算することによりサブフレーム利得のグループを生成する手段と、
サブフレーム利得のグループをサブフレーム利得のサブグループに区分する手段と、
サブフレーム利得の正規化されたサブグループの１つに関連されている複数の正規化係数を生成するためにサブフレーム利得のサブグループを正規化する手段と、
複数の各正規化係数を指数関数形態に変換し、変換された複数の正規化係数を量子化する手段と、
それぞれ複数のサブグループの１つのコードブック利得インデックスに関連されている複数の量子化されたコードブック利得を生成するため、サブフレーム利得の正規化されたサブグループを量子化する手段と、
複数の各サブフレームのそれぞれに対するランダム数を有するランダム雑音信号を発生する手段と、
複数の各サブフレームのランダム雑音信号の最高の振幅のランダム数の予め定められた割合を選択する手段と、
スケールされたランダム雑音信号を発生するために各サブフレームに対する量子化されたコードブック利得により、選択された最高の振幅のランダム数をスケールする手段と、
スケールされたランダム雑音信号をバンドパスフィルタで濾波し、成形する手段と、
エネルギ解析を行うために残差信号フレームのエネルギおよび、スケールされたランダム信号のエネルギを解析する手段と、
エネルギ解析に基づいて第２のフィルタを選択し、さらにスケールされたランダム雑音信号を選択されたフィルタによって成形する手段と、
選択されたフィルタを識別するために第２のフィルタ選択インジケータを生成する手段とを具備しているスピーチの非音声セグメントを符号化するスピーチコーダ。
残差信号フレームを複数のサブフレームに区分する手段は残差信号フレームを１０個のサブフレームに区分する手段を含んでいる請求項８記載のスピーチコーダ。
サブフレーム利得のグループをサブグループに区分する手段は、１０個のサブフレーム利得のグループをそれぞれ５のサブフレーム利得の２つのグループに区分する手段を含んでいる請求項８記載のスピーチコーダ。
最高の振幅のランダム数の予め定められた割合を選択する手段は、最高の振幅のランダム数の２５％を選択する手段を具備している請求項８記載のスピーチコーダ。
サブグループを正規化する手段は、それぞれ５個のサブフレームコードブック利得の２つのサブグループに対して２つの正規化係数を生成する手段を具備している請求項８記載のスピーチコーダ。
サブフレーム利得を量子化する手段は多段ベクトル量子化を行う手段を具備している請求項８記載のスピーチコーダ。
残差信号フレームを複数のサブフレームに区分し、複数のサブフレームのそれぞれに対してコードブック利得を計算することによりサブフレーム利得のグループを生成し、サブフレーム利得のグループをサブフレーム利得のサブグループに区分し、サブフレーム利得の正規化されたサブグループの１つにそれぞれ関連されている複数の正規化係数を生成するためにサブフレーム利得のサブグループを正規化し、複数の正規化係数のそれぞれを指数関数形態に変換するように構成されている利得計算コンポーネントと、
量子化された正規化係数インデックスを生成するために変換された複数の正規化係数を量子化し、複数のサブグループの１つのコードブック利得インデックスにそれぞれ関連されている複数の量子化されたコードブック利得を生成するために、サブフレーム利得の正規化されたサブグループを量子化するように構成されている利得量子化装置と、
複数のサブフレームのそれぞれに対するランダム数を有するランダム雑音信号を発生するように構成されているランダム数発生装置と、
複数のサブフレームのそれぞれに対するランダム雑音信号の最高の振幅のランダム数の予め定められた割合を選択するように構成されているランダム数セレクタと、
スケールされたランダム雑音信号を発生するために各サブフレームに対する量子化されたコードブック利得により、選択された最高の振幅のランダム数をスケールするように構成されている乗算器と、
スケールされたランダム雑音信号からローエンドおよびハイエンド周波数を除去するためのバンドパスフィルタと、
スケールされたランダム雑音信号を知覚濾波するための第１の成形フィルタと、
残差信号のエネルギを解析するように構成されているスケールされていない帯域エネルギ解析装置と、
スケールされたランダム信号のエネルギを解析し、そのエネルギ解析と比較した残差信号のエネルギの相対的なエネルギ解析を行うように構成されているスケールされた帯域エネルギ解析装置と、
相対的なエネルギ解析に基づいて、第２のフィルタを選択し、さらにスケールされたランダム雑音信号を選択されたフィルタにより成形し、選択されたフィルタを識別するための第２のフィルタ選択インジケータを生成するように構成されている第２の成形フィルタとを具備しているスピーチの非音声セグメントを符号化するスピーチコーダ。
バンドパスフィルタと第１の成形フィルタは固定フィルタである請求項１４記載のスピーチコーダ。
第２の成形フィルタは２つの固定成形フィルタを選択的に使用するように構成されている請求項１４記載のスピーチコーダ。
選択されたフィルタを識別するために第２のフィルタ選択インジケータを生成するように構成されている第２の成形フィルタは、さらに２ビットのフィルタ選択インジケータを生成するように構成されている請求項１４記載のスピーチコーダ。
残差信号フレームを複数のサブフレームに区分するように構成された利得計算コンポーネントはさらに残差信号フレームを１０個のサブフレームに区分するように構成されている請求項１４記載のスピーチコーダ。
サブフレーム利得のグループをサブグループに区分するように構成されている利得計算コンポーネントは、さらに１０個のサブフレーム利得のグループをそれぞれ５個のサブフレーム利得の２つのグループに区分するように構成されている請求項１４記載のスピーチコーダ。
最高の振幅のランダム数の予め定められた割合を選択するように構成されているランダム数セレクタはさらに、最高の振幅のランダム数の２５％を選択するように構成されている請求項１４記載のスピーチコーダ。
サブグループを正規化するように構成されている利得計算コンポーネントはさらに、それぞれ５個のサブフレームコードブック利得の２つのサブグループに対して２つの正規化係数を生成するように構成されている請求項１４記載のスピーチコーダ。
利得量子化装置は多段ベクトル量子化を行うようにさらに構成されている請求項１４記載のスピーチコーダ。
残差信号フレームを、関連するコードブック利得を有するサブフレームに区分するように構成されている利得計算コンポーネントと、
量子化された利得を生成するために利得を量子化するように構成されている利得量子化装置と、
複数のサブフレームのそれぞれに対して、ランダム数を有するランダム雑音信号を発生させるランダム数発生器と、
スケールされたランダム雑音を取得するために、サブフレームに関連する量子化された利得により各サブフレームに関連するランダム数の割合をスケールするように構成されているランダム数セレクタおよび乗算器と、
スケールされたランダム雑音の第１の濾波を行うように構成されている第１の知覚フィルタと、
濾波された雑音と残差信号とを比較するように構成されている帯域エネルギ解析装置と、
前記比較に基づいてランダム雑音の第２の濾波を行い、行われた第２の濾波を識別するために第２のフィルタ選択インジケータを生成するように構成されている第２の成形フィルタとを具備しており、ランダム雑音の第２の濾波を行うように構成されている第２の成形フィルタはさらに２つの固定したフィルタを選択的に使用するように構成されているスピーチの非音声セグメントを符号化するスピーチコーダ。
残差信号フレームを、関連するコードブック利得を有するサブフレームに区分するように構成されている利得計算コンポーネントと、
量子化された利得を生成するために利得を量子化するように構成されている利得量子化装置と、
複数のサブフレームのそれぞれに対して、ランダム数を有するランダム雑音信号を発生させるランダム数発生器と、
スケールされたランダム雑音を取得するために、サブフレームに関連する量子化された利得により各サブフレームに関連するランダム数の割合をスケールするように構成されているランダム数セレクタおよび乗算器と、
スケールされたランダム雑音の第１の濾波を行うように構成されている第１の知覚フィルタと、
濾波された雑音と残差信号とを比較するように構成されている帯域エネルギ解析装置と、
前記比較に基づいてランダム雑音の第２の濾波を行い、行われた第２の濾波を識別するために第２のフィルタ選択インジケータを生成するように構成されている第２の成形フィルタとを具備しており、第２のフィルタ選択インジケータを発生するように構成されている第２の成形フィルタはさらに２ビットフィルタ選択インジケータを発生するように構成されているスピーチの非音声セグメントを復号するスピーチコーダ。
その上に命令を有するコンピュータ読取可能媒体を備えた、スピーチの非音声セグメントの符号化のためのコンピュータプログラム製品において、
命令は、
残差信号フレームを複数のサブフレームに区分するためのコードと、
複数のサブフレームのそれぞれに対してコードブック利得を計算することによりサブフレーム利得のグループを生成するためのコードと、
サブフレーム利得のグループをサブフレーム利得のサブグループに区分するためのコードと、
複数の正規化係数を生成するためにサブフレーム利得のサブグループを正規化するためのコードと、
複数の正規化係数のそれぞれを指数関数形態に変換し、変換された複数の正規化係数を量子化するためのコードと、
複数の量子化されたコードブック利得を生成するためにサブフレーム利得の正規化されたサブグループを量子化するためのコードと、
複数のサブフレームのそれぞれに対してランダム数を有するランダム雑音信号を発生させるためのコードと、
複数のサブフレームのそれぞれに対するランダム雑音信号の最高の振幅のランダム数の予め定められた割合を選択するためのコードと、
スケールされたランダム雑音信号を発生するために各サブフレームに対する量子化されたコードブック利得により、選択された最高の振幅のランダム数をスケールするためのコードと、
スケールされたランダム雑音信号をバンドパスフィルタで濾波し成形するためのコードと、
エネルギ解析を行うために残差信号フレームのエネルギおよび、スケールされたランダム信号のエネルギを解析するためのコードと、
エネルギ解析に基づいて第２のフィルタを選択し、さらにスケールされたランダム雑音信号を選択されたフィルタによって成形するためのコードと、
選択されたフィルタを識別するため第２のフィルタ選択インジケータを生成するためのコードと
を含み、
複数の正規化係数のそれぞれはサブフレーム利得の正規化されたサブグループの１つに関連されており、各コードブック利得は複数のサブグループの１つのコードブック利得インデックスに関連されている、スピーチの非音声セグメントの符号化のためのコンピュータプログラム製品。