JPWO2009038115A1

JPWO2009038115A1 - 音声符号化装置、音声符号化方法及びプログラム

Info

Publication number: JPWO2009038115A1
Application number: JP2009533171A
Authority: JP
Inventors: 一範小澤; 野村　俊之; 俊之野村; 伊藤　博紀; 伊藤　　博紀
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-09-21
Filing date: 2008-09-18
Publication date: 2011-01-06
Also published as: WO2009038115A1

Abstract

高効率の音声符号化方式で携帯端末に対し、音楽やメロディの配信を行う際の音質の劣化を軽減する。音声符号化装置は、出力信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理部１２０と、前記聴覚マスキング整形処理部の出力信号を音声圧縮符号化してビットストリームを出力する音声符号化処理を実行する音声符号化処理部１３０と、を備える（図１）。

Description

［関連出願の記載］
本発明は、日本国特許出願：特願２００７−２４５５４７号（２００７年９月２１日出願）の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
本発明は、音声符号化方式で伝送される音楽信号やメロディ信号等の音質を改善するための音声符号化装置、音声符号化方法及びプログラムに関する。

近年、携帯端末に音楽やメロディを配信するサービスが普及化してきている。例えば、携帯電話で相手に電話したときに相手が出るまでの待ち受け時に、リングバックメロディとして網側に用意した音声処理装置から携帯電話に音楽信号を流したり、音声処理装置から音楽コンテンツを携帯電話に配信するサービス等が挙げられる。

こうしたサービスを実現する場合、再生機器となる携帯端末に搭載されている音声符号化方式（例えば、非特許文献１のＡＭＲ符号化方式）と同一の方式を用いて、音楽信号や音楽コンテンツを予め圧縮符号化したビットストリームで配信することになる。

上記音楽信号や音楽コンテンツを送信した場合の音質の劣化を対象とするものではないが、音質の改善を試みる文献として、特許文献１が挙げられる。特許文献１には、符号化された複数の調波の振幅と位相を入力して復号し、該復号された調波が他の調波により聴覚的にマスキングされる調波である場合にその調波の振幅を抑圧する振幅部分抑圧手段を備えた音声復号化装置が開示されている。なお、同文献には、復号した音声を符号化する構成は開示されていない。

また、特許文献２には、入力音声が非音声信号であるか否かを判別する判別手段と、判別結果により聴感補正フィルタを通過させるか否かを選択する経路選択手段と、を備えた音声符号化装置及び音声復号化装置が開示されている。なお、同文献の非音声信号とは、データ信号のことを指しており、入力信号が非音声（データ信号）である場合に、聴感補正フィルタを経由せず、その他の音声は聴感補正フィルタを経由して出力する構成となっている（段落００３２、００９９参照）。また、同文献にも、復号した音声を符号化する構成は開示されていない。

特開平６−３３２４９６号公報特開平９−５０２９８号公報３ＧＰＰＴＳ２６．０９０ｖ．３．１．０ "ＡＭＲスピーチコーデックトランスコーディングファンクションズ"，１９９９年 "ディジタル・コーディング・オブ・ウェーブフォームス"，プレンティス・ホール，１９９０年（ＤＩＧＩＴＡＬＣＯＤＩＮＧＯＦＷＡＶＥＦＯＲＭＳ，ＰＲＩＮＣＩＰＬＥＳＡＮＤＡＰＰＬＩＣＡＴＩＯＮＳＴＯＳＰＥＥＣＨＡＮＤＶＩＤＥＯ，ＰＲＥＮＴＩＣＥ−ＨＡＬＬ，１９９０．） "マルチレートシステムズ・アンド・フィルタバンクス"，プレンティス・ホール，１９９３年（ＭＵＬＴＩＲＡＴＥＳＹＳＴＥＭＳＡＮＤＦＩＬＴＥＲＢＡＮＫＳ，ＰＲＥＮＴＩＣＥ−ＨＡＬＬ，１９９３．） "サイコアコースティクス"，スプリンガー，１９９９年（ＰＳＹＣＨＯＡＣＯＵＳＴＩＣＳ，ＳＰＲＩＮＧＥＲ，１９９９．） "アイ・イー・イー・イー・インターナショナル・カンファレンス・オン・アクースティック・スピーチ・アンド・シグナル・プロセシング，２５．１．１，９３７〜９４０頁，１９８５年３月（ＩＥＥＥＩＮＴＥＲＮＡＴＩＯＮＡＬＣＯＮＦＥＲＥＮＣＥＯＮＡＣＯＵＳＴＩＣＳ，ＳＰＥＥＣＨ，ＡＮＤＳＩＧＮＡＬＰＲＯＣＥＳＳＩＮＧ，２５．１．１，ＭＡＲ，１９８５，ｐｐ．９３７−９４０）

以上の特許文献１〜２及び非特許文献１〜５の全開示内容は、本書に引用をもって繰り込み記載されているものとする。以下に本発明による関連技術の分析を与える。

上記ＡＭＲ符号化方式等のＣＥＬＰ（ＣｏｄｅＥｘｃｉｔａｔｉｏｎＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）型音声符号化方式は、原理的に通話音声に対して最適化してあり、音声信号を圧縮符号化しても音質の劣化はわずかであるが、音楽信号を圧縮符号化すると音質が大幅に劣化してしまう。このため、これらの音声符号化方式にてメロディや音楽コンテンツを配信すると、携帯端末での再生時に音質が大幅に劣化するという問題点がある。

これは、音声信号に対して最適化された音声符号化方式では、モデル化できない音楽信号の成分が圧縮符号化により雑音となって再生信号に重畳し、この雑音が耳につくためと考えられる。

本発明は、上述した問題点に鑑みてなされたものであって、音声符号化方式で圧縮符号化したビットストリームを配信する必要のある携帯端末に対し、音楽やメロディの配信を行う際の音質の劣化を軽減することができる音声符号化装置、音声符号化方法及びプログラムを提供することにある。

本発明の第１の視点によれば、音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理部と、前記聴覚マスキング整形処理部の出力信号を音声圧縮符号化してビットストリームを出力する音声符号化処理を実行する音声符号化部と、を備える音声符号化装置が提供される。

本発明の第２の視点によれば、音声符号化装置が、入力音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力し、前記音声符号化装置が、前記聴覚的に不要となる信号成分が抑圧された整形信号を音声圧縮符号化してビットストリームを出力する音声符号化方法が提供される。

本発明の第３の視点によれば、音声符号化装置を構成するコンピュータに実行させるプログラムであって、入力音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理と、前記聴覚マスキング整形処理がなされた整形信号を音声圧縮符号化してビットストリームを出力する音声符号化処理と、を前記コンピュータに実行させるプログラムが提供される。

本発明によれば、音声符号化方式で圧縮符号化したビットストリームを配信する必要のある携帯端末に対し、音楽やメロディの配信を行う際の音質の劣化を軽減することができる。その理由は、聴覚的に不要な成分や劣化の原因となる成分を予め除去する構成を採用したことにある。

本発明の第１の実施形態に係る音声符号化装置の構成を示す図である。図１の聴覚マスキング整形処理部の構成例を表したブロック図である。本発明の第２の実施形態に係る音声符号化装置の構成を示す図である。

符号の説明

１００、１４０端子
１２０聴覚マスキング整形処理部
１２２周波数変換部
１２４平滑化部
１２６整形部
１２８周波数逆変換部
１３０音声符号化処理部
２５０＿１、２５０＿２切替部

音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する手段と、聴覚的に不要となる信号成分が抑圧された出力信号を音声圧縮符号化してビットストリームを出力する手段と、を備える音声符号化装置は、以下の形態に展開することができる。

前記聴覚的に不要となる信号成分を抑圧して出力する処理は、復号信号に対し予め定められた時間区間毎に、周波数軸上の高レベルの信号成分（マスカー）の存在により聴覚的に不要となる周波数成分（マスキー）を除去した上で、時間軸上に戻して出力することにより実現できる。

前記聴覚的に不要となる信号成分を抑圧して出力する処理手段は、例えば、入力音声信号より構成したブロックを周波数変換する周波数変換部と、前記周波数変換部の出力信号を平滑化する平滑化部と、前記平滑化部の出力信号をマスキング閾値として用いて、前記周波数変換部の出力信号中の不要な周波数成分を除去する整形部と、前記整形部の出力信号を逆変換して整形された信号を出力する周波数逆変換部と、により構成することができる。

前記マスキング閾値を用いて前記周波数変換部の出力信号中の不要な周波数成分を除去する方法に代え、あるいは、該方法と併用して、周波数軸上の予め定める個数の周波数成分が残るようレベルの低い周波数成分を除去する方法を用いることができる。

また、予め定める帯域の周波数成分を前記除去対象とすることができる。

前記音声符号化装置は、更に、入力音声信号の特徴を分析し、前記聴覚マスキング整形処理部を介した出力を行うか否かを切り替える切替部を備える構成とすることができる。前記切替部は、前記入力音声信号が音楽信号の特徴を有する場合に、前記聴覚的に不要となる信号成分を抑圧してから出力する構成とすることができる。

続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。

［第１の実施形態］
図１は、本発明の第１の実施形態に係る音声符号化装置の構成を示す図である。図１を参照すると、音声符号化装置は、聴覚マスキング整形処理部１２０と、音声符号化処理部１３０と、を備えて構成されている。なお、上記した聴覚マスキング整形処理部１２０、音声符号化処理部１３０は、回路による構成はもちろんとして、コンピュータを上記した各処理部として機能させるプログラムによっても実現することができる。

聴覚マスキング整形処理部１２０は、端子１００から入力される音声信号に対し周波数軸上で聴覚心理分析に基づく処理を行い、聴覚に影響ないと判断される成分を抑圧した上で時間軸上に戻して出力する。

音声符号化処理部１３０は、聴覚マスキング整形処理部１２０の出力信号を入力し、予め定められた時間間隔毎に信号を区切って、音声符号化処理を施し圧縮符号化ビットストリームを端子１４０を通して出力する。音声符号化には、例えば、非特許文献１に記載のＡＭＲ音声符号化を用いることができ、この場合、前述の出力信号の区切り間隔は、２０ｍｓとなる。ここで、非特許文献１の全記載内容は、本書に引用をもって繰込み記載されているものとする。

続いて、図１の聴覚マスキング整形処理部１２０の詳細構成について図２を参照して説明する。

図２を参照すると、本実施形態に係る聴覚マスキング整形処理部１２０は、周波数変換部１２２と、平滑化部１２４と、整形部１２６と、周波数逆変換部１２８とから構成されている。

周波数変換部１２２は、図１の端子１００から入力された音声信号を、周波数軸上の成分に変換して変換信号を生成し、平滑化部１２４と整形部１２６に出力する。

上記変換信号の生成に際して、周波数変換部１２２は、複数の入力信号サンプルをまとめて、１ブロックを構成し、このブロックに対して周波数変換を適用する。周波数変換の例としては、フーリエ変換、コサイン変換、ＫＬ（カルーネンレーベ）変換などを挙げることができる。これらの変換の具体的な演算に関連する技術は、非特許文献２に開示されている。ここで、非特許文献２の全記載内容は、本書に引用をもって繰込み記載されているものとする。

また、上記変換信号の生成に際して、周波数変換部１２２が、１ブロックの入力信号サンプルを窓関数で重み付けする構成も採用可能である。このような窓関数としては、ハミング、ハニング（ハン）、ケイザー、ブラックマンなどの窓関数が知られている。また、さらに複雑な窓関数を用いることもできる。これらの窓関数に関連する技術は、非特許文献３に開示されている。ここで、非特許文献３の全記載内容は、本書に引用をもって繰込み記載されているものとする。

また、上記周波数変換部１２２が入力信号サンプルから１ブロックを構成する際に、各ブロックに重なり（オーバラップ）が生ずるようにすることもできる。例えば、ブロック長の５０％のオーバラップを適用する場合には、あるブロックに属する信号サンプルの最後（後半）５０％は、次のブロックに属する信号サンプルの最初（前半）５０％となるように、複数のブロックで重複して用いられる。このオーバラップを有するブロック化と変換に関連する技術は、非特許文献３に開示されている。

さらに、上記した周波数変換部１２２を、複数の帯域通過フィルタから構成され、受信した入力信号を複数の周波数帯域に分割する帯域分割フィルタバンクで構成してもよい。。帯域分割フィルタバンクの各周波数帯域は等間隔であってもよいし、不等間隔であってもよい。不等間隔に帯域分割する場合、低域では狭帯域に分割して時間分解能を低く、高域では広い帯域に分割して時間分解能を高くすることができる。不等間隔分割の代表例には、低域に向かって帯域が逐次半分になるオクターブ分割や人間の聴覚特性に対応した臨界帯域分割などがある。帯域分割フィルタバンクとその設計法に関連する技術は、非特許文献３に開示されている。

平滑化部１２４は、上記した周波数変換部１２２より入力された変換信号を平滑化し、整形部１２６に平滑化変換信号を出力する。平滑化の方法としては、非特許文献４に開示されている聴覚マスキング効果を利用する方法を挙げることができる。例えば、ある周波数成分が近傍の周波数成分をマスキングする関数を用いて、変換信号を周波数軸上で畳み込みすることにより、平滑化変換信号を生成することができる。ここで、非特許文献４の全記載内容は、本書に引用をもって繰込み記載されているものとする。

また、簡易的な平滑化方法として、次式［数１］により、Ｓ２（ｎ）を算出し、Ｓ２（ｎ）のエネルギレベルを下げた信号を平滑化信号としても良い。ここで、ｍａｘ（ｘ，ｙ）はｘとｙの大きい方を表す。Ｅ（ｎ）は変換信号のエネルギであり、Ｎはブロックサイズである。

[数１]
Ｓ１（０）＝Ｅ（０）
Ｓ１（ｎ）＝ｍａｘ（Ｅ（ｎ），ａ×Ｓ１（ｎ−１））（ｎ＝１，…，Ｎ−１）
Ｓ２（Ｎ−１）＝Ｓ１（Ｎ−１）
Ｓ２（ｎ）＝ｍａｘ（Ｓ１（ｎ），ｂ×Ｓ２（ｎ＋１））（ｎ＝Ｎ−２，…，０）

このように算出した平滑化変換信号は、元の変換信号のエネルギレベルを平滑化したものとなり、マスキング閾値として使用することができる。即ち、このマスキング閾値よりもエネルギレベルの小さな周波数成分は聴覚上認知されないものとして除去対象となる。

整形部１２６は、平滑化部１２４から入力された平滑化変換信号を用いて、変換信号を整形する。より具体的には、整形部１２６は、平滑化変換信号よりもエネルギレベルが小さな周波数成分を除去することにより、変換信号を整形する。

このとき、整形部１２６は、平滑化変換信号に対する変換信号のエネルギレベル比が大きなものから順に、予め定めた個数の周波数成分のみを残し、他の周波数成分を除去することにより変換信号を整形するようにしても良い。更に、整形部１２６が、帯域制限として、低域のみ、高域のみ、あるいは低域と高域の両方を除去するようにしても良い。

周波数逆変換部１２８は、整形された変換信号を逆変換して整形信号を生成し、整形信号を聴覚マスキング整形処理部１２０の出力信号として出力する。周波数逆変換部１２８において実行される逆変換は、周波数変換部１２２が適用する変換と対応する逆変換が選択されることが望ましい。例えば、周波数変換部１２２が、複数の入力信号サンプルをまとめて１ブロックを構成し、このブロックに対して周波数変換を適用するときには、周波数逆変換部１２８は同一数のサンプルに対して対応する逆変換を適用する。また、周波数変換部１２２が複数の入力信号サンプルから１ブロックを構成する際に、各ブロックに重なり（オーバラップ）を許容する場合には、これに対応して、周波数逆変換部１２８は逆変換後の信号に対して同一のオーバラップを適用する。さらに、周波数変換部１２２を帯域分割フィルタバンクで構成するときには、周波数逆変換部１２８を帯域合成フィルタバンクで構成する。帯域合成フィルタバンクとその設計法に関連する技術は、非特許文献３に開示されている。

このようにして生成された整形信号は、上述のように平滑化部１２４と整形部１２６により、マスキング効果等の聴覚特性を利用し、聴覚上認知されない信号成分を除去した（聴覚的に不要な成分が除去された）後、時間軸上に戻された信号となる。

したがって、聴覚マスキング整形処理部１２０における聴覚マスキング整形処理を、ＡＭＲ符号化方式などに代表されるＣＥＬＰ型分析合成符号化（詳細は非特許文献５で開示されている。非特許文献５の全記載内容は、本書に引用をもって繰込み記載されているものとする。）の前処理として利用した場合、聴覚的に不要な成分が除去された整形信号を分析することにより、線形予測係数やピッチ周期などのパラメータが安定し、復号後の信号の音質が向上する効果が得られる。

［第２の実施形態］
続いて、上記本発明の第１の実施形態に変更を加えた本発明の第２の実施形態について説明する。

図３は、本発明の第２の実施形態に係る音声符号化装置の構成を示すブロック図である。図３において、図１及び図２と同一の番号を付した構成要素は、図１及び図２と同一の動作を行うので、説明は省略する。

図３において、切替部２５０＿１は、端子１００から入力された音声信号を予め定められた時間間隔に区切って種々の特徴パラメータを抽出し、得られた特徴パラメータに基づいて、聴覚マスキング整形処理を施した方がよいかどうかを判別する。例えば、切替部２５０＿１は、特徴パラメータの値を組み合わせて判断した結果、音楽性が強い（音楽信号の特徴を有する。）と判断した場合は、聴覚マスキング整形処理部１２０に、端子１００から入力された音声信号を出力する。

一方、特徴パラメータの値を組み合わせて判断した結果、音声性が強い（音楽性が弱い。）と判断した場合は、切替部２５０＿１は、切替部２５０＿２に端子１００から入力された音声信号を出力する。ここで、切替部２５０＿２は、切替部２５０＿１と同期して切り替え動作を行う。

以上のとおり、本実施形態によれば、音楽系の信号を的確に捉えて、聴覚マスキング整形処理部１２０に、端子１００から入力された音声信号を入力させることが可能となり、携帯端末での音質の劣化を更に軽減することができる。また、本実施形態によれば、音声性が強い音声信号が聴覚マスキング整形処理部１２０に入力されることを考慮する必要がなくなるため、聴覚マスキング整形処理部１２０における処理を、より効率のよいものとすることが可能となる。

以上、本発明の好適な実施形態を説明したが、本発明は、上記した各実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。

以上、本発明の好適な実施形態を説明したが、本発明は、上記した各実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。
［付記１−国際出願時請求項１１］
入力音声信号より構成したブロックを周波数変換し、
前記周波数変換した信号を平滑化し、
前記平滑化した信号をマスキング閾値として用いて、前記周波数変換した信号から不要な周波数成分を除去し、
前記不要な周波数成分を除去した信号を逆変換することにより、前記聴覚的に不要となる信号成分を抑圧する請求項９又は１０に記載の音声符号化方法。
［付記２−国際出願時請求項１２］
周波数軸上の予め定める個数の周波数成分が残るよう周波数成分を除去することにより前記聴覚的に不要となる信号成分を抑圧する請求項９乃至１１いずれか一に記載の音声符号化方法。
［付記３−国際出願時請求項１３］
予め定める帯域の周波数成分を除去することにより前記聴覚的に不要となる信号成分を抑圧する請求項９乃至１２いずれか一に記載の音声符号化方法。
［付記４−国際出願時請求項１４］
入力音声信号の特徴を分析し、前記聴覚的に不要となる信号成分を抑圧するか否かを判定してから、前記聴覚的に不要となる信号成分を抑圧する請求項９乃至１３いずれか一に記載の音声符号化方法。
［付記５−国際出願時請求項１５］
前記入力音声信号が音楽信号の特徴を有する場合に、前記聴覚的に不要となる信号成分を抑圧する請求項１４に記載の音声符号化方法。
［付記６−国際出願時請求項１６］
音声符号化装置を構成するコンピュータに実行させるプログラムであって、
入力音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理と、
前記聴覚マスキング整形処理がなされた整形信号を音声圧縮符号化してビットストリームを出力する音声符号化処理と、を前記コンピュータに実行させるプログラム。

Claims

音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理部と、
前記聴覚マスキング整形処理部の出力信号を音声圧縮符号化してビットストリームを出力する音声符号化処理を実行する音声符号化部と、
を備えることを特徴とする音声符号化装置。
前記聴覚マスキング整形処理部は、予め定められた時間区間毎に、周波数軸上で聴覚的に不要な周波数成分を除去した上で時間軸上に戻して出力する請求項１に記載の音声符号化装置。
前記聴覚マスキング整形処理部は、
入力音声信号より構成したブロックを周波数変換する周波数変換部と、
前記周波数変換部の出力信号を平滑化する平滑化部と、
前記平滑化部の出力信号をマスキング閾値として用いて、前記周波数変換部の出力信号中の不要な周波数成分を除去する整形部と、
前記整形部の出力信号を逆変換して整形された信号を出力する周波数逆変換部と、を含むこと、を特徴とする請求項１又は２に記載の音声符号化装置。
前記聴覚マスキング整形処理部は、周波数軸上の予め定める個数の周波数成分が残るよう周波数成分を除去する請求項１乃至３いずれか一に記載の音声符号化装置。
前記聴覚マスキング整形処理部は、予め定める帯域の周波数成分を除去する請求項１乃至４いずれか一に記載の音声符号化装置。
更に、
入力音声信号の特徴を分析し、前記聴覚マスキング整形処理部を介した出力を行うか否かを切り替える切替部を備える請求項１乃至５いずれか一に記載の音声符号化装置。
前記切替部は、前記入力音声信号が音楽信号の特徴を有する場合に、前記聴覚マスキング整形処理部への出力を選択する請求項６に記載の音声符号化装置。
携帯電話端末に対して音楽信号を配信する音声処理装置として機能する請求項１乃至６いずれか一に記載の音声符号化装置。
入力音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力し、
前記聴覚的に不要となる信号成分が抑圧された整形信号を音声圧縮符号化してビットストリームを出力すること、
を特徴とする音声符号化方法。
予め定められた時間区間毎に、周波数軸上で聴覚的に不要な周波数成分を除去した上で時間軸上に戻して出力することにより、前記聴覚的に不要となる信号成分を抑圧する請求項９に記載の音声符号化方法。
入力音声信号より構成したブロックを周波数変換し、
前記周波数変換した信号を平滑化し、
前記平滑化した信号をマスキング閾値として用いて、前記周波数変換した信号から不要な周波数成分を除去し、
前記不要な周波数成分を除去した信号を逆変換することにより、前記聴覚的に不要となる信号成分を抑圧する請求項９又は１０に記載の音声符号化方法。
周波数軸上の予め定める個数の周波数成分が残るよう周波数成分を除去することにより前記聴覚的に不要となる信号成分を抑圧する請求項９乃至１１いずれか一に記載の音声符号化方法。
予め定める帯域の周波数成分を除去することにより前記聴覚的に不要となる信号成分を抑圧する請求項９乃至１２いずれか一に記載の音声符号化方法。
入力音声信号の特徴を分析し、前記聴覚的に不要となる信号成分を抑圧するか否かを判定してから、前記聴覚的に不要となる信号成分を抑圧する請求項９乃至１３いずれか一に記載の音声符号化方法。
前記入力音声信号が音楽信号の特徴を有する場合に、前記聴覚的に不要となる信号成分を抑圧する請求項１４に記載の音声符号化方法。
音声符号化装置を構成するコンピュータに実行させるプログラムであって、
入力音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理と、
前記聴覚マスキング整形処理がなされた整形信号を音声圧縮符号化してビットストリームを出力する音声符号化処理と、を前記コンピュータに実行させるプログラム。