[go: up one dir, main page]

JPWO2009038115A1 - 音声符号化装置、音声符号化方法及びプログラム - Google Patents

音声符号化装置、音声符号化方法及びプログラム Download PDF

Info

Publication number
JPWO2009038115A1
JPWO2009038115A1 JP2009533171A JP2009533171A JPWO2009038115A1 JP WO2009038115 A1 JPWO2009038115 A1 JP WO2009038115A1 JP 2009533171 A JP2009533171 A JP 2009533171A JP 2009533171 A JP2009533171 A JP 2009533171A JP WO2009038115 A1 JPWO2009038115 A1 JP WO2009038115A1
Authority
JP
Japan
Prior art keywords
signal
frequency
speech
unnecessary
auditory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009533171A
Other languages
English (en)
Inventor
一範 小澤
一範 小澤
野村 俊之
俊之 野村
伊藤 博紀
伊藤  博紀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2009038115A1 publication Critical patent/JPWO2009038115A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

高効率の音声符号化方式で携帯端末に対し、音楽やメロディの配信を行う際の音質の劣化を軽減する。音声符号化装置は、出力信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理部120と、前記聴覚マスキング整形処理部の出力信号を音声圧縮符号化してビットストリームを出力する音声符号化処理を実行する音声符号化処理部130と、を備える(図1)。

Description

[関連出願の記載]
本発明は、日本国特許出願:特願2007−245547号(2007年9月21日出願)の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
本発明は、音声符号化方式で伝送される音楽信号やメロディ信号等の音質を改善するための音声符号化装置、音声符号化方法及びプログラムに関する。
近年、携帯端末に音楽やメロディを配信するサービスが普及化してきている。例えば、携帯電話で相手に電話したときに相手が出るまでの待ち受け時に、リングバックメロディとして網側に用意した音声処理装置から携帯電話に音楽信号を流したり、音声処理装置から音楽コンテンツを携帯電話に配信するサービス等が挙げられる。
こうしたサービスを実現する場合、再生機器となる携帯端末に搭載されている音声符号化方式(例えば、非特許文献1のAMR符号化方式)と同一の方式を用いて、音楽信号や音楽コンテンツを予め圧縮符号化したビットストリームで配信することになる。
上記音楽信号や音楽コンテンツを送信した場合の音質の劣化を対象とするものではないが、音質の改善を試みる文献として、特許文献1が挙げられる。特許文献1には、符号化された複数の調波の振幅と位相を入力して復号し、該復号された調波が他の調波により聴覚的にマスキングされる調波である場合にその調波の振幅を抑圧する振幅部分抑圧手段を備えた音声復号化装置が開示されている。なお、同文献には、復号した音声を符号化する構成は開示されていない。
また、特許文献2には、入力音声が非音声信号であるか否かを判別する判別手段と、判別結果により聴感補正フィルタを通過させるか否かを選択する経路選択手段と、を備えた音声符号化装置及び音声復号化装置が開示されている。なお、同文献の非音声信号とは、データ信号のことを指しており、入力信号が非音声(データ信号)である場合に、聴感補正フィルタを経由せず、その他の音声は聴感補正フィルタを経由して出力する構成となっている(段落0032、0099参照)。また、同文献にも、復号した音声を符号化する構成は開示されていない。
特開平6−332496号公報 特開平9−50298号公報 3GPP TS 26.090 v.3.1.0 "AMRスピーチコーデックトランスコーディングファンクションズ",1999年 "ディジタル・コーディング・オブ・ウェーブフォームス",プレンティス・ホール,1990年(DIGITAL CODING OF WAVEFORMS, PRINCIPLES AND APPLICATIONS TO SPEECH AND VIDEO, PRENTICE−HALL,1990.) "マルチレートシステムズ・アンド・フィルタバンクス",プレンティス・ホール,1993年(MULTIRATE SYSTEMS AND FILTER BANKS, PRENTICE−HALL,1993.) "サイコアコースティクス",スプリンガー,1999年(PSYCHOACOUSTICS,SPRINGER,1999.) "アイ・イー・イー・イー・インターナショナル・カンファレンス・オン・アクースティック・スピーチ・アンド・シグナル・プロセシング,25.1.1,937〜940頁,1985年3月(IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 25.1.1, MAR, 1985, pp.937−940)
以上の特許文献1〜2及び非特許文献1〜5の全開示内容は、本書に引用をもって繰り込み記載されているものとする。以下に本発明による関連技術の分析を与える。
上記AMR符号化方式等のCELP(Code Excitation Linear Prediction)型音声符号化方式は、原理的に通話音声に対して最適化してあり、音声信号を圧縮符号化しても音質の劣化はわずかであるが、音楽信号を圧縮符号化すると音質が大幅に劣化してしまう。このため、これらの音声符号化方式にてメロディや音楽コンテンツを配信すると、携帯端末での再生時に音質が大幅に劣化するという問題点がある。
これは、音声信号に対して最適化された音声符号化方式では、モデル化できない音楽信号の成分が圧縮符号化により雑音となって再生信号に重畳し、この雑音が耳につくためと考えられる。
本発明は、上述した問題点に鑑みてなされたものであって、音声符号化方式で圧縮符号化したビットストリームを配信する必要のある携帯端末に対し、音楽やメロディの配信を行う際の音質の劣化を軽減することができる音声符号化装置、音声符号化方法及びプログラムを提供することにある。
本発明の第1の視点によれば、音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理部と、前記聴覚マスキング整形処理部の出力信号を音声圧縮符号化してビットストリームを出力する音声符号化処理を実行する音声符号化部と、を備える音声符号化装置が提供される。
本発明の第2の視点によれば、音声符号化装置が、入力音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力し、前記音声符号化装置が、前記聴覚的に不要となる信号成分が抑圧された整形信号を音声圧縮符号化してビットストリームを出力する音声符号化方法が提供される。
本発明の第3の視点によれば、音声符号化装置を構成するコンピュータに実行させるプログラムであって、入力音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理と、前記聴覚マスキング整形処理がなされた整形信号を音声圧縮符号化してビットストリームを出力する音声符号化処理と、を前記コンピュータに実行させるプログラムが提供される。
本発明によれば、音声符号化方式で圧縮符号化したビットストリームを配信する必要のある携帯端末に対し、音楽やメロディの配信を行う際の音質の劣化を軽減することができる。その理由は、聴覚的に不要な成分や劣化の原因となる成分を予め除去する構成を採用したことにある。
本発明の第1の実施形態に係る音声符号化装置の構成を示す図である。 図1の聴覚マスキング整形処理部の構成例を表したブロック図である。 本発明の第2の実施形態に係る音声符号化装置の構成を示す図である。
符号の説明
100、140 端子
120 聴覚マスキング整形処理部
122 周波数変換部
124 平滑化部
126 整形部
128 周波数逆変換部
130 音声符号化処理部
250_1、250_2 切替部
音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する手段と、聴覚的に不要となる信号成分が抑圧された出力信号を音声圧縮符号化してビットストリームを出力する手段と、を備える音声符号化装置は、以下の形態に展開することができる。
前記聴覚的に不要となる信号成分を抑圧して出力する処理は、復号信号に対し予め定められた時間区間毎に、周波数軸上の高レベルの信号成分(マスカー)の存在により聴覚的に不要となる周波数成分(マスキー)を除去した上で、時間軸上に戻して出力することにより実現できる。
前記聴覚的に不要となる信号成分を抑圧して出力する処理手段は、例えば、入力音声信号より構成したブロックを周波数変換する周波数変換部と、前記周波数変換部の出力信号を平滑化する平滑化部と、前記平滑化部の出力信号をマスキング閾値として用いて、前記周波数変換部の出力信号中の不要な周波数成分を除去する整形部と、前記整形部の出力信号を逆変換して整形された信号を出力する周波数逆変換部と、により構成することができる。
前記マスキング閾値を用いて前記周波数変換部の出力信号中の不要な周波数成分を除去する方法に代え、あるいは、該方法と併用して、周波数軸上の予め定める個数の周波数成分が残るようレベルの低い周波数成分を除去する方法を用いることができる。
また、予め定める帯域の周波数成分を前記除去対象とすることができる。
前記音声符号化装置は、更に、入力音声信号の特徴を分析し、前記聴覚マスキング整形処理部を介した出力を行うか否かを切り替える切替部を備える構成とすることができる。 前記切替部は、前記入力音声信号が音楽信号の特徴を有する場合に、前記聴覚的に不要となる信号成分を抑圧してから出力する構成とすることができる。
続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
[第1の実施形態]
図1は、本発明の第1の実施形態に係る音声符号化装置の構成を示す図である。図1を参照すると、音声符号化装置は、聴覚マスキング整形処理部120と、音声符号化処理部130と、を備えて構成されている。なお、上記した聴覚マスキング整形処理部120、音声符号化処理部130は、回路による構成はもちろんとして、コンピュータを上記した各処理部として機能させるプログラムによっても実現することができる。
聴覚マスキング整形処理部120は、端子100から入力される音声信号に対し周波数軸上で聴覚心理分析に基づく処理を行い、聴覚に影響ないと判断される成分を抑圧した上で時間軸上に戻して出力する。
音声符号化処理部130は、聴覚マスキング整形処理部120の出力信号を入力し、予め定められた時間間隔毎に信号を区切って、音声符号化処理を施し圧縮符号化ビットストリームを端子140を通して出力する。音声符号化には、例えば、非特許文献1に記載のAMR音声符号化を用いることができ、この場合、前述の出力信号の区切り間隔は、20msとなる。ここで、非特許文献1の全記載内容は、本書に引用をもって繰込み記載されているものとする。
続いて、図1の聴覚マスキング整形処理部120の詳細構成について図2を参照して説明する。
図2を参照すると、本実施形態に係る聴覚マスキング整形処理部120は、周波数変換部122と、平滑化部124と、整形部126と、周波数逆変換部128とから構成されている。
周波数変換部122は、図1の端子100から入力された音声信号を、周波数軸上の成分に変換して変換信号を生成し、平滑化部124と整形部126に出力する。
上記変換信号の生成に際して、周波数変換部122は、複数の入力信号サンプルをまとめて、1ブロックを構成し、このブロックに対して周波数変換を適用する。周波数変換の例としては、フーリエ変換、コサイン変換、KL(カルーネンレーベ)変換などを挙げることができる。これらの変換の具体的な演算に関連する技術は、非特許文献2に開示されている。ここで、非特許文献2の全記載内容は、本書に引用をもって繰込み記載されているものとする。
また、上記変換信号の生成に際して、周波数変換部122が、1ブロックの入力信号サンプルを窓関数で重み付けする構成も採用可能である。このような窓関数としては、ハミング、ハニング(ハン)、ケイザー、ブラックマンなどの窓関数が知られている。また、さらに複雑な窓関数を用いることもできる。これらの窓関数に関連する技術は、非特許文献3に開示されている。ここで、非特許文献3の全記載内容は、本書に引用をもって繰込み記載されているものとする。
また、上記周波数変換部122が入力信号サンプルから1ブロックを構成する際に、各ブロックに重なり(オーバラップ)が生ずるようにすることもできる。例えば、ブロック長の50%のオーバラップを適用する場合には、あるブロックに属する信号サンプルの最後(後半)50%は、次のブロックに属する信号サンプルの最初(前半)50%となるように、複数のブロックで重複して用いられる。このオーバラップを有するブロック化と変換に関連する技術は、非特許文献3に開示されている。
さらに、上記した周波数変換部122を、複数の帯域通過フィルタから構成され、受信した入力信号を複数の周波数帯域に分割する帯域分割フィルタバンクで構成してもよい。。帯域分割フィルタバンクの各周波数帯域は等間隔であってもよいし、不等間隔であってもよい。不等間隔に帯域分割する場合、低域では狭帯域に分割して時間分解能を低く、高域では広い帯域に分割して時間分解能を高くすることができる。不等間隔分割の代表例には、低域に向かって帯域が逐次半分になるオクターブ分割や人間の聴覚特性に対応した臨界帯域分割などがある。帯域分割フィルタバンクとその設計法に関連する技術は、非特許文献3に開示されている。
平滑化部124は、上記した周波数変換部122より入力された変換信号を平滑化し、整形部126に平滑化変換信号を出力する。平滑化の方法としては、非特許文献4に開示されている聴覚マスキング効果を利用する方法を挙げることができる。例えば、ある周波数成分が近傍の周波数成分をマスキングする関数を用いて、変換信号を周波数軸上で畳み込みすることにより、平滑化変換信号を生成することができる。ここで、非特許文献4の全記載内容は、本書に引用をもって繰込み記載されているものとする。
また、簡易的な平滑化方法として、次式[数1]により、S2(n)を算出し、S2(n)のエネルギレベルを下げた信号を平滑化信号としても良い。ここで、max(x,y)はxとyの大きい方を表す。E(n)は変換信号のエネルギであり、Nはブロックサイズである。
[数1]
S1(0)=E(0)
S1(n)=max(E(n),a×S1(n−1)) (n=1,…,N−1)
S2(N−1)=S1(N−1)
S2(n)=max(S1(n),b×S2(n+1)) (n=N−2,…,0)
このように算出した平滑化変換信号は、元の変換信号のエネルギレベルを平滑化したものとなり、マスキング閾値として使用することができる。即ち、このマスキング閾値よりもエネルギレベルの小さな周波数成分は聴覚上認知されないものとして除去対象となる。
整形部126は、平滑化部124から入力された平滑化変換信号を用いて、変換信号を整形する。より具体的には、整形部126は、平滑化変換信号よりもエネルギレベルが小さな周波数成分を除去することにより、変換信号を整形する。
このとき、整形部126は、平滑化変換信号に対する変換信号のエネルギレベル比が大きなものから順に、予め定めた個数の周波数成分のみを残し、他の周波数成分を除去することにより変換信号を整形するようにしても良い。更に、整形部126が、帯域制限として、低域のみ、高域のみ、あるいは低域と高域の両方を除去するようにしても良い。
周波数逆変換部128は、整形された変換信号を逆変換して整形信号を生成し、整形信号を聴覚マスキング整形処理部120の出力信号として出力する。周波数逆変換部128において実行される逆変換は、周波数変換部122が適用する変換と対応する逆変換が選択されることが望ましい。例えば、周波数変換部122が、複数の入力信号サンプルをまとめて1ブロックを構成し、このブロックに対して周波数変換を適用するときには、周波数逆変換部128は同一数のサンプルに対して対応する逆変換を適用する。また、周波数変換部122が複数の入力信号サンプルから1ブロックを構成する際に、各ブロックに重なり(オーバラップ)を許容する場合には、これに対応して、周波数逆変換部128は逆変換後の信号に対して同一のオーバラップを適用する。さらに、周波数変換部122を帯域分割フィルタバンクで構成するときには、周波数逆変換部128を帯域合成フィルタバンクで構成する。帯域合成フィルタバンクとその設計法に関連する技術は、非特許文献3に開示されている。
このようにして生成された整形信号は、上述のように平滑化部124と整形部126により、マスキング効果等の聴覚特性を利用し、聴覚上認知されない信号成分を除去した(聴覚的に不要な成分が除去された)後、時間軸上に戻された信号となる。
したがって、聴覚マスキング整形処理部120における聴覚マスキング整形処理を、AMR符号化方式などに代表されるCELP型分析合成符号化(詳細は非特許文献5で開示されている。非特許文献5の全記載内容は、本書に引用をもって繰込み記載されているものとする。)の前処理として利用した場合、聴覚的に不要な成分が除去された整形信号を分析することにより、線形予測係数やピッチ周期などのパラメータが安定し、復号後の信号の音質が向上する効果が得られる。
[第2の実施形態]
続いて、上記本発明の第1の実施形態に変更を加えた本発明の第2の実施形態について説明する。
図3は、本発明の第2の実施形態に係る音声符号化装置の構成を示すブロック図である。図3において、図1及び図2と同一の番号を付した構成要素は、図1及び図2と同一の動作を行うので、説明は省略する。
図3において、切替部250_1は、端子100から入力された音声信号を予め定められた時間間隔に区切って種々の特徴パラメータを抽出し、得られた特徴パラメータに基づいて、聴覚マスキング整形処理を施した方がよいかどうかを判別する。例えば、切替部250_1は、特徴パラメータの値を組み合わせて判断した結果、音楽性が強い(音楽信号の特徴を有する。)と判断した場合は、聴覚マスキング整形処理部120に、端子100から入力された音声信号を出力する。
一方、特徴パラメータの値を組み合わせて判断した結果、音声性が強い(音楽性が弱い。)と判断した場合は、切替部250_1は、切替部250_2に端子100から入力された音声信号を出力する。ここで、切替部250_2は、切替部250_1と同期して切り替え動作を行う。
以上のとおり、本実施形態によれば、音楽系の信号を的確に捉えて、聴覚マスキング整形処理部120に、端子100から入力された音声信号を入力させることが可能となり、携帯端末での音質の劣化を更に軽減することができる。また、本実施形態によれば、音声性が強い音声信号が聴覚マスキング整形処理部120に入力されることを考慮する必要がなくなるため、聴覚マスキング整形処理部120における処理を、より効率のよいものとすることが可能となる。
以上、本発明の好適な実施形態を説明したが、本発明は、上記した各実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。
以上、本発明の好適な実施形態を説明したが、本発明は、上記した各実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。
[付記1−国際出願時請求項11]
入力音声信号より構成したブロックを周波数変換し、
前記周波数変換した信号を平滑化し、
前記平滑化した信号をマスキング閾値として用いて、前記周波数変換した信号から不要な周波数成分を除去し、
前記不要な周波数成分を除去した信号を逆変換することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9又は10に記載の音声符号化方法。
[付記2−国際出願時請求項12]
周波数軸上の予め定める個数の周波数成分が残るよう周波数成分を除去することにより前記聴覚的に不要となる信号成分を抑圧する請求項9乃至11いずれか一に記載の音声符号化方法。
[付記3−国際出願時請求項13]
予め定める帯域の周波数成分を除去することにより前記聴覚的に不要となる信号成分を抑圧する請求項9乃至12いずれか一に記載の音声符号化方法。
[付記4−国際出願時請求項14]
入力音声信号の特徴を分析し、前記聴覚的に不要となる信号成分を抑圧するか否かを判定してから、前記聴覚的に不要となる信号成分を抑圧する請求項9乃至13いずれか一に記載の音声符号化方法。
[付記5−国際出願時請求項15]
前記入力音声信号が音楽信号の特徴を有する場合に、前記聴覚的に不要となる信号成分を抑圧する請求項14に記載の音声符号化方法。
[付記6−国際出願時請求項16]
音声符号化装置を構成するコンピュータに実行させるプログラムであって、
入力音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理と、
前記聴覚マスキング整形処理がなされた整形信号を音声圧縮符号化してビットストリームを出力する音声符号化処理と、を前記コンピュータに実行させるプログラム。

Claims (16)

  1. 音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理部と、
    前記聴覚マスキング整形処理部の出力信号を音声圧縮符号化してビットストリームを出力する音声符号化処理を実行する音声符号化部と、
    を備えることを特徴とする音声符号化装置。
  2. 前記聴覚マスキング整形処理部は、予め定められた時間区間毎に、周波数軸上で聴覚的に不要な周波数成分を除去した上で時間軸上に戻して出力する請求項1に記載の音声符号化装置。
  3. 前記聴覚マスキング整形処理部は、
    入力音声信号より構成したブロックを周波数変換する周波数変換部と、
    前記周波数変換部の出力信号を平滑化する平滑化部と、
    前記平滑化部の出力信号をマスキング閾値として用いて、前記周波数変換部の出力信号中の不要な周波数成分を除去する整形部と、
    前記整形部の出力信号を逆変換して整形された信号を出力する周波数逆変換部と、を含むこと、を特徴とする請求項1又は2に記載の音声符号化装置。
  4. 前記聴覚マスキング整形処理部は、周波数軸上の予め定める個数の周波数成分が残るよう周波数成分を除去する請求項1乃至3いずれか一に記載の音声符号化装置。
  5. 前記聴覚マスキング整形処理部は、予め定める帯域の周波数成分を除去する請求項1乃至4いずれか一に記載の音声符号化装置。
  6. 更に、
    入力音声信号の特徴を分析し、前記聴覚マスキング整形処理部を介した出力を行うか否かを切り替える切替部を備える請求項1乃至5いずれか一に記載の音声符号化装置。
  7. 前記切替部は、前記入力音声信号が音楽信号の特徴を有する場合に、前記聴覚マスキング整形処理部への出力を選択する請求項6に記載の音声符号化装置。
  8. 携帯電話端末に対して音楽信号を配信する音声処理装置として機能する請求項1乃至6いずれか一に記載の音声符号化装置。
  9. 入力音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力し、
    前記聴覚的に不要となる信号成分が抑圧された整形信号を音声圧縮符号化してビットストリームを出力すること、
    を特徴とする音声符号化方法。
  10. 予め定められた時間区間毎に、周波数軸上で聴覚的に不要な周波数成分を除去した上で時間軸上に戻して出力することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9に記載の音声符号化方法。
  11. 入力音声信号より構成したブロックを周波数変換し、
    前記周波数変換した信号を平滑化し、
    前記平滑化した信号をマスキング閾値として用いて、前記周波数変換した信号から不要な周波数成分を除去し、
    前記不要な周波数成分を除去した信号を逆変換することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9又は10に記載の音声符号化方法。
  12. 周波数軸上の予め定める個数の周波数成分が残るよう周波数成分を除去することにより前記聴覚的に不要となる信号成分を抑圧する請求項9乃至11いずれか一に記載の音声符号化方法。
  13. 予め定める帯域の周波数成分を除去することにより前記聴覚的に不要となる信号成分を抑圧する請求項9乃至12いずれか一に記載の音声符号化方法。
  14. 入力音声信号の特徴を分析し、前記聴覚的に不要となる信号成分を抑圧するか否かを判定してから、前記聴覚的に不要となる信号成分を抑圧する請求項9乃至13いずれか一に記載の音声符号化方法。
  15. 前記入力音声信号が音楽信号の特徴を有する場合に、前記聴覚的に不要となる信号成分を抑圧する請求項14に記載の音声符号化方法。
  16. 音声符号化装置を構成するコンピュータに実行させるプログラムであって、
    入力音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理と、
    前記聴覚マスキング整形処理がなされた整形信号を音声圧縮符号化してビットストリームを出力する音声符号化処理と、を前記コンピュータに実行させるプログラム。
JP2009533171A 2007-09-21 2008-09-18 音声符号化装置、音声符号化方法及びプログラム Pending JPWO2009038115A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007245547 2007-09-21
JP2007245547 2007-09-21
PCT/JP2008/066828 WO2009038115A1 (ja) 2007-09-21 2008-09-18 音声符号化装置、音声符号化方法及びプログラム

Publications (1)

Publication Number Publication Date
JPWO2009038115A1 true JPWO2009038115A1 (ja) 2011-01-06

Family

ID=40467925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009533171A Pending JPWO2009038115A1 (ja) 2007-09-21 2008-09-18 音声符号化装置、音声符号化方法及びプログラム

Country Status (2)

Country Link
JP (1) JPWO2009038115A1 (ja)
WO (1) WO2009038115A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332496A (ja) * 1993-05-21 1994-12-02 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
JPH07221650A (ja) * 1994-02-05 1995-08-18 Sony Corp 情報符号化方法及び装置並びに情報復号化方法及び装置
JPH0950298A (ja) * 1995-08-07 1997-02-18 Mitsubishi Electric Corp 音声符号化装置及び音声復号化装置
JP2000315099A (ja) * 1999-03-02 2000-11-14 Emudasu Systems:Kk データ圧縮装置及び音データ処理方法
WO2004090869A1 (ja) * 2003-04-08 2004-10-21 Nec Corporation 符号変換方法及び装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
CA2566368A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332496A (ja) * 1993-05-21 1994-12-02 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
JPH07221650A (ja) * 1994-02-05 1995-08-18 Sony Corp 情報符号化方法及び装置並びに情報復号化方法及び装置
JPH0950298A (ja) * 1995-08-07 1997-02-18 Mitsubishi Electric Corp 音声符号化装置及び音声復号化装置
JP2000315099A (ja) * 1999-03-02 2000-11-14 Emudasu Systems:Kk データ圧縮装置及び音データ処理方法
WO2004090869A1 (ja) * 2003-04-08 2004-10-21 Nec Corporation 符号変換方法及び装置

Also Published As

Publication number Publication date
WO2009038115A1 (ja) 2009-03-26

Similar Documents

Publication Publication Date Title
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
JP6546256B2 (ja) フレームエラー隠匿方法及びその装置
CN101512639B (zh) 用于语音/音频发送器和接收器的方法和设备
KR100427753B1 (ko) 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치
US9406307B2 (en) Method and apparatus for polyphonic audio signal prediction in coding and networking systems
KR20160018497A (ko) 음향 신호의 대역폭 확장을 행하는 장치 및 방법
JP3881946B2 (ja) 音響符号化装置及び音響符号化方法
JP2009530685A (ja) Mdct係数を使用する音声後処理
US9830920B2 (en) Method and apparatus for polyphonic audio signal prediction in coding and networking systems
JP2008026914A (ja) 忠実度最適化可変フレーム長符号化
JP2009116332A (ja) 信号処理方法、処理装置および音声復号器
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
JPWO2009131066A1 (ja) 信号分析制御及び信号制御のシステム、装置、方法及びプログラム
CN101044553B (zh) 可扩展编码装置、可扩展解码装置及其方法
KR20070085532A (ko) 스테레오 부호화 장치, 스테레오 복호 장치 및 그 방법
KR20060036724A (ko) 오디오 신호 부호화 및 복호화 방법 및 그 장치
JP3472279B2 (ja) 音声符号化パラメータ符号化方法及び装置
JP2008164823A (ja) オーディオデータ処理装置
KR102630922B1 (ko) 서브밴드 병합 및 시간 도메인 에일리어싱 감소를 사용하는 적응형 비-균일 시간/주파수 타일링을 갖는 지각 오디오 코딩
JP4373693B2 (ja) 音響信号の階層符号化方法および階層復号化方法
JPWO2009038115A1 (ja) 音声符号化装置、音声符号化方法及びプログラム
JPWO2009038170A1 (ja) 音声処理装置、音声処理方法、プログラム及び音楽・メロディ配信システム
JPWO2009038158A1 (ja) 音声復号装置、音声復号方法、プログラム及び携帯端末
JP3472974B2 (ja) 音響信号符号化方法および音響信号復号化方法
JP5295380B2 (ja) 符号化装置、復号化装置およびこれらの方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120731