KR20040051369A - Method and apparatus for encoding/decoding audio data with scalability - Google Patents
Method and apparatus for encoding/decoding audio data with scalability Download PDFInfo
- Publication number
- KR20040051369A KR20040051369A KR1020020079290A KR20020079290A KR20040051369A KR 20040051369 A KR20040051369 A KR 20040051369A KR 1020020079290 A KR1020020079290 A KR 1020020079290A KR 20020079290 A KR20020079290 A KR 20020079290A KR 20040051369 A KR20040051369 A KR 20040051369A
- Authority
- KR
- South Korea
- Prior art keywords
- layer
- symbol
- encoding
- information
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
- 
        - G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
 
- 
        - G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
 
- 
        - H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B14/00—Transmission systems not characterised by the medium used for transmission
- H04B14/02—Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation
- H04B14/04—Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation using pulse code modulation
 
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
본 발명은 오디오 데이터의 부호화 및 복호화에 관한 것으로, 보다 상세하게는 오디오 데이터를 비트율 조절가능하도록 부호화하는 방법, 복호화하는 방법, 그 부호화 장치 및 복호화 장치에 관한 것이다.The present invention relates to encoding and decoding of audio data, and more particularly, to a method of encoding, decoding, a coding apparatus and a decoding apparatus for encoding audio data so that bit rate can be adjusted.
최근 디지털 신호처리 기술의 발달에 의해 오디오 신호는 디지털 데이터로 저장되고 재생되는 경우가 대부분이다. 디지털 오디오 저장/재생 장치는 아날로그 오디오 신호를 샘플링하고 양자화하여 디지탈 신호인 PCM(Pulse Code Modulation) 오디오 데이터로 변환하여 CD, DVD와 같은 정보저장매체에 저장해둔 다음 사용자가 필요로 할 때 이를 재생해서 들을 수 있도록 해준다. 디지탈 방식에 의한 오디오 신호의 저장/복원 방식은 LP(Long-Play Record), 마그네틱 테이프와 같은 아날로그 저장/복원 방식에 비해 음질을 크게 향상시켰고 저장 기간에 따른 열화 현상을 현저히 감소시켰으나 디지털 데이터의 크기가 적지 않아 저장 및 전송이 원할하지 못한 문제점이 있었다.With the recent development of digital signal processing technology, audio signals are mostly stored and reproduced as digital data. Digital audio storage / playback equipment samples and quantizes analog audio signals, converts them to digital signal pulse code modulation (PCM) audio data, stores them on information storage media such as CDs and DVDs, and then plays them back when needed. Allows you to listen. Digital signal storage / restoration method improves sound quality significantly compared to analog storage / restoration methods such as LP (Long-Play Record) and magnetic tape, and significantly reduces deterioration due to storage period. There was a problem that the storage and transmission is not so small.
이와 같은 문제점을 해결하기 위해, 디지털 오디오 신호의 크기를 줄이기 위한 다양한 압축 방식이 사용되고 있다. ISO (International Standard Organization)에 의해 표준화 작업이 이루어진 MPEG/audio(Moving Pictures Expert Group)나 Dolby사에 의해 개발된 AC-2/AC-3는 인간의 심리음향 모델(Psychoacoustic Model)을 이용하여 데이터의 양을 줄이는 방법을 채용하였고그 결과 신호의 특성에 관계없이 효율적으로 데이터의 양을 줄일 수 있었다. 즉, MPEG/audio 표준이나 AC-2/AC-3 방식은 이전의 디지털 부호화 방식에 비해 1/6 내지 1/8로 줄어든 64 Kbps - 384 Kbps 비트율만으로 CD의 음질과 거의 같은 정도의 음질을 제공한다.In order to solve this problem, various compression schemes have been used to reduce the size of digital audio signals. AC-2 / AC-3, developed by the Moving Pictures Expert Group (MPEG / audio) or Dolby, which has been standardized by the ISO (International Standard Organization), uses the human psychoacoustic model to The method of reducing the amount was adopted, and as a result, the amount of data could be efficiently reduced regardless of the signal characteristics. In other words, the MPEG / audio standard or the AC-2 / AC-3 system provides sound quality almost identical to that of a CD with only 64 Kbps-384 Kbps bit rate, which is reduced by 1/6 to 1/8 compared to previous digital coding methods. do.
그러나, 이들 방법은 모두 고정된 비트율에 대해 최적의 상태를 찾아 양자화 과정과 부호화 과정을 거치는 방식을 따르므로, 네트워크를 통해 전송할 때 네트워크 상황이 좋지 않아 전송 대역폭이 낮아지면 끊김이 발생하며 사용자에게 더 이상의 서비스를 제공할 수 없게 되는 문제점이 있다. 또한, 제한된 저장 용량을 가지고 있는 이동식 기기에 적합하도록 좀 더 작은 크기의 비트스트림으로 변환하고자 할 때 크기를 줄이기 위해서는 재부호화 과정을 거쳐야 하므로 많은 계산량이 요구된다.However, all of these methods follow the quantization process and the encoding process to find the optimal state for a fixed bit rate. There is a problem that can not provide the above services. In addition, when a bitstream of a smaller size is converted to be suitable for a mobile device having limited storage capacity, a large amount of computation is required because a recoding process is required to reduce the size.
이에, 본 출원인은 비트 분할 산술 부호화(BSAC, Bit-Sliced Arithmetic Coding) 기법을 사용하여 비트율 조절이 가능한 오디오 부호화/복호화 방법 및 장치를 1997년 11월 19일자 대한민국 특허출원 제97-61298호로 출원하여 2000년 4월 17일자 등록특허 제261253호로 등록받았다. BSAC에 따르면, 높은 비트율로 부호화된 비트스트림을 낮은 비트율의 비트스트림으로 만들 수도 있고 그 중 일부의 비트스트림만을 가지고도 복원이 가능하므로 네트워크에 과부화가 걸리거나 복호화기의 성능이 좋지 않거나 또는 사용자가 낮은 비트율을 요구하면 비트스트림의 일부만을 가지고도 - 비트율이 낮아진 만큼 성능의 열화를 보이겠지만 - 사용자에게 어느 정도의 음질로 서비스를 제공할 수 있다.Accordingly, the present applicant has filed an audio encoding / decoding method and apparatus for bit rate control using Bit-Sliced Arithmetic Coding (BSAC) as Korean Patent Application No. 97-61298 filed on November 19, 1997. On April 17, 2000, it was registered as a registered patent 262653. According to BSAC, high bit rate coded bitstreams can be made into low bit rate bitstreams, and even some of the bitstreams can be recovered, resulting in network overload, poor decoder performance, or If a low bit rate is required, even if only a portion of the bitstream is degraded as the bit rate is lowered, the service can be provided to a user with a certain sound quality.
그러나 BSAC는 산술 부호화(arithmetic coding)를 채용하고 있음으로 인해 complexity가 높아 실제로 장치에 구현할 때 비용이 증가하는 단점이 있다. 또한, BSAC는 오디오 신호를 변환함에 있어 MDCT(Modified Discrete Cosine Transform)를 사용함에 따라 낮은 계층에서 음질의 열화가 보다 심해지는 문제점이 있다.However, BSAC uses arithmetic coding, which has a high complexity, which increases the cost of realizing the device. In addition, BSAC has a problem in that sound quality is worsened at a lower layer by using Modified Discrete Cosine Transform (MDCT) in converting an audio signal.
따라서, 본 발명의 목적은 FGS(Fine Grain Scalability)를 제공하면서도 complexity가 보다 낮은 비트율 조절가능한 오디오 부호화 방법, 복호화 방법, 그 부호화 장치 및 복호화 장치를 제공하는 것이다.Accordingly, an object of the present invention is to provide an audio coding method, a decoding method, a coding apparatus, and a decoding apparatus, which provide fine grain scalability (FGS) and have a lower complexity.
본 발명의 다른 목적은 FGS(Fine Grain Scalability)를 제공하면서도 낮은 계층에서도 보다 양호한 음질을 제공할 수 있는 비트율 조절가능한 오디오 부호화 방법, 복호화 방법, 그 부호화 장치 및 복호화 장치를 제공하는 것이다.Another object of the present invention is to provide a bit rate adjustable audio encoding method, a decoding method, an encoding device, and a decoding device, which can provide fine grain scalability (FGS) while providing better sound quality even at a lower layer.
도 1은 본 발명의 바람직한 실시예에 따른 부호화 장치의 블럭도,1 is a block diagram of an encoding apparatus according to a preferred embodiment of the present invention;
도 2는 본 발명의 바람직한 실시예에 따른 복호화 장치의 블럭도,2 is a block diagram of a decoding apparatus according to a preferred embodiment of the present invention;
도 3은 본 발명에 따라 비트율을 조절할 수 있도록 계층 구조로 부호화된 비트스트림을 구성하는 프레임의 구조도,3 is a structural diagram of a frame constituting a bitstream encoded in a hierarchical structure to adjust a bit rate according to the present invention;
도 4는 부가 정보의 상세 구조도,4 is a detailed structural diagram of additional information;
도 5는 본 발명에 따른 부호화 방식을 개략적으로 설명하기 위한 참고도,5 is a reference diagram schematically illustrating a coding scheme according to the present invention;
도 6은 본 발명에 따른 부호화 방식을 보다 구체적으로 설명하기 위한 참고도,6 is a reference diagram for explaining the encoding scheme according to the present invention in more detail.
도 7은 본 발명의 바람직한 실시예에 따른 부호화 방법을 설명하기 위한 플로우챠트,7 is a flowchart for explaining an encoding method according to an embodiment of the present invention;
도 8은 본 발명의 바람직한 실시예에 따른 복호화 방법을 설명하기 위한 플로우챠트,8 is a flowchart illustrating a decoding method according to a preferred embodiment of the present invention;
도 9는 본 발명의 바람직한 실시예에 따른 복호화 방법을 설명하기 위한 플로우챠트이다.9 is a flowchart for explaining a decoding method according to a preferred embodiment of the present invention.
상기 목적은 본 발명에 따라, 오디오 데이터를 비트율 조절이 가능하도록 부호화하는 방법에 있어서, 오디오 데이터를 비트율 조절이 가능하도록 부호화하는 방법에 있어서, (c) 첫번째 계층에 해당하는 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 부호화하는 단계; (f) 상기 첫번째 계층에 해당하는 복수개의 양자화 샘플을 상기 코딩 모델 정보를 참조하여 최상위 비트들을 포함하는 심벌에서부터 최하위 비트들을 포함하는 심벌의 순서로 심벌 단위로 부호화하는 단계; 및 (g) 미리 결정된 복수개의 계층에 대한 부호화가 완료될 때까지 매 회 상기 계층 앞에 부가된 서수를 1 씩 증가시키면서 상기 (c)단계 내지 (g)단계를 반복 수행하는 단계를 포함하는 것을 특징으로 하는 부호화 방법에 의해 달성된다.According to an aspect of the present invention, there is provided a method of encoding audio data to enable bit rate adjustment, the method of encoding audio data to enable bit rate adjustment, comprising: (c) a scale factor information and a coding model corresponding to a first layer Encoding additional information including the information; (f) encoding the plurality of quantization samples corresponding to the first layer in symbol units from the symbol including the most significant bits to the symbol including the least significant bits with reference to the coding model information; And (g) repeating steps (c) to (g) while increasing the ordinal number added in front of the layer by one each time until encoding of a plurality of predetermined layers is completed. This is achieved by the coding method.
또한, 상기 목적은 (a) 복수개의 계층에 상응하도록 오디오 데이터를 분할하는 단계; (b) 상기 복수개의 계층에 각각 상응하는 스케일 밴드 정보 및 코딩 밴드 정보를 얻는 단계; (c) 첫번째 계층에 상응하는 스케일 밴드 정보 및 코딩 밴드 정보에 따른 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 부호화하는 단계; (d) 상기 첫번째 계층에 해당하는 오디오 데이터를 대응하는 스케일 팩터 정보를 참조하여 양자화하여 양자화 샘플을 얻는 단계; (f) 얻어진 복수개의 양자화 샘플을 상기 코딩 모델 정보를 참조하여 최상위 비트들로 구성된 심벌에서부터 최하위 비트들로 구성된 심벌의 순서로 심벌 단위로 부호화하는 단계; 및 (g) 상기 복수개의 계층에 대한 부호화가 완료될 때까지 매 회 상기 계층 앞에 부가된 서수를 1 씩 증가시키면서 상기 (c)단계 내지 (f)단계를 반복하여 계층 구조를 갖도록 패킹하는 단계를 포함하는 것을 특징으로 하는 부호화 방법에 의해서도 달성된다.The object may also include (a) dividing audio data to correspond to a plurality of layers; (b) obtaining scale band information and coding band information corresponding to each of the plurality of layers; (c) encoding additional information including scale band information corresponding to the first layer and scale factor information and coding model information according to the coding band information; (d) quantizing audio data corresponding to the first layer by referring to corresponding scale factor information to obtain a quantized sample; (f) encoding the obtained plurality of quantized samples in symbol units in the order of a symbol consisting of the most significant bits and a symbol consisting of the least significant bits with reference to the coding model information; And (g) repeating steps (c) to (f) and packing to have a hierarchical structure by increasing the ordinal number added in front of the layer by one each time until the encoding of the plurality of layers is completed. It is also achieved by a coding method characterized in that it includes.
상기 (f)단계 이전에 (e) 상기 복수개의 계층에 대해 각각 사용가능한 비트 범위를 구하는 단계를 포함하고, 상기 (f)단계는 부호화된 비트 수를 카운트하여, 카운트된 비트 수가 대응하는 비트 범위를 초과하면 부호화를 중지하며, 할당된 양자화 샘플을 전부 부호화한 이후에도 카운트된 비트 수가 대응하는 비트 범위보다 작으면 하위 계층에서 부호화하지 못하고 남은 비트를 상기 비트 범위가 허용하는 만큼 부호화하는 단계를 포함하는 것이 바람직하다.Before step (f), (e) calculating a usable bit range for each of the plurality of layers, and step (f) includes counting the number of coded bits and corresponding bit ranges. If the number of bits is less than the corresponding bit range even after all the allocated quantized samples have been encoded, encoding the remaining bits that are not encoded by the lower layer as much as the bit range permits. It is preferable.
상기 (a)단계는 (a1) 오디오 데이터를 웨이블릿 변환하는 단계; 및 (a2) 웨이블릿 변환된 오디오 데이터를 컷-오프 주파수를 참조하여 상기 복수개의 계층에상응하도록 분할하는 단계를 포함하는 것이 바람직하다.Step (a) comprises: (a1) wavelet transforming the audio data; And (a2) dividing the wavelet transformed audio data to correspond to the plurality of layers with reference to a cut-off frequency.
상기 (c)단계는 상기 스케일 팩터 정보와 코딩 모델 정보는 차분 부호화하는 단계를 포함하는 것이 바람직하다.Preferably, the step (c) includes differentially encoding the scale factor information and the coding model information.
상기 (f)단계는 허프만 부호화하는 단계임이 바람직하고, (f1) 복수개의 양자화 샘플을 비트 플래인 상에 매핑하는 단계; 및 (f2) 최상위 비트들로 구성된 심벌부터 최하위 비트들로 구성된 심벌의 순서로 대응하는 계층이 허용하는 비트 범위만큼 심벌 단위로 부호화하는 단계를 포함하는 것이 바람직하다.Preferably, the step (f) is Huffman encoding, and (f1) mapping a plurality of quantized samples onto a bit plane; And (f2) encoding the symbol units by the bit range allowed by the corresponding layer in the order of the symbol consisting of the most significant bits to the symbol consisting of the least significant bits.
상기 (f1)단계는 K 개의 양자화 샘플을 비트 플래인 상에 매핑하는 단계이고,Step (f1) is a step of mapping the K quantized samples on the bit plane,
상기 (f2)단계는 K 비트의 이진 데이터로 구성된 상기 심벌에 대응하는 하나의 스칼라 값을 구하는 단계; 및 상기 K 비트의 이진 데이터, 구해진 스칼라 값과 상기 비트 플래인 상에서 현재의 심벌에 대한 상위 심벌에 대응하는 스칼라 값을 참조하여 허프만 부호화를 수행하는 단계를 포함하는 것이 바람직하다(K는 정수).Step (f2) may include obtaining one scalar value corresponding to the symbol composed of K bits of binary data; And performing Huffman coding with reference to the binary data of the K bits, the obtained scalar value, and a scalar value corresponding to a higher symbol for a current symbol on the bit plane (K is an integer).
한편, 본 발명의 다른 분야에 따르면, 상기 목적은 계층 구조로 부호화된 오디오 데이터를 비트율 조절이 가능하도록 복호화하는 방법에 있어서, (a) 첫번째 계층에 상응하는 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 복호화하는 단계; (b) 상기 코딩 모델 정보를 참조하여 최상위 비트들로 구성된 심벌에서부터 최하위 비트들로 구성된 심벌의 순서로 심벌 단위로 복호화하여 양자화 샘플을 얻는 단계; (c) 얻어진 양자화 샘플을 상기 스케일 팩터 정보를 참조하여 역양자화하는 단계; (d) 역양자화된 샘플을 역변환하는 단계; 및 (e) 미리 결정된계층까지 복호화가 완료될 때까지 매 회 상기 계층 앞에 부가된 서수를 1 씩 증가시키면서 상기 (a)단계 내지 (d)단계를 반복 수행하는 단계를 포함하는 것을 특징으로 하는 복호화 방법에 의해서도 달성된다.On the other hand, according to another field of the present invention, the above object is a method for decoding the audio data encoded in a hierarchical structure to enable a bit rate adjustment, comprising: (a) including scale factor information and coding model information corresponding to the first layer Decoding the side information; (b) obtaining quantized samples by decoding in symbol units from the symbol consisting of the most significant bits to the symbol consisting of the least significant bits with reference to the coding model information; (c) inverse quantization of the obtained quantized sample with reference to the scale factor information; (d) inverse transforming the dequantized sample; And (e) repeating steps (a) to (d) while increasing the ordinal number added in front of the layer by one each time until decoding is completed up to a predetermined layer. It is also achieved by the method.
상기 (a)단계는 상기 스케일 팩터 정보와 코딩 모델 정보는 차분 복호화하는 단계를 포함하는 것이 바람직하다.Preferably, step (a) includes differentially decoding the scale factor information and the coding model information.
상기 (b)단계는 허프만 복호화하여 상기 양자화 샘플을 출력하는 단계를 포함하고, (b1) 최상위 비트들로 구성된 심벌부터 최하위 비트들로 구성된 심벌의 순서로 대응하는 계층이 허용하는 비트 범위 만큼 심벌 단위로 복호화하는 단계; 및 (b2) 복호화된 심벌이 배열된 비트 플래인으로부터 양자화된 샘플을 얻는 단계를 포함하는 것이 바람직하다.Step (b) includes Huffman decoding and outputting the quantized sample, and (b1) symbol unit by the bit range allowed by the corresponding layer in the order of the symbol consisting of the most significant bits to the symbol consisting of the least significant bits Decoding with; And (b2) obtaining a quantized sample from the bit plane on which the decoded symbols are arranged.
상기 (b1)단계는 복호화된 심벌로 구성된 4*K 비트 플래인을 얻는 단계이고, 상기 (b2)단계는 상기 4*K 비트 플래인으로부터 K 개의 양자화 샘플을 얻는 단계를 포함하는 것이 바람직하다(K는 정수).Step (b1) is a step of obtaining a 4 * K bit plane composed of decoded symbols, and step (b2) preferably includes obtaining K quantized samples from the 4 * K bit plane ( K is an integer).
한편, 본 발명의 다른 분야에 따르면, 상기 목적은 계층 구조로 부호화된 오디오 데이터를 비트율 조절이 가능하도록 복호화하는 장치에 있어서, 첫 번째 계층에 상응하는 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 복호화하고, 상기 코딩 모델 정보를 참조하여 최상위 비트들로 구성된 심벌에서부터 최하위 비트들로 구성된 심벌의 순서로 심벌 단위로 복호화하여 양자화 샘플을 얻는 언패킹부: 얻어진 양자화 샘플을 상기 스케일 팩터 정보를 참조하여 역양자화하는 역양자화부; 및 역양자화된 샘플을 역변환하는 역변환부를 포함하는 것을 특징으로하는 복호화 장치에 의해서도 달성된다.According to another aspect of the present invention, an object of the present invention is to provide a decoding apparatus capable of adjusting a bit rate of audio data encoded in a hierarchical structure, and includes additional information including scale factor information and coding model information corresponding to a first layer. An unpacking unit configured to decode a symbol in units of symbols from a symbol consisting of the most significant bits to a symbol consisting of the least significant bits with reference to the coding model information to obtain a quantization sample: referring to the scale factor information Dequantization unit to dequantize by; And an inverse transform unit for inversely transforming the inversely quantized sample.
상기 언팩킹부는 상기 스케일 팩터 정보와 코딩 모델 정보를 차분 복호화하고 허프만 복호화하여 상기 양자화 샘플을 출력하는 것이 바람직하고. 특히 최상위 비트들로 구성된 심벌부터 최하위 비트들로 구성된 심벌의 순서로 대응하는 계층이 허용하는 비트 범위 만큼 심벌 단위로 복호화하고, 복호화된 심벌이 배열된 비트 플래인으로부터 양자화된 샘플을 얻는 것이 바람직하며, 복호화된 심벌로 구성된 4*K 비트 플래인을 얻은 다음 상기 4*K 비트 플래인으로부터 4 개의 양자화 샘플을 얻는 것이 바람직하다(K는 임의의 정수).Preferably, the unpacking unit differentially decodes the scale factor information and the coding model information, and outputs the quantized sample by Huffman decoding. In particular, it is preferable to decode in symbol units as the bit range allowed by the corresponding layer in the order of the symbol consisting of the most significant bits to the symbol consisting of the least significant bits, and obtain a quantized sample from the bit plane in which the decoded symbols are arranged. It is desirable to obtain a 4 * K bit plane consisting of decoded symbols and then obtain 4 quantized samples from the 4 * K bit plane (K is any integer).
한편, 본 발명의 다른 분야에 따르면, 상기 목적은 오디오 데이터를 비트율 조절이 가능하도록 부호화하는 장치에 있어서, 상기 오디오 데이터를 변환하는 변환부; 각 계층에 해당하는, 변환된 오디오 데이터를 상기 스케일 팩터 정보를 참조하여 양자화하여 양자화 샘플을 출력하는 양자화부; 및 각 계층에 상응하는 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 부호화하고, 상기 양자화부로부터의 복수개의 양자화 샘플을 상기 코딩 모델 정보를 참조하여 최상위 비트들로 구성된 심벌에서부터 최하위 비트들로 구성된 심벌의 순서로 심벌 단위로 부호화하는 패킹부를 포함하는 것을 특징으로 하는 부호화 장치에 의해서도 달성된다.On the other hand, according to another field of the present invention, the object is an apparatus for encoding audio data to enable a bit rate control, the apparatus comprising: a conversion unit for converting the audio data; A quantizer for quantizing the converted audio data corresponding to each layer by referring to the scale factor information and outputting a quantized sample; And encoding additional information including scale factor information and coding model information corresponding to each layer, and a plurality of quantization samples from the quantization unit are referred to from the symbol consisting of the most significant bits to the least significant bits with reference to the coding model information. It is also achieved by an encoding apparatus comprising a packing unit for encoding in symbol units in the order of the configured symbols.
상기 패킹부는 복수개의 계층에 각각 상응하는 스케일 밴드 정보 및 코딩 밴드 정보를 얻어 각 계층에 상응하는 스케일 밴드 정보 및 코딩 밴드 정보에 따른 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 부호화하는 것이 바람직하다.The packing unit obtains scale band information and coding band information corresponding to a plurality of layers, respectively, and encodes additional information including scale factor information and coding model information according to scale band information and coding band information corresponding to each layer. Do.
또한, 상기 패킹부는 부호화된 비트 수를 카운트하여, 카운트된 비트 수가 각 계층에 허용되는 비트 범위를 초과하면 부호화를 중지하며, 할당된 양자화 샘플을 전부 부호화한 이후에도 카운트된 비트 수가 대응하는 비트 범위보다 작으면 하위 계층에서 부호화하지 못하고 남은 비트를 상기 비트 범위가 허용하는 만큼 부호화하는 것이 바람직하다.In addition, the packing unit counts the number of encoded bits, and stops encoding when the counted number of bits exceeds the bit range allowed for each layer, and even after encoding all assigned quantized samples, the counted number of bits is greater than the corresponding bit range. If it is small, it is preferable to encode the remaining bits which cannot be encoded in the lower layer as much as the bit range allows.
상기 변환부는 상기 오디오 데이터를 웨이블릿 변환하는 것이 바람직하다.Preferably, the converter performs wavelet transform on the audio data.
상기 패킹부는 웨이블릿 변환된 오디오 데이터를 상기 컷-오프 주파수를 참조하여 복수개의 계층에 상응하도록 분할하고, 상기 스케일 팩터 정보와 코딩 모델 정보를 차분 부호화하는 것이 바람직하다.The packing unit splits the wavelet transformed audio data into a plurality of layers with reference to the cut-off frequency, and differentially encodes the scale factor information and the coding model information.
상기 패킹부는 상기 양자화 샘플을 허프만 부호화하는 것이 바람직하고, 특히 복수개의 양자화 샘플을 비트 플래인 상에 매핑하고, 최상위 비트들로 구성된 심벌부터 최하위 비트들로 구성된 심벌의 순서로 대응하는 계층이 허용하는 비트 범위만큼 심벌 단위로 부호화하는 것이 바람직하다.Preferably, the packing unit Huffman encodes the quantized sample. In particular, the packing unit maps a plurality of quantized samples onto a bit plane, and allows a corresponding layer in order of a symbol composed of the most significant bits to a symbol composed of the least significant bits. It is preferable to encode the symbol unit by the bit range.
상기 패킹부는 K 개의 양자화 샘플을 비트 플래인 상에 매핑하고, K 비트의 이진 데이터로 구성된 상기 심벌에 대응하는 하나의 스칼라 값을 구한 다음 상기 K 비트의 이진 데이터, 구해진 스칼라 값과 상기 비트 플래인 상에서 현재의 심벌에 대한 상위 심벌에 대응하는 스칼라 값을 참조하여 허프만 부호화하는 것이 바람직하다(K는 임의의 정수).The packing unit maps K quantized samples onto a bit plane, obtains a scalar value corresponding to the symbol composed of K bits of binary data, and then stores the K bits of binary data, the obtained scalar value, and the bit plane. It is preferable to encode Huffman by referring to a scalar value corresponding to a higher symbol for a current symbol in the above (K is an arbitrary integer).
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대해 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 바람직한 실시예에 따른 부호화 장치의 블럭도이다.1 is a block diagram of an encoding apparatus according to a preferred embodiment of the present invention.
도 1을 참조하면, 부호화 장치는 본 발명에 따라 비트율 조절가능하도록 오디오 데이터를 계층 구조로 부호화하는 장치로서, 변환부(11), 심리음향부(12), 양자화부(13) 및 비트패킹부(14)를 포함한다.Referring to FIG. 1, the encoding apparatus is an apparatus for encoding audio data in a hierarchical structure so that the bit rate is adjustable according to the present invention, and includes a transform unit 11, a psychoacoustic unit 12, a quantization unit 13, and a bit packing unit. (14).
변환부(11)는 시간 영역의 오디오 신호인 PCM(Pulse Coded Modulation) 오디오 데이터를 입력받아 심리음향부(12)로부터의 제공되는 음향심리모델에 관한 정보를 참조하여 주파수 영역의 신호로 변환한다. 시간 영역에서는 인간이 인지하는 오디오 신호의 특성의 차이가 그리 크지 않지만, 변환을 통해 얻어진 주파수 영역의 오디오 신호는 인간의 음향심리모델에 따라 각 주파수 대역에서 인간이 느낄 수 있는 신호와 느낄 수 없는 신호의 특성 차이가 크기 때문에 각 주파수 대역 별로 할당되는 비트수를 다르게 함으로써 압축의 효율를 높일 수 있다. 본 실시예에서 변환부(11)는 웨이블릿 변환을 수행한다. 낮은 주파수 대역에서의 주파수 분해능이 필요 이상으로 높음으로 인해 작은 왜곡(distortion)에 의해서도 인간의 귀에 인지되는 열화가 발생되는 MDCT에 비해, 웨이블릿 변환은 시간/주파수 분해능이 보다 적절하여 낮은 주파수 대역을 갖는 낮은 계층에서도 보다 안정적인 음질을 제공해줄 수 있다.The converter 11 receives PCM (Pulse Coded Modulation) audio data, which is an audio signal in the time domain, and converts the signal into a signal in the frequency domain by referring to the information about the psychoacoustic model provided from the psychoacoustic unit 12. In the time domain, the difference in the characteristics of the audio signal perceived by human beings is not so large, but the audio signal in the frequency domain obtained through the conversion is a signal that humans can and cannot feel in each frequency band according to the human psychoacoustic model. Because of the large difference in the characteristics of, the efficiency of compression can be improved by varying the number of bits allocated to each frequency band. In the present embodiment, the transform unit 11 performs wavelet transform. Compared to MDCT, where the frequency resolution in the low frequency band is higher than necessary and the deterioration perceived by the human ear is caused by small distortion, the wavelet transform has a lower frequency band because the time / frequency resolution is more appropriate. Even lower layers can provide more stable sound quality.
심리음향부(12)는 어택(attack) 감지 정보, 등 음향심리모델에 관한 정보를 변환부(11)로 제공하는 한편, 변환부(11)에 의해 변환된 오디오 신호를 적절한 서브 밴드의 신호들로 묶고 각 신호들의 상호작용으로 인해 발생되는 마스킹현상을 이용하여 각 서브 밴드에서의 마스킹 문턱치(masking threshold)를 계산하여 양자화부(13)로 제공한다. 마스킹 문턱치란 오디오 신호들의 상호 작용으로 인해 인간이 들어도 느끼지 못하는 신호의 최대 크기를 말한다. 본 실시예에서 심리음향부(12)는 BMLD(binaural masking level depression)를 이용하여 스테레오 성분에 대한 마스킹 문턱치 등을 계산한다.The psychoacoustic unit 12 provides attack detection information, information about an acoustic psychological model, etc. to the converting unit 11, while the audio signal converted by the converting unit 11 supplies signals of appropriate subbands. Masking thresholds in each subband are calculated and provided to the quantization unit 13 using the masking phenomenon generated by the interaction of each signal. Masking threshold refers to the maximum size of a signal that humans do not feel due to the interaction of audio signals. In the present embodiment, the psychoacoustic unit 12 calculates masking thresholds and the like for stereo components using binarural masking level depression (BMLD).
양자화부(13)는 인간이 들어도 느끼지 못하도록 각 대역의 양자화 잡음의 크기가 심리음향부(12)에서 제공된 마스킹 문턱치보다 작도록 각 대역의 오디오 신호들을 대응하는 스케일 팩터 정보를 기초로 스칼라 양자화하여 양자화 샘플들을 출력한다. 즉, 양자화부(13)는 음향심리부(12)에서 계산된 마스킹문턱치와 각 대역에서 발생하는 잡음(noise)의 비율인 NMR (Noise-to-Mask Ratio)를 이용하여 전 대역의 NMR 값이 0 dB 이하가 되도록 양자화한다. NMR 값이 0 dB 이하라는 것은 양자화 잡음을 인간이 들을 수 없음을 의미한다.The quantization unit 13 quantizes scalar quantization based on corresponding scale factor information of audio signals in each band such that the amount of quantization noise in each band is smaller than the masking threshold provided by the psychoacoustic unit 12 so that a human cannot feel it. Output samples. That is, the quantization unit 13 uses the masking threshold calculated by the acoustic psychology unit 12 and the noise-to-mask ratio (NMR), which is a ratio of noise generated in each band, to increase the NMR value of the entire band. Quantize it to 0 dB or less. An NMR value of 0 dB or less means that humans cannot hear quantization noise.
비트 패킹부(14)는 각 계층에 속하는 양자화 샘플들 및 부가 정보를 부호화하여 계층 구조로 패킹한다. 부가 정보는 각 계층에 해당하는 스케일 밴드 정보, 코딩 밴드 정보, 그 스케일 팩터 정보 및 코딩 모델 정보를 포함한다. 스케일 밴드 정보와 코딩 밴드 정보는 헤더 정보로서 패킹되어 복호화 장치로 전송될 수도 있고, 각 계층마다의 부가 정보로서 부호화되고 패킹되어 복호화 장치로 전송될 수도 있으며, 복호화 장치에 미리 저장되어 있음으로 인해 전송되지 않을 수도 있다.The bit packing unit 14 encodes the quantized samples and the additional information belonging to each layer and packs them into a hierarchical structure. The additional information includes scale band information, coding band information, its scale factor information, and coding model information corresponding to each layer. The scale band information and the coding band information may be packed as header information and transmitted to the decoding apparatus. The scale band information and the coding band information may be encoded and packed as additional information for each layer and may be transmitted to the decoding apparatus. It may not be.
보다 구체적으로, 비트 패킹부(14)는 첫 번째 계층에 상응하는 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 부호화하는 한편, 첫 번째 계층에 상응하는 코딩 모델 정보를 참조하여 최상위 비트들로 구성된 심벌에서부터 최하위비트들로 구성된 심벌의 순서로 심벌 단위로 부호화한다. 다음으로 두 번째 계층에 대해서도 동일한 과정을 반복한다. 즉, 미리 결정된 복수개의 계층에 대한 부호화가 완료될 때까지 계층을 증가시키면서 부호화한다. 본 실시예에서 비트 패킹부(14)는 스케일 팩터 정보와 코딩 모델 정보는 차분 부호화하고, 양자화 샘플은 허프만 부호화한다. 본 발명에 따라 부호화된 비트스트림의 계층 구조는 후술한다.More specifically, the bit packing unit 14 encodes additional information including scale factor information and coding model information corresponding to the first layer, and refers to the most significant bits with reference to the coding model information corresponding to the first layer. Coded in symbol units in the order of a symbol consisting of the least significant bits. Next, the same process is repeated for the second layer. That is, the encoding is performed while increasing the layers until the encoding of the plurality of predetermined layers is completed. In the present embodiment, the bit packing unit 14 differentially encodes scale factor information and coding model information, and Huffman encodes quantized samples. The hierarchical structure of the bitstream encoded according to the present invention will be described later.
스케일 밴드 정보는 오디오 신호의 주파수 특성에 따라 보다 적절하게 양자화를 수행하기 위한 정보로, 주파수 영역을 복수개의 밴드로 나누고 각 밴드에 적합한 스케일 팩터를 할당하였을 때 각 계층에 대응하는 스케일 밴드를 알려주는 정보를 말한다. 이에, 각 계층은 적어도 하나의 스케일 밴드에 속하게 된다. 각 스케일 밴드는 할당된 하나의 스케일 팩터를 가진다. 코딩 밴드 정보 또한 오디오 신호의 주파수 특성에 따라 보다 적절하게 부호화를 수행하기 위한 정보로, 주파수 영역을 복수개의 밴드로 나누고 각 밴드에 적합한 코딩 모델을 할당하였을 때 각 계층에 대응하는 코딩 밴드를 알려주는 정보를 말한다. 스케일 밴드와 코딩 밴드는 실험에 의해 적절히 나누어지며 대응하는 스케일 팩터와 코딩 모델이 결정된다.The scale band information is information for more appropriate quantization according to the frequency characteristics of the audio signal. The scale band information indicates a scale band corresponding to each layer when the frequency domain is divided into a plurality of bands and an appropriate scale factor is allocated to each band. Say information. Thus, each layer belongs to at least one scale band. Each scale band has one scale factor assigned to it. Coding band information is also information for more appropriately performing encoding according to the frequency characteristics of an audio signal, and indicates a coding band corresponding to each layer when a frequency domain is divided into a plurality of bands and an appropriate coding model is assigned to each band. Say information. The scale band and coding band are appropriately divided by experiment, and the corresponding scale factor and coding model are determined.
도 2는 본 발명의 바람직한 실시예에 따른 복호화 장치의 블럭도이다.2 is a block diagram of a decoding apparatus according to a preferred embodiment of the present invention.
도 2를 참조하면, 복호화 장치는 네트워크 상황, 복호화 장치의 성능, 사용자 선택 등에 따라 결정된 타겟 계층까지 복호화함으로써 비트율을 조절할 수 있는 장치로서, 언패킹부(21), 역양자화부(22) 및 역변환부(23)를 포함한다.Referring to FIG. 2, the decoding apparatus is an apparatus capable of adjusting a bit rate by decoding up to a target layer determined according to network conditions, performance of a decoding apparatus, user selection, and the like, and includes an unpacking unit 21, an inverse quantization unit 22, and an inverse transform. And a portion 23.
언패킹부(21)는 비트스트림을 타겟 계층까지 언패킹하고 각 계층 별로 복호화한다. 즉, 각 계층 대응하는 스케일 팩터 정보, 코딩 모델 정보가 포함된 부가 정보를 복호화한 다음, 얻은 코딩 모델 정보를 기초로 각 계층에 속하는 부호화된 양자화 샘플들을 다시 복호화하여 양자화 샘플들을 얻는다. 본 실시예에서 언패킹부(21)는 스케일 팩터 정보와 코딩 모델 정보를 차분 복호화하고, 부호화된 양자화 샘플들은 허프만 복호화한다.The unpacking unit 21 unpacks the bitstream to the target layer and decodes each layer. That is, after decoding the additional information including the scale factor information and the coding model information corresponding to each layer, quantized samples are obtained by decoding the coded quantized samples belonging to each layer again based on the obtained coding model information. In this embodiment, the unpacking unit 21 differentially decodes the scale factor information and the coding model information, and decodes the encoded quantized samples Huffman.
한편, 스케일 밴드 정보와 코딩 밴드 정보는 비트스트림의 헤더 정보로부터 얻거나, 각 계층 별 부가 정보를 복호화하여 얻을 수 있다. 대안적으로, 복호화 장치가 스케일 밴드 정보 및 코딩 밴드 정보를 미리 저장하고 있을 수도 있다. 역양자화부(22)는 각 계층의 양자화 샘플을 대응하는 스케일 팩터 정보에 따라 역양자화하여 복원한다. 역변환부(23)는 복원된 샘플을 주파수/시간 매핑하여 시간 영역의 PCM 오디오 데이터로 변환하여 출력한다.Meanwhile, scale band information and coding band information may be obtained from header information of a bitstream or by decoding additional information of each layer. Alternatively, the decoding apparatus may previously store scale band information and coding band information. The inverse quantization unit 22 dequantizes and restores quantized samples of each layer according to corresponding scale factor information. The inverse transform unit 23 performs frequency / time mapping on the reconstructed samples, converts the PCM audio data into a time domain, and outputs the converted data.
도 3은 본 발명에 따라 비트율을 조절할 수 있도록 계층 구조로 부호화된 비트스트림을 구성하는 프레임의 구조를 보여준다.3 shows a structure of a frame constituting a bitstream encoded in a hierarchical structure so as to adjust a bit rate according to the present invention.
도 3을 참조하면, 본 발명에 따른 비트스트림의 프레임은 FGS(Fine Grain Scalability)를 위해 양자화 샘플과 부가 정보를 계층 구조에 맵핑시켜 부호화되어 있다. 즉, 하위 계층의 비트스트림이 상위 계층의 비트스트림에 포함되어 있는 계층 구조를 가진다. 각 계층에 필요한 부가 정보들은 계층 별로 나뉘어서 부호화된다.Referring to FIG. 3, a frame of a bitstream according to the present invention is encoded by mapping quantization samples and additional information to a hierarchical structure for fine grain scalability (GFS). That is, it has a hierarchical structure in which the bitstream of the lower layer is included in the bitstream of the upper layer. The additional information required for each layer is divided into layers and encoded.
비트스트림의 선두에는 헤더 정보가 저장된 헤더 영역이 마련되고, 계층 0의 정보가 패킹되어 있으며, 상위 계층(enhancement layer)인 계층 1 내지 계층 N에속하는 정보가 순서대로 패킹되어 있다. 헤더 영역에서부터 계층 0 정보까지를 기저 계층(base layer)이라고 부르고, 헤더 영역에서부터 계층 1 정보까지를 계층 1, 계층 2 정보까지를 계층 2라고 부른다. 마찬가지 방식으로, 최상위 계층은 헤더 영역에서부터 계층 N 정보까지, 즉 기저 계층에서부터 상위 계층인 계층 N까지를 말한다. 각 계층 정보로는 부가 정보와 부호화된 오디오 데이터가 저장되어 있다. 가령, 계층 2 정보로 부가 정보 2와 부호화된 양자화 샘플들이 저장되어 있다. 여기서, N은 1 보다 크거나 같은 정수이다.A header area in which header information is stored is provided at the head of the bitstream, and information of layer 0 is packed, and information belonging to layers 1 to layer N, which is an enhancement layer, is packed in order. The header region to layer 0 information is called a base layer, and the header region to layer 1 information is called layer 1 and layer 2 information is called layer 2. In the same way, the top layer refers to the header region to layer N information, that is, from the base layer to the upper layer N. Each layer information stores additional information and encoded audio data. For example, side information 2 and encoded quantized samples are stored as layer 2 information. Where N is an integer greater than or equal to one.
도 4는 부가 정보의 상세 구조를 보여준다.4 shows a detailed structure of additional information.
도 4를 참조하면, 임의의 계층 정보로는 부가 정보와 부호화된 양자화 샘플들이 저장되어 있고, 본 실시예에서 부가 정보는 허프만 코딩 모델 정보, 양자화 팩터 정보, 채널에 대한 부가 정보와 기타 부가 정보를 포함한다. 허프만 코딩 모델 정보는 대응하는 계층에 속하는 양자화 샘플들의 부호화에 사용되거나 복호화에 사용되어야 할 허프만 코딩 모델에 대한 인덱스 정보를 말한다. 양자화 팩터 정보는 대응하는 계층에 속하는 오디오 데이터를 양자화하거나 역영자화하기 위한 양자화 스텝 사이즈를 알려준다. 채널에 대한 부가 정보란 M/S stereo와 같은 채널에 대한 정보를 말한다. 기타 부가 정보는 M/S stereo의 채용 여부에 대한 플래그 정보 등을 말한다.Referring to FIG. 4, additional layer information and encoded quantization samples are stored as arbitrary layer information. In the present embodiment, the additional information includes Huffman coding model information, quantization factor information, additional information about a channel, and other additional information. Include. Huffman coding model information refers to index information for a Huffman coding model to be used for encoding or decoding of quantization samples belonging to a corresponding layer. The quantization factor information informs the quantization step size for quantizing or inverse magnetizing audio data belonging to the corresponding layer. The additional information about the channel refers to information about a channel such as M / S stereo. Other additional information refers to flag information on whether or not to employ the M / S stereo.
본 실시예에서, 비트 패킹부(14)는 허프만 코딩 모델 정보와 양자화 팩터 정보는 바로 전 밴드의 값의 차분값을 부호화하는 차분 부호화한다. 채널에 대한 부가 정보 등은 허프만 부호화한다.In the present embodiment, the bit packing unit 14 encodes the Huffman coding model information and the quantization factor information by differential encoding encoding the difference value of the value of the previous band. Additional information about the channel is Huffman coded.
도 5는 본 발명에 따른 부호화 방식을 개략적으로 설명하기 위한 참고도이다.5 is a reference diagram schematically illustrating an encoding method according to the present invention.
도 5를 참조하면, 부호화해야 할 양자화 샘플 전체가 3 개의 계층으로 구성되어 있다. 빗금친 사각형은 양자화 샘플들로 구성된 스펙트럼 라인을 나타내며, 실선은 스케일 밴드를 표시하며, 띠선은 코딩 밴드를 나타낸다. 계층 0에는 스케일 밴드 ①, ②, ③, ④ 및 ⑤가 속하며, 코딩 밴드 ①, ②, ③, ④ 및 ⑤가 속하고, 계층 1에는 스케일 밴드 ⑤ 및 ⑥이 속하며, 코딩 밴드 ⑥, ⑦, ⑧, ⑨ 및 ⑩이 속하고, 계층 2에는 스케일 밴드 ⑥ 및 ⑦이 속하며, 코딩 밴드 ⑪, ⑫, ⑬, ⑭ 및 ⑮가 속한다. 한편, 계층 0은 주파수 대역 ⓐ까지 부호화하도록 고정되어 있고, 계층 1은 주파수 대역 ⓑ까지 부호화하도록 고정되어 있으며, 계층 2는 주파수 대역 ⓒ까지 부호화하도록 고정되어 있다.Referring to FIG. 5, the entire quantized sample to be encoded is composed of three layers. The hatched squares represent the spectral lines composed of quantized samples, the solid line represents the scale band, and the band line represents the coding band. Scale bands ①, ②, ③, ④, and ⑤ belong to layer 0, coding bands ①, ②, ③, ④, and ⑤ belong, and layer bands belong to scale bands ⑤, ⑥, and coding bands ⑥, ⑦, and ⑧. , ⑨ and 속 belong to the layer 2, and the scale bands ⑥ and ⑦ belong to the layer 2, and the coding bands ⑪, ⑫, ⑬, ⑭ and 속 belong. On the other hand, layer 0 is fixed to encode up to frequency band ⓐ, layer 1 is fixed to encode up to frequency band ⓑ, and layer 2 is fixed to encode up to frequency band ⓒ.
먼저, 100비트 내에서 계층 0에 해당하는 양자화 샘플들을 해당하는 코딩 밴드 ①, ②, ③, ④ 및 ⑤에 정해져 있는 코딩 모델을 사용하여 부호화한다. 또한, 계층 0의 부가 정보로서 계층 0에 속하는 스케일 밴드 ①, ②, ③, ④, ⑤와 코딩 밴드 ①, ②, ③, ④, ⑤를 부호화한다. 계층 0의 샘플들을 심벌 단위로 부호화하면서 비트 수를 카운트하여 허용된 비트 범위, 즉 100비트를 넘어서면 계층 0의 부호화를 중단하고 계층 1을 부호화한다. 부호화되지 못한 계층 0의 샘플들은 계층 1 및 계층 2에 허용된 비트 범위에 여유가 생겼을 때 부호화한다.First, quantization samples corresponding to layer 0 within 100 bits are encoded by using a coding model defined in corresponding coding bands ①, ②, ③, ④, and ⑤. As the additional information of the layer 0, the scale bands 1, 2, 3, 4 and 5 and the coding bands 1, 2, 3, 4 and 5 belonging to the layer 0 are encoded. By encoding the samples of the layer 0 in symbol units, the number of bits is counted, and when the allowed bit range is exceeded, that is, 100 bits, the encoding of the layer 0 is stopped and the layer 1 is encoded. The uncoded layer 0 samples are encoded when there is room in the bit range allowed for layer 1 and layer 2.
다음으로, 계층 1에 속하는 코딩 밴드, 즉 코딩 밴드 ⑥, ⑦, ⑧, ⑨ 및 ⑩ 중 부호화하고자 하는 양자화 샘플이 속하는 코딩 밴드의 코딩 모델을 사용하여 계층 1에 속하는 양자화 샘플들을 부호화한다. 또한, 계층 1의 부가 정보로서 계층 1에 속하는 스케일 밴드 ⑤ 및 ⑥과 코딩 밴드 ⑥, ⑦, ⑧, ⑨ 및 ⑩을 부호화한다. 만일 계층 1에 해당하는 샘플들을 모두 부호화하고도 허용된 비트 범위, 즉 100비트가 되지 않을 경우에는 100비트가 다 찰 때까지 계층 0에서 부호화하지 못하였던 샘플을 부호화한다. 계층 1에 해당하는 샘플들을 심벌 단위로 부호화하면서 비트 수를 카운트하여 허용된 비트 범위, 즉 100비트를 넘어서면 계층 1의 부호화를 중단하고 계층 2의 부호화로 넘어간다.Next, quantization samples belonging to layer 1 are encoded using a coding model of a coding band belonging to layer 1, that is, a coding band to which coding quantization samples to be coded among coding bands ⑥, ⑦, ⑧, ⑨, and 이 belong. As the additional information of the layer 1, the scale bands ⑤ and ⑥ belonging to the layer 1 and the coding bands ⑥, ⑦, ⑧, ⑨ and 및 are encoded. If all the samples corresponding to layer 1 are encoded, even if the allowed bit range is not 100 bits, samples that have not been encoded in layer 0 until 100 bits are filled are encoded. When the samples corresponding to layer 1 are encoded in symbol units, the number of bits is counted, and when the allowed bit range is exceeded, that is, 100 bits, the encoding of the layer 1 is stopped and the layer 2 is encoded.
마지막으로, 계층 2에 속하는 코딩 밴드, 즉 코딩 밴드 ⑪, ⑫, ⑬, ⑭ 및 ⑮ 중 부호화하고자 하는 양자화 샘플이 속하는 코딩 밴드의 코딩 모델을 사용하여 계층 2에 속하는 양자화 샘플을 부호화한다. 또한, 계층 2의 부가 정보로서 계층 2에 속하는 스케일 밴드 ⑥ 및 ⑦과 코딩 밴드 ⑪, ⑫, ⑬, ⑭ 및 ⑮를 부호화한다. 만일 계층 1에 해당하는 샘플들을 모두 부호화하고도 허용된 비트 범위, 즉 100비트가 되지 않을 경우에는 100비트가 다 찰 때까지 계층 0에서 부호화하지 못하였던 샘플을 부호화한다. 계층 1에 해당하는 샘플들을 심벌 단위로 부호화하면서 비트 수를 카운트하여 허용된 비트 범위, 즉 100비트를 넘어서면 계층 1의 부호화를 중단하고 계층 2의 부호화로 넘어간다.Finally, the quantization samples belonging to layer 2 are encoded using a coding model of the coding band belonging to layer 2, that is, the coding band to which the quantization samples to be coded among the coding bands ⑪, ⑫, ⑬, ⑭, and 이 belong. As the additional information of the layer 2, the scale bands 6 and 7 belonging to the layer 2 and the coding bands u, u, u, u and u are encoded. If all the samples corresponding to layer 1 are encoded, even if the allowed bit range is not 100 bits, samples that have not been encoded in layer 0 until 100 bits are filled are encoded. When the samples corresponding to layer 1 are encoded in symbol units, the number of bits is counted, and when the allowed bit range is exceeded, that is, 100 bits, the encoding of the layer 1 is stopped and the layer 2 is encoded.
만일 계층 0에서 허용된 비트 범위를 고려하지 않고 해당하는 양자화 샘플을 모두 부호화해버린다면, 다시 말해 부호화된 비트 수가 이미 허용된 비트 범위, 즉 100비트를 초과하였는데도 불구하고 모두 부호화한다면 결국 다음 계층인 계층 1에 허용된 비트 범위의 적어도 일부를 차용하는 셈이 되어 정작 계층 1에 속하는 양자화 샘플들을 부호화할 수 없게 되는 일이 발생된다. 따라서, 비트율 조절 가능(scalable)하게 복호화할 경우 계층 1까지만 복호화한다면 계층 1의 주파수 ⓑ까지 부호화되지 못했기 때문에 복호화된 양자화 샘플들은 주파수 ⓑ 이하에서 오르락 내리락하는 모습을 띄게 된다. 이 때 음질이 열화되는 버디 효과(birdy effect)가 나타난다.If all of the corresponding quantized samples are encoded without considering the allowed bit range in layer 0, that is, if all the encoded bits are encoded even though they have already exceeded the allowed bit range, i. At least a portion of the bit range allowed in layer 1 is borrowed, so that quantized samples belonging to layer 1 cannot be encoded. Therefore, in the case of scalable decoding, if only decoding is performed up to layer 1, the decoded quantized samples may rise or fall below the frequency ⓑ because the decoding is not performed until the frequency ⓑ of the layer 1. At this time, a birdy effect appears that deteriorates the sound quality.
한편, 복수개의 계층(타겟 계층)을 결정할 때 부호화해야할 오디오 데이터 전체의 크기를 고려하여 비트 범위가 할당되므로 전체적으로 부호화해야할 비트 범위가 모자라서 부호화하지 못하는 경우는 발생되지 않는다.On the other hand, when determining a plurality of layers (target layers), a bit range is allocated in consideration of the size of the entire audio data to be encoded, so that the encoding cannot be generated because the bit range to be encoded is insufficient.
복호화 과정 또한 부호화와 마찬가지로 그 역과정을 수행하면서 허용하는 비트 범위에 따라 비트 수를 카운트하기 때문에 계층 1로 복호화할 시점을 알아낼 수 있다.Like the encoding, the decoding process also counts the number of bits according to the allowable bit range while performing the reverse process, so that it is possible to find a time to decode to layer 1.
도 6은 본 발명에 따른 부호화 방식을 보다 구체적으로 설명하기 위한 참고도이다.6 is a reference diagram for describing the encoding scheme according to the present invention in more detail.
본 발명에 따르면 비트패킹부(14)는 각 계층에 해당하는 양자화된 샘플들을 비트 플래인(bit-plane) 부호화와 허프만 부호화를 채용하여 부호화한다.According to the present invention, the bit packing unit 14 encodes quantized samples corresponding to each layer by using bit-plane coding and Huffman coding.
복수개의 양자화 샘플들을 비트 플래인 상에 매핑시켜 이진 데이터로 나타내고 이진 데이터의 최상위비트(Most Significant Bit, MSB)들로 구성된 심볼부터 최하위비트(Least Significant Bit, LSB)들로 구성된 심볼의 순서로 해당 계층에 할당된 비트 범위 내에서 부호화한다. 비트 플래인 상에서 중요한 정보는 먼저 부호화하고 상대적으로 덜 중요한 정보는 나중에 부호화할 수 있다. 부호화 과정에서각 계층에 해당하는 비트율과 계층별 주파수 대역을 고정하여 버디 효과라고 부르는 왜곡(distortion)을 줄이기 위함이다.Map a plurality of quantized samples onto the bit plane to represent binary data, in the order of symbols consisting of the most significant bits (MSB) of the binary data and symbols consisting of the least significant bits (LSB). Code within the bit range allocated to the layer. On the bit plane, important information can be encoded first and relatively less important information can be encoded later. This is to reduce distortion called the buddy effect by fixing the bit rate corresponding to each layer and the frequency band for each layer in the encoding process.
도 6은 msb들로 구성된 심벌의 비트수가 4 이하일 경우에 대한 부호화의 예로서, 양자화 샘플들 9, 2, 4, 0을 비트 플래인에 매핑하면 각각 1001b, 0010b, 0100b, 0000b의 이진 데이터로 표시된다. 즉, 본 실시예에서 비트 플레인 상에서 부호화 단위가 되는 부호화 블럭의 크기는 4*4이다.6 is an example of encoding when the number of bits of a symbol composed of msbs is 4 or less. When quantization samples 9, 2, 4, and 0 are mapped to a bit plane, FIG. 6 is binary data of 1001b, 0010b, 0100b, and 0000b, respectively. Is displayed. That is, in this embodiment, the size of the coding block serving as the coding unit on the bit plane is 4 * 4.
최상위비트들 msb로 구성된 심볼은 "1000b"이고, 그 다음 비트들 msb-1로 구성된 심볼은 "0010b"이며, 그 다음 비트들 msb-2로 구성된 심볼은 "0100b"이고, 최하위비트들 msb-3로 구성된 심볼은 "1000b"이다.The symbol consisting of the most significant bits msb is "1000b", the symbol consisting of the next bits msb-1 is "0010b", the symbol consisting of the next bits msb-2 is "0100b", and the least significant bits msb- The symbol consisting of three is "1000b".
허프만 부호화를 위한 허프만 모델 정보, 즉 코드북 인덱스는 [표 1]과 같다.Huffman model information, that is, a codebook index, for Huffman coding is shown in [Table 1].
          
[표 1]에 따르면, 같은 중요도(significance)(본 실시예에서는 msb)에 대해서도 두 개의 모델이 존재하는 것을 볼 수 있는데 이는 서로 다른 분포를 보이는 양자화 샘플들에 대해 두 개의 모델을 생성했기 때문이다.According to Table 1, we can see that there are two models for the same importance (msb in this example) because two models are generated for quantized samples with different distributions. .
도 6의 예를 [표 1]에 따라 부호화하는 과정을 보다 구체적으로 설명하면 다음과 같다.A process of encoding the example of FIG. 6 according to [Table 1] will be described in more detail as follows.
심벌의 비트수가 4 이하일 경우 본 발명에 따른 허프만 부호화는 [수학식 1]에 따른다.If the number of bits of the symbol is 4 or less, the Huffman coding according to the present invention follows Equation 1.
          
= HuffmanCodebook[코드북 인덱스][상위 비트 플레인][심볼]= HuffmanCodebook [codebook index] [high bitplane] [symbol]
즉, 허프만 부호화는 3 개의 입력변수로서, 코드북 인덱스, 상위 비트 플레인 및 심볼을 가진다. 코드북 인덱스는 [표 1]로부터 얻어진 값을 말하며, 상위 비트 플레인은 비트 플레인 상에서 현재 부호화하고자 하는 심볼의 바로 위의 심벌을 가리킨다. 심볼은 현재 부호화하고자 하는 심볼을 말한다.That is, Huffman coding has three input variables, a codebook index, an upper bit plane, and a symbol. The codebook index refers to a value obtained from [Table 1], and the upper bit plane indicates a symbol immediately above a symbol to be currently encoded on the bit plane. The symbol refers to a symbol to be currently encoded.
도 6의 예에서 허프만 모델은 msb가 4이므로 13-16 또는 17-20이 선택된다. 부호화될 부가 정보가 7이라면,In the example of FIG. 6, the Huffman model has 13 ms or 17-20 since msb is 4. If the additional information to be encoded is 7,
msb들로 구성된 심벌의 코드북 인덱스는 16,The codebook index of a symbol consisting of msbs is 16,
msb-1들로 구성된 심벌의 코드북 인덱스는 15,The codebook index of a symbol consisting of msb-1 is 15,
msb-2들로 구성된 심벌의 코드북 인덱스는 14,The codebook index of the symbol consisting of msb-2 is 14,
msb-3들로 구성된 심벌의 코드북 인덱스는 13The codebook index of a symbol consisting of msb-3 is 13
이 된다.Becomes
한편, msb들로 구성된 심벌은 상위 비트 플레인의 데이터를 가지고 있지 않으므로 상위 비트플래인 값을 0이라 가정하면, HuffmanCodebook[16][0b][1000b]의 코드로 부호화된다. msb-1들로 구성된 심벌은 상위 비트 플레인이 1000b이므로 HuffmanCodebook[15][1000b][0010b]의 코드로 부호화된다. msb-2들로 구성된 심벌은 상위 비트 플레인이 0010b이므로 HuffmanCodebook[14][0010b][0100b]의 코드로 부호화된다. msb-3들로 구성된 심벌은 상위 비트 플레인이 0100b이므로HuffmanCodebook[13][0100b][1000b]의 코드로 부호화된다.On the other hand, since a symbol composed of msbs does not have data of an upper bit plane, assuming that the upper bit plane value is 0, the symbol is encoded with a code of HuffmanCodebook [16] [0b] [1000b]. A symbol composed of msb-1 is encoded with a code of HuffmanCodebook [15] [1000b] [0010b] because the upper bit plane is 1000b. A symbol composed of msb-2 is encoded with a code of HuffmanCodebook [14] [0010b] [0100b] because the upper bit plane is 0010b. A symbol composed of msb-3 is encoded with a code of HuffmanCodebook [13] [0100b] [1000b] because the upper bit plane is 0100b.
비트 패킹부(14)는 심벌 단위로 부호화한 다음 부호화된 총 비트수를 카운트하고 사용가능한 비트수와 비교하여 부호화된 비트수가 해당 계층에서 사용가능한 비트수를 초과할 경우 부호화를 중지한다. 부호화되지 못하고 남겨진 비트는 다음 계층에 여유 공간이 생길 때 부호화하여 집어넣는다. 해당 계층에 할당된 양자화 샘플들을 모두 부호화하고 나서도 사용가능한 비트수가 남을 경우, 즉 여유 공간이 생길 경우에는 하위 계층에서 부호화되지 못하고 남은 양자화 샘플을 부호화한다.The bit packing unit 14 encodes the symbol in units of symbols, counts the total number of encoded bits, and compares the number of available bits to stop encoding when the number of encoded bits exceeds the number of bits available in the corresponding layer. The bits left unencoded are encoded and inserted when there is free space in the next layer. If the number of available bits remains even after encoding all the quantized samples allocated to the corresponding layer, that is, when there is a free space, the remaining quantized samples that are not encoded in the lower layer are encoded.
한편, msb들로 구성된 심벌의 비트수가 5 이상일 경우에는 현재 비트 플래인 상의 위치를 이용해 허프만 코드값을 결정한다. 즉, 중요도가 5 이상일 경우에는 각각의 비트 플래인 상의 데이터는 통계적으로 큰 차이를 보이지 않기 때문에 모두 동일한 허프만 모델을 사용하여 허프만 부호화한다. 즉, 비트 플래인 당 하나의 허프만 모델이 존재한다.On the other hand, when the number of bits of the symbol consisting of msb is 5 or more, the Huffman code value is determined using the position on the current bit plane. That is, when the importance level is 5 or more, since the data on each bit plane does not show a statistically significant difference, Huffman coding is performed using the same Huffman model. That is, there is one Huffman model per bit plane.
중요도가 5 이상일 경우(심벌의 비트수가 5 이상일 경우) 본 발명에 따른 허프만 부호화는 [수학식 2]에 따른다.When the importance level is 5 or more (when the number of bits of the symbol is 5 or more), the Huffman coding according to the present invention follows [Equation 2].
          
여기서, bpl은 현재 코딩하고자 하는 비트 플래인의 인덱스를 가리키며, 따라서 1 이상의 정수값을 가진다. 20은 [표 1]의 부가 정보 8에 대응하는 허프만 모델의 마지막 인덱스가 20이므로 인덱스가 21부터 시작되도록 하기 위해 더해주는 값이다. 따라서 코딩 밴드에 대한 부가 정보는 단순히 중요도만을 나타낸다. 아래의 [표 2]에서 허프만 모델은 현재 부호화하고자 하는 비트 플래인의 인덱스에 따라 결정된다.Here, bpl indicates the index of the bit plane to be currently coded, and thus has an integer value of 1 or more. 20 is a value added to make the index start from 21 since the last index of the Huffman model corresponding to additional information 8 in [Table 1] is 20. Therefore, the additional information about the coding band simply indicates importance. In [Table 2] below, the Huffman model is determined according to the index of the bit plane to be currently encoded.
          
한편, 부가 정보 중 양자화 팩터 정보와 허프만 모델 정보는 대응하는 코딩 밴드에 대해 차분 부호화(DPCM)를 수행한다. 양자화 팩터 정보를 부호화할 때 차분 부호화의 초기값은 프레임의 헤더 정보에 8 bit로 표현된다. 허프만 모델 정보에 대한 차분 부호화의 초기값은 0으로 세팅한다.Meanwhile, the quantization factor information and the Huffman model information of the additional information perform differential coding (DPCM) on a corresponding coding band. When encoding the quantization factor information, the initial value of the differential encoding is represented by 8 bits in the header information of the frame. The initial value of the differential encoding on the Huffman model information is set to zero.
본 발명에 따른 부호화 방식과 종래의 BSAC와의 차이점은 다음과 같다. 첫째, BSAC는 비트 단위로 부호화하였으나 본 발명에 따르면 심볼 단위로 부호화한다. 둘째, BSAC는 산술 부호화하였으나 본 발명은 허프만 부호화한다. 산술 부호화는 압축 게인은 높지만 많은 계산량이 요구되어 complexity와 비용이 높아지는 문제점이 있다. 따라서, 본 발명에서는 비트 단위로 부호화하지 않고 심벌 단위로 허프만 부호화함으로써 complexity와 비용을 낮추었다.The difference between the coding scheme according to the present invention and the conventional BSAC is as follows. First, BSAC is encoded in bit units, but according to the present invention, BSAC is encoded in symbol units. Second, BSAC performs arithmetic coding, but the present invention encodes Huffman. Arithmetic coding has a high compression gain, but requires a large amount of computation, which increases complexity and cost. Therefore, in the present invention, complexity and cost are reduced by encoding Huffman in symbol units instead of bit units.
비트율을 조정하기 위해서는, 즉 scalabilty를 적용할 경우 한 프레임에 해당하는 비트스트림을 각 계층에서 사용가능한 비트수를 고려하여 잘라줌으로써 적은 데이터만으로도 복호화할 수 있게 된다. 예를 들어, 최고 비트율이 96kbps이고 대응하는 비트스트림의 크기가 2096비트일 경우, 48kbps에 해당하는 비트스트림만을 복호화하고자 할 때에는 비트스트림을 1048 비트만 취함으로써 48kbps에 해당하는 복호화된 오디오 데이터를 얻을 수 있다.In order to adjust the bit rate, that is, when applying a scalabilty, a bit stream corresponding to one frame is cut in consideration of the number of bits available in each layer, thereby being able to decode even a small amount of data. For example, if the maximum bit rate is 96kbps and the size of the corresponding bitstream is 2096 bits, when decoding only the bitstream corresponding to 48kbps, the decoded audio data corresponding to 48kbps is obtained by taking only 1048 bits of the bitstream. Can be.
상기한 구성을 기초로 본 발명에 따른 부호화 방법 및 복호화 방법을 설명하면 다음과 같다.The encoding method and the decoding method according to the present invention will be described below based on the above configuration.
부호화 장치는 PCM 오디오 데이터를 읽어들여 메모리(도시되지 않음)에 저장하고, 저장된 PCM 오디오 데이터를 이용하여 심리음향모델을 거쳐 마스킹 문턱치와 부가 정보를 구한다. PCM 오디오 데이터는 시간 영역의 신호이므로 이를 주파수 영역의 신호로 웨이블릿 변환한다. 다음으로, 부호화 장치는 변환된 신호를 양자화 밴드 정보와 양자화 팩터 정보에 따라 양자화하여 양자화 샘플을 얻는다. 양자화 샘플을 전술한 바와 같이 비트 분할 부호화, 심벌 단위 부호화 및 허프만 부호화를 채용하여 부호화하여 패킹한다.The encoding apparatus reads PCM audio data, stores it in a memory (not shown), and obtains a masking threshold and additional information through a psychoacoustic model using the stored PCM audio data. Since PCM audio data is a signal in the time domain, it is wavelet-converted into a signal in the frequency domain. Next, the encoding apparatus quantizes the transformed signal according to quantization band information and quantization factor information to obtain a quantized sample. As described above, the quantized sample is encoded and packed using bit division coding, symbol unit coding, and Huffman coding.
도 7은 본 발명의 바람직한 실시예에 따른 부호화 방법을 설명하기 위한 플로우챠트이다.7 is a flowchart for explaining an encoding method according to a preferred embodiment of the present invention.
도 7을 참조하면, 부호화 장치의 비트 패킹부(14)에 의해 양자화 샘플을 부호화하여 패킹하는 과정은 다음과 같다.Referring to FIG. 7, a process of encoding and packing a quantized sample by the bit packing unit 14 of the encoding apparatus is as follows.
먼저, 비트 패킹부(14)는 주어진 타겟 비트율과 부가 정보를 기초로 각 계층에 해당하는 정보를 추출해낸다. 이 과정은 단계 701 내지 703을 통해 수행된다. 즉, 각 계층에 분할하는 기준이 되는 cut-off 주파수를 구하고(701단계), 각 계층에 해당하는 양자화 밴드 정보와 코딩 밴드 정보를 구하며(702단계), 부호화되어야 할 비트를 이용하여 계층 당 부호화가능한 비트 범위를 할당한다(703단계).First, the bit packing unit 14 extracts information corresponding to each layer based on a given target bit rate and additional information. This process is performed through steps 701 to 703. In other words, the cut-off frequency serving as the reference for dividing each layer is obtained (step 701), the quantization band information and the coding band information corresponding to each layer are obtained (step 702), and encoding per layer using the bits to be encoded. Allocate a possible bit range (step 703).
다음으로, 기반 계층에 해당하는(704단계) 양자화 밴드 정보와 코딩 밴드 정보를 포함하여 부가 정보를 부호화한다(705단계).Next, the additional information is encoded (step 705) including quantization band information and coding band information corresponding to the base layer (step 704).
다음으로, 기반 계층에 해당하는 양자화 샘플을 비트 플래인 상에 매핑하고 4*4 블럭 단위로 msb들로 구성된 심벌부터 부호화하면서(706단계), 부호화된 비트수를 카운트하여 카운트된 비트수가 해당 계층에서 사용가능한 비트 범위를 초과하면(707단계), 현재 계층의 부호화를 중지하고 다음 계층으로 넘어간다. 카운트된 비트수가 해당 계층에서 사용가능한 비트 범위 이하이면(707단계) 다음 계층에 대해 상기 705단계로 넘어간다(709단계). 708단계는 기반 계층의 경우에는 그 보다 낮은 하위 계층이 없으므로 수행되지 않으나 이후 계층에 대해서는 수행된다. 상기 과정을 거쳐서 타겟 계층까지 모두 부호화한다.Next, the quantized samples corresponding to the base layer are mapped onto the bit plane and encoded from a symbol consisting of msbs in units of 4 * 4 blocks (step 706), and the number of bits counted by counting the number of encoded bits is calculated. If the available bit range is exceeded (step 707), the encoding of the current layer is stopped and the process proceeds to the next layer. If the counted number of bits is less than or equal to the range of bits available in the layer (step 707), the process proceeds to step 705 for the next layer (step 709). In the case of the base layer, step 708 is not performed because there is no lower layer, but is performed for the later layer. Through the above process, all the target layers are encoded.
상기 706단계, 즉 양자화 샘플을 부호화하는 과정은 다음과 같다.Step 706, that is, the process of encoding the quantized samples is as follows.
1. 각 계층에 해당하는 양자화 샘플을 N 개의 단위로 묶어 비트 플래인 상에 매핑한다.1. A quantized sample corresponding to each layer is bundled into N units and mapped onto a bit plane.
2. 매핑된 이진 데이터들의 msb들로 구성된 심볼부터 차례대로 허프만 부호화한다.2. Huffman-encodes a sequence of symbols consisting of msbs of mapped binary data.
2의 과정을 다시 세분하여 설명하면 다음과 같다.The process of 2 is further broken down as follows.
2.1. 현재 부호화하고자 하는 심볼에 대응하는 하나의 스칼라값(curVal)을 구한다.2.1. One scalar value (curVal) corresponding to a symbol to be currently encoded is obtained.
2.2. 상위 비트 플래인, 즉 현재 부호화하고자 하는 심볼의 윗단에 존재하는 심볼에 대응하는 스칼라값(upperVal)에 대응하는 허프만 코드를 구하여 구해진 코드로 부호화한다.2.2. A Huffman code corresponding to a scalar value (upperVal) corresponding to an upper bit plane, that is, a symbol existing at an upper end of a symbol to be currently encoded is obtained and encoded by a code obtained.
부가 정보 중 양자화 팩터 정보와 허프만 모델 정보는 대응하는 코딩 밴드에 대해 차분 부호화(DPCM)를 수행한다. 양자화 팩터 정보를 부호화할 때 차분 부호화의 초기값은 프레임의 헤더 정보에 8 bit로 표현된다. 허프만 모델 정보에 대한 차분 부호화의 초기값은 0으로 세팅한다.The quantization factor information and the Huffman model information among the additional information perform differential coding (DPCM) on a corresponding coding band. When encoding the quantization factor information, the initial value of the differential encoding is represented by 8 bits in the header information of the frame. The initial value of the differential encoding on the Huffman model information is set to zero.
도 8은 본 발명의 바람직한 실시예에 따른 복호화 방법을 설명하기 위한 플로우챠트이다.8 is a flowchart illustrating a decoding method according to a preferred embodiment of the present invention.
도 8을 참조하면, 복호화 장치는 계층 구조로 부호화된 오디오 데이터로 구성된 비트스트림을 수신하여 프레임 별로 마련된 헤더 정보를 복호화한다. 다음으로, 첫번째 계층에 상응하는 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 복호화한 다음(801단계), 코딩 모델 정보를 참조하여 최상위 비트들로 구성된 심벌에서부터 최하위 비트들로 구성된 심벌의 순서로 심벌 단위로 복호화하여 양자화 샘플을 얻는다(802단계). 얻어진 양자화 샘플을 상기 스케일 팩터 정보를 참조하여 역양자화하고(803단계), 역양자화된 샘플을 역변환한다(804단계). 미리 결정된 타겟 계층에 대한 복호화가 완료될 때까지 매 회 상기 계층 앞에 부가된 서수를 1 씩 증가시키면서 상기 801단계 내지 804단계를 반복 수행한다.Referring to FIG. 8, the decoding apparatus receives a bitstream composed of audio data encoded in a hierarchical structure and decodes header information provided for each frame. Next, after decoding the additional information including the scale factor information and the coding model information corresponding to the first layer (step 801), the order of the symbol consisting of the most significant bits to the least significant bits with reference to the coding model information In step 802, a quantized sample is obtained by decoding in units of symbols. The obtained quantized sample is inversely quantized with reference to the scale factor information (step 803), and the inversely transformed sample is inversely transformed (step 804). Steps 801 to 804 are repeated while increasing the ordinal number added in front of the layer by 1 until the decoding of the predetermined target layer is completed.
도 9는 본 발명의 바람직한 실시예에 따른 복호화 방법을 설명하기 위한 플로우챠트이다.9 is a flowchart for explaining a decoding method according to a preferred embodiment of the present invention.
도 9를 참조하면, 복호화 장치는 계층 구조로 부호화된 오디오 데이터로 구성된 비트스트림을 수신하여 프레임 별로 마련된 헤더 정보로부터 각 계층에 해당하는 컷-오프 주파수를 복호화하고(901단계), 헤더 정보로부터 각 계층에 해당하는 양자화 밴드 정보와 코딩 밴드 정보를 복호화하여 알아낸 다음(902단계), 각 계층별로 사용가능한 비트 범위를 알아낸다(903단계). 이어서, 기반 계층에 대한(904단계) 부가 정보를 복호화하고(905단계), 최상위 비트들로 구성된 심벌부터 최하위 비트들로 구성된 심벌의 순서로 대응하는 계층이 허용하는 비트 범위 만큼 심벌 단위로 복호화하여 양자화된 샘플을 얻는다(906단계). 미리 결정된 타겟 계층까지(907단계), 계층을 하나씩 증가시키면서 상기 905단계 내지 906단계를 반복한다. 상기 901단계 내지 903단계는 컷-오프 주파수, 양자화 밴드 정보, 코딩 밴드 정보 및 비트 범위는 수신된 비트스트림의 프레임마다 저장된 헤더 정보로부터 얻는 대신 복호화 장치가 미리 가지고 있을 수도 있고, 그와 같은 경우 복호화 장치는 저장된 정보를 읽어들여서 각 정보를 얻는다.Referring to FIG. 9, the decoding apparatus receives a bitstream including audio data encoded in a hierarchical structure, decodes cut-off frequencies corresponding to each layer from header information provided for each frame (step 901), and then decodes the header stream from the header information. The quantization band information and the coding band information corresponding to the layer are decoded and found (step 902), and the available bit range for each layer is found (step 903). Subsequently, the additional information about the base layer is decoded (step 904) (step 905), and in a symbol unit by the bit range allowed by the corresponding layer in the order of the symbol consisting of the most significant bits to the symbol consisting of the least significant bits. Obtain a quantized sample (step 906). Steps 905 to 906 are repeated while increasing the layers one by one until the predetermined target layer (step 907). In steps 901 to 903, the decoding apparatus may have the cut-off frequency, the quantization band information, the coding band information, and the bit range from the header information stored for each frame of the received bitstream in advance, or in such a case, the decoding The device reads the stored information to obtain each piece of information.
전술한 바와 같이, 본 발명에 따르면 비트 분할한 다음 심벌 단위로 부호화함으로써 top-down방식으로 비트율을 조절할 수 있는 scalability를 제공하므로 부호화 장치의 계산량이 scalability를 제공하지 않는 장치의 그것에 비해 크게 많지 않다. 즉, 본 발명에 따르면 FGS(Fine Grain Scalability)를 제공하면서도 complexity가 보다 낮고, 낮은 계층에서도 보다 양호한 음질을 제공할 수 있는 비트율 조절가능한 오디오 부호화 방법, 복호화 방법, 그 부호화 장치 및 복호화 장치를 얻을 수 있다.As described above, according to the present invention, since the bit rate is divided and then encoded in symbol units to provide scalability for adjusting the bit rate in a top-down manner, the computational amount of the encoding apparatus is not much higher than that of the apparatus that does not provide scalability. That is, according to the present invention, a bit rate-adjustable audio encoding method, a decoding method, an encoding device, and a decoding device, which provide fine grain scalability (FGS) and have a lower complexity and better sound quality even at a lower layer, can be obtained. have.
나아가, 산술 부호화를 이용하는 MPEG-4 Audio BSAC에 비해 허프만 부호화를 이용하는 본 발명의 부호화 장치/복호화 장치는 비트 패킹/언패킹(bit packing/unpacking) 과정에서 계산량이 크게 줄어든다. FGS를 제공하기 위해 본 발명에 따른 비트 패킹을 수행하여도 오버헤드가 적어 부호화 이득 측면에서 scalability를 제공하지 않은 경우와 거의 유사하다.Furthermore, compared to MPEG-4 Audio BSAC using arithmetic coding, the encoding / decoding apparatus of the present invention using Huffman coding greatly reduces the amount of computation during bit packing / unpacking. Even if bit packing according to the present invention is performed to provide the FGS, the overhead is small, and is similar to the case where scalability is not provided in terms of encoding gain.
또한, 본 발명에 따른 장치는 계층 구조를 가지므로 서버 측에서 비트율 조절가능하도록 비트스트림을 재생성하는 과정이 매우 단순하며 따라서 변환 부호화 장치의 복잡도가 낮다.In addition, since the apparatus according to the present invention has a hierarchical structure, the process of regenerating the bitstream so that the bit rate is adjustable on the server side is very simple, and thus the complexity of the transcoding apparatus is low.
네트워크를 통한 오디오스트림 전송시 사용자의 의지 혹은 네트워크 환경에 따라 전송 비트율을 변경하여 전송함으로써 끊김없는 서비스의 제공이 가능하다.When transmitting audio stream through network, it is possible to provide seamless service by changing transmission bit rate according to user's will or network environment.
용량의 제한을 갖는 정보저장매체에 저장할 때 파일 사이즈를 임의로 조절하여 저장할 수 있게 된다. 비트율이 낮아지면 대역이 제한되어 있기 때문에 주로 부호화/복호화 장치의 복잡성의 대부분을 차지하는 필터의 복잡성이 상당히 감소하기 때문에 비트율에 반비례해서 부호화 장치/복호화 장치의 실제 복잡성도 감소하게 된다.When storing in an information storage medium having a limited capacity, the file size can be arbitrarily adjusted and stored. When the bit rate is lowered, the bandwidth is limited, and thus the complexity of the filter, which mainly accounts for most of the complexity of the encoding / decoding device, is considerably reduced, so that the actual complexity of the encoding device / decoding device is inversely proportional to the bit rate.
웨이블릿 변환을 채용함으로써, 기존의 MDCT 기반의 부호화에 비해 시간/주파수축의 분해능이 우월하므로 낮은 계층에서 보다 좋은 음질을 제공한다.By adopting the wavelet transform, the resolution of the time / frequency axis is superior to that of the conventional MDCT-based encoding, thereby providing better sound quality at a lower layer.
Claims (27)
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| KR1020020079290A KR100908116B1 (en) | 2002-12-12 | 2002-12-12 | Audio coding method capable of adjusting bit rate, decoding method, coding apparatus and decoding apparatus | 
| CNB031650368A CN1276406C (en) | 2002-12-12 | 2003-09-17 | Method and device for scalable encoding and decoding of audio data | 
| CN2006101078352A CN1901042B (en) | 2002-12-12 | 2003-09-17 | Method and device for scalable encoding and decoding of audio data | 
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| KR1020020079290A KR100908116B1 (en) | 2002-12-12 | 2002-12-12 | Audio coding method capable of adjusting bit rate, decoding method, coding apparatus and decoding apparatus | 
Publications (2)
| Publication Number | Publication Date | 
|---|---|
| KR20040051369A true KR20040051369A (en) | 2004-06-18 | 
| KR100908116B1 KR100908116B1 (en) | 2009-07-16 | 
Family
ID=34309332
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| KR1020020079290A Expired - Fee Related KR100908116B1 (en) | 2002-12-12 | 2002-12-12 | Audio coding method capable of adjusting bit rate, decoding method, coding apparatus and decoding apparatus | 
Country Status (2)
| Country | Link | 
|---|---|
| KR (1) | KR100908116B1 (en) | 
| CN (2) | CN1276406C (en) | 
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| WO2007040328A1 (en) * | 2005-10-06 | 2007-04-12 | Samsung Electronics Co., Ltd. | Method and device to provide arithmetic decoding of scalable bsac audio data | 
| CN111179946A (en) * | 2013-09-13 | 2020-05-19 | 三星电子株式会社 | Lossless encoding method and lossless decoding method | 
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| KR100829558B1 (en) * | 2005-01-12 | 2008-05-14 | 삼성전자주식회사 | Scalable audio data arithmetic decoding method and apparatus, and method for truncating audio data bitstream | 
| CN102014285B (en) * | 2009-11-10 | 2012-10-03 | 钰创科技股份有限公司 | Multiple DPCM signal encoding device and method | 
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| KR100370411B1 (en) * | 1996-04-15 | 2003-04-07 | 삼성전자 주식회사 | Audio encoding method for controlling bit rate and audio encoder using the same | 
| KR100261254B1 (en) * | 1997-04-02 | 2000-07-01 | 윤종용 | Scalable audio data encoding/decoding method and apparatus | 
| KR100261253B1 (en) * | 1997-04-02 | 2000-07-01 | 윤종용 | Scalable audio encoder/decoder and audio encoding/decoding method | 
| KR100335611B1 (en) * | 1997-11-20 | 2002-10-09 | 삼성전자 주식회사 | Stereo Audio Encoding / Decoding Method and Apparatus with Adjustable Bit Rate | 
| KR100335609B1 (en) * | 1997-11-20 | 2002-10-04 | 삼성전자 주식회사 | Scalable audio encoding/decoding method and apparatus | 
- 
        2002
        - 2002-12-12 KR KR1020020079290A patent/KR100908116B1/en not_active Expired - Fee Related
 
- 
        2003
        - 2003-09-17 CN CNB031650368A patent/CN1276406C/en not_active Expired - Fee Related
- 2003-09-17 CN CN2006101078352A patent/CN1901042B/en not_active Expired - Fee Related
 
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| WO2007040328A1 (en) * | 2005-10-06 | 2007-04-12 | Samsung Electronics Co., Ltd. | Method and device to provide arithmetic decoding of scalable bsac audio data | 
| CN111179946A (en) * | 2013-09-13 | 2020-05-19 | 三星电子株式会社 | Lossless encoding method and lossless decoding method | 
| CN111179946B (en) * | 2013-09-13 | 2023-10-13 | 三星电子株式会社 | Lossless encoding method and lossless decoding method | 
Also Published As
| Publication number | Publication date | 
|---|---|
| CN1276406C (en) | 2006-09-20 | 
| CN1525437A (en) | 2004-09-01 | 
| CN1901042A (en) | 2007-01-24 | 
| KR100908116B1 (en) | 2009-07-16 | 
| CN1901042B (en) | 2011-07-06 | 
Similar Documents
| Publication | Publication Date | Title | 
|---|---|---|
| KR100908117B1 (en) | Audio coding method, decoding method, encoding apparatus and decoding apparatus which can adjust the bit rate | |
| KR100261254B1 (en) | Scalable audio data encoding/decoding method and apparatus | |
| JP3412081B2 (en) | Audio encoding / decoding method with adjustable bit rate, apparatus and recording medium recording the method | |
| KR100261253B1 (en) | Scalable audio encoder/decoder and audio encoding/decoding method | |
| KR100335611B1 (en) | Stereo Audio Encoding / Decoding Method and Apparatus with Adjustable Bit Rate | |
| CN1527306B (en) | Method and apparatus for encoding and/or decoding digital data using bandwidth extension techniques | |
| EP1960999B1 (en) | Method and apparatus encoding an audio signal | |
| EP1536410A1 (en) | Method and apparatus for encoding/decoding MPEG-4 BSAC audio bitstream having ancillary information | |
| JP3964860B2 (en) | Stereo audio encoding method, stereo audio encoding device, stereo audio decoding method, stereo audio decoding device, and computer-readable recording medium | |
| KR101015497B1 (en) | Method and apparatus for encoding / decoding digital data | |
| KR100923301B1 (en) | Encoding method of audio data using band extension method, apparatus, decoding method and apparatus | |
| KR100528327B1 (en) | Method and apparatus for encoding/decoding audio data with scalability | |
| KR100908116B1 (en) | Audio coding method capable of adjusting bit rate, decoding method, coding apparatus and decoding apparatus | |
| KR100923300B1 (en) | Encoding method of audio data using band extension method, apparatus, decoding method and apparatus | |
| KR20050040441A (en) | Scalable audio decoding/ encoding method and apparatus | |
| Noll et al. | Digital audio: from lossless to transparent coding | 
Legal Events
| Date | Code | Title | Description | 
|---|---|---|---|
| PA0109 | Patent application | St.27 status event code: A-0-1-A10-A12-nap-PA0109 | |
| R18-X000 | Changes to party contact information recorded | St.27 status event code: A-3-3-R10-R18-oth-X000 | |
| R18-X000 | Changes to party contact information recorded | St.27 status event code: A-3-3-R10-R18-oth-X000 | |
| PG1501 | Laying open of application | St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 | |
| R17-X000 | Change to representative recorded | St.27 status event code: A-3-3-R10-R17-oth-X000 | |
| PN2301 | Change of applicant | St.27 status event code: A-3-3-R10-R13-asn-PN2301 St.27 status event code: A-3-3-R10-R11-asn-PN2301 | |
| PN2301 | Change of applicant | St.27 status event code: A-3-3-R10-R13-asn-PN2301 St.27 status event code: A-3-3-R10-R11-asn-PN2301 | |
| A201 | Request for examination | ||
| PA0201 | Request for examination | St.27 status event code: A-1-2-D10-D11-exm-PA0201 | |
| D13-X000 | Search requested | St.27 status event code: A-1-2-D10-D13-srh-X000 | |
| D14-X000 | Search report completed | St.27 status event code: A-1-2-D10-D14-srh-X000 | |
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection | St.27 status event code: A-1-2-D10-D21-exm-PE0902 | |
| P11-X000 | Amendment of application requested | St.27 status event code: A-2-2-P10-P11-nap-X000 | |
| P13-X000 | Application amended | St.27 status event code: A-2-2-P10-P13-nap-X000 | |
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration | St.27 status event code: A-1-2-D10-D22-exm-PE0701 | |
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment | St.27 status event code: A-2-4-F10-F11-exm-PR0701 | |
| PR1002 | Payment of registration fee | St.27 status event code: A-2-2-U10-U11-oth-PR1002 Fee payment year number: 1 | |
| PG1601 | Publication of registration | St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 | |
| R18-X000 | Changes to party contact information recorded | St.27 status event code: A-5-5-R10-R18-oth-X000 | |
| PR1001 | Payment of annual fee | St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 4 | |
| FPAY | Annual fee payment | Payment date: 20130627 Year of fee payment: 5 | |
| PR1001 | Payment of annual fee | St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 5 | |
| FPAY | Annual fee payment | Payment date: 20140627 Year of fee payment: 6 | |
| PR1001 | Payment of annual fee | St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 6 | |
| FPAY | Annual fee payment | Payment date: 20150629 Year of fee payment: 7 | |
| PR1001 | Payment of annual fee | St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 7 | |
| P22-X000 | Classification modified | St.27 status event code: A-4-4-P10-P22-nap-X000 | |
| FPAY | Annual fee payment | Payment date: 20160629 Year of fee payment: 8 | |
| PR1001 | Payment of annual fee | St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 8 | |
| LAPS | Lapse due to unpaid annual fee | ||
| PC1903 | Unpaid annual fee | St.27 status event code: A-4-4-U10-U13-oth-PC1903 Not in force date: 20170710 Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE | |
| PC1903 | Unpaid annual fee | St.27 status event code: N-4-6-H10-H13-oth-PC1903 Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE Not in force date: 20170710 |