[go: up one dir, main page]

JPH1118091A - Multi-view image encoding / decoding apparatus and encoding / decoding method thereof - Google Patents

Multi-view image encoding / decoding apparatus and encoding / decoding method thereof

Info

Publication number
JPH1118091A
JPH1118091A JP16892897A JP16892897A JPH1118091A JP H1118091 A JPH1118091 A JP H1118091A JP 16892897 A JP16892897 A JP 16892897A JP 16892897 A JP16892897 A JP 16892897A JP H1118091 A JPH1118091 A JP H1118091A
Authority
JP
Japan
Prior art keywords
image
information
viewpoint
model
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP16892897A
Other languages
Japanese (ja)
Inventor
Hideyuki Ueno
秀幸 上野
Toshinori Otaka
敏則 尾高
Katsumi Takahashi
克己 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP16892897A priority Critical patent/JPH1118091A/en
Publication of JPH1118091A publication Critical patent/JPH1118091A/en
Pending legal-status Critical Current

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】多視点画像を高い質感を保ったまま少ない情報
量で表現することで、これを用いて再生される任意視点
画像の質感を高め、同時にシステムで使用する情報量を
リーズナブルな範囲に収める。 【解決手段】多視点画像をモデリング部103によって
被写体面上の点の座標と輝度の情報とからモデル化す
る。このモデルを用いて各視点画像を予測信号生成部1
05によって予測し、その予測結果と入力視点画像との
予測誤差を符号化する。符号化された予測誤差は、符号
化されたモデルと一緒に多重化される。このように、入
力多視点画像と予測画像との誤差を符号化すると共に、
モデルの情報も選択された視点画像の情報として符号化
することにより、符号化ストリームとして蓄積・伝送さ
れる情報量を十分に低減することが出来ると共に、被写
体の複雑さに関わらず高いリアリティを持った再生を実
現できる。
(57) [Summary] [Problem] To improve the texture of an arbitrary viewpoint image reproduced by using a small amount of information while maintaining a high quality of a multi-viewpoint image, and at the same time to use the information amount in a system Within a reasonable range. A multi-viewpoint image is modeled by a modeling unit based on coordinates of points on a subject surface and luminance information. Using this model, each viewpoint image is converted into a prediction signal generation unit 1
05, and a prediction error between the prediction result and the input viewpoint image is encoded. The encoded prediction error is multiplexed with the encoded model. In this way, while encoding the error between the input multi-view image and the predicted image,
By encoding the model information as information of the selected viewpoint image, it is possible to sufficiently reduce the amount of information stored and transmitted as an encoded stream, and to have high reality regardless of the complexity of the subject. Playback can be realized.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、多視点画像を用い
て任意視点から見た画像を作成するような画像処理シス
テムで使用される多視点画像の符号化/復号化装置およ
びその多視点画像の符号化/復号化方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a multi-viewpoint image encoding / decoding apparatus used in an image processing system for generating an image viewed from an arbitrary viewpoint using a multi-viewpoint image and the multi-viewpoint image. Encoding / decoding method.

【0002】[0002]

【従来の技術】近年、コンピュータ技術、グラフィクス
技術の進展により、バーチャルショッピングモールなど
に代表される仮想空間内のウォークスルーが身近な存在
になりつつある。現状の仮想空間は構成要素がCG(コ
ンピュータグラフィクス)によって生成されるものが大
半であるが、これに対して、最近では、リアリティに注
目した別のアプローチとして、実写画像から仮想3次元
空間を生成しようとの試みがなされてきている。
2. Description of the Related Art In recent years, with the progress of computer technology and graphics technology, walkthroughs in virtual spaces represented by virtual shopping malls and the like are becoming familiar. In the current virtual space, most of the components are generated by CG (computer graphics). On the other hand, recently, as another approach focusing on reality, a virtual three-dimensional space is generated from a real image. Attempts have been made to do so.

【0003】CGの分野では、モデルを精密にし、演算
資源を投入することによりリアリティを追求する努力が
払われてきたが、これとは別に、近年“image b
ased rendering”と称して、実写を利用
してリアリティを高めようという動きがある。このよう
な技術として既に実用に供せられている例として、文献
1(S.E.Chen et al,SIGGRAPH
‘95 pp.29−38)に開示されているQuic
kTime VRがあげられる。
In the field of CG, efforts have been made to pursue reality by refinement of models and input of computational resources. Apart from this, in recent years, "image b
There is a movement to increase the reality by using live-action photography, which is referred to as “used rendering.” As an example of such a technique that has already been put into practical use, Reference 1 (SE Chen et al, SIGGRAPH)
'95 pp. 29-38).
kTime VR.

【0004】QuickTime VRは、1視点から
撮ったパノラマ画像から、視線方向を切り出す技術であ
り、自分の周りの360度の視野をインタラクティブに
見渡すような画像表現ができる。但しこの方法では、画
像入力の際の視点はある一点に固定されているので、任
意視点からの画像を再構成することはできない。すなわ
ち、視線方向は選択できるものの視点は常に同一視点に
固定されているので、視点が変わったときに発生するオ
クルージョン(隠れ)の状況の変化を再現することはで
きない。
[0005] QuickTime VR is a technique for cutting out the direction of the line of sight from a panoramic image taken from one viewpoint, and is capable of interactively overlooking a 360-degree field of view around the user. However, in this method, since the viewpoint at the time of image input is fixed to a certain point, it is not possible to reconstruct an image from an arbitrary viewpoint. That is, although the gaze direction can be selected, the viewpoint is always fixed to the same viewpoint, so that it is not possible to reproduce a change in the occlusion (hidden) situation that occurs when the viewpoint changes.

【0005】このような物体との距離方向も含めた任意
視点の実現、オブジェクトとしての操作可能性、空間へ
の配置可能性といった更に進んだ機能を実現することが
できる画像表現方法としては、例えば文献2(「光線情
報による3次元実空間の効率的記述へ向けた光線空間射
影法」苗村他、信学技報IE95−119)に開示され
ている方法が知られている。この方法では3次元空間上
を通る光線を表現する「光線空間」という概念を導入
し、多視点画像と光線空間とを相互に変換することによ
り、入力された多視点画像から任意視点画像を生成して
いる。以下にこの原理につき具体的に説明する。
[0005] Image representation methods that can realize more advanced functions such as realization of an arbitrary viewpoint including the distance direction to an object, operability as an object, and arrangability in a space include, for example, A method disclosed in Reference 2 (“A ray space projection method for efficient description of a three-dimensional real space using ray information”, IEEJ: No. 95-119, IEICE Technical Report) is known. In this method, an arbitrary viewpoint image is generated from an input multi-viewpoint image by introducing a concept of “ray space” that expresses a light ray passing through a three-dimensional space and mutually converting the multi-viewpoint image and the ray space. doing. Hereinafter, this principle will be specifically described.

【0006】光線情報に基づく記述の考え方は、3次元
空間を伝播する光線の情報を、3次元の直交座標空間上
における光線の通過位置(X,Y,Z)とその方向
(θ,φ)によって定義される5次元情報空間f(X,
Y,Z,θ,φ)に記述するというものである。ここ
で、θは、直交座標空間上の任意の点(X,Y,Z)を
通過する光線の水平方向の傾き、つまりX−Z平面上の
角度を示し、φは(X,Y,Z)を通過する光線の垂直
方向の傾き、つまりX−Z平面上からY軸方向への角度
を示す。
The idea of description based on ray information is that information of a ray propagating in a three-dimensional space is represented by a position (X, Y, Z) and a direction (θ, φ) of the ray on a three-dimensional rectangular coordinate space. Five-dimensional information space f (X,
Y, Z, θ, φ). Here, θ indicates a horizontal inclination of a light ray passing through an arbitrary point (X, Y, Z) in the rectangular coordinate space, that is, an angle on the XZ plane, and φ indicates (X, Y, Z). ) Indicates the inclination in the vertical direction of the light beam that passes through, that is, the angle from the XZ plane to the Y axis direction.

【0007】画像情報が、直交座標空間上の任意の点
(X,Y,Z)に視点を置いたときにそこを通過する
(θ,φ)方向の光線の集合により形成されるものであ
ることを考慮すると、画像情報と前述の光線情報は相互
に変換可能であることがわかる。ここで光線が減衰せず
に直進するとの仮定が成立するような場合には、5次元
情報空間f(X,Y,Z,θ,φ)を4次元に縮退させ
ることができる。上述した文献2には、光線情報を記録
する面の取り方によって平面記録、円筒記録、球面記録
の3通りの記録方法がある事が記されているが、ここで
は以後の説明を行うために必要な円筒記録について簡単
に説明する。
Image information is formed by a set of light rays in the (θ, φ) direction passing through an arbitrary point (X, Y, Z) when the viewpoint is placed on the rectangular coordinate space. In consideration of this, it is understood that the image information and the above-mentioned light beam information can be mutually converted. Here, when it is assumed that the assumption is made that the light beam goes straight without attenuation, the five-dimensional information space f (X, Y, Z, θ, φ) can be reduced to four dimensions. Document 2 mentioned above describes that there are three types of recording methods, namely, flat recording, cylindrical recording, and spherical recording, depending on how the surface on which light information is recorded is taken. The necessary cylindrical recording will be briefly described.

【0008】図23に、円筒記録のための座標を示す。FIG. 23 shows coordinates for cylindrical recording.

【0009】まず空間を4次元に縮退するために、
(X,Y,Z,θ,φ)から(P,Q,R)への座標変
換が行われる。ここで、(P,Q,R)座標のR軸は、
図示のように、光線の進行方向(θ,φ)と一致するよ
うに規定される。これにより、(X,Y,Z,θ,φ)
は、(P,Q,R)つまり(P,Q,θ,φ)の4次元
に変換される。θが同一であるφ方向の全ての光線は、
そのθ方向に法線を持つ(P,Q)平面上の各点に記録
される。これより P=Xcosθ−Zsinθ …(1) Q=−Xsinθtanφ+Y−Zcosθtanφ …(2) の関係が得られる。
First, in order to reduce the space to four dimensions,
The coordinate conversion from (X, Y, Z, θ, φ) to (P, Q, R) is performed. Here, the R axis of the (P, Q, R) coordinate is
As shown in the drawing, it is defined so as to coincide with the traveling direction (θ, φ) of the light beam. Thus, (X, Y, Z, θ, φ)
Is converted into four dimensions of (P, Q, R), that is, (P, Q, θ, φ). All rays in the φ direction with the same θ are
It is recorded at each point on the (P, Q) plane having a normal line in the θ direction. From this, the relationship of P = Xcos θ−Z sin θ (1) Q = −X sin θ tan φ + Y−Z cos θ tan φ (2) is obtained.

【0010】図23においては、直交座標系0−XYZ
の原点(0,0,0)を通る進行方向(θ,φ)の光線
を記録する例である。R軸からX−Y平面上に垂ろした
垂線の足をMとした場合、O−Mを法線とする(P,
Q)平面が定義され、そこに、φ方向の全ての光線が記
録されることになる。このようにして、同一θ方向の光
線は、そのφ方向に関わらず、すべて同一の(P,Q)
平面上の対応する座標位置に記録される。
In FIG. 23, a rectangular coordinate system 0-XYZ
This is an example of recording a light ray in the traveling direction (θ, φ) passing through the origin (0, 0, 0) of the image. When a leg of a perpendicular line hanging down on the XY plane from the R axis is defined as M, OM is defined as a normal line (P,
Q) A plane is defined, in which all rays in the φ direction will be recorded. In this way, all rays in the same θ direction have the same (P, Q) regardless of their φ direction.
It is recorded at the corresponding coordinate position on the plane.

【0011】次にこの原理を使って多視点画像から光線
空間への記録を行い、記録された光線空間から任意視点
画像を生成する原理について説明する。
Next, a description will be given of the principle of recording from a multi-viewpoint image into a light beam space using this principle and generating an arbitrary viewpoint image from the recorded light beam space.

【0012】上述の原理によって光線空間が4次元に縮
退されたといっても扱うべき多視点画像の数や演算量は
非常に多く現実的ではないので、文献3(「光線情報に
基づく3次元空間操作」石川他、PCSJ96 P−
3.13)においては、φ方向の視差を無視して(p,
θ)の2次元空間への記録で代用している。
Although the ray space is reduced to four dimensions by the above-described principle, the number of multi-viewpoint images to be handled and the amount of calculation are extremely large and impractical. Operation ”Ishikawa et al., PCSJ96 P-
In 3.13), parallax in the φ direction is ignored (p,
θ) in a two-dimensional space.

【0013】また、実際に扱える光線の数には限りがあ
るので、実用にはサンプリングが介在することになる。
すなわち入力として扱われる視点の数は有限個にとどめ
られる。この時Y=一定の平面上でのある視点の座標
(X,Z)が決まると、その点を通る光線の軌跡は式
(1)のみで与えられる。Y=一定の平面上ではQ方向
の値は変化しないからである。有限個の複数の視点を設
定して画像を入力してやると、光線空間は、ある視点の
座標(X,Z)を通る光線の軌跡に沿った光線情報によ
って埋められてくる。光線空間上で光線情報の得られて
いない部分は得られている光線情報により内挿等によっ
て補間してやると、密に光線情報で埋まった光線空間が
得られる。再生の際は任意視点(X,Z)を指定する
と、その点を通る光線の軌跡が式(1)から得られるの
で、その軌跡上の光線情報を入力画像情報から取ってく
ることにより任意視点画像の画面におけるY=一定にお
ける一走査線、つまりある特定のYの値に対応する一本
の表示ライン上の画像が得られる。
Further, since the number of light beams that can be actually handled is limited, sampling is interposed in practical use.
That is, the number of viewpoints treated as input is limited to a finite number. At this time, when the coordinates (X, Z) of a certain viewpoint on the Y = constant plane are determined, the trajectory of the ray passing through that point is given only by the equation (1). This is because the value in the Q direction does not change on the Y = constant plane. When an image is input with a finite number of viewpoints set, the ray space is filled with ray information along the trajectory of rays passing through the coordinates (X, Z) of a certain viewpoint. If a portion of the ray space where no ray information is obtained is interpolated by interpolation or the like with the obtained ray information, a ray space densely filled with ray information is obtained. At the time of reproduction, if an arbitrary viewpoint (X, Z) is specified, the trajectory of a light ray passing through that point is obtained from Expression (1). An image on one scanning line at Y = constant on the screen of the image, that is, one display line corresponding to a specific Y value is obtained.

【0014】こうして得られる走査線をY方向に積み重
ねることによって任意視点から見た1画面分の画像を得
ることができる。
By stacking the scanning lines thus obtained in the Y direction, an image for one screen viewed from an arbitrary viewpoint can be obtained.

【0015】上述したように、光線空間を用いた原理に
基づく任意視点画像の生成においては、扱うべき情報
は、できる限り少なくて済むように簡略化を施してはい
るが、現状ではこのような簡略化を施しても情報量、処
理量は依然として非常に多く、再生のリアルタイム化、
情報量の削減などが課題としてあげられている。
As described above, in the generation of an arbitrary viewpoint image based on the principle using the ray space, the information to be handled is simplified so as to be as small as possible. Even with simplification, the amount of information and processing is still very large, real-time playback,
Reduction of the amount of information has been raised as an issue.

【0016】次に情報量削減の観点からそのために用い
られる従来技術につき説明する。
Next, a description will be given of a conventional technique used therefor from the viewpoint of reducing the amount of information.

【0017】通常、情報量の削減のためには符号化が施
される。多視点画像を符号化するとした場合、いろいろ
なやり方が考えられる。1つは各視点からの画像をそれ
ぞれ静止画としてJPEGなどの方法により符号化する
方法である。しかしこの方法は各視点からの画像同士の
相関を使っておらず無駄がある。2番目の方法は多視点
画像を動画像とみなしてMPEGなどの方法により符号
化する方法で、動き補償予測によって隣合う視点画像同
士の相関がある程度取り除かれる。特に多視点画像の1
つのケースとしてのステレオ画像の符号化では同様の原
理は視差補償予測と呼ばれており、これは例えば文献4
(特開平2−100592号公報)などに開示されてい
る。
Normally, encoding is performed to reduce the amount of information. When encoding a multi-viewpoint image, various methods can be considered. One is a method of encoding an image from each viewpoint as a still image by a method such as JPEG. However, this method is useless because it does not use the correlation between images from each viewpoint. The second method is a method in which a multi-view image is regarded as a moving image and is encoded by a method such as MPEG, and a correlation between adjacent viewpoint images is removed to some extent by motion compensation prediction. Especially for multi-view images 1
In encoding a stereo image as one case, a similar principle is called disparity compensation prediction.
(JP-A-2-100592).

【0018】また、MPEG2標準においても類似の原
理はマルチビュープロファイルの範疇にてサポートされ
ている。この方法は画像に対して一種のモデル化を行っ
ていることになるが、モデル化がブロックごとにしか行
われておらず画素単位で見たときにはモデルからのずれ
が大きくなりがちである。また、モデルのパラメータと
しても各ブロックに動きベクトルの形でパラメータを与
えることになり全体として、モデルパラメータの情報量
もかなり大きくなる。
A similar principle is also supported in the MPEG2 standard in the category of a multi-view profile. In this method, a kind of modeling is performed on an image. However, modeling is performed only for each block, and when viewed in pixel units, the deviation from the model tends to be large. In addition, the parameters of the model are given to each block in the form of a motion vector, so that the information amount of the model parameters becomes considerably large as a whole.

【0019】光線空間の概念を取り入れた多視点画像の
符号化に関する技術としては、文献5(「複合現実感表
示のための光線空間データの圧縮」片山他、IMPS9
6I−6.1)に開示されている技術がある。この方法
では、同一被写体から得た120枚の多視点画像のうち
の何枚かを参照画像として設定してそのまま送り、他の
画像については参照画像中のどの画素値に近いかという
画素を指定する情報として送ることによって情報を圧縮
するとしている。従って上述の動き補償の流用と比較し
てモデル化が画素単位で行われてる点でモデルからのず
れは少なくなるがモデルのパラメータ情報は逆に多くな
る。
As a technique relating to the encoding of a multi-view image incorporating the concept of a ray space, reference 5 (“Compression of ray space data for mixed reality display”, Katayama et al., IMPS9)
6I-6.1). In this method, some of the 120 multi-viewpoint images obtained from the same subject are set as a reference image and sent as it is, and for other images, a pixel indicating which pixel value in the reference image is close is specified. Information is compressed by sending it as information. Therefore, as compared with the above-described diversion of motion compensation, the deviation from the model is small in that the modeling is performed in pixel units, but the parameter information of the model is conversely large.

【0020】また、文献6(特開平8−115434号
公報)では多視点画像の圧縮に関連する別の技術とし
て、(少ない)多視点画像の対応点の軌跡を規定するパ
ラメータを利用することにより受信側で任意視点画像の
ための内挿を行う技術が開示されている。この際にこの
パラメータのみによって光線空間を表現すれば非常に少
ない情報量による表現が可能となる。
In Reference 6 (Japanese Unexamined Patent Application Publication No. 8-115434), as another technique related to the compression of a multi-viewpoint image, a parameter that defines the trajectory of (small) corresponding points of the multi-viewpoint image is used. A technique for performing interpolation for an arbitrary viewpoint image on the receiving side is disclosed. At this time, if the ray space is represented only by these parameters, it is possible to represent with a very small amount of information.

【0021】文献5,6はいずれもモデルのみによって
多視点画像を表現しようとするものであるが、実際には
特に後者の場合多視点画像からのモデルの推定はかなり
難しく、誤差を伴うものとなる。この結果モデルの推定
に誤差が生じた部分については、再生される画像が不自
然になってしまう。
The documents 5 and 6 all attempt to represent a multi-viewpoint image only by a model. However, in the latter case, in particular, in the latter case, the estimation of the model from the multi-viewpoint image is quite difficult, and it is considered that the estimation involves an error. Become. As a result, the image to be reproduced becomes unnatural for a portion where an error has occurred in the estimation of the model.

【0022】これに対して、文献7(「3次元構造推定
に基づく多眼3次元画像の圧縮と補間」藤井、原島 3
次元画像コンファレンス’94 1−4)には、3次元
構造モデルから多眼画像の予測信号を生成し予測誤差を
送る方法が開示されている。この文献でのモデルは平面
や平面パッチなどの近似であってこれによる予測の精度
はあまりよいとは言えない。しかし単純にモデルの精度
を良くすると、精度を良くするほどモデル自体の情報量
が大きくなってしまい全体の情報量を減らすことは出来
ない。
On the other hand, reference 7 (“Compression and interpolation of a multi-view three-dimensional image based on three-dimensional structure estimation”, Fujii, 3)
The dimensional image conference '94 1-4) discloses a method of generating a prediction signal of a multi-view image from a three-dimensional structure model and transmitting a prediction error. The model in this document is an approximation of a plane or a plane patch, and the accuracy of prediction by this is not very good. However, if the accuracy of the model is simply improved, the information amount of the model itself increases as the accuracy increases, and the entire information amount cannot be reduced.

【0023】[0023]

【発明が解決しようとする課題】上述した圧縮方法のう
ち従来の符号化の流用による方法(視差保証予測、マル
チビュープロファイルなど)においては、多視点画像の
持つ性質が十分に活用されておらず膨大な情報量を大幅
に圧縮するには至らないという問題点があった。
Among the above-mentioned compression methods, in the conventional methods based on diversion of coding (disparity assurance prediction, multi-view profile, etc.), the properties of multi-view images are not fully utilized. There was a problem that it was not possible to significantly compress a huge amount of information.

【0024】また、文献5,6のようなモデルのみによ
る方法においてはモデルの推定が難しい場合があり、推
定に誤差が生じた場合再生される画像が不自然になって
しまうという問題点があった。例えば、上述の2つの文
献では、被写体面が完全拡散面であるとの仮定のもと
に、前者では近い視点画像には同じ輝度値を持つ画素が
あると考え、後者では同じ被写体面上の点からの輝度値
は代表値によって表されるものと考えてその値で表現す
るものとしている点があげられる。しかし、実際の被写
体は完全拡散面ではない場合もあり、また、オクルージ
ョンや表面のテクスチャの関係により対応点が見えてい
なかったり判断しにくかったりしてモデル化が必ずしも
完全に行えない場合がある。そのような画素に対して強
引にモデルを当てはめると、誤差が非常に大きくなって
しまうという問題がある。
Also, in the method using only the model as described in References 5 and 6, it may be difficult to estimate the model, and if an error occurs in the estimation, the reproduced image becomes unnatural. Was. For example, in the above two documents, under the assumption that the subject surface is a perfect diffusion surface, the former considers that there is a pixel having the same luminance value in a near viewpoint image, and the latter considers that the same subject surface has the same luminance value. The point is that the luminance value from a point is considered to be represented by a representative value and is represented by that value. However, the actual subject may not be a perfectly diffused surface, or the corresponding points may not be visible or difficult to determine due to the relationship between occlusion and surface texture, and modeling may not always be completely performed. When a model is forcibly applied to such a pixel, there is a problem that an error becomes extremely large.

【0025】本発明は上記事情を考慮してなされたもの
であり、各多視点画像の画素が被写体上の同一点より発
せられた光線である場合にその軌跡は数式によって表現
できることを利用してすべての視点画像に対して共通の
パラメータによりモデル化を行い、多視点画像の持つ大
量の情報量を圧縮して少ない情報量で表現すると共に、
モデル化がうまく行かないような複雑な被写体であって
も自然な任意視点画像の再生がリーズナブルな情報伝送
または蓄積量で行えるようにし、さらにモデル自体の情
報量についても精度を保ちつつもリーズナブルな情報量
に納めることの出来る多視点画像符号化/復号化装置お
よび多視点画像の符号化/復号化方法を提供することを
目的とする。
The present invention has been made in consideration of the above circumstances, and makes use of the fact that, when the pixels of each multi-viewpoint image are light rays emitted from the same point on the subject, the trajectory can be expressed by a mathematical expression. Modeling is performed on all viewpoint images using common parameters, and a large amount of information of a multi-viewpoint image is compressed and expressed with a small amount of information.
Even if the subject is not well modeled, it is possible to reproduce a natural arbitrary viewpoint image with reasonable information transmission or storage amount, and also maintain reasonable accuracy with respect to the information amount of the model itself. It is an object of the present invention to provide a multi-view image encoding / decoding device and a multi-view image encoding / decoding method that can be stored in an information amount.

【0026】[0026]

【課題を解決するための手段】上述の課題を解決するた
めに、請求項1に係る本発明は、被写体との位置関係が
既知の複数の視点からそれぞれ得られた前記被写体につ
いての複数の視点画像を入力し、それら複数の視点画像
を含む多視点画像を符号化する多視点画像符号化装置に
おいて、前記多視点画像をモデル化して前記被写体面上
の各点の座標値および輝度値から構成されるモデル情報
を生成するモデル化手段であって、前記被写体面上の各
点毎にモデルとして使用すべき視点画像を決定し、その
視点画像内の対応する輝度情報を前記モデル情報の対応
する点の輝度値として使用するモデル化手段と、前記被
写体面上の各点の座標値および輝度値から構成されるモ
デル情報を、それら各点のモデルとして使用された視点
画像の画像情報として符号化する手段と、前記モデル情
報から前記各視点画像の画像を予測し、前記各入力視点
画像との予測誤差を符号化する手段と、符号化された前
記モデル情報および予測誤差を多重化して、前記多視点
画像の符号化ストリームを生成する多重化手段とを具備
することを特徴とする。
In order to solve the above-mentioned problems, the present invention according to the present invention is directed to a method for displaying a plurality of viewpoints on a subject obtained from a plurality of viewpoints whose positional relationship with the subject is known. In a multi-view image encoding apparatus for inputting an image and encoding a multi-view image including the plurality of viewpoint images, the multi-view image is modeled and configured from coordinate values and luminance values of respective points on the subject plane. A viewpoint image to be used as a model for each point on the object plane, and corresponding luminance information in the viewpoint image corresponding to the model information corresponds to the model information. Modeling means used as a luminance value of a point, and model information composed of coordinate values and luminance values of each point on the object plane, and image information of a viewpoint image used as a model of each point. Means for predicting the image of each viewpoint image from the model information, means for coding the prediction error with the input viewpoint image, and multiplexing the encoded model information and prediction error. Multiplexing means for generating an encoded stream of the multi-view image.

【0027】この多視点画像符号化装置においては、複
数の視点画像の画素が被写体上の同一点より発せられた
光線より生成された場合には互いに近い値を持つという
多視点画像の持つ冗長性を利用してモデル化が行われ
る。この場合、モデル化によって生成されるモデル情報
は、被写体面上の各点についての座標値と代表輝度値か
ら構成される。ここで、輝度値とは、TVカメラでいう
と輝度信号Y及び色差信号Cr,Cb、または3原色の
信号R,G,Bなどに対応するものを総称するものであ
る。各点についての代表輝度値としては、複数の視点画
像の中からモデルとして選ばれた1つの視点画像内の該
当する輝度情報に準ずる値が用いられる。各点のモデル
情報は代表輝度として使用された視点画像の輝度情報と
して符号化される。これにより、モデル情報はそれ単独
で存在するのではなく、各視点画像の画像情報の一部と
して存在することになる。
In this multi-viewpoint image coding apparatus, the redundancy of the multi-viewpoint image is such that when pixels of a plurality of viewpoint images are generated from light rays emitted from the same point on the subject, they have values close to each other. Modeling is performed using. In this case, the model information generated by modeling includes coordinate values and representative luminance values for each point on the object plane. Here, the term “brightness value” is a general term for a TV camera that corresponds to a brightness signal Y and color difference signals Cr and Cb, or signals R, G and B of three primary colors. As a representative luminance value for each point, a value based on corresponding luminance information in one viewpoint image selected as a model from a plurality of viewpoint images is used. The model information of each point is encoded as luminance information of the viewpoint image used as the representative luminance. Thus, the model information does not exist alone, but exists as a part of the image information of each viewpoint image.

【0028】各視点画像の符号化においては、まず、モ
デル情報に基づいて各視点画像毎にその画像が予測さ
れ、その予測画像と各入力視点画像との予測誤差が求め
られる。そして、その予測誤差が符号化されて、符号化
されたモデル情報と一緒に符号化ストリームに多重化さ
れる。このように、入力多視点画像と予測画像との誤差
を符号化することにより、符号化ストリームとして蓄積
・伝送される情報量を十分に低減することが出来ると共
に、高いリアリティを持った再生を実現できる。
In encoding each viewpoint image, first, the image is predicted for each viewpoint image based on the model information, and a prediction error between the predicted image and each input viewpoint image is obtained. Then, the prediction error is encoded and multiplexed together with the encoded model information in an encoded stream. In this way, by encoding the error between the input multi-view image and the predicted image, it is possible to sufficiently reduce the amount of information stored and transmitted as an encoded stream, and realize high-reality reproduction. it can.

【0029】また、モデル情報を1視点画像内の情報と
して符号化することは次のような意味がある。すなわ
ち、モデル情報についても情報量を大幅に圧縮するには
輝度情報、座標情報共にブロック化を行うなどして近接
点同士の相関を用いた空間的な相関の除去を行うような
圧縮をする必要がある。このために何らかのモデル面を
多視点画像から新たに作成するのは手間がかかると同時
に、その方法によってはサンプリング等の影響によりモ
デル面上での近接点同士の相関が十分に得られないこと
が起こりうる。これに対してモデル情報を1視点画像内
の情報として符号化する方法は、人力より得られた情報
を使った方法の中で近接点同士の相関を最大限保証して
くれる方法となっている。このため、モデルの情報につ
いても十分な圧縮を行うことができるわけである。さら
に被写体面上の可視点すべてについてもれなくモデルを
定義することができるという特徴もある。被写体面は一
般に複雑な曲面であるから、これが持つ輝度情報を全て
網羅する平面を定義するのは困難である。しかし実際に
ブロック符号化などを導入しようとすると、モデルは平
面上で定義されているとが好ましい。モデル情報を1視
点画像内の情報として符号化する方法はこの両者を兼ね
備えた方法になっている。
Encoding the model information as information in one viewpoint image has the following meaning. In other words, in order to significantly reduce the amount of information for model information, it is necessary to perform compression to remove spatial correlation using correlation between neighboring points, such as by blocking both luminance information and coordinate information. There is. For this reason, creating a new model plane from a multi-view image is time-consuming, and at the same time, depending on the method, it may not be possible to obtain sufficient correlation between adjacent points on the model plane due to the influence of sampling or the like. It can happen. On the other hand, the method of encoding model information as information in one viewpoint image is a method that guarantees the maximum correlation between adjacent points among methods using information obtained from human power. . For this reason, it is possible to sufficiently compress the information of the model. Another feature is that a model can be defined for all visible points on the object plane. Since the object surface is generally a complicated curved surface, it is difficult to define a plane covering all the luminance information of the object surface. However, when actually trying to introduce block coding or the like, it is preferable that the model is defined on a plane. The method of encoding model information as information in one viewpoint image is a method having both of them.

【0030】さらに、各点のモデル情報はその点の代表
輝度として使用された視点画像の輝度情報として符号化
されているので、代表輝度として使用された画像部分に
ついては、予測誤差情報を用いることなく、モデル情報
だけで再生することができ、その部分の情報量を節約で
きる。よって十分なモデル精度を保ちつつそのモデルの
情報量を少なく押さえることが出来る。
Further, since model information of each point is encoded as luminance information of a viewpoint image used as a representative luminance of the point, prediction error information is used for an image portion used as the representative luminance. Instead, it can be reproduced only with the model information, and the information amount of that part can be saved. Therefore, the amount of information of the model can be reduced while maintaining sufficient model accuracy.

【0031】また、モデル情報からの予測の性能をよく
するために、請求項2に係る発明においては、前記被写
体面上の点からの法線方向に最も近い視点を持つ視点画
像を、その点のモデルとして使用することを特徴として
いる。これにより、被写体面上の各点毎に、その点から
の法線方向に最も近い視点を持つ視点画像の該当する輝
度情報が代表輝度値として用いられるようになり、予測
の性能向上を図ることが出来る。すなわち、入力多視点
画像として得られている各視点画像は角度的にも空間的
にもサンプルされている画像であるので、代表輝度値と
して使用する視点画像の選択の仕方によっては、再生画
像が粗くなったり余計な情報量を費やすことになったり
する事が懸念されるが、請求項2では、モデル情報で使
用する代表輝度値として被写体面の法線方向から撮った
画素の輝度情報を採用しているので、モデルの解像度が
十分に取れ、必要十分な予測画像が生成できる。よっ
て、被写体の複雑さに関わらず、少ない情報量で高いリ
アリティをもった再生を実現できる。
In order to improve the performance of prediction from model information, in the invention according to claim 2, a viewpoint image having a viewpoint closest to a normal direction from a point on the object plane is defined as the point image. It is characterized by being used as a model. As a result, for each point on the object plane, the corresponding luminance information of the viewpoint image having the viewpoint closest to the normal direction from that point is used as the representative luminance value, and the prediction performance is improved. Can be done. That is, since each viewpoint image obtained as an input multi-viewpoint image is an image sampled both angularly and spatially, depending on the method of selecting the viewpoint image used as the representative luminance value, the reproduced image is There is a concern that the information may become coarse or an unnecessary amount of information may be consumed. However, in claim 2, luminance information of a pixel taken from the normal direction of the subject plane is used as a representative luminance value used in the model information. Therefore, a sufficient resolution of the model can be obtained, and a necessary and sufficient predicted image can be generated. Therefore, regardless of the complexity of the subject, reproduction with high reality can be realized with a small amount of information.

【0032】また、復号再生側の処理を必要以上に大き
くしないために、請求項3に係る発明では、前記多重化
手段は、前記被写体面上の各点の座標値および輝度値か
ら構成されるモデル情報を、前記予測誤差情報が多重化
される前記符号化ストリーム上の情報位置とは異なる他
の情報位置にまとめて多重化することを特徴とする。被
写体面上の点の座標と輝度からなるモデル情報はどのよ
うな視点からの画像を再生するにも必ず使用されるもの
であるので、これを、視点によって使用される部分が異
なる予測誤差情報と分けて符号化ストリーム上の特定の
領域にまとめて多重化することにより、復号再生側では
モデル情報にアクセスするためにいちいちすべての情報
を検索する必要が無くなり余計な処理を行う必要が無く
なる。
Further, in order to prevent the processing on the decoding / reproduction side from becoming unnecessarily large, in the invention according to the third aspect, the multiplexing means comprises coordinate values and luminance values of each point on the object plane. The model information is collectively multiplexed at another information position different from the information position on the coded stream where the prediction error information is multiplexed. Since model information consisting of coordinates and brightness of points on the object plane is always used for reproducing an image from any viewpoint, it is used as prediction error information in which a portion used by a viewpoint differs. By dividing and multiplexing them in a specific area on the encoded stream, the decoding and reproducing side does not need to search all the information to access the model information, and does not need to perform unnecessary processing.

【0033】[0033]

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0034】以下では、上述した苗村らによる文献2に
示された円筒記録モデルに従う例をもとに説明するが、
他のモデルを使用した場合においても同様に当てはまる
ものである。
In the following, a description will be given based on an example according to the cylindrical recording model shown in Reference 2 by Naemura et al.
The same applies to the case where another model is used.

【0035】まず、図20を参照して、本実施形態で使
用される多視点画像入力部の構成例を説明する。この例
では、被写体1701は回転台1702に乗せられ、カ
メラ1703により撮影される。カメラ1703の光軸
1706は回転台1702の回転軸1705を通り、光
軸1706と回転軸1705はお互い直交しているもの
とする。両者の位置関係は既知であり、その間の距離は
Rであるとする。回転台1702は制御装置1704に
より一定の角度(例えば3度)ずつ回転を制御される。
そのたびにカメラ1703によって画像が入力される。
この例ではこの動作により一回転で視点の異なる120
枚の画像が入力されることになる。次にこの場合の光線
空間について説明する。
First, an example of the configuration of the multi-viewpoint image input unit used in this embodiment will be described with reference to FIG. In this example, a subject 1701 is mounted on a turntable 1702 and photographed by a camera 1703. The optical axis 1706 of the camera 1703 passes through the rotation axis 1705 of the turntable 1702, and the optical axis 1706 and the rotation axis 1705 are orthogonal to each other. The positional relationship between the two is known, and the distance between them is R. The rotation of the turntable 1702 is controlled by a control device 1704 at a fixed angle (for example, 3 degrees).
An image is input by the camera 1703 each time.
In this example, this operation causes 120 different viewpoints in one rotation.
One image will be input. Next, the light beam space in this case will be described.

【0036】上述した苗村らの文献に示されているよう
に、円筒記録の場合、点(X,Y,Z)を通る光線は、
光線空間上の次式により表現される座標に記録される。
As shown in the above-mentioned document by Naemura et al., In the case of cylindrical recording, a ray passing through a point (X, Y, Z)
The coordinates are recorded in the coordinates represented by the following equation in the ray space.

【0037】 P=Xcosθ−Zsinθ …(3) Q=−Xsinθtanφ+Y−Zcosθtanφ …(4) ここで今、従来技術のところでも説明したように、扱う
情報量、演算量が大きくなりすぎないようにQ方向の光
線の変化は考えないものとし、また、光線空間は回転軸
1705に直交する平面(例えば1707)で定義して
Y方向に積み上げて近似するものとする(この場合、φ
方向の変化によるオクルージョンなどは再現されな
い)。
P = Xcos θ−Z sin θ (3) Q = −X sin θ tan φ + Y−Z cos θ tan φ (4) Here, as described in the related art, Q is used so that the amount of information to be processed and the amount of calculation are not too large. It is assumed that the change of the light ray in the direction is not considered, and the light ray space is defined by a plane (for example, 1707) perpendicular to the rotation axis 1705 and is approximated by stacking in the Y direction (in this case, φ
Occlusions due to changes in direction are not reproduced.)

【0038】図21は平面1707上での被写体の断面
1801とカメラ1703の位置関係を表している。こ
こで表記上、回転台の回転軸1705を中心とする極座
標表現(r,ψ)を図21に示すように導入すると、 X=rsinψ …(5) Z=rcosψ …(6) であるから、式(3)より P=rcosθsinψ−rsinθcosψ =rsin(ψ−θ) …(7) となる。従って、120枚の多視点画像の光線空間上に
おける軌跡1901は図22に示すように P=Rsin(n* 3°−θ),n=0,…,119 …(8) で表される。軌跡1901の中の曲線2001,200
2,2003,2004,…は、それぞれ3°ずつ異な
る角度から撮影した視点画像を示している。つまり、こ
れら曲線2001,2002,2003,2004,…
はそれぞれ、互いに3°ずつ異なる角度から撮影した複
数の視点画像における特定のY位置に対応する一走査線
分の画像を表している。
FIG. 21 shows the positional relationship between the cross section 1801 of the subject on the plane 1707 and the camera 1703. Here, for notation, when a polar coordinate expression (r, ψ) centered on the rotation axis 1705 of the turntable is introduced as shown in FIG. 21, X = rsinψ (5) Z = rcosψ (6) From equation (3), P = rcos θ sinψ−rsin θcosψ = rsin (ψ−θ) (7) Accordingly, the trajectory 1901 of the 120 multi-viewpoint images in the ray space is represented by P = Rsin (n * 3 ° -θ), n = 0,..., 119 (8) as shown in FIG. Curves 2001 and 200 in the locus 1901
Reference numerals 2, 2003, 2004,... Indicate viewpoint images taken from different angles by 3 °. That is, these curves 2001, 2002, 2003, 2004,.
Each represents an image for one scanning line corresponding to a specific Y position in a plurality of viewpoint images taken from different angles by 3 ° from each other.

【0039】同様の性質は被写体面上の点においても当
てはまり、被写体面を表す関数r(ψ)を導入すると点
(r(ψ),ψ)から出る光線の軌跡1902は P=r(ψ)sin(ψ−θ) …(9) で表される。
The same property applies to a point on the object plane. When a function r (ψ) representing the object plane is introduced, the trajectory 1902 of the light beam emitted from the point (r (ψ), ψ) becomes P = r (ψ) sin (ψ−θ) (9)

【0040】従って、被写体面上の任意の点(r
(ψ),ψ)から出る光線の軌跡1902の光線情報
は、軌跡1902と軌跡1901の中の各曲線200
1,2002,2003,2004,…との交点、つま
り2005,2006,2007,2008で与えられ
ることになる。このことは、被写体面上の点のみなら
ず、(X,Y,Z)座標上の任意の点についても言え
る。したがって、任意視点画像を再生する場合には、そ
の視点の位置情報によってその視点を通る光線の軌跡が
図22の光線空間上に決定され、その軌跡と軌跡190
1の中の各曲線2001,2002,2003,200
4,…との交点における光線情報を採ってくることによ
って、任意視点画像の画面の1走査線が再生される。従
ってこの例においては平面1707に平行な各平面にて
同様の操作を行い、得られた走査線をY方向に積み上げ
ることによって任意視点画像の画面全体、つまり全ての
Yについての走査線を再生できる。
Therefore, an arbitrary point (r
The light ray information of the trajectory 1902 of the light ray exiting from (ψ), ψ) is obtained by calculating each curve 200 in the trajectory 1902 and the trajectory 1901.
1, 2002, 2003, 2004,..., That is, 2005, 2006, 2007, 2008. This applies not only to points on the object plane but also to arbitrary points on the (X, Y, Z) coordinates. Therefore, when reproducing an arbitrary viewpoint image, the trajectory of a ray passing through the viewpoint is determined in the ray space of FIG.
Each curve 2001, 2002, 2003, 200 in 1
By obtaining light beam information at the intersections with 4,..., One scanning line on the screen of the arbitrary viewpoint image is reproduced. Accordingly, in this example, the same operation is performed on each plane parallel to the plane 1707, and the obtained scanning lines are stacked in the Y direction, so that the entire screen of the arbitrary viewpoint image, that is, all the scanning lines for Y can be reproduced. .

【0041】被写体面上の一点r(ψ)から出る光線の
光線空間上の軌跡が前述の式(9)で表せるということ
は、被写体面が、光線の方向によって光線情報の値があ
まり変わらない完全拡散面に近い性質の面である場合
は、被写体面上の一点r(ψ)に対応する多視点画像
は、その点の座標rと輝度の代表値でモデル化でき、ま
た、被写体面が完全拡散面から遠い性質の場合は、座標
rとθの関数である輝度L(θ)でモデル化できること
を示している。ここでいう輝度とは、TVカメラでいう
と輝度信号Y及び色差信号Cr,Cb、または3原色の
信号R,G,Bなどに対応するものを称している点に注
意されたい。参照した文献ではこの輝度は、光線情報と
称せられている。
The fact that the trajectory of the light beam emerging from one point r (ψ) on the object plane in the light beam space can be expressed by the above-described equation (9) means that the value of the light beam information does not change much depending on the direction of the light beam on the object surface. If the surface has a property close to a perfect diffusion surface, a multi-viewpoint image corresponding to a point r (ψ) on the object surface can be modeled by the coordinates r of the point and a representative value of luminance. In the case of the property far from the perfect diffusion surface, it is shown that the model can be modeled by the luminance L (θ) which is a function of the coordinates r and θ. It should be noted that the term “luminance” as used herein refers to a signal corresponding to the luminance signal Y and the color difference signals Cr and Cb, or the signals R, G and B of three primary colors in a TV camera. In the referenced document, this luminance is called light beam information.

【0042】次に図1を用いて本発明に係る多視点画像
符号化装置の一実施形態につき説明する。図で、多視点
画像入力部100は例えば図20で具体的な構成例を示
した、被写体とカメラの位置関係が既知の条件で複数の
視点からの画像の撮影が行える画像入力装置である。こ
こで入力された多視点画像はいったんハードディスクの
ような記憶部101に蓄えられる。制御部102は符号
化全体の制御を行うものである。符号化の手順は、
(1)全体の多視点画像を見てモデル化を行い、(2)
仮の符号化を行って全体の符号量との関係から量子化な
どの符号化のパラメータを決定した後、(3)実際の本
符号化を行うという、3フェーズよりなる。従って制御
部102はこれらの手順についての制御も行う。
Next, an embodiment of the multi-view image encoding apparatus according to the present invention will be described with reference to FIG. In the figure, a multi-view image input unit 100 is an image input device that can capture images from a plurality of viewpoints under a condition that the positional relationship between a subject and a camera is known, for example, a specific configuration example illustrated in FIG. The multi-viewpoint image input here is temporarily stored in the storage unit 101 such as a hard disk. The control unit 102 controls the entire coding. The encoding procedure is
(1) Modeling is performed by viewing the entire multi-view image, and (2)
After the provisional encoding is performed to determine encoding parameters such as quantization from the relationship with the entire code amount, (3) actual actual encoding is performed. Therefore, the control unit 102 also controls these procedures.

【0043】まず制御部102はモデリング部103に
モデル生成の指示を出し、モデルリング部103はその
指示に従って記憶部101をアクセスして記憶された多
視点画像を読み込み、上述した原理に基づくモデルを推
定するフェーズを開始する(モデルの推定方法の詳細に
ついては後述)。本実施形態ではモデルを表す情報は被
写体面上の各点の極座標rとその点の輝度の代表値とか
ら構成される。輝度の代表値としては、被写体面上の対
応する点からの法線方向に最も近い視点から撮られた視
点画像の該当する輝度情報が用いられる。あるいは、後
述の予測を考慮して全体の予測を最適化する値を求めて
もよい。そして、各点についてのモデル情報の輝度値
は、その点からの法線方向に最も近い視点から撮られた
視点画像の輝度情報としてフレーム内符号化して送られ
る(詳細は後述)。従ってモデルリング部103の仕事
は、被写体面上の各点に対応する極座標rの推定と、各
点に対応する代表輝度を得るべき視点画像の特定であ
る。
First, the control unit 102 issues a model generation instruction to the modeling unit 103, and the modeling unit 103 accesses the storage unit 101 according to the instruction to read the stored multi-viewpoint image, and generates a model based on the above-described principle. The estimation phase starts (details of the model estimation method will be described later). In the present embodiment, the information representing the model is composed of polar coordinates r of each point on the subject plane and a representative value of the luminance of the point. As the representative value of the luminance, the corresponding luminance information of the viewpoint image taken from the viewpoint closest to the normal point direction from the corresponding point on the subject plane is used. Alternatively, a value for optimizing the entire prediction may be obtained in consideration of the later-described prediction. Then, the luminance value of the model information for each point is intra-coded and sent as luminance information of a viewpoint image taken from the viewpoint closest to the normal direction from that point (details will be described later). Therefore, the tasks of the modeling unit 103 are to estimate the polar coordinates r corresponding to each point on the subject plane and to specify the viewpoint image from which the representative luminance corresponding to each point is to be obtained.

【0044】この作業が終了すると、被写体面上の各点
の代表輝度として使用される視点画像内の該当するブロ
ックが、対応するrの値よりなるブロックと共にDCT
回路111、量子化回路(Q)112、可変長符号化回
路(VLC)113よりなるフレーム内符号化回路に送
られる。この部分では、まずDCT回路111にてその
部分の輝度及びrのブロックがDCTされ、量子化回路
112にて量子化、可変長符号化回路113にて可変長
符号化され、多重化回路116に送られる。量子化回路
112にて量子化された信号は、また逆量子化回路(Q
-1)114にて逆量子化、逆DCT回路(IDCT)1
15にて逆DCTされ、モデル蓄積部104に蓄えられ
る。ここで、rの値は後述する予測信号の作成の性能に
大きく影響を与えるので、できるだけ細かく量子化する
ことが望ましい。また、DPCMなど他の符号化方式を
用いることも考えられる。更に、完全に可逆な符号化を
用いることにしてもよい。また、輝度の値も多視点画像
全体の予測に使われる予測値のもととなるので、細かい
ステップサイズで量子化するのが望ましい。
When this operation is completed, the corresponding block in the viewpoint image used as the representative luminance of each point on the object plane is set in the DCT together with the block having the corresponding value of r.
The signal is sent to an intra-frame encoding circuit composed of a circuit 111, a quantization circuit (Q) 112, and a variable-length encoding circuit (VLC) 113. In this part, first, the DCT circuit 111 performs DCT on the luminance and r blocks of that part, quantizes it in a quantization circuit 112, performs variable length coding in a variable length coding circuit 113, and Sent. The signal quantized by the quantization circuit 112 is again converted into an inverse quantization circuit (Q
-1 ) Inverse quantization and inverse DCT circuit (IDCT) 1 at 114
The inverse DCT is performed at 15 and stored in the model storage unit 104. Here, since the value of r greatly affects the performance of generating a prediction signal described later, it is desirable to quantize as finely as possible. It is also conceivable to use another encoding method such as DPCM. Further, completely lossless coding may be used. In addition, since the luminance value is also a source of a prediction value used for prediction of the entire multi-view image, it is desirable to quantize with a fine step size.

【0045】MPEGなどの動画像符号化では通常I,
PピクチャをBピクチャよりも細かく量子化するが、こ
の差別化の度合いよりも大きく差別化する、すなわちモ
デルとして送る輝度は後述する誤差の符号化で用いる量
子化よりもかなり細かく行うことが望ましい。制御部1
02はトータルの目標符号化ビット数より、これらのモ
デルの量子化ステップサイズを決定し量子化回路112
及び逆量子化回路114に通知する。但し上述したよう
な理由によりモデル量子化ステップサイズは目標符号化
ビット数にあまり大きく影響されないように細かい値に
設定することが望ましい。
In moving picture coding such as MPEG, I,
The P picture is quantized more finely than the B picture. However, it is desirable that the P picture is differentiated more greatly than the degree of differentiation, that is, the luminance to be sent as a model is considerably finer than the quantization used for error coding described later. Control unit 1
02 determines the quantization step size of these models from the total target encoding bit number, and
And the inverse quantization circuit 114. However, for the above-described reason, it is desirable to set the model quantization step size to a small value so as not to be greatly affected by the target number of coding bits.

【0046】モデル情報の符号化が終了すると、次に予
測誤差の仮符号化が行われ、これによって予測誤差符号
化のための量子化ステップサイズが決定される。ここで
は、まず、記憶部101より多視点画像が1フレーム
(各視点からの画像がそれぞれここでいうフレームで構
成されているとする)ずつ読み出される。各フレームに
対して、モデル蓄積部104に蓄えられたrと輝度のモ
デル情報から予測信号生成部105にて予測信号が作成
される。図2を用いて予測信号が作成される原理を説明
する。
When the encoding of the model information is completed, the tentative encoding of the prediction error is performed, and the quantization step size for the encoding of the prediction error is determined. Here, first, the multi-viewpoint image is read from the storage unit 101 one frame at a time (assuming that the image from each viewpoint is composed of the frame referred to here). For each frame, a prediction signal is generated by the prediction signal generation unit 105 from the model information of r and luminance stored in the model storage unit 104. The principle of generating a prediction signal will be described with reference to FIG.

【0047】図2は図22のところで説明したp−θ平
面の図である。先に述べたように、多視点画像をY=一
定の断面で切った一走査線に対応するものである。フレ
ーム201は現在符号化しようとしているフレーム(あ
る特定の角度から被写体を撮影することによって得られ
た視点画像)、フレーム202はモデルを含むフレーム
(代表輝度値として使用された部分を含む特定角度の視
点画像)、ブロック206はモデルとして符号化され復
号化されたブロックを示している。予測信号の作成は、
各入力される被符号化フレームに対して、ブロック20
6のようにモデルとして符号化された全てのブロック上
の点からその被符号化フレームに対して投影を行うこと
により行われる。ブロック206上の点207は復号化
された輝度値及びrの値を有している。この点も被写体
上の点より投影されてできているものであるから、その
点の輝度値は、既に説明した原理よりこの点の輝度の源
となっている被写体上の点の極座標表現を(r,ψ)と
すれば、rsin(ψ−θ)とフレーム202の交点と
して表現される。このうちrの値は情報として復号化さ
れており、θの値はフレーム202の位置により一意に
決まるため、ψの値を求めればよい。
FIG. 2 is a diagram of the p-θ plane described with reference to FIG. As described above, this corresponds to one scanning line obtained by cutting the multi-viewpoint image at a fixed cross section of Y = Y. A frame 201 is a frame to be currently encoded (a viewpoint image obtained by photographing a subject from a specific angle), and a frame 202 is a frame including a model (a specific angle including a portion used as a representative luminance value). (Viewpoint image), and a block 206 indicates a block coded and decoded as a model. Creating the prediction signal
For each incoming encoded frame, block 20
This is performed by projecting the point to be coded from all the points on the block coded as a model as shown in FIG. Point 207 on block 206 has the decoded luminance value and the value of r. Since this point is also projected from a point on the subject, the luminance value of the point is expressed by the polar coordinate expression of the point on the subject that is the source of the luminance of this point according to the principle described above. r, ψ), it is represented as an intersection of rsin (ψ−θ) and the frame 202. Among them, the value of r is decoded as information, and the value of θ is uniquely determined by the position of the frame 202, so the value of ψ may be obtained.

【0048】この点を通るrsin(ψ−θ)の曲線は
例えば図の例では203,204の2通り存在するが、
図3に示すようにp−θ平面に見える点として投影され
るのはz=rcos(ψ−θ)の値が大きい方のψ1で
あることにより一意に求められる。従って、点207を
通る光線の軌跡は203と確定する。このことから、点
207から投影されるフレーム201上の点は両曲線2
03,201の交点208となる。点208に投影され
る光線の軌跡は他にも存在しうる(この例では20
5)。一点に複数の光線が投影された場合、図3の原理
に従いzの値が最も大きい光線が最終的に投影されたこ
とになる(図の例では203)。モデルとして符号化さ
れた207のような全ての点からフレーム201への投
影を行うと、フレーム201は予測信号で密に埋まる。
モデルはこれを満たすように選択され符号化されてい
る。このようにして、符号化対象の各フレーム毎に、被
写体面上の各点のモデル情報によってそのフレームの画
像が予測される。
There are two kinds of curves of rsin (ψ−θ) passing through this point, for example, 203 and 204 in the example of FIG.
As shown in FIG. 3, what is projected as a point visible on the p-θ plane is uniquely determined by the larger value of z = rcos (ψ−θ), which is ψ1. Accordingly, the trajectory of the light beam passing through the point 207 is determined to be 203. From this, the point on the frame 201 projected from the point 207 is represented by both curves 2
It becomes the intersection 208 of 03,201. There may be other trajectories of the ray projected onto the point 208 (in this example, 20
5). When a plurality of rays are projected on one point, the ray having the largest value of z is finally projected according to the principle of FIG. 3 (203 in the example of FIG. 3). When the projection from all points, such as 207 coded as a model, to the frame 201 is performed, the frame 201 is densely filled with the prediction signal.
The model has been selected and coded to satisfy this. In this manner, for each frame to be encoded, the image of that frame is predicted based on the model information of each point on the object plane.

【0049】また、別のやり方として、モデル化の負荷
を小さくし不完全なモデルを許容するやり方も考えられ
る。この場合はモデルの全点を投影し終わっても予測信
号が形成されない点がありうることになる。その場合予
測信号は0であるとしてよい(方法1)あるいは生成さ
れた近隣の予測信号から内挿する(方法2)。また逆
に、本実施形態ではモデルの符号化の最小単位はブロッ
クになっているので、被写体面上の点に対応する視点画
像上の点は被写体面上の点1点に対して複数回符号化さ
れる可能性がありうる。この場合、一点に重複して投影
された場合には、モデルからの投影における規則として
例えば非投影面に角度的に一番近い視点画像上でモデル
として符号化された点からの投影を有効にするなどとし
て、符号化側と復号側で投影による予測信号生成にミス
マッチが起こらないようにすることが必要である。
As another method, a method of reducing the modeling load and allowing an incomplete model can be considered. In this case, there may be a point where no prediction signal is formed even when all points of the model have been projected. In that case, the prediction signal may be 0 (method 1) or may be interpolated from the generated neighboring prediction signals (method 2). Conversely, in this embodiment, since the minimum unit of model coding is a block, a point on the viewpoint image corresponding to a point on the object plane is encoded multiple times with respect to one point on the object plane. May be possible. In this case, when the projection is performed at one point, as a rule in the projection from the model, for example, the projection from the point coded as the model on the viewpoint image closest to the non-projection plane in terms of angle is enabled. For example, it is necessary to prevent a mismatch in prediction signal generation by projection between the encoding side and the decoding side.

【0050】このようにして生成された各フレームの予
測信号は減算器106にて、対応する入力フレームとブ
ロック単位で差分が取られ、予測誤差が求められる。こ
の予測誤差は、DCT回路107に送られる。ここでブ
ロック単位でDCTされた結果は、記憶部108に蓄積
されると共に量子化回路(Q)109でブロック単位で
量子化される。ステップサイズ決定のための仮の符号化
のステージでは、量子化は固定の2通りのステップサイ
ズQ,Qで行われ、それぞれについて符号量カウン
タ117にて符号量が全てのフレームについて累積され
る。制御部102は2通りのステップサイズに対してそ
れぞれ得られた符号量と、トータルの目標符号量からモ
デルの符号量に費やした符号量及びヘッダ等の付加情報
に費やす符号量を差し引いた残りの符号量とから、トー
タルの符号量が目標内に入るためのステップサイズQ
を、図4に示すように符号量とステップサイズとの関係
を表す曲線を内挿することによって推定して、この値が
次のステップである実際の予測誤差の符号化に使われ
る。具体的には、 log(符号量)=α logQ + β …(10) を仮定し、Q,Qによる符号化結果からαとβを推
定し、目標符号量から逆にQを求める。ここで、各フ
レームの予測誤差情報はどれも同じ性質を有しており、
MPEGのように再生フレーム間に性質の違いはないの
で、どのフレームの予測誤差についても同じステップサ
イズで量子化されるとの前提でステップサイズの推定を
行う。
The prediction signal of each frame generated in this manner is subtracted by the subtractor 106 from the corresponding input frame in block units, and a prediction error is obtained. This prediction error is sent to the DCT circuit 107. Here, the result of the DCT performed on a block basis is stored in the storage unit 108 and quantized on a block basis by the quantization circuit (Q) 109. In the tentative encoding stage for determining the step size, quantization is performed with two fixed step sizes Q 1 and Q 2 , and the code amount counter 117 accumulates the code amount for all frames for each. You. The control unit 102 subtracts the code amount used for the model code amount and the code amount used for additional information such as the header from the total target code amount and the remaining code amount obtained from the total target code amount. From the code amount, the step size Q E for making the total code amount fall within the target range.
Is estimated by interpolating a curve representing the relationship between the code amount and the step size as shown in FIG. 4, and this value is used for encoding the actual prediction error in the next step. Specifically, it is assumed that log (code amount) = α log Q + β (10), α and β are estimated from the coding results of Q 1 and Q 2 , and Q E is obtained inversely from the target code amount. . Here, all the prediction error information of each frame has the same property,
Since there is no difference in properties between reproduced frames as in MPEG, the step size is estimated on the assumption that the prediction error of any frame is quantized with the same step size.

【0051】次の本符号化のステップでは、予測誤差情
報の生成およびDCTについては仮符号化のステージで
すでに終了しているので、記憶部108に蓄えられたD
CTの結果を読み出し、量子化回路109で量子化す
る。量子化回路109での量子化は先ほど述べた制御部
102にて推定された最適なステップサイズQによっ
て行われ、結果が可変長符号化回路(VLC)110に
て可変長符号化されて多重化回路116に送られる。こ
こで、量子化回路109にて量子化された係数情報がす
べて0のブロックについては、無効と判定し、そのブロ
ックについては情報を全く送らないものとする。本実施
形態の予測は物理現象に直接対応したモデルを使用して
いるので、モデル化がうまく行く画像については予測誤
差がほとんど出ないことが期待できる。従って情報量を
大幅に減らすためにこのように有効判定を行って無効な
ブロックを送らなくすることは非常に重要である。
In the next main encoding step, since the generation of the prediction error information and the DCT have already been completed in the temporary encoding stage, the D
The result of CT is read and quantized by the quantization circuit 109. Quantization by the quantization circuit 109 is performed by the optimum step size Q E estimated by the control unit 102 mentioned earlier, the results are variable length coded by the variable-length coding circuit (VLC) 110 are multiplexed Sent to the conversion circuit 116. Here, it is determined that a block in which the coefficient information quantized by the quantization circuit 109 is all 0 is determined to be invalid, and no information is transmitted for that block. Since the prediction according to the present embodiment uses a model directly corresponding to a physical phenomenon, it can be expected that a prediction error hardly appears for an image that is successfully modeled. Therefore, in order to significantly reduce the amount of information, it is very important to perform the validity determination in this way so as not to send invalid blocks.

【0052】なお、図1では記憶装置101と108は
独立に書かれているがこれらは物理的に同じ物で構成し
てもよい。また、DCT回路107と111、量子化回
路109と112、可変長符号化回路110と113に
ついても、モデルの符号化と予測誤差の符号化が同時に
は行われない点を考えるとハード的に共通化できる。
In FIG. 1, the storage devices 101 and 108 are written independently, but they may be physically the same. Also, the DCT circuits 107 and 111, the quantization circuits 109 and 112, and the variable-length coding circuits 110 and 113 are common in hardware, considering that model coding and prediction error coding are not performed simultaneously. Can be

【0053】次に、多重化回路116は可変長符号化回
路113からのモデル情報の符号化結果と可変長符号化
回路110からの予測誤差の符号化結果とを多重化し
て、多視点画像の符号化ストリームを出力する。この時
の多重化フォーマットを図6に示す。
Next, the multiplexing circuit 116 multiplexes the coding result of the model information from the variable-length coding circuit 113 and the coding result of the prediction error from the variable-length coding circuit 110 to form a multi-view image. Output the encoded stream. FIG. 6 shows a multiplexing format at this time.

【0054】図6の多重化フォーマットの記述はTV会
議用のITU−T勧告H.261の多重化フォーマット
の記述方法に準じている。本実施形態ではフォーマット
は可能な限りMPEG等の既存の符号化に似せたフォー
マットとなるようにした。まず、フォーマットは階層的
な構造とした。各レイヤの情報にはスタートコード、エ
ンドコードなどレイヤ固有の情報を含むヘッダおよびト
レイラが存在する。最上位階層は1セットの多視点画像
で表現されるオブジェクトレイヤであり、OSC(Ob
ject Start Code)、ON(Objec
t Number)、被写体上の各点のモデル情報を含
むモデルレイヤ、各フレームの予測誤差情報を含む誤差
レイヤ、およびOEC(Object End Cod
e)から構成されている。オブジェクトは次のレイヤで
モデルレイヤと誤差レイヤに分れる。再生側では、モデ
ルレイヤはどのような視点からの画像を再生する場合で
も必ずそのすべてが復号の初期のステージでアクセスさ
れるのに対して、誤差レイヤは再生すべき視点によって
アクセスされる部分が変わる。従って、必要な情報の検
索を容易にするために、モデルレイヤは図に示すように
オブジェクトレイヤの情報のうち前の方にまとめて配置
され、そのあとに誤差レイヤの情報が続くようになって
いる。
The description of the multiplex format in FIG. 6 is based on the ITU-T Recommendation H. 261 multiplexing format. In the present embodiment, the format is made as similar as possible to the existing encoding such as MPEG. First, the format was a hierarchical structure. The information of each layer includes a header and a trailer including layer-specific information such as a start code and an end code. The uppermost layer is an object layer represented by one set of multi-view images, and the OSC (Ob)
project Start Code), ON (Object
t Number), a model layer including model information of each point on the subject, an error layer including prediction error information of each frame, and an OEC (Object End Code)
e). The object is divided into a model layer and an error layer in the next layer. On the playback side, the model layer is always accessed at the initial stage of decoding, regardless of the viewpoint from which the image is played back, whereas the error layer is the part accessed by the viewpoint to be played back. change. Therefore, in order to facilitate the search for necessary information, the model layer is arranged at the front of the object layer information as shown in the figure, followed by the error layer information. I have.

【0055】モデルレイヤは、MSC(Model S
tart Code)、輝度情報の量子化ステップサイ
ズを示すヘッダ(QUANT)、座標情報の量子化ステ
ップサイズを示すヘッダ(QUANT_r)、代表輝度
として使用された複数のフレームの情報を含むフレーム
レイヤ、およびMEC(Model End Cod
e)から構成される。誤差レイヤは、ESC(Erro
r Start Code)、誤差情報の量子化ステッ
プサイズを示すヘッダ(QUANT)、全てのフレーム
の予測誤差情報を含むフレームレイヤ、およびEEC
(Error End Code)から構成される。
The model layer is an MSC (Model S)
start code), a header (QUANT) indicating a quantization step size of luminance information, a header (QUANT_r) indicating a quantization step size of coordinate information, a frame layer including information of a plurality of frames used as representative luminance, and MEC. (Model End Cod
e). The error layer is an ESC (Ero
r Start Code), a header (QUANT) indicating a quantization step size of error information, a frame layer including prediction error information of all frames, and EEC
(Error End Code).

【0056】モデルレイヤに含まれるフレームレイヤと
誤差レイヤに含まれるフレームレイヤは共通の構造を持
つ。各フレームレイヤは、PSC(Picture S
tart Code)、フレーム番号を示すヘッダ(P
N:Picture Number)、そのフレームが
撮影された条件を示すヘッダ(R,ψ)、およびそのフ
レームに属する複数のスライスレイヤから構成されてい
る。Rは被写体の中心軸とカメラとの距離を示し、ψは
被写体に対するカメラの角度、つまりカメラの光軸と交
わる被写体面の角度座標を示す。これらR,ψの情報は
図20,21で説明したように固定距離、固定回転角ス
テップでの撮影である場合に限定すれば、オブジェクト
レイヤのヘッダに入れてもよいが、より一般的にはフレ
ーム毎にカメラとの距離や回転角のステップ幅が異なっ
ても問題無く、本実施形態ではフレームレイヤに存在す
るものとする。また、このR,ψの情報は論理的にはモ
デルまたは誤差のいずれか一方のフレームレイヤに入っ
ていれば再生可能であるが、アクセスを簡単にする都合
上ここでは両方に入れておくものとする。
The frame layer included in the model layer and the frame layer included in the error layer have a common structure. Each frame layer is a PSC (Picture S)
start Code), a header indicating the frame number (P
N: Picture Number), a header (R, ψ) indicating the conditions under which the frame was shot, and a plurality of slice layers belonging to the frame. R indicates the distance between the central axis of the subject and the camera, and ψ indicates the angle of the camera with respect to the subject, that is, the angular coordinates of the subject plane that intersects the optical axis of the camera. The information of R and 情報 may be included in the header of the object layer if it is limited to the case where the shooting is performed at a fixed distance and a fixed rotation angle step as described with reference to FIGS. There is no problem even if the distance from the camera and the step width of the rotation angle are different for each frame. In the present embodiment, it is assumed that the frame exists in the frame layer. Although the information of R and ψ can be logically reproduced if it is contained in either one of the frame layer of the model and the error, it should be contained in both for convenience of access. I do.

【0057】フレームレイヤの下は通常はマクロブロッ
ク(MB)レイヤであるが、MPEGのように間にスラ
イスレイヤが入ってもよい(図6の例ではスライスレイ
ヤも記述)。スライスレイヤが入るとスライス毎へのア
クセスがしやすくなり、復号処理が楽になると共にオブ
ジェクトを回転軸に直交する面で切った一部のみの再生
がしやすくなる。
Although a macroblock (MB) layer is usually provided below the frame layer, a slice layer may be inserted between the layers as in MPEG (the slice layer is also described in the example of FIG. 6). When a slice layer is included, access to each slice becomes easy, decoding processing becomes easy, and it becomes easy to reproduce only a part of the object cut by a plane orthogonal to the rotation axis.

【0058】各スライスレイヤは、SSC(Slice
Start Code)、SN(Slice Num
ber)、およびそのスライスに属する複数のマクロブ
ロックレイヤから構成されている。マクロブロックレイ
ヤの下はブロックレイヤであり、この中はDCT係数
(Tcoeff)とEOB(End of Bloc
k)よりなる。
Each slice layer has an SSC (Slice)
Start Code), SN (Slice Num)
ber) and a plurality of macroblock layers belonging to the slice. Below the macroblock layer is a block layer, in which DCT coefficients (Tcoeff) and EOB (End of Bloc) are located.
k).

【0059】モデルのマクロブロックは図5に示すよう
にr,Y(輝度)、Cr,Cb(色差)のブロックより
なる。また、誤差のマクロブロックは、図5からrのブ
ロックを取り除いたY(輝度)、Cr,Cb(色差)の
ブロックよりなる。スライス、マクロブロック共にヘッ
ダにはフレーム内でのアドレス情報を含み(SN及びM
BA)、情報の無いスライス、マクロブロックは送らな
い(スキップ)。マクロブロックレイヤのCBP(Co
ded Block Pattern)はマクロブロッ
ク内の情報を含むブロックのパターンを示す情報で、誤
差レイヤのマクロブロックについてのみ送られる。
The macro block of the model is composed of blocks of r, Y (luminance), Cr, Cb (color difference) as shown in FIG. The error macro block is composed of Y (luminance), Cr, and Cb (color difference) blocks obtained by removing the r block from FIG. In both the slice and macroblock, the header includes address information in the frame (SN and M).
BA), slices and macroblocks without information are not sent (skipped). Macro block layer CBP (Co
“ded Block Pattern” is information indicating a pattern of a block including information in a macroblock, and is transmitted only for a macroblock in an error layer.

【0060】図6の多重化フォーマットの形式で作成さ
れた多視点画像ストリームはコンピュータ読み取り可能
な記録媒体に蓄積、または伝送路を介して再生側に伝送
される。
The multi-viewpoint image stream created in the multiplexed format shown in FIG. 6 is stored in a computer-readable recording medium or transmitted to a reproducing side via a transmission path.

【0061】次に図7を用いて図1に示した符号化装置
に対応する復号化装置の構成を説明する。
Next, the configuration of a decoding device corresponding to the encoding device shown in FIG. 1 will be described with reference to FIG.

【0062】この復号化装置は、視点を示す情報を入力
し、その視点からの画像を再生するような復号化装置で
ある。まず図1の符号化装置で生成された多視点画像ス
トリームが記録媒体から読み出され、または伝送路を介
して受信されて、分離回路601に入力される。ここ
で、ストリーム内のオブジェクト情報はモデルと誤差と
に分離される。モデル情報は可変長復号回路(VLD)
607で可変長復号され、そのうちのDCT係数情報は
逆量子化回路(Q-1)608で逆量子化、逆DCT回路
(IDCT)609で逆DCTされてフレーム番号や
R,ψの値などのようなヘッダに含まれていた付随する
情報とともにモデル蓄積部610に蓄積される。また、
誤差情報は誤差記憶部603に蓄積される。これで再生
の準備が整った状態になる。
This decoding device is a decoding device that inputs information indicating a viewpoint and reproduces an image from the viewpoint. First, the multi-view image stream generated by the encoding device in FIG. 1 is read from a recording medium or received via a transmission path and input to the separation circuit 601. Here, the object information in the stream is separated into a model and an error. Model information is a variable length decoding circuit (VLD)
Variable length decoding is performed in 607, and DCT coefficient information among them is inversely quantized in an inverse quantization circuit (Q −1 ) 608 and inverse DCT in an inverse DCT circuit (IDCT) 609 to obtain frame numbers and values of R and ψ. It is stored in the model storage unit 610 together with the accompanying information included in such a header. Also,
The error information is stored in the error storage unit 603. You are now ready to play.

【0063】次に、再生の次のステップとして、視点入
力部600より再生すべき視点の位置を表す情報が入力
される。視点入力部600の例としては、VRMLブラ
ウザで実現されている、表示画面上に仮想的なレバーや
ハンドルを表示し、これをマウスなどのポインティング
装置で仮想的に操作することによって視点位置を入力す
るシステムなどがあげられる。この入力によって対応す
る視点の画像の生成が開始される。この様子を図8を参
照しつつ説明する。
Next, as the next step of the reproduction, information representing the position of the viewpoint to be reproduced is input from the viewpoint input section 600. As an example of the viewpoint input unit 600, a virtual lever or handle is displayed on a display screen realized by a VRML browser, and the viewpoint position is input by virtually operating this with a pointing device such as a mouse. System. With this input, the generation of the image of the corresponding viewpoint is started. This will be described with reference to FIG.

【0064】まず、視点入力部600は視点に対応する
パラメータ(視点座標)をアドレス計算回路602に送
る。アドレス計算回路602は、視点座標と前述の式
(9)からp−θ平面上で再生すべき画面を表す曲線7
01を求め、更にモデル蓄積部610からのモデル情報
を参照して被写体面の各点の座標毎にそれに対応する光
線の軌跡を求める。図8においては、被写体面上のある
特定の1点に対応する光線の軌跡702たけが示されて
いる。
First, the viewpoint input unit 600 sends parameters (viewpoint coordinates) corresponding to the viewpoint to the address calculation circuit 602. The address calculation circuit 602 calculates a curve 7 representing a screen to be reproduced on the p-θ plane from the viewpoint coordinates and the above equation (9).
01, and further, with reference to the model information from the model storage unit 610, for each coordinate of each point on the subject surface, the trajectory of the corresponding ray is obtained. FIG. 8 shows a locus 702 of a light ray corresponding to a specific point on the object plane.

【0065】次いで、アドレス計算回路602は、曲線
701と、軌跡702のような被写体面上の各点に対応
する光線の軌跡との各交点について、その交点位置に対
応する画像情報を再生する場合に複数の視点画像の中の
どの視点画像のどの画素位置を参照すべきかを計算によ
って求める。この場合、交点位置から一番近い視点画像
上の画素位置が、参照すべき画素位置として決定され
る。例えば、曲線701上における点703について
は、それに一番近い視点画像705上の画素位置704
が参照画素位置となる。この実施形態では、指定された
視点の画像を再生する場合に、参照すべき画素位置(例
えば、704)上に完全にその位置に対応する被写体面
上の点の画像が復号される。これは多視点画像としてあ
る程度多くの視点からの画像を用いる場合、受信側で任
意視点の画像を再生する際に、対応する視線方向に近い
光線を選択してこれで代用することに相当する。
Next, the address calculation circuit 602 reproduces image information corresponding to the intersection point between the curve 701 and the trajectory of the light beam corresponding to each point on the object plane such as the trajectory 702. First, a calculation is performed to determine which pixel position of which viewpoint image in a plurality of viewpoint images should be referred to. In this case, a pixel position on the viewpoint image closest to the intersection point is determined as a pixel position to be referred to. For example, regarding the point 703 on the curve 701, the pixel position 704 on the viewpoint image 705 closest to the point 703 is
Is the reference pixel position. In this embodiment, when an image of a specified viewpoint is reproduced, an image of a point on a subject plane that completely corresponds to a pixel position to be referred to (for example, 704) is decoded. This means that, when images from a certain number of viewpoints are used as the multi-viewpoint image, when an image at an arbitrary viewpoint is reproduced on the receiving side, a ray close to the corresponding line-of-sight direction is selected and used instead.

【0066】次に、予測信号生成部611は、計算され
た参照画素位置の情報に基づいて、モデル情報の各点か
ら再生すべき画面701上の703に相当する各点に対
して投影を行い、704に相当する位置に予測信号を形
成する。このようにして、指定された視点の予測画像が
モデル情報から作成される。この予測の手順は、図1の
符号化装置における予測信号の生成での説明において各
視点画像への予測信号を形成する時に行った手順と同じ
ものである。
Next, the prediction signal generation unit 611 performs projection from each point of the model information to each point corresponding to 703 on the screen 701 to be reproduced based on the information of the calculated reference pixel position. , 704 are formed. In this way, a predicted image of the specified viewpoint is created from the model information. This prediction procedure is the same as the procedure performed when forming the prediction signal for each viewpoint image in the description of the generation of the prediction signal in the encoding device in FIG.

【0067】この予測信号生成処理と並行して、アドレ
ス計算回路602は計算された参照画素位置の情報に基
づいて、フレームメモリ613に対して指定された視点
画像を生成すべくアドレスを発生する。この時、誤差蓄
積部603に対しては、対応する参照画素をアドレス指
定するのに必要な、誤差情報を含むフレーム番号、マク
ロブロック番号、画素番号を送る。このアドレスに対応
するマクロブロックが誤差蓄積部603から読み出され
て可変長復号回路(VLD)604で可変長復号され、
逆量子化回路(Q-1)605で逆量子化、逆DCT回路
(IDCT)606で逆DCTされる。
In parallel with the prediction signal generation processing, the address calculation circuit 602 generates an address for generating a specified viewpoint image in the frame memory 613 based on the calculated information on the reference pixel position. At this time, a frame number including error information, a macro block number, and a pixel number necessary for addressing the corresponding reference pixel are sent to the error accumulation unit 603. The macro block corresponding to this address is read from the error storage unit 603 and is subjected to variable length decoding by a variable length decoding circuit (VLD) 604,
Inverse quantization is performed by an inverse quantization circuit (Q −1 ) 605 and inverse DCT is performed by an inverse DCT circuit (IDCT) 606.

【0068】上記作成された予測信号と逆DCTされた
予測誤差信号とは加算器612にて加算され復号され
て、フレームメモリ613の対応する位置に書き込まれ
る。ここで、予測信号は画素ごと、予測誤差はブロック
単位で形成されるが、参照すべき画素位置は近い画素で
は同じ参照画面に属している可能性が高く、画素の数だ
け上述した処理を繰り返すのではなく一回の予測誤差ブ
ロックの復号で、そこに使える画素が複数含まれている
場合はそれらの画素はすべてまとめて復号される。この
ようにして、参照すべき画素位置毎に、モデル情報から
生成された予測信号と復号化された予測誤差信号とが加
算されてフレームメモリ613の対応する位置に書き込
まれることにより、指定された視点の画像が作成され
る。
The created prediction signal and the inversely DCT-predicted error signal are added and decoded by an adder 612, and written to a corresponding position in the frame memory 613. Here, the prediction signal is formed for each pixel, and the prediction error is formed for each block. However, it is highly likely that a pixel to be referred to belongs to the same reference screen at a pixel which is close, and the above process is repeated by the number of pixels. If a plurality of usable pixels are included in one prediction error block decoding instead of the above, all of those pixels are decoded together. In this manner, for each pixel position to be referred to, the prediction signal generated from the model information and the decoded prediction error signal are added and written to the corresponding position in the frame memory 613, thereby specifying the designated position. An image of the viewpoint is created.

【0069】なお、上記説明では再生すべき視点に対応
する曲線701上における各点につき一番近い視点画像
から参照すべき画素位置を求めてそれを参照するように
したが、別の例として、曲面の各点(例えば、703)
をはさむ2つの視点画像上(705,706)上にそれ
ぞれ参照すべき画素位置(704,707)を求め、そ
れら画素位置についてそれぞれそれを参照して画素を生
成し、それら2つの画素値から内挿によって再生すべき
画素値を決定するようにしてもよい。
In the above description, the pixel position to be referred to is determined from the closest viewpoint image for each point on the curve 701 corresponding to the viewpoint to be reproduced, and is referred to. Each point on the surface (eg, 703)
Are obtained on the two viewpoint images (705, 706) sandwiching the pixel positions (704, 707), pixels are generated by referring to the pixel positions, and a pixel is generated from these two pixel values. The pixel value to be reproduced may be determined by insertion.

【0070】次に、図9および図10のフローチャート
を参照して、本発明に係る符号化方法の手順を説明す
る。
Next, the procedure of the encoding method according to the present invention will be described with reference to the flowcharts of FIGS.

【0071】この符号化方法は図1で説明した符号化装
置の符号化処理と同じ操作をコンピュータプログラムを
用いて実行するものであり、説明は大部分は図1の符号
化装置の説明と重複するため、詳細説明は省略し必要最
低限の説明にとどめる。
This encoding method executes the same operation as the encoding process of the encoding device described in FIG. 1 by using a computer program, and the description is mostly the same as the description of the encoding device in FIG. Therefore, the detailed description is omitted and only the minimum necessary description is given.

【0072】ここでは、例として多視点画像に含まれる
視点画像の枚数はnmax (例えば120枚)として説明
する。まずステップ800で、符号化しようとするオブ
ジェクトの目標総符号量を設定し、この値に基づきモデ
ル情報(=r及び輝度)を量子化するためのステップサ
イズQ(モデルレイヤのQUANT rとして符号化
される)、Q(モデルレイヤのQUANTとして符号
化される)が決定される。次にステップ801で多視点
画像が入力される。多視点画像は記憶部に蓄えられる。
次にステップ802でモデル推定が行われる。このステ
ップでは図1におけるモデル化部103で行われるのと
同様に被写体面上の各点の座標と輝度情報の推定が行わ
れる。次にステップ803でモデル情報の符号化が行わ
れる。符号化は図1で説明したDCT回路111、量子
化回路112で行われる符号化と全く同じであり、それ
らハードウェアを利用することによって、あるいはソフ
トウェアのみによってモデル情報の符号化が行われる。
Here, as an example, a description will be given assuming that the number of viewpoint images included in the multi-view image is n max (for example, 120). In First step 800, sets a target total code amount of the object to be coded, the step size Q r (model layer for quantizing the model information (= r and brightness) on the basis of this value QUANT encoded as r), is encoded as QUANT of Q L (model layer) is determined. Next, in step 801, a multi-viewpoint image is input. The multi-view image is stored in the storage unit.
Next, in step 802, model estimation is performed. In this step, the coordinates of each point on the object plane and the luminance information are estimated in the same manner as performed by the modeling unit 103 in FIG. Next, in step 803, encoding of the model information is performed. The encoding is exactly the same as the encoding performed by the DCT circuit 111 and the quantization circuit 112 described with reference to FIG. 1, and the model information is encoded by using the hardware or only by the software.

【0073】次にステップ804で、上記ステップ80
3で符号化された情報が復号されモデル情報として蓄積
される。並行してステップ805で上記ステップ803
で符号化された情報を可変長符号化し一時記憶部に蓄え
る。次に各視点画像の仮符号化のフェーズに入る。
Next, at step 804, the above-mentioned step 80
The information encoded in step 3 is decoded and stored as model information. At the same time, the above-mentioned step 803 is executed in step 805.
The variable-length information is encoded in the temporary storage unit. Next, a phase of provisional encoding of each viewpoint image is entered.

【0074】まずステップ806でnとSUM1,SU
M2を0にセットし、符号化のループが開始する。ステ
ップ808で画像nが読み出され、ステップ809で画
像nが符号化される。符号化のステップについては後述
するが、この中の量子化のステップではあらかじめ決め
られた量子化ステップサイズQおよびQを使って量
子化する。DCTまでのステップは仮符号化後の本符号
化でも同じなので、ここまでの結果を記憶部に蓄積す
る。この場合、先に蓄積した画像nは不要となるのでこ
こに上書きしてよい。次にステップ810でSUM1,
SUM2にそれぞれQ1,Q2で符号化したときに発生
した符号量Nob1,Nob2を加算する。このループ
を画像の枚数分繰り返した後、ステップ812でSUM
1,SUM2の値を使って予測誤差を本符号化するため
のステップサイズQE(誤差レイヤのQUANTとして
符号化される)を決定する。決定の方法については既に
図1の符号化装置の説明で述べた通りである。続いてス
テップ813以降の本符号化のループに入る。
First, at step 806, n and SUM1, SU
M2 is set to 0, and the encoding loop starts. At step 808, the image n is read, and at step 809, the image n is encoded. It will be described later steps of the encoding, but quantization using the quantization step size Q 1 and Q 2 predetermined in step quantization in this. Since the steps up to DCT are the same in the main coding after the provisional coding, the results so far are stored in the storage unit. In this case, the previously stored image n becomes unnecessary and may be overwritten here. Next, in step 810, SUM1,
The code amounts Nob1 and Nob2 generated when encoding is performed with Q1 and Q2, respectively, are added to SUM2. After repeating this loop for the number of images, in step 812, SUM
The step size QE (encoded as QUANT of the error layer) for permanently encoding the prediction error is determined using the values of 1, SUM2. The method of determination is as described in the description of the encoding apparatus in FIG. Subsequently, the process enters a main encoding loop after step 813.

【0075】まずステップ815で画像nに対応するD
CT処理までなされた結果を順次読み出す。次にステッ
プ816で、ステップ815で読み出されたデータを符
号化する。この場合の符号化は図1で説明した量子化回
路109での量子化と可変長符号化回路110での可変
長符号化と同じでおり、それらハードウェアを利用する
ことによって、あるいはソフトウェアのみによって符号
化が行われる。
First, at step 815, D corresponding to image n
The results obtained up to the CT processing are sequentially read. Next, in step 816, the data read in step 815 is encoded. The encoding in this case is the same as the quantization in the quantization circuit 109 and the variable-length encoding in the variable-length encoding circuit 110 described with reference to FIG. 1. Encoding is performed.

【0076】量子化においてはステップ812で決定し
た量子化ステップサイズQを使用する。所定の枚数の
画像の符号化処理が終了したら、最後にステップ818
においてステップ805で得られたモデルの情報の後ろ
に誤差の情報を多重化して1つのオブジェクトの全体の
符号化処理は終了する。
[0076] In the quantization using the quantization step size Q E determined in step 812. When the encoding process of the predetermined number of images is completed, finally, step 818
In step 805, the error information is multiplexed after the model information obtained in step 805, and the entire encoding processing of one object ends.

【0077】次に図11を用いて図9のフローチャート
におけるステップ809の符号化処理の詳細手順につき
説明する。
Next, the detailed procedure of the encoding process in step 809 in the flowchart of FIG. 9 will be described with reference to FIG.

【0078】まずステップ901で画面nに対する予測
信号がモデル情報から計算によって求められる。この求
め方は既に図1で説明した方法と全く同じである。次に
ステップ902からの画面内のマクロブロックの処理ル
ープに入る。まずステップ904にてmb番目のマクロ
ブロックのデータが読み出され対応する部分の予測信号
との差分がとられる。次にステップ905,906,9
08によりそれぞれDCT、量子化、可変長符号化が施
される。これらの処理は図1で説明したDCT回路10
8、量子化回路109、可変長符号化回路110で行わ
れるのと全く同じ処理であり、それらハードウェアを利
用することによって、あるいはソフトウェアのみによっ
て行われる。なお、DCT後のデータはステップ816
で読み出すために蓄積される。量子化では先に述べたよ
うにステップサイズQ,Qが用いられる。また、ス
テップ907はここではスルーである。1画面のマクロ
ブロックをすべて処理し終わったら(mb=m
last)、その画面の処理は終了する。図10のフロー
チャートにおけるステップ816の符号化処理では図1
1の手順からステップ901,904,905を除き、
ステップ906をDCT処理されたデータを読み込んだ
後に量子化する処理とする。この場合の量子化ステップ
サイズは既に述べたようにQEである。次にステップ9
07にてそのマクロブロックの有効判定が行われ有効な
マクロブロックのみがステップ908で可変長符号化さ
れる。
First, in step 901, a prediction signal for screen n is obtained by calculation from model information. This obtaining method is exactly the same as the method already described with reference to FIG. Next, the process enters a processing loop of a macro block in the screen from step 902. First, in step 904, the data of the mb-th macroblock is read, and the difference from the prediction signal of the corresponding part is obtained. Next, steps 905, 906, 9
08, DCT, quantization and variable length coding are performed. These processes are performed by the DCT circuit 10 described with reference to FIG.
8. The processing is exactly the same as that performed by the quantization circuit 109 and the variable length coding circuit 110, and is performed by using the hardware or only the software. The data after DCT is stored in step 816.
Stored for reading. In the quantization, the step sizes Q 1 and Q 2 are used as described above. Step 907 is through here. When all the macroblocks of one screen have been processed (mb = m
b last ), the processing of the screen ends. In the encoding process of step 816 in the flowchart of FIG.
Steps 901, 904, and 905 are removed from the procedure in
Step 906 is a process of reading data subjected to DCT processing and then performing quantization. The quantization step size in this case is QE as described above. Then step 9
At 07, the validity of the macroblock is determined, and only the valid macroblock is variable-length coded at step 908.

【0079】次に、図12および図13を参照して本発
明に係る復号化方法の処理手順を説明する。
Next, the processing procedure of the decoding method according to the present invention will be described with reference to FIGS.

【0080】この復号化方法は図7で説明した復号化装
置と同じ操作をコンピュータプログラムを用いて行う方
法であり、説明の大部分は復号化装置の説明と重複する
ため、詳細説明は省略し必要最低限の説明にとどめる。
This decoding method is a method in which the same operation as that of the decoding device described with reference to FIG. 7 is performed using a computer program. Most of the description is the same as that of the decoding device, and therefore detailed description is omitted. Provide only minimal explanations.

【0081】まずステップ1000で符号化されたデー
タを入力する。入力されたデータは既に説明したように
モデルの情報と予測誤差の情報が多重されているので、
ステップ1001でこの情報を分離する。次に分離され
た情報のうちまずモデルの情報をステップ1002で復
号し記憶部に蓄える。復号は図7で説明した可変長復号
回路607、逆量子化回路608、逆DCT回路609
で行われる処理と全く同じであり、それらハードウェア
を利用することによって、あるいはソフトウェアのみに
よって行われる。次にステップ1003で視点の位置情
報を入力する。以下このループ内ではこの視点から見た
画像作成の処理が行われる。
First, data encoded in step 1000 is input. Since the input data has multiplexed model information and prediction error information as described above,
In step 1001, this information is separated. Next, of the separated information, first, the model information is decoded in step 1002 and stored in the storage unit. For decoding, the variable length decoding circuit 607, the inverse quantization circuit 608, and the inverse DCT circuit 609 described in FIG.
The processing is exactly the same as that performed by the software, and is performed by using the hardware or only by the software. Next, in step 1003, position information of the viewpoint is input. Hereinafter, in this loop, processing for creating an image from this viewpoint is performed.

【0082】まず、図8で説明した再生画面のp−θ面
上での曲線701を計算する。この曲線はYの値によら
ず共通である。次にスライスのループに入る。この例で
は1マクロブロックラインを1スライスとして符号化さ
れたものとし、復号はスライス毎に行うとして説明す
る。
First, a curve 701 on the p-θ plane of the reproduction screen described with reference to FIG. 8 is calculated. This curve is common regardless of the value of Y. Next, it enters a slice loop. In this example, it is assumed that one macroblock line is encoded as one slice, and decoding is performed for each slice.

【0083】画面701の再生においては、被写体の形
状に応じて異なったpに相当する部分が参照画素として
使用されるが、Y座標は同じ値が参照されるのでマクロ
ブロックライン(=スライス)毎の処理はこの性質に適
している。
In the reproduction of the screen 701, a portion corresponding to p different according to the shape of the subject is used as a reference pixel. However, since the Y coordinate refers to the same value, each macroblock line (= slice) is referred to. Is suitable for this property.

【0084】次にステップ1007で再生画像の各点
(例えば703)に対する参照画素位置(例えば、70
4)を計算する。次にステップ1008で参照画素位置
にモデルから投影を行って予測信号を作成する。これら
の手順は図8を用いて既に説明した通りである。次にス
テップ1009で再生画像の画素毎にステップ1006
で得られた情報から参照すべき画像内のマクロブロック
アドレスを計算する。この時点で1つのマクロブロック
を復号することによって再生画像の何点が同時に再生可
能かが認識される。
Next, at step 1007, a reference pixel position (for example, 70) for each point (for example, 703) of the reproduced image
4) is calculated. Next, in step 1008, a prediction signal is created by projecting the model to the reference pixel position. These procedures are as already described with reference to FIG. Next, in step 1009, step 1006 is performed for each pixel of the reproduced image.
The macroblock address in the image to be referred to is calculated from the information obtained in step (1). At this point, by decoding one macroblock, it is recognized how many points of the reproduced image can be reproduced simultaneously.

【0085】この結果参照すべきマクロブロック数mb
max が設定される。ここからmbmax のループが始ま
る。まずステップ1012で誤差が読み出されステップ
1013で誤差が復号される。誤差の復号は図7で説明
した可変長復号回路604、逆量子化回路605、逆D
CT回路606で行われる処理と全く同じであり、それ
らハードウェアを利用することによって、あるいはソフ
トウェアのみによって行われる。
As a result, the number of macro blocks mb to be referred to
max is set. From here, the loop of mbmax starts. First, an error is read in step 1012, and the error is decoded in step 1013. The error is decoded by the variable length decoding circuit 604, the inverse quantization circuit 605, the inverse D
The processing is exactly the same as that performed by the CT circuit 606, and is performed by using those hardware or only by software.

【0086】次にステップ104で予測信号と予測誤差
が加算されて画像が再生され、ステップ1015でフレ
ームメモリの対応するアドレスに書きこまれる。以上の
処理をmbmax 個のすべてのマクロブロックに対して行
って1スライスの処理を終了する。全スライスの処理を
終了して入力された視点に対応する再生画像の生成処理
は終了し、別の視点の入力が新たに行われればまた同じ
処理を繰り返す。
Next, in step 104, the prediction signal and the prediction error are added to reproduce the image, and in step 1015, the image is written to the corresponding address of the frame memory. The above processing is performed for all mbmax macroblocks, and the processing for one slice is completed. The processing of generating a reproduced image corresponding to the input viewpoint ends after the processing of all slices ends, and the same processing is repeated again when another viewpoint is input.

【0087】次に、図1の符号化装置および図9,図1
0の符号化方法で用いられるモデル関係の処理の一例を
説明する。
Next, the encoding apparatus shown in FIG.
An example of model-related processing used in the encoding method of 0 will be described.

【0088】図14はモデル推定の手順を示すフローチ
ャートである。
FIG. 14 is a flowchart showing the procedure of model estimation.

【0089】まずステップ1100にて各視点からの画
像に対してテクスチャとして特徴のある被写体上の点を
抽出する。この方法としては例えば点を含む所定の大き
さ(あまり大きくない方が望ましいと思われる。例えば
5* 5画素など)のブロックについて水平方向のエッジ
検出を行い、しきい値以上の大きさのエッジが得られた
ブロックを特徴点として抽出する。ステップ1101で
は得られた複数の特徴点に対して処理する順序付けを行
う。処理はp−θ平面でp=0に近いところにある特徴
点から処理するものとする。次にステップ1102から
特徴点の数の処理ループに入る。各点に対応するrの値
の推定はステップ1106で上述したブロックでの動き
ベクトル(MV)検出を行うことにより行われるが、そ
の際のMVの探索範囲がステップ1105で制限され
る。この探索範囲の制限が行える原理を図15を用いて
説明する。
First, in step 1100, points on a subject which are characteristic as textures are extracted from images from each viewpoint. As this method, for example, horizontal edge detection is performed on a block having a predetermined size including a point (it is preferable that the size is not too large; for example, 5 * 5 pixels), and an edge having a size equal to or larger than a threshold value is detected. Are extracted as feature points. In step 1101, processing is performed on the obtained feature points in order. It is assumed that the processing is performed from a feature point near p = 0 on the p-θ plane. Next, from step 1102, a process loop for the number of feature points is entered. The estimation of the value of r corresponding to each point is performed by detecting the motion vector (MV) in the above-described block in step 1106, but the search range of the MV at that time is limited in step 1105. The principle of limiting the search range will be described with reference to FIG.

【0090】今注目している点に対応する光線のp−θ
平面上での軌跡を1201とする。図15においてブロ
ック1202についてMV検出を行おうとするとき、こ
の軌跡上1201でθ=ψ±90度に対応する点は、図
16に示すようにその点が見えていればrの値が直接見
えている視点である。従って、rの値はこの位置での包
絡線のうち小さい方よりも必ず小さい値となる。従って
この値を一画面間隔に換算したMVがMV探索すべき範
囲の最大値とする。このように多視点画像から得られる
性質を利用して必要のない計算を避けることができる。
次にステップ1106で隣り合った画像同士でのMV探
索が行われる。これは、図17に示すようにまず特徴点
kから隣の画像に対して探索が行われ得られたブロック
から更に隣の画像に対して探索を行うというように連続
して行う。この場合すべて探索の範囲はステップ110
5で得られた値が上限である。また、MV探索で予測誤
差を比較する際に誤差の差があまり無い場合には特徴点
として選ばれた点が優先的に選ばれるように判定基準を
設定する。このステップで特徴点kと対応づけられた他
の特徴点k+αについてはスキップフラグを仮に立て、
後述のステップでこの点につきrの値が確定した時点で
スキップフラグを確定する。
The p-θ of the ray corresponding to the point of interest
The locus on the plane is set to 1201. When the MV is to be detected for the block 1202 in FIG. 15, the point corresponding to θ = ψ ± 90 degrees on this trajectory 1201 can directly see the value of r if the point is visible as shown in FIG. 16. It is a viewpoint that is. Therefore, the value of r is always smaller than the smaller one of the envelopes at this position. Therefore, the MV obtained by converting this value into one screen interval is the maximum value of the range in which the MV is to be searched. As described above, unnecessary calculations can be avoided by using the properties obtained from the multi-viewpoint images.
Next, in step 1106, an MV search is performed between adjacent images. This is continuously performed, as shown in FIG. 17, such that the search is performed on the image adjacent to the feature point k and the search is further performed on the next image from the obtained block. In this case, the range of all the search is step 110
The value obtained in 5 is the upper limit. In addition, when comparing prediction errors in the MV search, if there is not much error difference, a criterion is set so that a point selected as a feature point is preferentially selected. In this step, a skip flag is temporarily set for another feature point k + α associated with the feature point k,
The skip flag is determined when the value of r for this point is determined in a step described later.

【0091】ステップ1104の判定条件ではステップ
フラグの立っている特徴点は既にrが確定した点に対応
するものとして以降の処理をスキップする。次にステッ
プ1107において所定の枚数以上の画像間で共通のr
の値でつじつまが合うようなMVが求められたかを判断
する。ここでYESであればその点に対してエッジに対
応する画素に対してrの値がフィットするかをステップ
1108で確認しrの細かい精度に対して微調節を行っ
た後にステップ1109でその点に対してrの値を確定
し対応するψの値と組にして記憶する。以上の操作を特
徴点の数だけ行うと特徴的なテキスチャを持つ点につい
てrの値が決まるので、ステップ1111でrが決まっ
た点の間の面上の点のrを求める。この面上の点はテキ
スチャが無いので、rが決まった点の間を直線近似した
rの値を初期近似として再構成しながら各視点の画像と
比較してrの値を調整して確定する。最後にステップ1
112で得られたモデルの推定値から全体の光線空間を
再構成し比較して微調整を行いモデルの推定を終了す
る。本実施形態においてはモデルの推定がある程度間違
っていてもこれを用いて予測を行った後に誤差を送るの
で、復号再生側で再構成される光線空間は実際と大きく
違ったものになることはない。
In the determination condition of step 1104, the subsequent processing is skipped assuming that the feature point for which the step flag is set corresponds to the point where r has already been determined. Next, in step 1107, the common r between the predetermined number of images or more is set.
It is determined whether an MV that is consistent with the value of is obtained. If “YES” here, it is checked in step 1108 whether or not the value of r fits the pixel corresponding to the edge with respect to the point, fine adjustment is performed on fine precision of r, and then the point is determined in step 1109. The value of r is determined and stored as a set with the corresponding value of ψ. When the above operation is performed by the number of feature points, the value of r is determined for the point having the characteristic texture. Therefore, in step 1111, r of the point on the surface between the points where r is determined is obtained. Since points on this plane have no texture, the values of r obtained by linearly approximating the points between which r has been determined are reconstructed as initial approximations, and the values of r are adjusted and determined by comparing with the image of each viewpoint. . Finally step 1
The entire ray space is reconstructed from the estimated values of the model obtained in 112 and compared for fine adjustment, and the estimation of the model is completed. In the present embodiment, even if the estimation of the model is incorrect to some extent, an error is sent after performing prediction using the model, so that the ray space reconstructed on the decoding / reproduction side does not greatly differ from the actual one. .

【0092】また、モデルの推定としてより確実に形状
情報を得られる別の方法としては、被写体の形状を入力
された多視点画像から推定するのではなく3Dディジタ
イザやレンジファインダといった3D計測機器で直接形
状情報を取得する方法を用いてもよい。この場合、入力
のフェーズでの手間はかかるが予測が非常によくなるこ
とが期待できる。
As another method for more reliably obtaining shape information as a model estimation, a shape of a subject is not estimated from an input multi-viewpoint image but directly by a 3D measuring device such as a 3D digitizer or a range finder. A method of acquiring shape information may be used. In this case, it takes time and effort in the input phase, but it can be expected that the prediction will be very good.

【0093】次に上記により得られた被写体面上の各点
の座標の情報(=被写体の形状の情報)から、モデルの
情報をどの視点画像の情報として送るかを決定する方法
につき説明する。
Next, a method of deciding which viewpoint image information to send model information from the coordinate information of each point on the object plane (= information on the shape of the object) obtained as described above will be described.

【0094】図18は上記の形状の推定により得られた
被写体断面を表した図である。断面上は通常離散的にサ
ンプルされた点に対して得られた座標の形で表される。
図で点Aと点Bで挟まれる面を考える。これらの点は極
座標に変換するとそれぞれ(r,ψ)、(r,ψ
)で表され、そのなす角度はΔψであるとする。この
ときこの面の法線方向を平均的に近似する角度θABは rcosθAB=rcos(θAB−Δψ) を解く事によって得られる。図19はp−θ平面で点A
および点Bに対応する光線の軌跡(それぞれ1601,
1602)を描いたものである。以上の計算により点A
と点Bとの間の面はψからθABだけずれた位置に最
も近い視点画像1603上で符号化されるのが最も解像
度が取れていることになる。従ってこの視点画像上で点
Aの軌跡と点Bの軌跡で囲まれた領域1604をモデル
情報として前述したようにrの値と共に符号化する。こ
のときrの値は画素毎に得られる限りの精度で符号化す
ることは前述した通りである。
FIG. 18 is a diagram showing a section of a subject obtained by the above shape estimation. The cross section is usually represented in the form of coordinates obtained for discretely sampled points.
Consider a surface sandwiched between points A and B in the figure. When these points are converted to polar coordinates, (r 1 , ψ 1 ), (r 2 , ψ
2 ), and the angle between them is assumed to be Δψ. In this case the angle θAB averaging approximated the normal direction of the surface is obtained by solving r 1 cosθ AB = r 2 cos (θ AB -Δψ). FIG. 19 shows a point A on the p-θ plane.
And the trajectory of the ray corresponding to the point B (1601,
1602). From the above calculation, point A
Surface will be the most resolution 0.00 being encoded on the closest viewpoint image 1603 at a position shifted by theta AB from [psi 1 between bets point B. Therefore, on this viewpoint image, an area 1604 surrounded by the locus of point A and the locus of point B is encoded as model information together with the value of r as described above. At this time, as described above, the value of r is encoded with as much precision as can be obtained for each pixel.

【0095】以上の実施形態においては、多視点画像と
してかなり多く(例えば120枚)の画像を扱うものと
して述べてきたが、この枚数は必要とされる画質と情報
量の兼ね合いによって少なくする事が可能である。特
に、上述した実施形態でのモデル化のステージは誤差の
影響を受けやすいので多くの画像を用いる程よい性能が
得られると思われるが、モデル及び誤差として送られる
視点画像の数はたとえモデル化に120枚の画像を使用
したとしても例えば30枚等に落として伝送、蓄積して
再生に用いるとしても十分実用に耐えうるものである。
但し、前述したように送るべき多視点画像の枚数が多く
てもモデルがよくあたるような被写体の場合、送る情報
量は少なくても済む。従って枚数を減らすのはモデルが
あたりにくい複雑な被写体で情報量もかなり少なくした
い場合に有効ということになろう。
In the above embodiment, it has been described that a considerably large number (for example, 120) of images are handled as a multi-viewpoint image. However, this number can be reduced depending on a balance between required image quality and information amount. It is possible. In particular, since the modeling stage in the above-described embodiment is susceptible to errors, it is considered that better performance is obtained by using many images.However, the number of models and viewpoint images sent as errors is limited to modeling. Even if 120 images are used, they are reduced to, for example, 30 images, transmitted, stored, and used for reproduction.
However, as described above, the amount of information to be transmitted may be small in the case of a subject whose model is well represented even if the number of multi-viewpoint images to be transmitted is large. Therefore, reducing the number of images will be effective when the amount of information is to be considerably reduced in a complicated subject that is difficult to hit by the model.

【0096】[0096]

【発明の効果】以上説明したように、本発明によれば、
入力多視点画像と予測画像との誤差を符号化することに
より、符号化ストリームとして蓄積・伝送される情報量
を十分に低減することが出来ると共に、被写体の複雑さ
に関わらず高いリアリティを持った再生を実現できる。
さらに、予測画像の生成に用いた各点のモデル情報はそ
の点の代表輝度として使用される視点画像の輝度情報と
して符号化されているので、ブロック符号化等の空間的
な相関の除去を行うような圧縮方法を用いることによっ
てモデルの情報も大幅に圧縮することができる。代表輝
度として使用された画像部分については、予測誤差情報
を用いることが不要となり、その分の情報も節約でき
る。これらより、十分なモデル精度を保ちつつその情報
量を少なく押さえることが出来る。従って、多視点画像
を高い質感を保ちつつ少ない情報量で表現できるように
なり、任意視点画像をリーズナブルな情報量で且つ高い
質感で再生することができる。
As described above, according to the present invention,
By encoding the error between the input multi-view image and the predicted image, the amount of information stored and transmitted as an encoded stream can be sufficiently reduced, and high realism can be achieved regardless of the complexity of the subject. Reproduction can be realized.
Furthermore, since the model information of each point used for generating the predicted image is encoded as luminance information of a viewpoint image used as a representative luminance of the point, spatial correlation such as block encoding is removed. By using such a compression method, model information can also be significantly compressed. For the image portion used as the representative luminance, it is not necessary to use the prediction error information, and that information can be saved. Thus, the amount of information can be reduced while maintaining sufficient model accuracy. Therefore, a multi-viewpoint image can be expressed with a small amount of information while maintaining high texture, and an arbitrary viewpoint image can be reproduced with a reasonable amount of information and high texture.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態に係る多視点画像符号化装
置の構成を示すブロック図。
FIG. 1 is a block diagram showing a configuration of a multi-view image encoding device according to an embodiment of the present invention.

【図2】同実施形態の符号化装置で用いられる予測信号
の作成原理を説明する図。
FIG. 2 is an exemplary view for explaining the principle of creating a prediction signal used in the encoding apparatus according to the embodiment;

【図3】同実施形態の符号化装置における重なった光線
の処理を説明する図。
FIG. 3 is an exemplary view for explaining processing of overlapping light beams in the encoding device according to the embodiment;

【図4】同実施形態の符号化装置において仮符号化によ
り量子化ステップサイズを決定する原理を説明する図。
FIG. 4 is an exemplary view for explaining the principle of determining a quantization step size by provisional encoding in the encoding device according to the embodiment;

【図5】同実施形態の符号化装置におけるマクロブロッ
クの構成例を示す図。
FIG. 5 is a diagram showing a configuration example of a macroblock in the encoding device of the embodiment.

【図6】同実施形態の符号化装置で作成される符号化ス
トリームの多重化フォーマットの一例を示す図。
FIG. 6 is an exemplary view showing an example of a multiplex format of an encoded stream created by the encoding device of the embodiment.

【図7】本発明の一実施形態に係る多視点画像復号化装
置の構成を示すブロック図。
FIG. 7 is a block diagram showing a configuration of a multi-view image decoding device according to an embodiment of the present invention.

【図8】同実施形態の多視点画像復号化装置で用いられ
る参照画素算出動作の原理を説明する図。
FIG. 8 is an exemplary view for explaining the principle of a reference pixel calculation operation used in the multi-view image decoding apparatus according to the embodiment.

【図9】本発明の一実施形態に係る多視点画像符号化方
法の手順の一部を示すフローチャート。
FIG. 9 is a flowchart showing a part of a procedure of a multi-view image encoding method according to an embodiment of the present invention.

【図10】同実施形態に係る多視点画像符号化方法の手
順の残りの一部を示すフローチャート。
FIG. 10 is an exemplary flowchart showing the remaining part of the procedure of the multi-view image encoding method according to the embodiment.

【図11】図9の符号化ステップの詳細を説明するフロ
ーチャート。
FIG. 11 is a flowchart illustrating details of an encoding step in FIG. 9;

【図12】本発明の一実施形態にかかる多視点画像復号
化方法の手順の一部を示すフローチャート。
FIG. 12 is a flowchart showing a part of a procedure of a multi-view image decoding method according to an embodiment of the present invention.

【図13】本発明の一実施形態にかかる多視点画像復号
化方法の手順の残りの一部を示すフローチャート。
FIG. 13 is a flowchart showing the remaining part of the procedure of the multi-view image decoding method according to an embodiment of the present invention.

【図14】本発明一実施形態にかかる多視点画像符号化
装置/方法で使用されるモデル化の手順を示すフローチ
ャート。
FIG. 14 is a flowchart showing a modeling procedure used in the multi-view image encoding apparatus / method according to the embodiment of the present invention;

【図15】図14のモデル化処理における探索範囲の制
限について説明するための図。
FIG. 15 is a view for explaining a limitation of a search range in the modeling processing of FIG. 14;

【図16】図14のモデル化処理における探索範囲の制
限について説明するための図。
FIG. 16 is a view for explaining a limitation of a search range in the modeling processing of FIG. 14;

【図17】図14のモデル化処理におけるMV検出につ
いて説明する他の図。
FIG. 17 is another diagram illustrating MV detection in the modeling process of FIG. 14;

【図18】本発明一実施形態にかかる多視点画像符号化
装置/方法においてモデルを送る視点画像を求める原理
を説明する図。
FIG. 18 is a view for explaining the principle of obtaining a viewpoint image for sending a model in the multi-view image encoding apparatus / method according to one embodiment of the present invention.

【図19】本発明一実施形態にかかる多視点画像符号化
装置/方法においてモデルを送る視点画像を求める原理
を説明する他の図。
FIG. 19 is another diagram for explaining the principle of obtaining a viewpoint image for transmitting a model in the multi-view image encoding apparatus / method according to the embodiment of the present invention;

【図20】本発明一実施形態にかかる多視点画像符号化
装置/方法で使用される画像入力装置の構成を示す斜視
図。
FIG. 20 is a perspective view showing the configuration of an image input device used in the multi-view image encoding device / method according to one embodiment of the present invention.

【図21】図20において被写体の断面と極座標の関係
を説明する平面図。
21 is a plan view illustrating a relationship between a cross section of the subject and polar coordinates in FIG.

【図22】図20の画像入力装置から入力された多視点
画像のp−θ平面上での位置関係を説明する図。
FIG. 22 is a view for explaining the positional relationship on the p-θ plane of the multi-viewpoint image input from the image input device of FIG. 20;

【図23】光線空間を円筒記録する原理を説明するため
の図。
FIG. 23 is a view for explaining the principle of cylindrically recording a light beam space.

【符号の説明】[Explanation of symbols]

100…画像入力部 101,108…記憶部 102…制御部 103…モデル化部 104…モデル蓄積部 105,611…予測信号生成部 106,612…加算器 107,111…DCT回路 109,112…量子化回路 110,113…可変長符号化回路 114,604,608…逆量子化回路 115,606,609…逆DCT回路 116…多重化回路 117…符号量カウンタ 600…視点入力部 601…分離回路 602…アドレス計算回路 603…誤差記憶部 604,607…可変長復号回路 610…モデル蓄積部 613…フレームメモリ 100 image input units 101 and 108 storage unit 102 control unit 103 modeling unit 104 model storage units 105 and 611 predicted signal generation units 106 and 612 adders 107 and 111 DCT circuits 109 and 112 quantum ... Decoding circuits 110, 113... Variable length coding circuits 114, 604, 608... Inverse quantization circuits 115, 606, 609... Inverse DCT circuits 116. ... Address calculation circuit 603 Error storage unit 604 607 Variable length decoding circuit 610 Model storage unit 613 Frame memory

Claims (17)

【特許請求の範囲】[Claims] 【請求項1】 被写体との位置関係が既知の複数の視点
からそれぞれ得られた前記被写体についての複数の視点
画像を入力し、それら複数の視点画像を含む多視点画像
を符号化する多視点画像符号化装置において、 前記多視点画像をモデル化して前記被写体面上の各点の
座標値および輝度値から構成されるモデル情報を生成す
るモデル化手段であって、前記被写体面上の各点毎にモ
デルとして使用すべき視点画像を決定し、その視点画像
内の対応する輝度情報を前記モデル情報の対応する点の
輝度値として使用するモデル化手段と、 前記被写体面上の各点の座標値および輝度値から構成さ
れるモデル情報を、それら各点のモデルとして使用され
た視点画像の画像情報として符号化する手段と、 前記モデル情報から前記各視点画像の画像を予測し、そ
の予測画像と前記各入力視点画像との予測誤差を符号化
する手段と、 符号化された前記モデル情報および予測誤差を多重化し
て、前記多視点画像の符号化ストリームを生成する多重
化手段とを具備することを特徴とする多視点画像符号化
装置。
1. A multi-viewpoint image for inputting a plurality of viewpoint images of a subject obtained from a plurality of viewpoints whose positional relationship with the subject is known, and encoding a multi-viewpoint image including the plurality of viewpoint images. An encoding device, comprising: a modeling unit configured to model the multi-viewpoint image to generate model information including coordinate values and luminance values of each point on the object plane, wherein each of the points on the object plane is modeled. Modeling means for determining a viewpoint image to be used as a model, and using corresponding luminance information in the viewpoint image as a luminance value of a corresponding point of the model information, and a coordinate value of each point on the object plane Means for encoding model information composed of the image and the luminance value as image information of a viewpoint image used as a model of each point, and predicting an image of each viewpoint image from the model information Means for encoding a prediction error between the predicted image and each of the input viewpoint images; and multiplexing for multiplexing the encoded model information and the prediction error to generate an encoded stream of the multi-view image. And a multi-view image encoding apparatus.
【請求項2】 前記被写体面上の点からの法線方向に最
も近い視点を持つ視点画像が、その点のモデルとして使
用されることを特徴とする請求項1記載の多視点画像符
号化装置。
2. The multi-viewpoint image encoding apparatus according to claim 1, wherein a viewpoint image having a viewpoint closest to a normal direction from a point on the object plane is used as a model of the point. .
【請求項3】 前記多重化手段は、前記被写体面上の各
点の座標値および輝度値から構成されるモデル情報を、
前記予測誤差情報が多重化される前記符号化ストリーム
上の情報位置とは異なる他の情報位置にまとめて多重化
することを特徴とする請求項1または2記載の多視点画
像符号化装置。
3. The multiplexing means according to claim 1, wherein said multiplexing means outputs model information comprising coordinate values and luminance values of respective points on said subject plane.
The multi-view image encoding apparatus according to claim 1, wherein the prediction error information is multiplexed at another information position different from an information position on the encoded stream to be multiplexed.
【請求項4】 被写体との位置関係が既知の複数の視点
からそれぞれ得られた前記被写体についての複数の視点
画像を含む多視点画像の符号化ストリームを復号する多
視点画像復号化装置であって、前記符号化ストリームに
は、前記被写体面上の各点の座標値および輝度値から構
成されたモデル情報と、このモデル情報から前記各視点
画像の画像を予測してその予測結果と前記各入力視点画
像との予測誤差を符号化することによって得られた予測
誤差情報とが多重化されており、前記モデル情報の各点
の輝度は、その点のモデルとして使用された視点画像内
の対応する輝度情報として符号化されている多視点画像
復号化装置において、 前記符号化ストリームから前記モデル情報と前記予測誤
差情報とを分離する手段と、 前記符号化ストリームから分離された前記予測誤差情報
を復号化する手段と、 前記符号化ストリームから分離されたモデル情報を復号
化して、再生対象の視点画像を予測する予測手段と、 この予測によって得られた予測画像と前記予測誤差情報
の復号によって得られた画像とを合成して、前記再生対
象の視点画像を再生する手段とを具備することを特徴と
する多視点画像復号化装置。
4. A multi-view image decoding apparatus for decoding a coded stream of a multi-view image including a plurality of viewpoint images of the subject obtained from a plurality of viewpoints whose positional relationship with the subject is known. The encoded stream includes model information including coordinate values and luminance values of points on the subject surface, and predicts an image of each viewpoint image from the model information, and calculates a prediction result and the input The prediction error information obtained by encoding the prediction error with the viewpoint image is multiplexed, and the luminance of each point of the model information corresponds to the corresponding luminance in the viewpoint image used as the model of the point. In a multi-view image decoding device that has been encoded as luminance information, a unit that separates the model information and the prediction error information from the encoded stream; and the encoded stream. Means for decoding the prediction error information separated from the coded stream; decoding means for decoding model information separated from the encoded stream to predict a viewpoint image to be reproduced; and a prediction image obtained by the prediction. Means for combining the image obtained by decoding the prediction error information and the image to be reproduced to reproduce the viewpoint image to be reproduced.
【請求項5】 再生すべき画像の視点を指定する位置情
報を入力する手段と、 前記被写体面上の各点の座標値および輝度値から構成さ
れるモデル情報および前記入力位置情報に基づいて、前
記指定された視点からの画像を再生するために前記多視
点画像より参照すべき画素位置を求める手段とをさらに
具備し、 前記求められた画素位置毎にそれに対応する前記予測画
像と前記予測誤差情報の復号結果とを合成することによ
り、前記指定された視点からの画像を再生することを特
徴とする請求項4記載の多視点画像復号化装置。
5. A means for inputting position information for designating a viewpoint of an image to be reproduced, based on model information composed of coordinate values and luminance values of respective points on the object plane and the input position information, Means for determining a pixel position to be referred to from the multi-viewpoint image in order to reproduce an image from the specified viewpoint, the prediction image and the prediction error corresponding to each of the determined pixel positions. 5. The multi-view image decoding apparatus according to claim 4, wherein an image from the specified viewpoint is reproduced by synthesizing the decoding result of the information.
【請求項6】 前記符号化ストリームには、前記被写体
面上の各点の座標値および輝度値から構成されるモデル
情報が、前記予測誤差情報が多重化される前記符号化ス
トリーム上の情報位置とは異なる他の情報位置にまとめ
て多重化されており、 前記予測手段は、前記第2情報位置のモデル情報をアク
セスして前記求められた各画素位置の予測画像を生成
し、 前記前記予測誤差情報を復号する手段は、前記求められ
た各画素位置を復号するのに必要な予測誤差情報のみを
アクセスしてその復号を行うことを特徴とする請求項5
記載の多視点画像復号化装置。
6. The encoded stream includes model information composed of coordinate values and luminance values of respective points on the object plane, and an information position on the encoded stream where the prediction error information is multiplexed. The prediction unit accesses the model information of the second information position to generate a predicted image of each of the determined pixel positions, and multiplexes the prediction information with the model information of the second information position. 6. The apparatus according to claim 5, wherein the means for decoding the error information accesses and decodes only the prediction error information necessary for decoding the obtained pixel positions.
The multi-view image decoding device according to the above.
【請求項7】 前記符号化ストリームのモデル情報は、
前記被写体面上の点からの法線方向に最も近い視点を持
つ視点画像をその点のモデルとして使用していることを
特徴とする請求項4記載の多視点画像復号化装置。
7. The model information of the encoded stream includes:
5. The multi-view image decoding apparatus according to claim 4, wherein a viewpoint image having a viewpoint closest to a normal direction from a point on the object plane is used as a model of the point.
【請求項8】 被写体との位置関係が既知の複数の視点
からそれぞれ得られた前記被写体についての複数の視点
画像を入力し、それら複数の視点画像を含む多視点画像
を符号化する多視点画像符号化方法において、 前記被写体面上の各点毎にモデルとして使用すべき視点
画像を決定し、その視点画像内の対応する輝度情報を用
いることによって前記被写体面上の各点の座標値および
輝度値から構成されるモデル情報を生成し、 前記被写体面上の各点の座標値および輝度値から構成さ
れるモデル情報を、それら各点のモデルとして使用され
た視点画像の画像情報として符号化し、 前記モデル情報から前記各視点画像の画像を予測し、そ
の予測画像と前記各入力視点画像との予測誤差を符号化
し、 符号化された前記モデル情報および予測誤差を多重化し
て、前記多視点画像の符号化ストリームを生成すること
を特徴とする多視点画像符号化方法。
8. A multi-viewpoint image for inputting a plurality of viewpoint images of the subject obtained from a plurality of viewpoints whose positional relationship with the subject is known, and encoding a multi-viewpoint image including the plurality of viewpoint images. In the encoding method, a viewpoint image to be used as a model is determined for each point on the object plane, and the coordinate value and the luminance of each point on the object plane are determined by using corresponding luminance information in the viewpoint image. Generating model information composed of values, encoding the model information composed of coordinate values and luminance values of each point on the object plane as image information of a viewpoint image used as a model of each point, Predicting an image of each viewpoint image from the model information, encoding a prediction error between the predicted image and each input viewpoint image, and calculating the encoded model information and prediction error. And duplexed, multi-view image encoding method and generating a coded stream of the multi-viewpoint image.
【請求項9】 前記被写体面上の点からの法線方向に最
も近い視点を持つ視点画像が、その点のモデルとして使
用されることを特徴とする請求項8記載の多視点画像符
号化方法。
9. The multi-view image encoding method according to claim 8, wherein a viewpoint image having a viewpoint closest to a normal direction from a point on the object plane is used as a model of the point. .
【請求項10】 前記被写体面上の各点の座標値および
輝度値から構成されるモデル情報は、前記予測誤差情報
が多重化される前記符号化ストリーム上の情報位置とは
異なる他の情報位置にまとめて多重化されていることを
特徴とする請求項8または9記載の多視点画像符号化方
法。
10. The model information comprising coordinate values and luminance values of respective points on the object plane is another information position different from the information position on the encoded stream where the prediction error information is multiplexed. 10. The multi-view image encoding method according to claim 8, wherein the multi-view image encoding method is multiplexed together.
【請求項11】 被写体との位置関係が既知の複数の視
点からそれぞれ得られた前記被写体についての複数の視
点画像を含む多視点画像の符号化ストリームを復号する
多視点画像復号化方法であって、前記符号化ストリーム
には、前記被写体面上の各点の座標値および輝度値から
構成されたモデル情報と、このモデル情報から前記各視
点画像の画像を予測してその予測結果と前記各入力視点
画像との予測誤差を符号化することによって得られた予
測誤差情報とが多重化されており、前記モデル情報の各
点の輝度は、その点のモデルとして使用された視点画像
内の対応する輝度情報として符号化されている符号化ス
トリームを復号する多視点画像復号化方法において、 前記符号化ストリームから前記モデル情報と前記予測誤
差情報とを分離し、 前記符号化ストリームから分離された前記予測誤差情報
を復号化し、 前記符号化ストリームから分離されたモデル情報を復号
化して、再生対象の視点画像を予測し、 この予測によって得られた予測画像と前記予測誤差情報
の復号によって得られた画像とを合成して、前記再生対
象の視点画像を再生することを特徴とする多視点画像復
号化方法。
11. A multi-view image decoding method for decoding a coded stream of a multi-view image including a plurality of viewpoint images of the subject obtained from a plurality of viewpoints whose positional relationship with the subject is known. The encoded stream includes model information including coordinate values and luminance values of points on the subject surface, and predicts an image of each viewpoint image from the model information, and calculates a prediction result and the input The prediction error information obtained by encoding the prediction error with the viewpoint image is multiplexed, and the luminance of each point of the model information corresponds to the corresponding luminance in the viewpoint image used as the model of the point. In a multi-view image decoding method for decoding a coded stream coded as luminance information, separating the model information and the prediction error information from the coded stream, Decoding the prediction error information separated from the encoded stream, decoding the model information separated from the encoded stream, predicting a viewpoint image to be reproduced, and a prediction image obtained by this prediction and A multi-view image decoding method, comprising: synthesizing an image obtained by decoding prediction error information to reproduce the viewpoint image to be reproduced.
【請求項12】 再生すべき画像の視点を指定する位置
情報を入力し、 前記被写体面上の各点の座標値および輝度値から構成さ
れるモデル情報および前記入力位置情報に基づいて、前
記指定された視点からの画像を再生するために前記多視
点画像より参照すべき画素位置を求め、 前記求められた画素位置毎にそれに対応する前記予測画
像と前記予測誤差情報の復号結果とを合成することによ
り、前記指定された視点からの画像を再生することを特
徴とする請求項11記載の多視点画像復号化方法。。
12. Inputting position information for designating a viewpoint of an image to be reproduced, and performing the designation based on model information composed of coordinate values and luminance values of respective points on the object plane and the input position information. A pixel position to be referred to from the multi-viewpoint image in order to reproduce an image from the obtained viewpoint, and for each of the obtained pixel positions, synthesizes the prediction image corresponding thereto and the decoding result of the prediction error information. 12. The multi-view image decoding method according to claim 11, wherein an image from the specified viewpoint is reproduced. .
【請求項13】 前記符号化ストリームには、前記被写
体面上の各点の座標値および輝度値から構成されるモデ
ル情報が、前記予測誤差情報が多重化される前記符号化
ストリーム上の情報位置とは異なる他の情報位置にまと
めて多重化されており、 前記各画素位置の予測画像をの生成は、前記モデル情報
をアクセスすることによって行われ、 前記各画素位置の予測誤差情報の復号は、その画素位置
をを復号するのに必要な予測誤差情報のみをアクセスす
ることによって行われることを特徴とする請求項12記
載の多視点画像復号化方法。
13. The encoded stream includes model information including coordinate values and luminance values of respective points on the object plane, and an information position on the encoded stream to which the prediction error information is multiplexed. Are multiplexed together in another information position different from the above, the generation of the predicted image of each pixel position is performed by accessing the model information, and the decoding of the prediction error information of each pixel position is performed. 13. The multi-view image decoding method according to claim 12, wherein the method is performed by accessing only prediction error information necessary for decoding the pixel position.
【請求項14】 被写体との位置関係が既知の複数の視
点からそれぞれ得られた前記被写体についての複数の視
点画像を含む多視点画像を符号化するためのプログラム
が記録された記録媒体において、 前記プログラムには、 前記被写体面上の各点毎にモデルとして使用すべき視点
画像を決定し、その視点画像内の対応する輝度情報を用
いることによって前記被写体面上の各点の座標値および
輝度値から構成されるモデル情報を生成する手順と、 前記被写体面上の各点の座標値および輝度値から構成さ
れるモデル情報を、それら各点のモデルとして使用され
た視点画像の画像情報として符号化する手順と、 前記モデル情報から前記各視点画像の画像を予測し、そ
の予測画像と前記各入力視点画像との予測誤差を符号化
する手順と、 符号化された前記モデル情報および予測誤差を多重化し
て、前記多視点画像の符号化ストリームを生成する手順
とが記述されていることを特徴とする記録媒体。
14. A recording medium on which is recorded a program for encoding a multi-view image including a plurality of viewpoint images of the subject obtained from a plurality of viewpoints whose positional relationship with the subject is known. In the program, a viewpoint image to be used as a model is determined for each point on the object plane, and the coordinate value and the luminance value of each point on the object plane are determined by using corresponding luminance information in the viewpoint image. Generating model information composed of: and encoding the model information composed of coordinate values and luminance values of each point on the object plane as image information of a viewpoint image used as a model of each point. A step of predicting an image of each viewpoint image from the model information, and encoding a prediction error between the predicted image and each of the input viewpoint images. The model information and by multiplexing the prediction error, the recording medium characterized in that a procedure for generating an encoded stream of the multi-viewpoint image is described.
【請求項15】 被写体との位置関係が既知の複数の視
点からそれぞれ得られた前記被写体についての複数の視
点画像を含む多視点画像の符号化ストリームが記録され
る記録媒体であって、 前記符号化ストリームには、 前記被写体面上の各点の座標値および輝度値から構成さ
れたモデル情報と、このモデル情報から前記各視点画像
の画像を予測してその予測結果と前記各入力視点画像と
の予測誤差を符号化することによって得られた予測誤差
情報とが多重化されており、 前記モデル情報の各点の輝度は、その点のモデルとして
使用された視点画像内の対応する輝度情報として符号化
されていることを特徴とする記録媒体。
15. A recording medium on which an encoded stream of a multi-view image including a plurality of viewpoint images of the subject obtained from a plurality of viewpoints whose positional relationship with the subject is known is recorded. In the stream, the model information composed of the coordinate value and the luminance value of each point on the object plane, and the image of each viewpoint image is predicted from the model information, and the prediction result and each of the input viewpoint images are obtained. The prediction error information obtained by encoding the prediction error is multiplexed, and the luminance of each point of the model information is the corresponding luminance information in the viewpoint image used as a model of the point. A recording medium characterized by being encoded.
【請求項16】 被写体との位置関係が既知の複数の視
点からそれぞれ得られた前記被写体についての複数の視
点画像を入力し、それら複数の視点画像を含む多視点画
像を符号化する多視点画像符号化装置において、 前記多視点画像をモデル化して、前記被写体面上の各点
の座標値および輝度値から構成されるモデル情報を生成
するモデル化手段と、 前記モデル情報から前記各視点画像の画像を予測し、そ
の予測画像と前記各入力視点画像との予測誤差を符号化
する手段と、 前記被写体面上の各点の座標値および輝度値から構成さ
れるモデル情報を符号化する手段と、 符号化された前記モデル情報および予測誤差を多重化し
て、前記多視点画像の符号化ストリームを生成する多重
化手段とを具備することを特徴とする多視点画像符号化
装置。
16. A multi-viewpoint image for inputting a plurality of viewpoint images of the subject obtained from a plurality of viewpoints whose positional relationship with the subject is known, and encoding a multi-viewpoint image including the plurality of viewpoint images. In the encoding device, a modeling unit configured to model the multi-viewpoint image to generate model information including coordinate values and luminance values of respective points on the subject surface; and Means for predicting an image, encoding a prediction error between the predicted image and each of the input viewpoint images, and means for encoding model information composed of coordinate values and luminance values of each point on the subject plane. Multiplexing means for multiplexing the coded model information and the prediction error to generate a coded stream of the multi-view image.
【請求項17】 被写体との位置関係が既知の複数の視
点からそれぞれ得られた前記被写体についての複数の視
点画像を入力し、それら複数の視点画像を含む多視点画
像を符号化する多視点画像符号化方法において、 前記被写体面上の各点毎にモデルとして使用すべき視点
画像を決定し、その視点画像内の対応する輝度情報を用
いることによって前記被写体面上の各点の座標値および
輝度値から構成されるモデル情報を生成し、 前記被写体面上の各点の座標値および輝度値から構成さ
れるモデル情報を符号化し、 前記モデル情報から前記各視点画像の画像を予測し、そ
の予測画像と前記各入力視点画像との予測誤差を符号化
し、 符号化された前記モデル情報および予測誤差を多重化し
て、前記多視点画像の符号化ストリームを生成すること
を特徴とする多視点画像符号化方法。
17. A multi-view image for inputting a plurality of viewpoint images of the subject obtained from a plurality of viewpoints whose positional relationship with the subject is known, and encoding a multi-view image including the plurality of viewpoint images. In the encoding method, a viewpoint image to be used as a model is determined for each point on the object plane, and coordinate values and luminance of each point on the object plane are determined by using corresponding luminance information in the viewpoint image. Generating model information composed of values, encoding model information composed of coordinate values and luminance values of respective points on the object plane, predicting an image of each viewpoint image from the model information, and predicting the image. Encoding a prediction error between an image and each of the input viewpoint images; multiplexing the encoded model information and the prediction error to generate an encoded stream of the multi-view image; Multi-view image encoding method comprising.
JP16892897A 1997-06-25 1997-06-25 Multi-view image encoding / decoding apparatus and encoding / decoding method thereof Pending JPH1118091A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16892897A JPH1118091A (en) 1997-06-25 1997-06-25 Multi-view image encoding / decoding apparatus and encoding / decoding method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16892897A JPH1118091A (en) 1997-06-25 1997-06-25 Multi-view image encoding / decoding apparatus and encoding / decoding method thereof

Publications (1)

Publication Number Publication Date
JPH1118091A true JPH1118091A (en) 1999-01-22

Family

ID=15877157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16892897A Pending JPH1118091A (en) 1997-06-25 1997-06-25 Multi-view image encoding / decoding apparatus and encoding / decoding method thereof

Country Status (1)

Country Link
JP (1) JPH1118091A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008020733A1 (en) * 2006-08-18 2008-02-21 Gwangju Institute Of Science And Technology A method and apparatus for encoding multiview video using hierarchical b frames in view direction, and a storage medium using the same
JP2010119143A (en) * 1997-07-18 2010-05-27 Sony Corp Image processing unit, image processing method, and recording medium
WO2016009587A1 (en) * 2014-07-18 2016-01-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Image encoding method, image decoding method, image encoding apparatus, image decoding apparatus, and content delivery method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010119143A (en) * 1997-07-18 2010-05-27 Sony Corp Image processing unit, image processing method, and recording medium
WO2008020733A1 (en) * 2006-08-18 2008-02-21 Gwangju Institute Of Science And Technology A method and apparatus for encoding multiview video using hierarchical b frames in view direction, and a storage medium using the same
US8184707B2 (en) 2006-08-18 2012-05-22 Gwangju Institute Of Science And Technology Method and apparatus for encoding multiview video using hierarchical B frames in view direction, and a storage medium using the same
WO2016009587A1 (en) * 2014-07-18 2016-01-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Image encoding method, image decoding method, image encoding apparatus, image decoding apparatus, and content delivery method

Similar Documents

Publication Publication Date Title
JP4955234B2 (en) Interactive multi-view video system and method
KR101340911B1 (en) Efficient encoding of multiple views
EP1779662B1 (en) Method and device for motion estimation and compensation for panorama image
US7512261B2 (en) System and method for calibrating multiple cameras without employing a pattern by inter-image homography
EP1622381A2 (en) A system and method for client services for interactive multi-view video
EP3622483B1 (en) Coding spherical video data
JP4575447B2 (en) Method and apparatus for generating virtual image regions for motion estimation and compensation of panoramic images
JP4975985B2 (en) Multiview video format
JP2006081161A (en) System and method for off-line multi-view video compression
JPH10271511A (en) Image encoding device and image decoding device
US20190082183A1 (en) Method and Apparatus for Video Coding of VR images with Inactive Areas
JP4989051B2 (en) Offline multi-view video compression system and method
JPH11161800A (en) Multi-view image encoding / decoding device, multi-view image encoding / decoding method, and image encoding / decoding device for three-dimensional object
JP2000285260A (en) Multi-view image encoding method and arbitrary viewpoint image generation method
JPH1118091A (en) Multi-view image encoding / decoding apparatus and encoding / decoding method thereof
JP2000285259A (en) Arbitrary viewpoint image reproduction method from multiple viewpoint images
JP4258879B2 (en) Image encoding method and apparatus, image decoding method and apparatus, and computer-readable recording medium storing a program for causing a computer to realize the image encoding method and the image decoding method
CN111630862A (en) Method and apparatus for encoding and decoding multi-view video sequence representing omni-directional video
JP2000132683A (en) Multi-view image coding method
JP2000261808A5 (en)
Kum et al. Intra-stream encoding for multiple depth streams

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040706