JP2024177335A

JP2024177335A - 画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置

Info

Publication number: JP2024177335A
Application number: JP2024173253A
Authority: JP
Inventors: ハンブンテオ; Han Boon Teo; チョンスンリム; Chong Soon Lim; チュトンワン; Chu Tong Wang; 清史安倍; Seishi Abe
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2021-04-23
Filing date: 2024-10-02
Publication date: 2024-12-19
Also published as: EP4311238A1; US20240037797A1; EP4311238A4; WO2022225025A1; JP7568835B2; JPWO2022225025A1

Abstract

【課題】特徴マップを適切に構築することが可能な画像復号装置を得る。
【解決手段】画像復号装置は、複数の特徴画像を復号し、前記複数の特徴画像をラスタ走査順序で配列することによって、特徴マップを構築する。
【選択図】図２１

Description

本開示は、画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置に関する。

ニューラルネットワークは、データセットにおける基礎となる関係を、人間の脳の処理方法を模倣するプロセスを介して認識しようとする一連のアルゴリズムである。この意味で、ニューラルネットワークは、本質的に有機的又は人工的なニューロンのシステムを指す。ディープラーニングにおけるニューラルネットワークの異なるタイプ、例えば、コンボリューションニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、人工ニューラルネットワーク（ＡＮＮ）は、我々が世界と相互作用する方法を変化させる。これらの異なるタイプのニューラルネットワークは、ディープラーニング革命、無人航空機、自律走行車、音声認識等のパワーアプリケーションの核心となる。積層された複数の層から成るＣＮＮは、視覚画像の解析に最も一般的に適用されるディープニューラルネットワークのクラスである。

特徴画像は、画像又はそれに含まれるオブジェクトの特徴を示した特有の表現である。例えば、ニューラルネットワークの畳み込み層において、所望のフィルタを画像全体に適用した出力として特徴画像が得られる。複数の畳み込み層において複数のフィルタを適用することによって複数の特徴画像が得られ、それら複数の特徴画像を配列することによって特徴マップを作成することができる。

特徴マップは、通常、ニューラルネットワークタスク等のタスク処理を実行するタスク処理装置に関連付けられる。このセットアップは、通常、特定の機械分析タスクのための最良の推論結果を可能にする。

エンコーダ側で作成した特徴マップをデコーダ側で利用する場合には、エンコーダは、作成した特徴マップを符号化することによって、特徴マップの符号化データを含むビットストリームをデコーダに向けて送信する。デコーダは、受信したビットストリームに基づいて特徴マップを復号する。デコーダは、復号した特徴マップを、ニューラルネットワークタスク等の所定のタスク処理を実行するタスク処理装置に入力する。

背景技術では、デコーダ側において複数のタスク処理装置が複数の特徴マップを用いて複数のニューラルネットワークタスクを実行する場合には、複数のタスク処理装置の各々に対応してエンコーダとデコーダのセットを複数セット実装する必要があり、システム構成が複雑化する。

なお、背景技術に係る画像符号化システムアーキテクチャは、例えば特許文献１，２に開示されている。

米国特許第２０１０／００４６６３５号明細書米国特許第２０２１／００２７４７０号明細書

本開示は、特徴マップを適切に構築することを目的とする。

本開示の一態様に係る画像復号装置は、複数の特徴画像を復号し、前記複数の特徴画像をラスタ走査順序で配列することによって、特徴マップを構築する。

本開示によれば、特徴マップを適切に構築することができる。

本開示の第１実施形態に係る画像復号方法の処理手順を示すフローチャートである。本開示の第１実施形態に係る画像符号化方法の処理手順を示すフローチャートである。背景技術に係る画像処理システムの構成例を示す図である。本開示の第１実施形態に係る画像処理システムの構成例を示す図である。符号化装置及び復号装置の第１の構成例を示す図である。符号化装置及び復号装置の第２の構成例を示す図である。本開示の第１実施形態に係るビデオデコーダの構成を示すブロック図である。本開示の第１実施形態に係るビデオエンコーダの構成を示すブロック図である。特徴マップの作成処理の第１の例を示す図である。特徴マップの作成処理の第１の例を示す図である。選択部の動作の第１の例を示す図である。選択部の動作の第２の例を示す図である。特徴マップの作成処理の第２の例を示す図である。特徴マップの作成処理の第２の例を示す図である。ニューラルネットワークタスクの一例を示す図である。ニューラルネットワークタスクの一例を示す図である。インター予測及びイントラ予測の双方を利用する例を示す図である。本開示の第２実施形態に係る画像復号方法の処理手順を示すフローチャートである。本開示の第２実施形態に係る画像符号化方法の処理手順を示すフローチャートである。本開示の第２実施形態に係る画像処理システムの構成例を示す図である。本開示の第２実施形態に係る復号装置の構成を示すブロック図である。本開示の第２実施形態に係る符号化装置の構成を示すブロック図である。特徴マップの他の例を示す図である。特徴画像のサイズと符号化ブロックサイズとの関係を示す図である。特徴画像のサイズと符号化ブロックサイズとの関係を示す図である。走査順序の第１の例を示す図である。走査順序の第２の例を示す図である。複数のセグメントへの分割の例を示す図である。複数のセグメントへの分割の例を示す図である。複数のセグメントへの分割の例を示す図である。１つの特徴画像が複数の符号化ブロックに分割されて符号化される場合の走査順序を示す図である。１つの特徴画像が複数の符号化ブロックに分割されて符号化される場合の走査順序を示す図である。

（本開示の基礎となった知見）
図３は、背景技術に係る画像処理システム１１００の構成例を示す図である。画像処理システム１１００は、デコーダ側においてニューラルネットワークタスク等の所定のタスク処理を実行する複数のタスク処理部１１０３Ａ～１１０３Ｎを備えている。例えば、タスク処理部１１０３Ａは顔のランドマークの検出処理を実行し、タスク処理部１１０３Ｂは顔の向きの検出処理を実行する。また、画像処理システム１１００は、複数のタスク処理部１１０３Ａ～１１０３Ｎの各々に対応して、符号化装置１１０１Ａ～１１０１Ｎと復号装置１１０２Ａ～１１０２Ｎのセットを備えている。

例えば、符号化装置１１０１Ａは、入力された画像又は特徴に基づいて特徴マップＡを作成し、作成した特徴マップＡを符号化することによって、特徴マップＡの符号化データを含むビットストリームを復号装置１１０２Ａに向けて送信する。復号装置１１０２Ａは、受信したビットストリームに基づいて特徴マップＡを復号し、復号した特徴マップＡをタスク処理部１１０３Ａに入力する。タスク処理部１１０３Ａは、入力された特徴マップＡを用いて所定のタスク処理を実行することにより、その推定結果を出力する。

図３に示した背景技術の課題は、複数のタスク処理部１１０３Ａ～１１０３Ｎの各々に対応して符号化装置１１０１Ａ～１１０１Ｎと復号装置１１０２Ａ～１１０２Ｎのセットを複数セット実装する必要があり、システム構成が複雑化することである。

かかる課題を解決するために、本発明者は、画像符号化装置が複数の特徴マップを同一のビットストリームに含めて画像復号装置に向けて送信し、画像復号装置は、復号した複数の特徴マップから所望の特徴マップを選択して複数のタスク処理装置の各々に入力するという新しい方法を導入した。これにより、複数のタスク処理装置の各々に対応して画像符号化装置と画像復号装置のセットを複数セット実装する必要がなく、画像符号化装置と画像復号装置のセットは１セットで足りるため、システム構成を簡略化することができる。

次に、本開示の各態様について説明する。

本開示の一態様に係る画像復号方法は、画像復号装置が、画像に関する複数の特徴マップの符号化データを含むビットストリームを、画像符号化装置から受信し、受信した前記ビットストリームに基づいて、前記複数の特徴マップを復号し、復号した前記複数の特徴マップから第１の特徴マップを選択し、前記第１の特徴マップを、前記第１の特徴マップに基づいて第１のタスク処理を実行する第１のタスク処理装置に向けて出力し、復号した前記複数の特徴マップから第２の特徴マップを選択し、前記第２の特徴マップを、前記第２の特徴マップに基づいて第２のタスク処理を実行する第２のタスク処理装置に向けて出力する。

本態様によれば、画像復号装置は、復号した複数の特徴マップから第１の特徴マップを選択して第１のタスク処理装置に向けて出力し、復号した複数の特徴マップから第２の特徴マップを選択して第２のタスク処理装置に向けて出力する。これにより、複数のタスク処理装置の各々に対応して画像符号化装置と画像復号装置のセットを複数セット実装する必要がないため、システム構成を簡略化することができる。

上記態様において、前記画像復号装置は、前記複数の特徴マップの各々のインデックス情報に基づいて、前記第１の特徴マップ及び前記第２の特徴マップを選択する。

本態様によれば、インデックス情報を用いることにより、特徴マップの選択を適切に実行することができる。

上記態様において、前記画像復号装置は、前記複数の特徴マップの各々のサイズ情報に基づいて、前記第１の特徴マップ及び前記第２の特徴マップを選択する。

本態様によれば、サイズ情報を用いることにより、特徴マップの選択を簡易に実行することができる。

上記態様において、前記画像復号装置は、前記第１の特徴マップを用いたインター予測によって前記第２の特徴マップを復号する。

本態様によれば、特徴マップの復号にインター予測を用いることにより、符号量を削減することができる。

上記態様において、前記画像復号装置は、イントラ予測によって前記第１の特徴マップ及び前記第２の特徴マップを復号する。

本態様によれば、特徴マップの復号にイントラ予測を用いることにより、複数の特徴マップをそれぞれ独立して復号することができる。

上記態様において、前記複数の特徴マップの各々は、前記画像に関する複数の特徴画像を含む。

本態様によれば、タスク処理装置は各特徴マップに含まれる複数の特徴画像を用いてタスク処理を実行できるため、タスク処理の精度を向上することができる。

上記態様において、前記画像復号装置は、前記複数の特徴画像を復号し、復号した前記複数の特徴画像を所定の走査順序で配列することによって、前記複数の特徴マップの各々を構築する。

本態様によれば、複数の特徴画像を所定の走査順序で配列することによって、特徴マップを適切に構築することが可能となる。

上記態様において、前記複数の特徴マップの各々は、複数のセグメントを含み、前記複数のセグメントの各々は、前記複数の特徴画像を含み、前記画像復号装置は、復号した前記複数の特徴画像を所定の走査順序で配列することによって、前記複数のセグメントの各々を構築し、前記複数のセグメントを所定の順序で配列することによって、前記複数の特徴マップの各々を構築する。

本態様によれば、セグメント単位でストリームを区切る処理、又はセグメント単位で復号処理を制御することが可能となり、柔軟なシステム構成を実現することができる。

上記態様において、前記画像復号装置は、復号した前記複数の特徴画像の各々のサイズに基づいて、前記所定の走査順序の昇順又は降順を切り替える。

本態様によれば、各特徴画像のサイズに基づいて走査順序の昇順又は降順を切り替えることにより、特徴マップを適切に構築することが可能となる。

上記態様において、前記ビットストリームは、前記所定の走査順序の昇順又は降順を設定する順序情報を含み、前記画像復号装置は、前記順序情報に基づいて、前記所定の走査順序の昇順又は降順を切り替える。

本態様によれば、順序情報に基づいて走査順序の昇順又は降順を切り替えることにより、特徴マップを適切に構築することが可能となる。

上記態様において、前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、前記画像復号装置は、前記複数種類の特徴画像の複数のサイズのうち最小のサイズに対応する一定の復号ブロックサイズで、前記複数の特徴画像を復号する。

本態様によれば、一定の復号ブロックサイズで複数の特徴画像を復号することにより、画像復号装置の装置構成を簡略化することができる。

上記態様において、前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、前記画像復号装置は、前記複数種類の特徴画像の複数のサイズに対応する複数の復号ブロックサイズで、前記複数の特徴画像を復号する。

本態様によれば、各特徴画像のサイズに対応する復号ブロックサイズで各特徴画像を復号することにより、復号ブロック毎に必要となるヘッダを削減でき、また、大面積での符号化が可能となるため圧縮効率を向上できる。

上記態様において、前記所定の走査順序は、ラスタ走査順序である。

本態様によれば、ラスタ走査順序を用いることにより、ＧＰＵ等による高速な処理が可能となる。

上記態様において、前記所定の走査順序は、Ｚ走査順序である。

本態様によれば、Ｚ走査順序を用いることにより、一般的なビデオコーデックへの対応が可能となる。

上記態様において、前記ビットストリームは前記画像の符号化データを含み、前記画像復号装置は、受信した前記ビットストリームに基づいて、前記画像を復号し、前記複数の特徴マップの復号と、前記画像の復号とを、共通の復号処理部を用いて実行する。

本態様によれば、特徴マップの復号と画像の復号とを共通の復号処理部を用いて実行することにより、画像復号装置の装置構成を簡略化することができる。

上記態様において、前記第１のタスク処理及び前記第２のタスク処理は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、及びハイブリッドビジョンの少なくとも１つを含む。

本態様によれば、これらの各処理の精度を向上することが可能となる。

本開示の一態様に係る画像符号化方法は、画像符号化装置が、画像に関する第１の特徴マップを符号化し、前記画像に関する第２の特徴マップを符号化し、前記第１の特徴マップ及び前記第２の特徴マップの符号化データを含むビットストリームを生成し、生成した前記ビットストリームを画像復号装置に向けて送信する。

本態様によれば、画像符号化装置は、第１の特徴マップ及び第２の特徴マップの符号化データを含むビットストリームを画像復号装置に向けて送信する。これにより、画像復号装置側に実装される複数のタスク処理装置の各々に対応して画像符号化装置と画像復号装置のセットを複数セット実装する必要がないため、システム構成を簡略化することができる。

本開示の一態様に係る画像復号装置は、画像に関する複数の特徴マップの符号化データを含むビットストリームを、画像符号化装置から受信し、受信した前記ビットストリームに基づいて、前記複数の特徴マップを復号し、復号した前記複数の特徴マップから第１の特徴マップを選択し、前記第１の特徴マップを、前記第１の特徴マップに基づいて第１のタスク処理を実行する第１のタスク処理装置に向けて出力し、復号した前記複数の特徴マップから第２の特徴マップを選択し、前記第２の特徴マップを、前記第２の特徴マップに基づいて第２のタスク処理を実行する第２のタスク処理装置に向けて出力する。

本開示の一態様に係る画像符号化装置は、画像に関する第１の特徴マップを符号化し、前記画像に関する第２の特徴マップを符号化し、前記第１の特徴マップ及び前記第２の特徴マップの符号化データを含むビットストリームを生成し、生成した前記ビットストリームを画像復号装置に向けて送信する。

上記態様において、前記特徴マップは、複数のセグメントを含み、前記複数のセグメントの各々は、前記複数の特徴画像を含み、前記複数の特徴画像をラスタ走査順序で配列することによって、前記複数のセグメントの各々を構築し、前記複数のセグメントをラスタ走査順序で配列することによって、前記特徴マップを構築すると良い。

上記態様において、走査順序を示す設定情報をさらに復号し、前記設定情報に基づいて、前記複数の特徴画像を前記ラスタ走査順序で配列すると良い。

上記態様において、前記特徴マップは、複数のセグメントを含み、前記複数の特徴画像の配列を前記セグメント毎に行うと良い。

上記態様において、前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、前記複数種類の特徴画像の複数のサイズのうち最小のサイズに対応する復号ブロックサイズで、前記複数の特徴画像を復号すると良い。

上記態様において、前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、前記複数種類の特徴画像の複数のサイズに対応する複数の復号ブロックサイズで、前記複数の特徴画像を復号すると良い。

上記態様において、前記特徴マップに基づいて、推定を伴うニューラルネットワークタスクを実行し、前記推定の結果を出力すると良い。

上記態様において、前記ニューラルネットワークタスクは、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、及びハイブリッドビジョンの少なくとも１つを含むと良い。

本開示の一態様に係る画像符号化装置は、入力画像に基づいて、特徴マップを生成し、前記特徴マップを複数の特徴画像に分割するための走査順序を設定し、前記特徴マップと、前記走査順序を示す設定情報とを符号化し、前記設定情報は、前記走査順序としてラスタ走査順序を示す。

上記態様において、前記特徴マップは、複数のセグメントを含み、前記複数のセグメントの各々は、前記複数の特徴画像を含み、同一の前記セグメントに属する前記複数の特徴画像を連続して符号化すると良い。

上記態様において、前記複数の特徴画像の各々を符号化ブロックサイズで符号化及び算術符号化することにより、ビットストリームを生成すると良い。

上記態様において、前記算術符号化は、コンテキスト適応２進算術符号化（ＣＡＢＡＣ）であると良い。

上記態様において、前記特徴マップを再構築し、前記特徴マップに基づいて、推定を伴うニューラルネットワークタスクを実行し、前記推定の結果を出力すると良い。

本開示の一態様に係る画像復号方法は、画像復号装置が、複数の特徴画像を復号し、前記複数の特徴画像をラスタ走査順序で配列することによって、特徴マップを構築する。

本開示の一態様に係る画像符号化方法は、画像符号化装置が、入力画像に基づいて、特徴マップを生成し、前記特徴マップを複数の特徴画像に分割するための走査順序を設定し、前記特徴マップと、前記走査順序を示す設定情報とを符号化し、前記設定情報は、前記走査順序としてラスタ走査順序を示す。

（本開示の実施形態）
以下、本開示の実施形態について、図面を用いて詳細に説明する。なお、異なる図面において同一の符号を付した要素は、同一又は相応する要素を示すものとする。

なお、以下で説明する実施形態は、いずれも本開示の一具体例を示すものである。以下の実施形態で示される数値、形状、構成要素、ステップ、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施形態において、各々の内容を組み合わせることもできる。

（第１実施形態）
図４は、本開示の第１実施形態に係る画像処理システム１２００の構成例を示す図である。画像処理システム１２００は、画像符号化装置としての符号化装置１２０１と、画像復号装置としての復号装置１２０２と、タスク処理装置としての複数のタスク処理部１２０３Ａ～１２０３Ｎとを備えている。

符号化装置１２０１は、入力された画像又は特徴に基づいて複数の特徴マップＡ～Ｎを作成する。符号化装置１２０１は、作成した特徴マップＡ～Ｎを符号化することによって、特徴マップＡ～Ｎの符号化データを含むビットストリームを生成する。符号化装置１２０１は、生成したビットストリームを復号装置１２０２に向けて送信する。復号装置１２０２は、受信したビットストリームに基づいて特徴マップＡ～Ｎを復号する。復号装置１２０２は、復号した特徴マップＡ～Ｎから第１の特徴マップとして特徴マップＡを選択し、選択した特徴マップＡを第１のタスク処理装置としてタスク処理部１２０３Ａに入力する。また、復号装置１２０２は、復号した特徴マップＡ～Ｎから第２の特徴マップとして特徴マップＢを選択し、選択した特徴マップＢを第２のタスク処理装置としてタスク処理部１２０３Ｂに入力する。タスク処理部１２０３Ａは、入力された特徴マップＡに基づいてニューラルネットワークタスク等の第１のタスク処理を実行し、その推定結果を出力する。タスク処理部１２０３Ｂは、入力された特徴マップＢに基づいてニューラルネットワークタスク等の第２のタスク処理を実行し、その推定結果を出力する。

図５は、符号化装置１２０１及び復号装置１２０２の第１の構成例を示す図である。符号化装置１２０１は、画像符号化部１３０５、特徴抽出部１３０２、特徴変換部１３０３、特徴符号化部１３０４、及び送信部１３０６を備えている。復号装置１２０２は、受信部１３０９、画像復号部１３０８、及び特徴復号部１３０７を備えている。

画像符号化部１３０５及び特徴抽出部１３０２には、カメラ１３０１から画像のデータが入力される。画像符号化部１３０５は、入力画像を符号化し、その符号化データを送信部１３０６に入力する。なお、画像符号化部１３０５は、一般的なビデオコーデック又は静止画コーデックをそのまま使用したものであっても良い。特徴抽出部１３０２は、入力画像からその画像の特徴を示す複数の特徴画像を抽出し、抽出した複数の特徴画像を特徴変換部１３０３に入力する。特徴変換部１３０３は、複数の特徴画像を配列することによって特徴マップを生成する。特徴変換部１３０３は、一の入力画像に対して複数の特徴マップを生成し、生成した複数の特徴マップを特徴符号化部１３０４に入力する。特徴符号化部１３０４は、入力された複数の特徴マップを符号化し、その符号化データを送信部１３０６に入力する。送信部１３０６は、入力画像の符号化データと複数の特徴マップの符号化データとを含むビットストリームを生成し、生成したビットストリームを復号装置１２０２に向けて送信する。

受信部１３０９は、符号化装置１２０１から送信されたビットストリームを受信し、受信したビットストリームを画像復号部１３０８及び特徴復号部１３０７に入力する。画像復号部１３０８は、入力されたビットストリームに基づいて画像を復号する。特徴復号部１３０７は、入力されたビットストリームに基づいて複数の特徴マップを復号する。

なお、図５に示した例では、画像及び特徴マップの双方を符号化及び復号する構成としたが、人間の視覚のための画像表示が不要な場合は、特徴マップのみを符号化及び復号する構成としても良い。その場合、画像符号化部１３０５及び画像復号部１３０８を省略した構成としても良い。

図６は、符号化装置１２０１及び復号装置１２０２の第２の構成例を示す図である。符号化装置１２０１に関し、図５に示した構成から特徴符号化部１３０４が省略されている。また、復号装置１２０２に関し、図５に示した構成から特徴復号部１３０７が省略されている。

特徴変換部１３０３は、一の入力画像に対して複数の特徴マップを生成し、生成した複数の特徴マップを画像符号化部１３０５に入力する。画像符号化部１３０５は、入力画像及び複数の特徴マップを符号化し、入力画像及び複数の特徴マップの符号化データを送信部１３０６に入力する。送信部１３０６は、入力画像及び複数の特徴マップの符号化データを含むビットストリームを生成し、生成したビットストリームを復号装置１２０２に向けて送信する。

受信部１３０９は、符号化装置１２０１から送信されたビットストリームを受信し、受信したビットストリームを画像復号部１３０８に入力する。画像復号部１３０８は、入力されたビットストリームに基づいて画像及び複数の特徴マップを復号する。つまり、図６に示した構成では、復号装置１２０２は、画像の復号と複数の特徴マップの復号とを、共通の復号処理部としての画像復号部１３０８を用いて実行する。

図８は、本開示の第１実施形態に係るビデオエンコーダの構成を示すブロック図である。また、図２は、本開示の第１実施形態に係る画像符号化方法の処理手順２０００を示すフローチャートである。

図８に示すように、ビデオエンコーダは、符号化装置１２０１と、復号部２４０２と、選択部２４０３と、複数のタスク処理部２４０４Ａ～２４０４Ｎとを備えている。選択部２４０３は復号部２４０２内に実装されていても良い。ビデオエンコーダは、入力された画像又は特徴に基づいて複数の特徴マップＡ～Ｎを作成し、作成した複数の特徴マップＡ～Ｎを符号化することによってビットストリームを生成し、生成したビットストリームを復号装置１２０２に向けて送信するよう構成される。さらに、ビデオエンコーダは、生成したビットストリームに基づいて複数の特徴マップＡ～Ｎを復号し、復号した複数の特徴マップＡ～Ｎをタスク処理部２４０４Ａ～２４０４Ｎに入力し、タスク処理部２４０４Ａ～２４０４Ｎがニューラルネットワークタスクを実行することにより推定結果を出力するように構成されても良い。

図２のステップＳ２００１において、符号化装置１２０１には、画像又は特徴が入力される。符号化装置１２０１は、入力された画像又は特徴に基づいて、複数の特徴マップＡ～Ｎを作成する。符号化装置１２０１は、作成した特徴マップＡ～Ｎをブロック単位で符号化することによって、特徴マップＡ～Ｎの符号化データを含むビットストリームを生成する。符号化装置１２０１は、生成したビットストリームを復号装置１２０２に向けて送信する。

より具体的には、符号化装置１２０１は、入力画像に関する複数の特徴マップを符号化する。各特徴マップは、画像に関する特有の属性を示し、各特徴マップは、例えば算術符号化される。算術符号化は、例えばコンテキスト適応２進算術符号化（ＣＡＢＡＣ）である。

図９及び図１０は、特徴マップの作成処理の第１の例を示す図である。特徴マップは、複数の畳み込み層、複数のプーリング層、及び全結合層を有する畳み込みニューラルネットワークを用いて作成される。特徴マップは、入力画像に関する複数の特徴画像Ｆ１～Ｆ１０８を含む。各特徴画像の解像度及び特徴画像の数は、ニューラルネットワークの階層ごとに異なっていても良い。例えば、上位の畳み込み層Ｘ及びプーリング層Ｘにおける特徴画像Ｆ１～Ｆ１２の水平サイズＸ１及び垂直サイズＸ２は、下位の畳み込み層Ｙ及びプーリング層Ｙにおける特徴画像Ｆ１３～Ｆ３６の水平サイズＹ１及び垂直サイズＹ２より大きい。また、水平サイズＹ１及び垂直サイズＹ２は、全結合層における特徴画像Ｆ３７～Ｆ１０８の水平サイズＺ１及び垂直サイズＺ２より大きい。

例えば、複数の特徴画像Ｆ１～Ｆ１０８は、ニューラルネットワークの階層の順序に従って配列される。つまり、ニューラルネットワークの階層の昇順（サイズの大きい順）又は降順（サイズの小さい順）に配列される。

図１３及び図１４は、特徴マップの作成処理の第２の例を示す図であり、入力画像から特徴を抽出するフィルタ処理の例が示されている。抽出された特徴は、入力画像に関する測定可能で特徴的な属性を示す。図１３及び図１４に示すように、入力画像に対して所望のフィルタサイズのドットフィルタ、垂直ラインフィルタ、又は水平ラインフィルタを適用することによって、ドット成分が抽出された特徴画像、垂直ライン成分が抽出された特徴画像、又は水平ライン成分が抽出された特徴画像を生成することができる。生成した複数の特徴画像を配列することによって、フィルタ処理に基づいて特徴マップを生成することができる。

図８を参照して、復号部２４０２には、複数の特徴マップＡ～Ｎの符号化データを含むビットストリームが入力される。復号部２４０２は、入力されたビットストリームから必要に応じて画像を復号し、人間の視覚のための画像信号を表示装置へ向けて出力する。また、復号部２４０２は、入力されたビットストリームから複数の特徴マップＡ～Ｎを復号し、復号した特徴マップＡ～Ｎを選択部２４０３に入力する。同じタイムインスタンスの複数の特徴マップＡ～Ｎは、独立に復号することができる。独立復号の一例は、イントラ予測を使用することである。また、同じタイムインスタンスの複数の特徴マップＡ～Ｎは、相関して復号することができる。相関復号の一例は、インター予測を使用することであり、第１の特徴マップを用いたインター予測によって第２の特徴マップを復号することができる。選択部２４０３は、復号された複数の特徴マップＡ～Ｎの中から所望の特徴マップを選択し、選択した特徴マップを各タスク処理部２４０４Ａ～２４０４Ｎに入力する。

図１７は、インター予測及びイントラ予測の双方を利用する例を示す図である。入力画像Ｉ０１に基づいて複数の特徴マップＦＭ０１ａ～ＦＭ０１ｆが生成され、入力画像Ｉ０２に基づいて複数の特徴マップＦＭ０２ａ～ＦＭ０２ｆが生成され、入力画像Ｉ０３に基づいて複数の特徴マップＦＭ０３ａ～ＦＭ０３ｆが生成される。図１７のうち網掛けのハッチングを付した特徴マップ又は特徴画像はイントラ予測によって符号化され、網掛けのハッチングを付していない特徴マップ又は特徴画像はインター予測によって符号化される。インター予測は、同一時間（同じタイムインスタンス）の入力画像に対応する他の特徴マップ又は特徴画像を利用しても良いし、異なる時間（異なるタイムインスタンス）の入力画像に対応する他の特徴マップ又は特徴画像を利用しても良い。

図１１は、選択部２４０３の動作の第１の例を示す図である。選択部２４０３は、各特徴マップＡ～Ｎに付加されているインデックス情報ＩＡ～ＩＮに基づいて、特徴マップＡ～Ｎの選択を行う。インデックス情報ＩＡ～ＩＮは、ＩＤ、カテゴリ、式、又は複数の特徴マップＡ～Ｎの各々を区別する任意の固有の表現であって良い。選択部２４０３は、インデックス情報ＩＡ～ＩＮとタスク処理部２４０４Ａ～２４０４Ｎとの対応関係を示すテーブル情報を保持しており、各特徴マップＡ～Ｎを構成するビットストリームのヘッダ等に付加されているインデックス情報ＩＡ～ＩＮと、当該テーブル情報とに基づいて、各タスク処理部２４０４Ａ～２４０４Ｎに入力すべき特徴マップＡ～Ｎを選択する。なお、当該テーブル情報もビットストリームのヘッダ等に記述されても良い。

図１２は、選択部２４０３の動作の第２の例を示す図である。選択部２４０３は、各特徴マップＡ～Ｎの解像度又は特徴画像数等のサイズ情報ＳＡ～ＳＮに基づいて、特徴マップＡ～Ｎの選択を行う。解像度は、１１２×１１２、５６×５６、又は１４×１４等の特徴マップの画素数である。特徴画像数は、各特徴マップに含まれている複数の特徴画像の数である。各タスク処理部２４０４Ａ～２４０４Ｎに入力可能な特徴マップのサイズは互いに異なり、その設定情報は選択部２４０３が保持している。選択部２４０３は、各特徴マップＡ～Ｎを構成するビットストリームのヘッダ等に付加されているサイズ情報ＳＡ～ＳＮと、当該設定情報とに基づいて、各タスク処理部２４０４Ａ～２４０４Ｎに入力すべき特徴マップＡ～Ｎを選択する。なお、当該設定情報もビットストリームのヘッダ等に記述されても良い。

なお、選択部２４０３は、インデックス情報ＩＡ～ＩＮ及びサイズ情報ＳＡ～ＳＮの組合せに基づいて特徴マップＡ～Ｎの選択を行っても良い。

図２のステップＳ２００２において、タスク処理部２４０４Ａは、入力された特徴マップＡに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の第１のタスク処理を実行する。ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。

図１５は、ニューラルネットワークタスクの一例として、オブジェクト検出及びオブジェクトセグメンテーションを示す図である。オブジェクト検出では、入力画像に含まれるオブジェクトの属性（この例ではテレビ及び人物）が検出される。入力画像に含まれるオブジェクトの属性に加え、入力画像中のオブジェクトの位置や個数が検出されても良い。これにより、例えば、認識対象のオブジェクトの位置を絞り込んだり、認識対象以外のオブジェクトを排除したりしても良い。具体的な用途としては、例えば、カメラにおける顔の検出や、自動運転での歩行者等の検出が考えられる。オブジェクトセグメンテーションでは、オブジェクトに対応する領域の画素がセグメント化（つまり区分け）される。これにより、例えば、自動運転において障害物と道路を分離し、自動車の安全な走行の援助を行ったり、工場における製品の欠陥を検出したり、衛星画像中の地形の識別を行う等の用途が考えられる。

図１６は、ニューラルネットワークタスクの一例として、オブジェクトトラッキング、アクション認識、及びポーズ推定を示す図である。オブジェクトトラッキングでは、入力画像に含まれるオブジェクトの移動が追跡される。用途としては、例えば、店舗等の施設の利用者数の計数やスポーツ選手の動きの分析といったものが考えられる。更に処理を高速化すれば、リアルタイムにオブジェクトの追跡が可能となり、オートフォーカス等のカメラ処理への応用も可能となる。アクション認識では、オブジェクトの動作の種別（この例では「自転車に乗っている」「歩行している」）が検出される。例えば、防犯カメラに利用することで、強盗や万引き等の犯罪行動の防止及び検出、工場での作業忘れ防止といった用途に適用できる。ポーズ推定では、キーポイント及びジョイントの検出によってオブジェクトの姿勢が検出される。例えば、工場における作業効率の改善等の産業分野や、異常行動の検知といったセキュリティ分野、ヘルスケア及びスポーツといった分野での活用が考えられる。

タスク処理部２４０４Ａは、ニューラルネットワークタスクの実行結果を示す信号を出力する。当該信号は、検出されたオブジェクトの数、検出されたオブジェクトの信頼レベル、検出されたオブジェクトの境界情報又は位置情報、及び、検出されたオブジェクトの分類カテゴリの少なくとも１つを含んでいても良い。

図２のステップＳ２００３において、タスク処理部２４０４Ｂは、入力された特徴マップＢに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の第２のタスク処理を実行する。第１のタスク処理と同様、ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。タスク処理部２４０４Ｂは、ニューラルネットワークタスクの実行結果を示す信号を出力する。

なお、図８に示した構成では、復号部２４０２と選択部２４０３と複数のタスク処理部２４０４Ａ～２４０４Ｎとを備えることで、ニューラルネットワークタスクの実行によって推定結果を出力することを可能としているが、ビデオデコーダにおいてニューラルネットワークタスクを実行する必要がない場合は、復号部２４０２と選択部２４０３と複数のタスク処理部２４０４Ａ～２４０４Ｎとを省略した構成としても良い。同様に、図２に示した処理手順２０００において、ニューラルネットワークタスクを実行する必要がない場合は、ステップＳ２００２とステップＳ２００３とを省略した構成としても良い。

図７は、本開示の第１実施形態に係るビデオデコーダの構成を示すブロック図である。また、図１は、本開示の第１実施形態に係る画像復号方法の処理手順１０００を示すフローチャートである。

図７に示すように、ビデオデコーダは、復号装置１２０２と、選択部１４００と、複数のタスク処理部１２０３Ａ～１２０３Ｎとを備えている。選択部１４００は復号装置１２０２内に実装されていても良い。ビデオデコーダは、受信したビットストリームに基づいて複数の特徴マップＡ～Ｎを復号し、復号した複数の特徴マップＡ～Ｎをタスク処理部１２０３Ａ～１２０３Ｎに入力し、タスク処理部１２０３Ａ～１２０３Ｎがニューラルネットワークタスクを実行することにより推定結果を出力するよう構成される。

復号装置１２０２には、複数の特徴マップＡ～Ｎの符号化データを含むビットストリームが入力される。復号装置１２０２は、入力されたビットストリームから必要に応じて画像を復号し、人間の視覚のための画像信号を表示装置へ向けて出力する。また、復号装置１２０２は、入力されたビットストリームから複数の特徴マップＡ～Ｎを復号し、復号した特徴マップＡ～Ｎを選択部１４００に入力する。同じタイムインスタンスの複数の特徴マップＡ～Ｎは、独立に復号することができる。独立復号の一例は、イントラ予測を使用することである。また、同じタイムインスタンスの複数の特徴マップＡ～Ｎは、相関して復号することができる。相関復号の一例は、インター予測を使用することであり、第１の特徴マップを用いたインター予測によって第２の特徴マップを復号することができる。選択部１４００は、復号された複数の特徴マップＡ～Ｎの中から所望の特徴マップを選択し、選択した特徴マップを各タスク処理部１２０３Ａ～１２０３Ｎに入力する。

図１１は、選択部１４００の動作の第１の例を示す図である。選択部１４００は、各特徴マップＡ～Ｎに付加されているインデックス情報ＩＡ～ＩＮに基づいて、特徴マップＡ～Ｎの選択を行う。インデックス情報ＩＡ～ＩＮは、ＩＤ、カテゴリ、式、又は複数の特徴マップＡ～Ｎの各々を区別する任意の固有の表現であって良い。選択部１４００は、インデックス情報ＩＡ～ＩＮとタスク処理部１２０３Ａ～１２０３Ｎとの対応関係を示すテーブル情報を保持しており、各特徴マップＡ～Ｎを構成するビットストリームのヘッダ等に付加されているインデックス情報ＩＡ～ＩＮと、当該テーブル情報とに基づいて、各タスク処理部１２０３Ａ～１２０３Ｎに入力すべき特徴マップＡ～Ｎを選択する。なお、当該テーブル情報もビットストリームのヘッダ等に記述されても良い。

図１２は、選択部１４００の動作の第２の例を示す図である。選択部１４００は、各特徴マップＡ～Ｎの解像度又は特徴画像数等のサイズ情報ＳＡ～ＳＮに基づいて、特徴マップＡ～Ｎの選択を行う。解像度は、１１２×１１２、５６×５６、又は１４×１４等の特徴マップの画素数である。特徴画像数は、各特徴マップに含まれている複数の特徴画像の数である。各タスク処理部１２０３Ａ～１２０３Ｎに入力可能な特徴マップのサイズは互いに異なり、その設定情報は選択部１４００が保持している。選択部１４００は、各特徴マップＡ～Ｎを構成するビットストリームのヘッダ等に付加されているサイズ情報ＳＡ～ＳＮと、当該設定情報とに基づいて、各タスク処理部１２０３Ａ～１２０３Ｎに入力すべき特徴マップＡ～Ｎを選択する。なお、当該設定情報もビットストリームのヘッダ等に記述されても良い。

なお、選択部１４００は、インデックス情報ＩＡ～ＩＮ及びサイズ情報ＳＡ～ＳＮの組合せに基づいて特徴マップＡ～Ｎの選択を行っても良い。

図１のステップＳ１００２において、タスク処理部１２０３Ａは、入力された特徴マップＡに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の第１のタスク処理を実行する。ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。ニューラルネットワークタスクの一例は、図１５及び図１６と同様である。

タスク処理部１２０３Ａは、ニューラルネットワークタスクの実行結果を示す信号を出力する。当該信号は、検出されたオブジェクトの数、検出されたオブジェクトの信頼レベル、検出されたオブジェクトの境界情報又は位置情報、及び、検出されたオブジェクトの分類カテゴリの少なくとも１つを含んでいても良い。

図１のステップＳ１００３において、タスク処理部１２０３Ｂは、入力された特徴マップＢに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の第２のタスク処理を実行する。第１のタスク処理と同様、ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。タスク処理部１２０３Ｂは、ニューラルネットワークタスクの実行結果を示す信号を出力する。

本実施形態によれば、符号化装置１２０１は、第１の特徴マップＡ及び第２の特徴マップＢの符号化データを含むビットストリームを復号装置１２０２に向けて送信する。また、復号装置１２０２は、復号した複数の特徴マップＡ～Ｎから第１の特徴マップＡを選択して第１のタスク処理部１２０３Ａに向けて出力し、復号した複数の特徴マップＡ～Ｎから第２の特徴マップＢを選択して第２のタスク処理部１２０３Ｂに向けて出力する。これにより、複数のタスク処理部１２０３Ａ～１２０３Ｎの各々に対応して符号化装置と復号装置のセットを複数セット実装する必要がないため、システム構成を簡略化することができる。

（第２実施形態）
一般的にビデオコーデックはメモリ容量に制約があるため、画像の符号化はＺ走査順序で行われることが多い。しかし、大容量のメモリを備えるＧＰＵを用いてシステムを構築する場合には、Ｚ走査順序ではなくラスタ走査順序を用いて入力された画像又は特徴を連続してＧＰＵのメモリにロードしたほうが、高速な処理が可能となる。そこで本実施形態では、複数の特徴画像を所定の走査順序で配列して特徴マップを構築する処理において、一般的なＺ走査順序と高速なラスタ走査順序とを切り替え可能なシステムについて説明する。本実施形態は、少なくとも１つのタスク処理部を備える画像処理システムに適用可能である。

図２０は、本開示の第２実施形態に係る画像処理システム２１００の構成例を示す図である。画像処理システム２１００は、画像符号化装置としての符号化装置２１０１と、画像復号装置としての復号装置２１０２と、タスク処理装置としてのタスク処理部２１０３とを備えている。上記第１実施形態と同様に、タスク処理部２１０３は複数備えられても良い。

符号化装置２１０１は、入力された画像又は特徴に基づいて特徴マップを作成する。符号化装置２１０１は、作成した特徴マップを符号化することによって、特徴マップの符号化データを含むビットストリームを生成する。符号化装置２１０１は、生成したビットストリームを復号装置２１０２に向けて送信する。復号装置２１０２は、受信したビットストリームに基づいて特徴マップを復号する。復号装置２１０２は、復号した特徴マップをタスク処理部２１０３に入力する。タスク処理部２１０３は、入力された特徴マップに基づいてニューラルネットワークタスク等の所定のタスク処理を実行し、その推定結果を出力する。

図２２は、本開示の第２実施形態に係る符号化装置２１０１の構成を示すブロック図である。また、図１９は、本開示の第２実施形態に係る画像符号化方法の処理手順４０００を示すフローチャートである。

図２２に示すように、符号化装置２１０１は、走査順序設定部３２０１、走査部３２０２、及びエントロピ符号化部３２０３を備えている。また、符号化装置２１０１は、再構築部３２０４及びタスク処理部３２０５を備えていても良い。

走査順序設定部３２０１には、特徴マップが入力される。図１０に示したように、特徴マップは、複数の特徴画像Ｆ１～Ｆ１０８が所定の走査順序で配列されることによって構築されている。

図２３は、特徴マップの他の例を示す図である。特徴マップは、入力画像に関する複数の特徴画像Ｆ１～Ｆ３６を含む。各特徴画像の解像度及び特徴画像の数は、ニューラルネットワークの全階層に関して同一であっても良い。特徴画像Ｆ１～Ｆ３６はいずれも、同一の水平サイズＸ１及び垂直サイズＸ２を有している。

図１９のステップＳ４００１において、走査順序設定部３２０１は、符号化装置２１０１と復号装置２１０２との間で予め定められた規則に従って、特徴マップを複数の特徴画像に分割するための走査順序を設定する。なお、走査順序設定部３２０１は、特徴マップを複数の特徴画像に分割するための走査順序を任意に設定し、その走査順序を示す設定情報をビットストリームのヘッダに付加して復号装置２１０２に送信しても良い。この場合、復号装置２１０２は、復号した複数の特徴画像を当該設定情報で示される走査順序で配列することによって、特徴マップを構築することができる。

図２６は、走査順序の第１の例を示す図である。走査順序設定部３２０１は、ラスタ走査順序を走査順序として設定する。

図２７は、走査順序の第２の例を示す図である。走査順序設定部３２０１は、Ｚ走査順序を走査順序として設定する。

走査部３２０２は、走査順序設定部３２０１によって設定された走査順序で、特徴マップを複数のセグメントに分割し、各セグメントを複数の特徴画像に分割する。

図２８～図３０は、複数のセグメントへの分割の例を示す図である。図２８に示した例では、特徴マップは３つのセグメントＳＧ１～ＳＧ３に分割されている。図２９に示した例では、特徴マップは７つのセグメントＳＧ１～ＳＧ７に分割されている。図３０に示した例では、特徴マップは６つのセグメントＳＧ１～ＳＧ６に分割されている。特徴画像の走査はセグメント毎に行われ、同じセグメントに属する複数の特徴画像はビットストリーム内で常に連続して符号化される。なお、各セグメントは、例えばスライスと呼ばれる独立して符号化及び復号を可能とする単位としても良い。

なお、図２２に示した例では、走査順序設定部３２０１と走査部３２０２とが別の処理ブロックとして構成されているが、単一の処理ブロックとしてまとめて処理を行う構成としても良い。

走査部３２０２は、分割した複数の特徴画像を順にエントロピ符号化部３２０３に入力する。エントロピ符号化部３２０３は、各特徴画像を符号化ブロックサイズで符号化及び算術符号化することにより、ビットストリームを生成する。算術符号化は、例えばコンテキスト適応２進算術符号化（ＣＡＢＡＣ）である。符号化装置２１０１は、エントロピ符号化部３２０３が生成したビットストリームを復号装置２１０２に向けて送信する。

図２４及び図２５は、特徴画像のサイズと符号化ブロックサイズとの関係を示す図である。特徴マップは、サイズが異なる複数種類の特徴画像によって構築されている。

図２４に示すように、エントロピ符号化部３２０３は、複数種類の特徴画像の複数のサイズ（以下「特徴画像サイズ」と称す）のうち最小の特徴画像サイズに対応する一定の符号化ブロックサイズで、複数の特徴画像を符号化する。あるいは図２５に示すように、エントロピ符号化部３２０３は、当該複数の特徴画像サイズに対応する複数の符号化ブロックサイズで、複数の特徴画像を符号化しても良い。

図３１及び図３２は、１つの特徴画像が複数の符号化ブロックに分割されて符号化される場合の走査順序を示す図である。エントロピ符号化部３２０３は、図３１に示すように、特徴画像単位のラスタ走査順序で符号化を行っても良いし、図３２に示すように、複数の特徴画像を跨いで符号化ブロックの行単位のラスタ走査順序で符号化を行っても良い。

さらに、符号化装置２１０１は、分割された特徴マップを再構築し、再構築した特徴マップをタスク処理部３２０５に入力し、タスク処理部３２０５がニューラルネットワークタスクを実行することにより推定結果を出力するように構成されても良い。

図１９のステップＳ４００２において、再構築部３２０４には、複数のセグメントに分割された複数の特徴画像が走査部３２０２から入力される。再構築部３２０４は、入力された複数の特徴画像を所定の走査順序で配列することによって、複数のセグメントの各々を再構築し、複数のセグメントを所定の順序で配列することによって、特徴マップを再構築する。なお、再構築部３２０４は、復号装置２１０２が生成する特徴マップと同じ特徴マップを再構築すべく、エントロピ符号化部３２０３の出力を入力として、復号装置２１０２が実行する処理と同様の処理を実行する構成としても良い。

例えば、複数の特徴画像は、ニューラルネットワークの階層の順序に従って配列される。つまり、ニューラルネットワークの階層の昇順（サイズの大きい順）又は降順（サイズの小さい順）に配列される。

走査順序設定部３２０１は、入力された複数の特徴画像の各々のサイズに基づいて、走査順序の昇順又は降順を設定し、再構築部３２０４は、走査順序設定部３２０１によって設定された走査順序に応じて昇順又は降順を切り替える。例えば、再構築部３２０４は、複数の特徴画像がサイズの大きい順に入力された場合には昇順に切り替え、複数の特徴画像がサイズの小さい順に入力された場合には降順に切り替える。あるいは、所定の走査順序の昇順又は降順を設定する順序情報をビットストリームのヘッダ等に付加し、再構築部３２０４は、当該順序情報に基づいて、走査順序の昇順又は降順を切り替えても良い。再構築部３２０４は、複数の特徴画像を所定の走査順序で配列することによって再構築された特徴マップを、タスク処理部３２０５に入力する。

図１９のステップＳ４００３において、タスク処理部３２０５は、入力された特徴マップに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の所定のタスク処理を実行する。ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。

タスク処理部３２０５は、ニューラルネットワークタスクの実行結果を示す信号を出力する。当該信号は、検出されたオブジェクトの数、検出されたオブジェクトの信頼レベル、検出されたオブジェクトの境界情報又は位置情報、及び、検出されたオブジェクトの分類カテゴリの少なくとも１つを含んでいても良い。

なお、図２２に示した構成では、再構築部３２０４とタスク処理部３２０５とを備えることで、ニューラルネットワークタスクの実行によって推定結果を出力することを可能としているが、ビデオエンコーダにおいてニューラルネットワークタスクを実行する必要がない場合は、再構築部３２０４とタスク処理部３２０５とを省略した構成としても良い。同様に、図１９に示した処理手順４０００において、ニューラルネットワークタスクを実行する必要がない場合は、ステップＳ４００２とステップＳ４００３とを省略した構成としても良い。

図２１は、本開示の第２実施形態に係る復号装置２１０２の構成を示すブロック図である。また、図１８は、本開示の第２実施形態に係る画像復号方法の処理手順３０００を示すフローチャートである。

図２１に示すように、復号装置２１０２は、エントロピ復号部２２０１、走査順序設定部２２０２、及び走査部２２０３を備えている。

図１８のステップＳ３００１において、エントロピ復号部２２０１は、符号化装置２１０１から受信したビットストリームから複数の特徴画像を復号ブロック単位で復号する。

図２４及び図２５は、特徴画像のサイズと復号ブロックサイズとの関係を示す図である。特徴マップは、サイズが異なる複数種類の特徴画像によって構築されている。

図２４に示すように、エントロピ復号部２２０１は、複数種類の特徴画像の複数の特徴画像サイズのうち最小の特徴画像サイズに対応する一定の復号ブロックサイズで、複数の特徴画像を復号する。あるいは図２５に示すように、エントロピ復号部２２０１は、当該複数の特徴画像サイズに対応する複数の復号ブロックサイズで、複数の特徴画像を復号しても良い。

図３１及び図３２は、１つの特徴画像が複数の符号化ブロックに分割されて符号化される場合の走査順序を示す図である。エントロピ復号部２２０１は、図３１に示すように、特徴画像単位のラスタ走査順序で復号を行っても良いし、図３２に示すように、複数の特徴画像を跨いで符号化ブロックの行単位のラスタ走査順序で復号を行っても良い。

走査順序設定部２２０２には、エントロピ復号部２２０１から複数の復号ブロック又は複数の特徴画像が入力される。

図１８のステップＳ３００２において、走査順序設定部２２０２は、符号化装置２１０１と復号装置２１０２との間で予め定められた規則に従って、複数の特徴画像から特徴マップを構築するための走査順序を設定する。なお、任意の走査順序を示す上記の設定情報がビットストリームのヘッダに付加されている場合には、復号装置２１０２は、復号した複数の特徴画像を当該設定情報で示される走査順序で配列することによって、特徴マップを構築することができる。

図２６は、走査順序の第１の例を示す図である。走査順序設定部２２０２は、ラスタ走査順序を走査順序として設定する。

図２７は、走査順序の第２の例を示す図である。走査順序設定部２２０２は、Ｚ走査順序を走査順序として設定する。

走査部２２０３には、複数のセグメントに分割された複数の特徴画像が入力される。走査部２２０３は、走査順序設定部２２０２によって設定された走査順序で複数の特徴画像を配列することによって、特徴マップを構築する。

走査順序設定部２２０２は、入力された複数の特徴画像の各々のサイズに基づいて、走査順序の昇順又は降順を設定し、走査部２２０３は、走査順序設定部２２０２によって設定された走査順序に応じて昇順又は降順を切り替える。例えば、走査部２２０３は、複数の特徴画像がサイズの大きい順に入力された場合には昇順に切り替え、複数の特徴画像がサイズの小さい順に入力された場合には降順に切り替える。あるいは、所定の走査順序の昇順又は降順を設定する順序情報をビットストリームのヘッダ等から復号し、走査部２２０３は、当該順序情報に基づいて、走査順序の昇順又は降順を切り替えても良い。走査部２２０３は、複数の特徴画像を所定の走査順序で配列することによって構築された特徴マップを、タスク処理部２１０３に入力する。

なお、図２１に示した例では、走査順序設定部２２０２と走査部２２０３とが別の処理ブロックとして構成されているが、単一の処理ブロックとしてまとめて処理を行う構成としても良い。

図１８のステップＳ３００３において、タスク処理部２１０３は、入力された特徴マップに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の所定のタスク処理を実行する。ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。

タスク処理部２１０３は、ニューラルネットワークタスクの実行結果を示す信号を出力する。当該信号は、検出されたオブジェクトの数、検出されたオブジェクトの信頼レベル、検出されたオブジェクトの境界情報又は位置情報、及び、検出されたオブジェクトの分類カテゴリの少なくとも１つを含んでいても良い。

本実施形態によれば、複数の特徴画像を所定の走査順序で配列することによって、特徴マップを適切に構築することが可能となる。

本開示は、画像を送信するエンコーダと画像を受信するデコーダとを備える画像処理システムへの適用が特に有用である。

Claims

複数の特徴画像を復号し、
前記複数の特徴画像をラスタ走査順序で配列することによって、特徴マップを構築する、
画像復号装置。
前記特徴マップは、複数のセグメントを含み、
前記複数のセグメントの各々は、前記複数の特徴画像を含み、
前記複数の特徴画像をラスタ走査順序で配列することによって、前記複数のセグメントの各々を構築し、
前記複数のセグメントをラスタ走査順序で配列することによって、前記特徴マップを構築する、
請求項１に記載の画像復号装置。
走査順序を示す設定情報をさらに復号し、
前記設定情報に基づいて、前記複数の特徴画像を前記ラスタ走査順序で配列する、
請求項１に記載の画像復号装置。
前記特徴マップは、複数のセグメントを含み、
前記複数の特徴画像の配列を前記セグメント毎に行う、
請求項１に記載の画像復号装置。
前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、
前記複数種類の特徴画像の複数のサイズのうち最小のサイズに対応する復号ブロックサイズで、前記複数の特徴画像を復号する、
請求項１に記載の画像復号装置。
前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、
前記複数種類の特徴画像の複数のサイズに対応する複数の復号ブロックサイズで、前記複数の特徴画像を復号する、
請求項１に記載の画像復号装置。
前記特徴マップに基づいて、推定を伴うニューラルネットワークタスクを実行し、
前記推定の結果を出力する、
請求項１に記載の画像復号装置。
前記ニューラルネットワークタスクは、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、及びハイブリッドビジョンの少なくとも１つを含む、
請求項７に記載の画像復号装置。
入力画像に基づいて、特徴マップを生成し、
前記特徴マップを複数の特徴画像に分割するための走査順序を設定し、
前記特徴マップと、前記走査順序を示す設定情報とを符号化し、
前記設定情報は、前記走査順序としてラスタ走査順序を示す、
画像符号化装置。
前記特徴マップは、複数のセグメントを含み、
前記複数のセグメントの各々は、前記複数の特徴画像を含み、
同一の前記セグメントに属する前記複数の特徴画像を連続して符号化する、
請求項９に記載の画像符号化装置。
前記複数の特徴画像の各々を符号化ブロックサイズで符号化及び算術符号化することにより、ビットストリームを生成する、
請求項９に記載の画像符号化装置。
前記算術符号化は、コンテキスト適応２進算術符号化（ＣＡＢＡＣ）である、
請求億１１に記載の画像符号化装置。
前記特徴マップを再構築し、
前記特徴マップに基づいて、推定を伴うニューラルネットワークタスクを実行し、
前記推定の結果を出力する、
請求項９に記載の画像符号化装置。
前記ニューラルネットワークタスクは、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、及びハイブリッドビジョンの少なくとも１つを含む、
請求項１３に記載の画像符号化装置。
画像復号装置が、
複数の特徴画像を復号し、
前記複数の特徴画像をラスタ走査順序で配列することによって、特徴マップを構築する、
画像復号方法。
画像符号化装置が、
入力画像に基づいて、特徴マップを生成し、
前記特徴マップを複数の特徴画像に分割するための走査順序を設定し、
前記特徴マップと、前記走査順序を示す設定情報とを符号化し、
前記設定情報は、前記走査順序としてラスタ走査順序を示す、
画像符号化方法。