JP2024177335A - 画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置 - Google Patents
画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置 Download PDFInfo
- Publication number
- JP2024177335A JP2024177335A JP2024173253A JP2024173253A JP2024177335A JP 2024177335 A JP2024177335 A JP 2024177335A JP 2024173253 A JP2024173253 A JP 2024173253A JP 2024173253 A JP2024173253 A JP 2024173253A JP 2024177335 A JP2024177335 A JP 2024177335A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- image
- feature map
- images
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
本開示は、画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置に関する。
ニューラルネットワークは、データセットにおける基礎となる関係を、人間の脳の処理方法を模倣するプロセスを介して認識しようとする一連のアルゴリズムである。この意味で、ニューラルネットワークは、本質的に有機的又は人工的なニューロンのシステムを指す。ディープラーニングにおけるニューラルネットワークの異なるタイプ、例えば、コンボリューションニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、人工ニューラルネットワーク(ANN)は、我々が世界と相互作用する方法を変化させる。これらの異なるタイプのニューラルネットワークは、ディープラーニング革命、無人航空機、自律走行車、音声認識等のパワーアプリケーションの核心となる。積層された複数の層から成るCNNは、視覚画像の解析に最も一般的に適用されるディープニューラルネットワークのクラスである。
特徴画像は、画像又はそれに含まれるオブジェクトの特徴を示した特有の表現である。例えば、ニューラルネットワークの畳み込み層において、所望のフィルタを画像全体に適用した出力として特徴画像が得られる。複数の畳み込み層において複数のフィルタを適用することによって複数の特徴画像が得られ、それら複数の特徴画像を配列することによって特徴マップを作成することができる。
特徴マップは、通常、ニューラルネットワークタスク等のタスク処理を実行するタスク処理装置に関連付けられる。このセットアップは、通常、特定の機械分析タスクのための最良の推論結果を可能にする。
エンコーダ側で作成した特徴マップをデコーダ側で利用する場合には、エンコーダは、作成した特徴マップを符号化することによって、特徴マップの符号化データを含むビットストリームをデコーダに向けて送信する。デコーダは、受信したビットストリームに基づいて特徴マップを復号する。デコーダは、復号した特徴マップを、ニューラルネットワークタスク等の所定のタスク処理を実行するタスク処理装置に入力する。
背景技術では、デコーダ側において複数のタスク処理装置が複数の特徴マップを用いて複数のニューラルネットワークタスクを実行する場合には、複数のタスク処理装置の各々に対応してエンコーダとデコーダのセットを複数セット実装する必要があり、システム構成が複雑化する。
なお、背景技術に係る画像符号化システムアーキテクチャは、例えば特許文献1,2に開示されている。
本開示は、特徴マップを適切に構築することを目的とする。
本開示の一態様に係る画像復号装置は、複数の特徴画像を復号し、前記複数の特徴画像をラスタ走査順序で配列することによって、特徴マップを構築する。
本開示によれば、特徴マップを適切に構築することができる。
(本開示の基礎となった知見)
図3は、背景技術に係る画像処理システム1100の構成例を示す図である。画像処理システム1100は、デコーダ側においてニューラルネットワークタスク等の所定のタスク処理を実行する複数のタスク処理部1103A~1103Nを備えている。例えば、タスク処理部1103Aは顔のランドマークの検出処理を実行し、タスク処理部1103Bは顔の向きの検出処理を実行する。また、画像処理システム1100は、複数のタスク処理部1103A~1103Nの各々に対応して、符号化装置1101A~1101Nと復号装置1102A~1102Nのセットを備えている。
図3は、背景技術に係る画像処理システム1100の構成例を示す図である。画像処理システム1100は、デコーダ側においてニューラルネットワークタスク等の所定のタスク処理を実行する複数のタスク処理部1103A~1103Nを備えている。例えば、タスク処理部1103Aは顔のランドマークの検出処理を実行し、タスク処理部1103Bは顔の向きの検出処理を実行する。また、画像処理システム1100は、複数のタスク処理部1103A~1103Nの各々に対応して、符号化装置1101A~1101Nと復号装置1102A~1102Nのセットを備えている。
例えば、符号化装置1101Aは、入力された画像又は特徴に基づいて特徴マップAを作成し、作成した特徴マップAを符号化することによって、特徴マップAの符号化データを含むビットストリームを復号装置1102Aに向けて送信する。復号装置1102Aは、受信したビットストリームに基づいて特徴マップAを復号し、復号した特徴マップAをタスク処理部1103Aに入力する。タスク処理部1103Aは、入力された特徴マップAを用いて所定のタスク処理を実行することにより、その推定結果を出力する。
図3に示した背景技術の課題は、複数のタスク処理部1103A~1103Nの各々に対応して符号化装置1101A~1101Nと復号装置1102A~1102Nのセットを複数セット実装する必要があり、システム構成が複雑化することである。
かかる課題を解決するために、本発明者は、画像符号化装置が複数の特徴マップを同一のビットストリームに含めて画像復号装置に向けて送信し、画像復号装置は、復号した複数の特徴マップから所望の特徴マップを選択して複数のタスク処理装置の各々に入力するという新しい方法を導入した。これにより、複数のタスク処理装置の各々に対応して画像符号化装置と画像復号装置のセットを複数セット実装する必要がなく、画像符号化装置と画像復号装置のセットは1セットで足りるため、システム構成を簡略化することができる。
次に、本開示の各態様について説明する。
本開示の一態様に係る画像復号方法は、画像復号装置が、画像に関する複数の特徴マップの符号化データを含むビットストリームを、画像符号化装置から受信し、受信した前記ビットストリームに基づいて、前記複数の特徴マップを復号し、復号した前記複数の特徴マップから第1の特徴マップを選択し、前記第1の特徴マップを、前記第1の特徴マップに基づいて第1のタスク処理を実行する第1のタスク処理装置に向けて出力し、復号した前記複数の特徴マップから第2の特徴マップを選択し、前記第2の特徴マップを、前記第2の特徴マップに基づいて第2のタスク処理を実行する第2のタスク処理装置に向けて出力する。
本態様によれば、画像復号装置は、復号した複数の特徴マップから第1の特徴マップを選択して第1のタスク処理装置に向けて出力し、復号した複数の特徴マップから第2の特徴マップを選択して第2のタスク処理装置に向けて出力する。これにより、複数のタスク処理装置の各々に対応して画像符号化装置と画像復号装置のセットを複数セット実装する必要がないため、システム構成を簡略化することができる。
上記態様において、前記画像復号装置は、前記複数の特徴マップの各々のインデックス情報に基づいて、前記第1の特徴マップ及び前記第2の特徴マップを選択する。
本態様によれば、インデックス情報を用いることにより、特徴マップの選択を適切に実行することができる。
上記態様において、前記画像復号装置は、前記複数の特徴マップの各々のサイズ情報に基づいて、前記第1の特徴マップ及び前記第2の特徴マップを選択する。
本態様によれば、サイズ情報を用いることにより、特徴マップの選択を簡易に実行することができる。
上記態様において、前記画像復号装置は、前記第1の特徴マップを用いたインター予測によって前記第2の特徴マップを復号する。
本態様によれば、特徴マップの復号にインター予測を用いることにより、符号量を削減することができる。
上記態様において、前記画像復号装置は、イントラ予測によって前記第1の特徴マップ及び前記第2の特徴マップを復号する。
本態様によれば、特徴マップの復号にイントラ予測を用いることにより、複数の特徴マップをそれぞれ独立して復号することができる。
上記態様において、前記複数の特徴マップの各々は、前記画像に関する複数の特徴画像を含む。
本態様によれば、タスク処理装置は各特徴マップに含まれる複数の特徴画像を用いてタスク処理を実行できるため、タスク処理の精度を向上することができる。
上記態様において、前記画像復号装置は、前記複数の特徴画像を復号し、復号した前記複数の特徴画像を所定の走査順序で配列することによって、前記複数の特徴マップの各々を構築する。
本態様によれば、複数の特徴画像を所定の走査順序で配列することによって、特徴マップを適切に構築することが可能となる。
上記態様において、前記複数の特徴マップの各々は、複数のセグメントを含み、前記複数のセグメントの各々は、前記複数の特徴画像を含み、前記画像復号装置は、復号した前記複数の特徴画像を所定の走査順序で配列することによって、前記複数のセグメントの各々を構築し、前記複数のセグメントを所定の順序で配列することによって、前記複数の特徴マップの各々を構築する。
本態様によれば、セグメント単位でストリームを区切る処理、又はセグメント単位で復号処理を制御することが可能となり、柔軟なシステム構成を実現することができる。
上記態様において、前記画像復号装置は、復号した前記複数の特徴画像の各々のサイズに基づいて、前記所定の走査順序の昇順又は降順を切り替える。
本態様によれば、各特徴画像のサイズに基づいて走査順序の昇順又は降順を切り替えることにより、特徴マップを適切に構築することが可能となる。
上記態様において、前記ビットストリームは、前記所定の走査順序の昇順又は降順を設定する順序情報を含み、前記画像復号装置は、前記順序情報に基づいて、前記所定の走査順序の昇順又は降順を切り替える。
本態様によれば、順序情報に基づいて走査順序の昇順又は降順を切り替えることにより、特徴マップを適切に構築することが可能となる。
上記態様において、前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、前記画像復号装置は、前記複数種類の特徴画像の複数のサイズのうち最小のサイズに対応する一定の復号ブロックサイズで、前記複数の特徴画像を復号する。
本態様によれば、一定の復号ブロックサイズで複数の特徴画像を復号することにより、画像復号装置の装置構成を簡略化することができる。
上記態様において、前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、前記画像復号装置は、前記複数種類の特徴画像の複数のサイズに対応する複数の復号ブロックサイズで、前記複数の特徴画像を復号する。
本態様によれば、各特徴画像のサイズに対応する復号ブロックサイズで各特徴画像を復号することにより、復号ブロック毎に必要となるヘッダを削減でき、また、大面積での符号化が可能となるため圧縮効率を向上できる。
上記態様において、前記所定の走査順序は、ラスタ走査順序である。
本態様によれば、ラスタ走査順序を用いることにより、GPU等による高速な処理が可能となる。
上記態様において、前記所定の走査順序は、Z走査順序である。
本態様によれば、Z走査順序を用いることにより、一般的なビデオコーデックへの対応が可能となる。
上記態様において、前記ビットストリームは前記画像の符号化データを含み、前記画像復号装置は、受信した前記ビットストリームに基づいて、前記画像を復号し、前記複数の特徴マップの復号と、前記画像の復号とを、共通の復号処理部を用いて実行する。
本態様によれば、特徴マップの復号と画像の復号とを共通の復号処理部を用いて実行することにより、画像復号装置の装置構成を簡略化することができる。
上記態様において、前記第1のタスク処理及び前記第2のタスク処理は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、及びハイブリッドビジョンの少なくとも1つを含む。
本態様によれば、これらの各処理の精度を向上することが可能となる。
本開示の一態様に係る画像符号化方法は、画像符号化装置が、画像に関する第1の特徴マップを符号化し、前記画像に関する第2の特徴マップを符号化し、前記第1の特徴マップ及び前記第2の特徴マップの符号化データを含むビットストリームを生成し、生成した前記ビットストリームを画像復号装置に向けて送信する。
本態様によれば、画像符号化装置は、第1の特徴マップ及び第2の特徴マップの符号化データを含むビットストリームを画像復号装置に向けて送信する。これにより、画像復号装置側に実装される複数のタスク処理装置の各々に対応して画像符号化装置と画像復号装置のセットを複数セット実装する必要がないため、システム構成を簡略化することができる。
本開示の一態様に係る画像復号装置は、画像に関する複数の特徴マップの符号化データを含むビットストリームを、画像符号化装置から受信し、受信した前記ビットストリームに基づいて、前記複数の特徴マップを復号し、復号した前記複数の特徴マップから第1の特徴マップを選択し、前記第1の特徴マップを、前記第1の特徴マップに基づいて第1のタスク処理を実行する第1のタスク処理装置に向けて出力し、復号した前記複数の特徴マップから第2の特徴マップを選択し、前記第2の特徴マップを、前記第2の特徴マップに基づいて第2のタスク処理を実行する第2のタスク処理装置に向けて出力する。
本態様によれば、画像復号装置は、復号した複数の特徴マップから第1の特徴マップを選択して第1のタスク処理装置に向けて出力し、復号した複数の特徴マップから第2の特徴マップを選択して第2のタスク処理装置に向けて出力する。これにより、複数のタスク処理装置の各々に対応して画像符号化装置と画像復号装置のセットを複数セット実装する必要がないため、システム構成を簡略化することができる。
本開示の一態様に係る画像符号化装置は、画像に関する第1の特徴マップを符号化し、前記画像に関する第2の特徴マップを符号化し、前記第1の特徴マップ及び前記第2の特徴マップの符号化データを含むビットストリームを生成し、生成した前記ビットストリームを画像復号装置に向けて送信する。
本態様によれば、画像符号化装置は、第1の特徴マップ及び第2の特徴マップの符号化データを含むビットストリームを画像復号装置に向けて送信する。これにより、画像復号装置側に実装される複数のタスク処理装置の各々に対応して画像符号化装置と画像復号装置のセットを複数セット実装する必要がないため、システム構成を簡略化することができる。
本開示の一態様に係る画像復号装置は、複数の特徴画像を復号し、前記複数の特徴画像をラスタ走査順序で配列することによって、特徴マップを構築する。
上記態様において、前記特徴マップは、複数のセグメントを含み、前記複数のセグメントの各々は、前記複数の特徴画像を含み、前記複数の特徴画像をラスタ走査順序で配列することによって、前記複数のセグメントの各々を構築し、前記複数のセグメントをラスタ走査順序で配列することによって、前記特徴マップを構築すると良い。
上記態様において、走査順序を示す設定情報をさらに復号し、前記設定情報に基づいて、前記複数の特徴画像を前記ラスタ走査順序で配列すると良い。
上記態様において、前記特徴マップは、複数のセグメントを含み、前記複数の特徴画像の配列を前記セグメント毎に行うと良い。
上記態様において、前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、前記複数種類の特徴画像の複数のサイズのうち最小のサイズに対応する復号ブロックサイズで、前記複数の特徴画像を復号すると良い。
上記態様において、前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、前記複数種類の特徴画像の複数のサイズに対応する複数の復号ブロックサイズで、前記複数の特徴画像を復号すると良い。
上記態様において、前記特徴マップに基づいて、推定を伴うニューラルネットワークタスクを実行し、前記推定の結果を出力すると良い。
上記態様において、前記ニューラルネットワークタスクは、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、及びハイブリッドビジョンの少なくとも1つを含むと良い。
本開示の一態様に係る画像符号化装置は、入力画像に基づいて、特徴マップを生成し、前記特徴マップを複数の特徴画像に分割するための走査順序を設定し、前記特徴マップと、前記走査順序を示す設定情報とを符号化し、前記設定情報は、前記走査順序としてラスタ走査順序を示す。
上記態様において、前記特徴マップは、複数のセグメントを含み、前記複数のセグメントの各々は、前記複数の特徴画像を含み、同一の前記セグメントに属する前記複数の特徴画像を連続して符号化すると良い。
上記態様において、前記複数の特徴画像の各々を符号化ブロックサイズで符号化及び算術符号化することにより、ビットストリームを生成すると良い。
上記態様において、前記算術符号化は、コンテキスト適応2進算術符号化(CABAC)であると良い。
上記態様において、前記特徴マップを再構築し、前記特徴マップに基づいて、推定を伴うニューラルネットワークタスクを実行し、前記推定の結果を出力すると良い。
上記態様において、前記ニューラルネットワークタスクは、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、及びハイブリッドビジョンの少なくとも1つを含むと良い。
本開示の一態様に係る画像復号方法は、画像復号装置が、複数の特徴画像を復号し、前記複数の特徴画像をラスタ走査順序で配列することによって、特徴マップを構築する。
本開示の一態様に係る画像符号化方法は、画像符号化装置が、入力画像に基づいて、特徴マップを生成し、前記特徴マップを複数の特徴画像に分割するための走査順序を設定し、前記特徴マップと、前記走査順序を示す設定情報とを符号化し、前記設定情報は、前記走査順序としてラスタ走査順序を示す。
(本開示の実施形態)
以下、本開示の実施形態について、図面を用いて詳細に説明する。なお、異なる図面において同一の符号を付した要素は、同一又は相応する要素を示すものとする。
以下、本開示の実施形態について、図面を用いて詳細に説明する。なお、異なる図面において同一の符号を付した要素は、同一又は相応する要素を示すものとする。
なお、以下で説明する実施形態は、いずれも本開示の一具体例を示すものである。以下の実施形態で示される数値、形状、構成要素、ステップ、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施形態において、各々の内容を組み合わせることもできる。
(第1実施形態)
図4は、本開示の第1実施形態に係る画像処理システム1200の構成例を示す図である。画像処理システム1200は、画像符号化装置としての符号化装置1201と、画像復号装置としての復号装置1202と、タスク処理装置としての複数のタスク処理部1203A~1203Nとを備えている。
図4は、本開示の第1実施形態に係る画像処理システム1200の構成例を示す図である。画像処理システム1200は、画像符号化装置としての符号化装置1201と、画像復号装置としての復号装置1202と、タスク処理装置としての複数のタスク処理部1203A~1203Nとを備えている。
符号化装置1201は、入力された画像又は特徴に基づいて複数の特徴マップA~Nを作成する。符号化装置1201は、作成した特徴マップA~Nを符号化することによって、特徴マップA~Nの符号化データを含むビットストリームを生成する。符号化装置1201は、生成したビットストリームを復号装置1202に向けて送信する。復号装置1202は、受信したビットストリームに基づいて特徴マップA~Nを復号する。復号装置1202は、復号した特徴マップA~Nから第1の特徴マップとして特徴マップAを選択し、選択した特徴マップAを第1のタスク処理装置としてタスク処理部1203Aに入力する。また、復号装置1202は、復号した特徴マップA~Nから第2の特徴マップとして特徴マップBを選択し、選択した特徴マップBを第2のタスク処理装置としてタスク処理部1203Bに入力する。タスク処理部1203Aは、入力された特徴マップAに基づいてニューラルネットワークタスク等の第1のタスク処理を実行し、その推定結果を出力する。タスク処理部1203Bは、入力された特徴マップBに基づいてニューラルネットワークタスク等の第2のタスク処理を実行し、その推定結果を出力する。
図5は、符号化装置1201及び復号装置1202の第1の構成例を示す図である。符号化装置1201は、画像符号化部1305、特徴抽出部1302、特徴変換部1303、特徴符号化部1304、及び送信部1306を備えている。復号装置1202は、受信部1309、画像復号部1308、及び特徴復号部1307を備えている。
画像符号化部1305及び特徴抽出部1302には、カメラ1301から画像のデータが入力される。画像符号化部1305は、入力画像を符号化し、その符号化データを送信部1306に入力する。なお、画像符号化部1305は、一般的なビデオコーデック又は静止画コーデックをそのまま使用したものであっても良い。特徴抽出部1302は、入力画像からその画像の特徴を示す複数の特徴画像を抽出し、抽出した複数の特徴画像を特徴変換部1303に入力する。特徴変換部1303は、複数の特徴画像を配列することによって特徴マップを生成する。特徴変換部1303は、一の入力画像に対して複数の特徴マップを生成し、生成した複数の特徴マップを特徴符号化部1304に入力する。特徴符号化部1304は、入力された複数の特徴マップを符号化し、その符号化データを送信部1306に入力する。送信部1306は、入力画像の符号化データと複数の特徴マップの符号化データとを含むビットストリームを生成し、生成したビットストリームを復号装置1202に向けて送信する。
受信部1309は、符号化装置1201から送信されたビットストリームを受信し、受信したビットストリームを画像復号部1308及び特徴復号部1307に入力する。画像復号部1308は、入力されたビットストリームに基づいて画像を復号する。特徴復号部1307は、入力されたビットストリームに基づいて複数の特徴マップを復号する。
なお、図5に示した例では、画像及び特徴マップの双方を符号化及び復号する構成としたが、人間の視覚のための画像表示が不要な場合は、特徴マップのみを符号化及び復号する構成としても良い。その場合、画像符号化部1305及び画像復号部1308を省略した構成としても良い。
図6は、符号化装置1201及び復号装置1202の第2の構成例を示す図である。符号化装置1201に関し、図5に示した構成から特徴符号化部1304が省略されている。また、復号装置1202に関し、図5に示した構成から特徴復号部1307が省略されている。
特徴変換部1303は、一の入力画像に対して複数の特徴マップを生成し、生成した複数の特徴マップを画像符号化部1305に入力する。画像符号化部1305は、入力画像及び複数の特徴マップを符号化し、入力画像及び複数の特徴マップの符号化データを送信部1306に入力する。送信部1306は、入力画像及び複数の特徴マップの符号化データを含むビットストリームを生成し、生成したビットストリームを復号装置1202に向けて送信する。
受信部1309は、符号化装置1201から送信されたビットストリームを受信し、受信したビットストリームを画像復号部1308に入力する。画像復号部1308は、入力されたビットストリームに基づいて画像及び複数の特徴マップを復号する。つまり、図6に示した構成では、復号装置1202は、画像の復号と複数の特徴マップの復号とを、共通の復号処理部としての画像復号部1308を用いて実行する。
図8は、本開示の第1実施形態に係るビデオエンコーダの構成を示すブロック図である。また、図2は、本開示の第1実施形態に係る画像符号化方法の処理手順2000を示すフローチャートである。
図8に示すように、ビデオエンコーダは、符号化装置1201と、復号部2402と、選択部2403と、複数のタスク処理部2404A~2404Nとを備えている。選択部2403は復号部2402内に実装されていても良い。ビデオエンコーダは、入力された画像又は特徴に基づいて複数の特徴マップA~Nを作成し、作成した複数の特徴マップA~Nを符号化することによってビットストリームを生成し、生成したビットストリームを復号装置1202に向けて送信するよう構成される。さらに、ビデオエンコーダは、生成したビットストリームに基づいて複数の特徴マップA~Nを復号し、復号した複数の特徴マップA~Nをタスク処理部2404A~2404Nに入力し、タスク処理部2404A~2404Nがニューラルネットワークタスクを実行することにより推定結果を出力するように構成されても良い。
図2のステップS2001において、符号化装置1201には、画像又は特徴が入力される。符号化装置1201は、入力された画像又は特徴に基づいて、複数の特徴マップA~Nを作成する。符号化装置1201は、作成した特徴マップA~Nをブロック単位で符号化することによって、特徴マップA~Nの符号化データを含むビットストリームを生成する。符号化装置1201は、生成したビットストリームを復号装置1202に向けて送信する。
より具体的には、符号化装置1201は、入力画像に関する複数の特徴マップを符号化する。各特徴マップは、画像に関する特有の属性を示し、各特徴マップは、例えば算術符号化される。算術符号化は、例えばコンテキスト適応2進算術符号化(CABAC)である。
図9及び図10は、特徴マップの作成処理の第1の例を示す図である。特徴マップは、複数の畳み込み層、複数のプーリング層、及び全結合層を有する畳み込みニューラルネットワークを用いて作成される。特徴マップは、入力画像に関する複数の特徴画像F1~F108を含む。各特徴画像の解像度及び特徴画像の数は、ニューラルネットワークの階層ごとに異なっていても良い。例えば、上位の畳み込み層X及びプーリング層Xにおける特徴画像F1~F12の水平サイズX1及び垂直サイズX2は、下位の畳み込み層Y及びプーリング層Yにおける特徴画像F13~F36の水平サイズY1及び垂直サイズY2より大きい。また、水平サイズY1及び垂直サイズY2は、全結合層における特徴画像F37~F108の水平サイズZ1及び垂直サイズZ2より大きい。
例えば、複数の特徴画像F1~F108は、ニューラルネットワークの階層の順序に従って配列される。つまり、ニューラルネットワークの階層の昇順(サイズの大きい順)又は降順(サイズの小さい順)に配列される。
図13及び図14は、特徴マップの作成処理の第2の例を示す図であり、入力画像から特徴を抽出するフィルタ処理の例が示されている。抽出された特徴は、入力画像に関する測定可能で特徴的な属性を示す。図13及び図14に示すように、入力画像に対して所望のフィルタサイズのドットフィルタ、垂直ラインフィルタ、又は水平ラインフィルタを適用することによって、ドット成分が抽出された特徴画像、垂直ライン成分が抽出された特徴画像、又は水平ライン成分が抽出された特徴画像を生成することができる。生成した複数の特徴画像を配列することによって、フィルタ処理に基づいて特徴マップを生成することができる。
図8を参照して、復号部2402には、複数の特徴マップA~Nの符号化データを含むビットストリームが入力される。復号部2402は、入力されたビットストリームから必要に応じて画像を復号し、人間の視覚のための画像信号を表示装置へ向けて出力する。また、復号部2402は、入力されたビットストリームから複数の特徴マップA~Nを復号し、復号した特徴マップA~Nを選択部2403に入力する。同じタイムインスタンスの複数の特徴マップA~Nは、独立に復号することができる。独立復号の一例は、イントラ予測を使用することである。また、同じタイムインスタンスの複数の特徴マップA~Nは、相関して復号することができる。相関復号の一例は、インター予測を使用することであり、第1の特徴マップを用いたインター予測によって第2の特徴マップを復号することができる。選択部2403は、復号された複数の特徴マップA~Nの中から所望の特徴マップを選択し、選択した特徴マップを各タスク処理部2404A~2404Nに入力する。
図17は、インター予測及びイントラ予測の双方を利用する例を示す図である。入力画像I01に基づいて複数の特徴マップFM01a~FM01fが生成され、入力画像I02に基づいて複数の特徴マップFM02a~FM02fが生成され、入力画像I03に基づいて複数の特徴マップFM03a~FM03fが生成される。図17のうち網掛けのハッチングを付した特徴マップ又は特徴画像はイントラ予測によって符号化され、網掛けのハッチングを付していない特徴マップ又は特徴画像はインター予測によって符号化される。インター予測は、同一時間(同じタイムインスタンス)の入力画像に対応する他の特徴マップ又は特徴画像を利用しても良いし、異なる時間(異なるタイムインスタンス)の入力画像に対応する他の特徴マップ又は特徴画像を利用しても良い。
図11は、選択部2403の動作の第1の例を示す図である。選択部2403は、各特徴マップA~Nに付加されているインデックス情報IA~INに基づいて、特徴マップA~Nの選択を行う。インデックス情報IA~INは、ID、カテゴリ、式、又は複数の特徴マップA~Nの各々を区別する任意の固有の表現であって良い。選択部2403は、インデックス情報IA~INとタスク処理部2404A~2404Nとの対応関係を示すテーブル情報を保持しており、各特徴マップA~Nを構成するビットストリームのヘッダ等に付加されているインデックス情報IA~INと、当該テーブル情報とに基づいて、各タスク処理部2404A~2404Nに入力すべき特徴マップA~Nを選択する。なお、当該テーブル情報もビットストリームのヘッダ等に記述されても良い。
図12は、選択部2403の動作の第2の例を示す図である。選択部2403は、各特徴マップA~Nの解像度又は特徴画像数等のサイズ情報SA~SNに基づいて、特徴マップA~Nの選択を行う。解像度は、112×112、56×56、又は14×14等の特徴マップの画素数である。特徴画像数は、各特徴マップに含まれている複数の特徴画像の数である。各タスク処理部2404A~2404Nに入力可能な特徴マップのサイズは互いに異なり、その設定情報は選択部2403が保持している。選択部2403は、各特徴マップA~Nを構成するビットストリームのヘッダ等に付加されているサイズ情報SA~SNと、当該設定情報とに基づいて、各タスク処理部2404A~2404Nに入力すべき特徴マップA~Nを選択する。なお、当該設定情報もビットストリームのヘッダ等に記述されても良い。
なお、選択部2403は、インデックス情報IA~IN及びサイズ情報SA~SNの組合せに基づいて特徴マップA~Nの選択を行っても良い。
図2のステップS2002において、タスク処理部2404Aは、入力された特徴マップAに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の第1のタスク処理を実行する。ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。
図15は、ニューラルネットワークタスクの一例として、オブジェクト検出及びオブジェクトセグメンテーションを示す図である。オブジェクト検出では、入力画像に含まれるオブジェクトの属性(この例ではテレビ及び人物)が検出される。入力画像に含まれるオブジェクトの属性に加え、入力画像中のオブジェクトの位置や個数が検出されても良い。これにより、例えば、認識対象のオブジェクトの位置を絞り込んだり、認識対象以外のオブジェクトを排除したりしても良い。具体的な用途としては、例えば、カメラにおける顔の検出や、自動運転での歩行者等の検出が考えられる。オブジェクトセグメンテーションでは、オブジェクトに対応する領域の画素がセグメント化(つまり区分け)される。これにより、例えば、自動運転において障害物と道路を分離し、自動車の安全な走行の援助を行ったり、工場における製品の欠陥を検出したり、衛星画像中の地形の識別を行う等の用途が考えられる。
図16は、ニューラルネットワークタスクの一例として、オブジェクトトラッキング、アクション認識、及びポーズ推定を示す図である。オブジェクトトラッキングでは、入力画像に含まれるオブジェクトの移動が追跡される。用途としては、例えば、店舗等の施設の利用者数の計数やスポーツ選手の動きの分析といったものが考えられる。更に処理を高速化すれば、リアルタイムにオブジェクトの追跡が可能となり、オートフォーカス等のカメラ処理への応用も可能となる。アクション認識では、オブジェクトの動作の種別(この例では「自転車に乗っている」「歩行している」)が検出される。例えば、防犯カメラに利用することで、強盗や万引き等の犯罪行動の防止及び検出、工場での作業忘れ防止といった用途に適用できる。ポーズ推定では、キーポイント及びジョイントの検出によってオブジェクトの姿勢が検出される。例えば、工場における作業効率の改善等の産業分野や、異常行動の検知といったセキュリティ分野、ヘルスケア及びスポーツといった分野での活用が考えられる。
タスク処理部2404Aは、ニューラルネットワークタスクの実行結果を示す信号を出力する。当該信号は、検出されたオブジェクトの数、検出されたオブジェクトの信頼レベル、検出されたオブジェクトの境界情報又は位置情報、及び、検出されたオブジェクトの分類カテゴリの少なくとも1つを含んでいても良い。
図2のステップS2003において、タスク処理部2404Bは、入力された特徴マップBに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の第2のタスク処理を実行する。第1のタスク処理と同様、ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。タスク処理部2404Bは、ニューラルネットワークタスクの実行結果を示す信号を出力する。
なお、図8に示した構成では、復号部2402と選択部2403と複数のタスク処理部2404A~2404Nとを備えることで、ニューラルネットワークタスクの実行によって推定結果を出力することを可能としているが、ビデオデコーダにおいてニューラルネットワークタスクを実行する必要がない場合は、復号部2402と選択部2403と複数のタスク処理部2404A~2404Nとを省略した構成としても良い。同様に、図2に示した処理手順2000において、ニューラルネットワークタスクを実行する必要がない場合は、ステップS2002とステップS2003とを省略した構成としても良い。
図7は、本開示の第1実施形態に係るビデオデコーダの構成を示すブロック図である。また、図1は、本開示の第1実施形態に係る画像復号方法の処理手順1000を示すフローチャートである。
図7に示すように、ビデオデコーダは、復号装置1202と、選択部1400と、複数のタスク処理部1203A~1203Nとを備えている。選択部1400は復号装置1202内に実装されていても良い。ビデオデコーダは、受信したビットストリームに基づいて複数の特徴マップA~Nを復号し、復号した複数の特徴マップA~Nをタスク処理部1203A~1203Nに入力し、タスク処理部1203A~1203Nがニューラルネットワークタスクを実行することにより推定結果を出力するよう構成される。
復号装置1202には、複数の特徴マップA~Nの符号化データを含むビットストリームが入力される。復号装置1202は、入力されたビットストリームから必要に応じて画像を復号し、人間の視覚のための画像信号を表示装置へ向けて出力する。また、復号装置1202は、入力されたビットストリームから複数の特徴マップA~Nを復号し、復号した特徴マップA~Nを選択部1400に入力する。同じタイムインスタンスの複数の特徴マップA~Nは、独立に復号することができる。独立復号の一例は、イントラ予測を使用することである。また、同じタイムインスタンスの複数の特徴マップA~Nは、相関して復号することができる。相関復号の一例は、インター予測を使用することであり、第1の特徴マップを用いたインター予測によって第2の特徴マップを復号することができる。選択部1400は、復号された複数の特徴マップA~Nの中から所望の特徴マップを選択し、選択した特徴マップを各タスク処理部1203A~1203Nに入力する。
図17は、インター予測及びイントラ予測の双方を利用する例を示す図である。入力画像I01に基づいて複数の特徴マップFM01a~FM01fが生成され、入力画像I02に基づいて複数の特徴マップFM02a~FM02fが生成され、入力画像I03に基づいて複数の特徴マップFM03a~FM03fが生成される。図17のうち網掛けのハッチングを付した特徴マップ又は特徴画像はイントラ予測によって符号化され、網掛けのハッチングを付していない特徴マップ又は特徴画像はインター予測によって符号化される。インター予測は、同一時間(同じタイムインスタンス)の入力画像に対応する他の特徴マップ又は特徴画像を利用しても良いし、異なる時間(異なるタイムインスタンス)の入力画像に対応する他の特徴マップ又は特徴画像を利用しても良い。
図11は、選択部1400の動作の第1の例を示す図である。選択部1400は、各特徴マップA~Nに付加されているインデックス情報IA~INに基づいて、特徴マップA~Nの選択を行う。インデックス情報IA~INは、ID、カテゴリ、式、又は複数の特徴マップA~Nの各々を区別する任意の固有の表現であって良い。選択部1400は、インデックス情報IA~INとタスク処理部1203A~1203Nとの対応関係を示すテーブル情報を保持しており、各特徴マップA~Nを構成するビットストリームのヘッダ等に付加されているインデックス情報IA~INと、当該テーブル情報とに基づいて、各タスク処理部1203A~1203Nに入力すべき特徴マップA~Nを選択する。なお、当該テーブル情報もビットストリームのヘッダ等に記述されても良い。
図12は、選択部1400の動作の第2の例を示す図である。選択部1400は、各特徴マップA~Nの解像度又は特徴画像数等のサイズ情報SA~SNに基づいて、特徴マップA~Nの選択を行う。解像度は、112×112、56×56、又は14×14等の特徴マップの画素数である。特徴画像数は、各特徴マップに含まれている複数の特徴画像の数である。各タスク処理部1203A~1203Nに入力可能な特徴マップのサイズは互いに異なり、その設定情報は選択部1400が保持している。選択部1400は、各特徴マップA~Nを構成するビットストリームのヘッダ等に付加されているサイズ情報SA~SNと、当該設定情報とに基づいて、各タスク処理部1203A~1203Nに入力すべき特徴マップA~Nを選択する。なお、当該設定情報もビットストリームのヘッダ等に記述されても良い。
なお、選択部1400は、インデックス情報IA~IN及びサイズ情報SA~SNの組合せに基づいて特徴マップA~Nの選択を行っても良い。
図1のステップS1002において、タスク処理部1203Aは、入力された特徴マップAに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の第1のタスク処理を実行する。ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。ニューラルネットワークタスクの一例は、図15及び図16と同様である。
タスク処理部1203Aは、ニューラルネットワークタスクの実行結果を示す信号を出力する。当該信号は、検出されたオブジェクトの数、検出されたオブジェクトの信頼レベル、検出されたオブジェクトの境界情報又は位置情報、及び、検出されたオブジェクトの分類カテゴリの少なくとも1つを含んでいても良い。
図1のステップS1003において、タスク処理部1203Bは、入力された特徴マップBに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の第2のタスク処理を実行する。第1のタスク処理と同様、ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。タスク処理部1203Bは、ニューラルネットワークタスクの実行結果を示す信号を出力する。
本実施形態によれば、符号化装置1201は、第1の特徴マップA及び第2の特徴マップBの符号化データを含むビットストリームを復号装置1202に向けて送信する。また、復号装置1202は、復号した複数の特徴マップA~Nから第1の特徴マップAを選択して第1のタスク処理部1203Aに向けて出力し、復号した複数の特徴マップA~Nから第2の特徴マップBを選択して第2のタスク処理部1203Bに向けて出力する。これにより、複数のタスク処理部1203A~1203Nの各々に対応して符号化装置と復号装置のセットを複数セット実装する必要がないため、システム構成を簡略化することができる。
(第2実施形態)
一般的にビデオコーデックはメモリ容量に制約があるため、画像の符号化はZ走査順序で行われることが多い。しかし、大容量のメモリを備えるGPUを用いてシステムを構築する場合には、Z走査順序ではなくラスタ走査順序を用いて入力された画像又は特徴を連続してGPUのメモリにロードしたほうが、高速な処理が可能となる。そこで本実施形態では、複数の特徴画像を所定の走査順序で配列して特徴マップを構築する処理において、一般的なZ走査順序と高速なラスタ走査順序とを切り替え可能なシステムについて説明する。本実施形態は、少なくとも1つのタスク処理部を備える画像処理システムに適用可能である。
一般的にビデオコーデックはメモリ容量に制約があるため、画像の符号化はZ走査順序で行われることが多い。しかし、大容量のメモリを備えるGPUを用いてシステムを構築する場合には、Z走査順序ではなくラスタ走査順序を用いて入力された画像又は特徴を連続してGPUのメモリにロードしたほうが、高速な処理が可能となる。そこで本実施形態では、複数の特徴画像を所定の走査順序で配列して特徴マップを構築する処理において、一般的なZ走査順序と高速なラスタ走査順序とを切り替え可能なシステムについて説明する。本実施形態は、少なくとも1つのタスク処理部を備える画像処理システムに適用可能である。
図20は、本開示の第2実施形態に係る画像処理システム2100の構成例を示す図である。画像処理システム2100は、画像符号化装置としての符号化装置2101と、画像復号装置としての復号装置2102と、タスク処理装置としてのタスク処理部2103とを備えている。上記第1実施形態と同様に、タスク処理部2103は複数備えられても良い。
符号化装置2101は、入力された画像又は特徴に基づいて特徴マップを作成する。符号化装置2101は、作成した特徴マップを符号化することによって、特徴マップの符号化データを含むビットストリームを生成する。符号化装置2101は、生成したビットストリームを復号装置2102に向けて送信する。復号装置2102は、受信したビットストリームに基づいて特徴マップを復号する。復号装置2102は、復号した特徴マップをタスク処理部2103に入力する。タスク処理部2103は、入力された特徴マップに基づいてニューラルネットワークタスク等の所定のタスク処理を実行し、その推定結果を出力する。
図22は、本開示の第2実施形態に係る符号化装置2101の構成を示すブロック図である。また、図19は、本開示の第2実施形態に係る画像符号化方法の処理手順4000を示すフローチャートである。
図22に示すように、符号化装置2101は、走査順序設定部3201、走査部3202、及びエントロピ符号化部3203を備えている。また、符号化装置2101は、再構築部3204及びタスク処理部3205を備えていても良い。
走査順序設定部3201には、特徴マップが入力される。図10に示したように、特徴マップは、複数の特徴画像F1~F108が所定の走査順序で配列されることによって構築されている。
図23は、特徴マップの他の例を示す図である。特徴マップは、入力画像に関する複数の特徴画像F1~F36を含む。各特徴画像の解像度及び特徴画像の数は、ニューラルネットワークの全階層に関して同一であっても良い。特徴画像F1~F36はいずれも、同一の水平サイズX1及び垂直サイズX2を有している。
図19のステップS4001において、走査順序設定部3201は、符号化装置2101と復号装置2102との間で予め定められた規則に従って、特徴マップを複数の特徴画像に分割するための走査順序を設定する。なお、走査順序設定部3201は、特徴マップを複数の特徴画像に分割するための走査順序を任意に設定し、その走査順序を示す設定情報をビットストリームのヘッダに付加して復号装置2102に送信しても良い。この場合、復号装置2102は、復号した複数の特徴画像を当該設定情報で示される走査順序で配列することによって、特徴マップを構築することができる。
図26は、走査順序の第1の例を示す図である。走査順序設定部3201は、ラスタ走査順序を走査順序として設定する。
図27は、走査順序の第2の例を示す図である。走査順序設定部3201は、Z走査順序を走査順序として設定する。
走査部3202は、走査順序設定部3201によって設定された走査順序で、特徴マップを複数のセグメントに分割し、各セグメントを複数の特徴画像に分割する。
図28~図30は、複数のセグメントへの分割の例を示す図である。図28に示した例では、特徴マップは3つのセグメントSG1~SG3に分割されている。図29に示した例では、特徴マップは7つのセグメントSG1~SG7に分割されている。図30に示した例では、特徴マップは6つのセグメントSG1~SG6に分割されている。特徴画像の走査はセグメント毎に行われ、同じセグメントに属する複数の特徴画像はビットストリーム内で常に連続して符号化される。なお、各セグメントは、例えばスライスと呼ばれる独立して符号化及び復号を可能とする単位としても良い。
なお、図22に示した例では、走査順序設定部3201と走査部3202とが別の処理ブロックとして構成されているが、単一の処理ブロックとしてまとめて処理を行う構成としても良い。
走査部3202は、分割した複数の特徴画像を順にエントロピ符号化部3203に入力する。エントロピ符号化部3203は、各特徴画像を符号化ブロックサイズで符号化及び算術符号化することにより、ビットストリームを生成する。算術符号化は、例えばコンテキスト適応2進算術符号化(CABAC)である。符号化装置2101は、エントロピ符号化部3203が生成したビットストリームを復号装置2102に向けて送信する。
図24及び図25は、特徴画像のサイズと符号化ブロックサイズとの関係を示す図である。特徴マップは、サイズが異なる複数種類の特徴画像によって構築されている。
図24に示すように、エントロピ符号化部3203は、複数種類の特徴画像の複数のサイズ(以下「特徴画像サイズ」と称す)のうち最小の特徴画像サイズに対応する一定の符号化ブロックサイズで、複数の特徴画像を符号化する。あるいは図25に示すように、エントロピ符号化部3203は、当該複数の特徴画像サイズに対応する複数の符号化ブロックサイズで、複数の特徴画像を符号化しても良い。
図31及び図32は、1つの特徴画像が複数の符号化ブロックに分割されて符号化される場合の走査順序を示す図である。エントロピ符号化部3203は、図31に示すように、特徴画像単位のラスタ走査順序で符号化を行っても良いし、図32に示すように、複数の特徴画像を跨いで符号化ブロックの行単位のラスタ走査順序で符号化を行っても良い。
さらに、符号化装置2101は、分割された特徴マップを再構築し、再構築した特徴マップをタスク処理部3205に入力し、タスク処理部3205がニューラルネットワークタスクを実行することにより推定結果を出力するように構成されても良い。
図19のステップS4002において、再構築部3204には、複数のセグメントに分割された複数の特徴画像が走査部3202から入力される。再構築部3204は、入力された複数の特徴画像を所定の走査順序で配列することによって、複数のセグメントの各々を再構築し、複数のセグメントを所定の順序で配列することによって、特徴マップを再構築する。なお、再構築部3204は、復号装置2102が生成する特徴マップと同じ特徴マップを再構築すべく、エントロピ符号化部3203の出力を入力として、復号装置2102が実行する処理と同様の処理を実行する構成としても良い。
例えば、複数の特徴画像は、ニューラルネットワークの階層の順序に従って配列される。つまり、ニューラルネットワークの階層の昇順(サイズの大きい順)又は降順(サイズの小さい順)に配列される。
走査順序設定部3201は、入力された複数の特徴画像の各々のサイズに基づいて、走査順序の昇順又は降順を設定し、再構築部3204は、走査順序設定部3201によって設定された走査順序に応じて昇順又は降順を切り替える。例えば、再構築部3204は、複数の特徴画像がサイズの大きい順に入力された場合には昇順に切り替え、複数の特徴画像がサイズの小さい順に入力された場合には降順に切り替える。あるいは、所定の走査順序の昇順又は降順を設定する順序情報をビットストリームのヘッダ等に付加し、再構築部3204は、当該順序情報に基づいて、走査順序の昇順又は降順を切り替えても良い。再構築部3204は、複数の特徴画像を所定の走査順序で配列することによって再構築された特徴マップを、タスク処理部3205に入力する。
図19のステップS4003において、タスク処理部3205は、入力された特徴マップに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の所定のタスク処理を実行する。ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。
タスク処理部3205は、ニューラルネットワークタスクの実行結果を示す信号を出力する。当該信号は、検出されたオブジェクトの数、検出されたオブジェクトの信頼レベル、検出されたオブジェクトの境界情報又は位置情報、及び、検出されたオブジェクトの分類カテゴリの少なくとも1つを含んでいても良い。
なお、図22に示した構成では、再構築部3204とタスク処理部3205とを備えることで、ニューラルネットワークタスクの実行によって推定結果を出力することを可能としているが、ビデオエンコーダにおいてニューラルネットワークタスクを実行する必要がない場合は、再構築部3204とタスク処理部3205とを省略した構成としても良い。同様に、図19に示した処理手順4000において、ニューラルネットワークタスクを実行する必要がない場合は、ステップS4002とステップS4003とを省略した構成としても良い。
図21は、本開示の第2実施形態に係る復号装置2102の構成を示すブロック図である。また、図18は、本開示の第2実施形態に係る画像復号方法の処理手順3000を示すフローチャートである。
図21に示すように、復号装置2102は、エントロピ復号部2201、走査順序設定部2202、及び走査部2203を備えている。
図18のステップS3001において、エントロピ復号部2201は、符号化装置2101から受信したビットストリームから複数の特徴画像を復号ブロック単位で復号する。
図24及び図25は、特徴画像のサイズと復号ブロックサイズとの関係を示す図である。特徴マップは、サイズが異なる複数種類の特徴画像によって構築されている。
図24に示すように、エントロピ復号部2201は、複数種類の特徴画像の複数の特徴画像サイズのうち最小の特徴画像サイズに対応する一定の復号ブロックサイズで、複数の特徴画像を復号する。あるいは図25に示すように、エントロピ復号部2201は、当該複数の特徴画像サイズに対応する複数の復号ブロックサイズで、複数の特徴画像を復号しても良い。
図31及び図32は、1つの特徴画像が複数の符号化ブロックに分割されて符号化される場合の走査順序を示す図である。エントロピ復号部2201は、図31に示すように、特徴画像単位のラスタ走査順序で復号を行っても良いし、図32に示すように、複数の特徴画像を跨いで符号化ブロックの行単位のラスタ走査順序で復号を行っても良い。
走査順序設定部2202には、エントロピ復号部2201から複数の復号ブロック又は複数の特徴画像が入力される。
図18のステップS3002において、走査順序設定部2202は、符号化装置2101と復号装置2102との間で予め定められた規則に従って、複数の特徴画像から特徴マップを構築するための走査順序を設定する。なお、任意の走査順序を示す上記の設定情報がビットストリームのヘッダに付加されている場合には、復号装置2102は、復号した複数の特徴画像を当該設定情報で示される走査順序で配列することによって、特徴マップを構築することができる。
図26は、走査順序の第1の例を示す図である。走査順序設定部2202は、ラスタ走査順序を走査順序として設定する。
図27は、走査順序の第2の例を示す図である。走査順序設定部2202は、Z走査順序を走査順序として設定する。
走査部2203には、複数のセグメントに分割された複数の特徴画像が入力される。走査部2203は、走査順序設定部2202によって設定された走査順序で複数の特徴画像を配列することによって、特徴マップを構築する。
例えば、複数の特徴画像は、ニューラルネットワークの階層の順序に従って配列される。つまり、ニューラルネットワークの階層の昇順(サイズの大きい順)又は降順(サイズの小さい順)に配列される。
走査順序設定部2202は、入力された複数の特徴画像の各々のサイズに基づいて、走査順序の昇順又は降順を設定し、走査部2203は、走査順序設定部2202によって設定された走査順序に応じて昇順又は降順を切り替える。例えば、走査部2203は、複数の特徴画像がサイズの大きい順に入力された場合には昇順に切り替え、複数の特徴画像がサイズの小さい順に入力された場合には降順に切り替える。あるいは、所定の走査順序の昇順又は降順を設定する順序情報をビットストリームのヘッダ等から復号し、走査部2203は、当該順序情報に基づいて、走査順序の昇順又は降順を切り替えても良い。走査部2203は、複数の特徴画像を所定の走査順序で配列することによって構築された特徴マップを、タスク処理部2103に入力する。
なお、図21に示した例では、走査順序設定部2202と走査部2203とが別の処理ブロックとして構成されているが、単一の処理ブロックとしてまとめて処理を行う構成としても良い。
図18のステップS3003において、タスク処理部2103は、入力された特徴マップに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の所定のタスク処理を実行する。ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。
タスク処理部2103は、ニューラルネットワークタスクの実行結果を示す信号を出力する。当該信号は、検出されたオブジェクトの数、検出されたオブジェクトの信頼レベル、検出されたオブジェクトの境界情報又は位置情報、及び、検出されたオブジェクトの分類カテゴリの少なくとも1つを含んでいても良い。
本実施形態によれば、複数の特徴画像を所定の走査順序で配列することによって、特徴マップを適切に構築することが可能となる。
本開示は、画像を送信するエンコーダと画像を受信するデコーダとを備える画像処理システムへの適用が特に有用である。
Claims (16)
- 複数の特徴画像を復号し、
前記複数の特徴画像をラスタ走査順序で配列することによって、特徴マップを構築する、
画像復号装置。 - 前記特徴マップは、複数のセグメントを含み、
前記複数のセグメントの各々は、前記複数の特徴画像を含み、
前記複数の特徴画像をラスタ走査順序で配列することによって、前記複数のセグメントの各々を構築し、
前記複数のセグメントをラスタ走査順序で配列することによって、前記特徴マップを構築する、
請求項1に記載の画像復号装置。 - 走査順序を示す設定情報をさらに復号し、
前記設定情報に基づいて、前記複数の特徴画像を前記ラスタ走査順序で配列する、
請求項1に記載の画像復号装置。 - 前記特徴マップは、複数のセグメントを含み、
前記複数の特徴画像の配列を前記セグメント毎に行う、
請求項1に記載の画像復号装置。 - 前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、
前記複数種類の特徴画像の複数のサイズのうち最小のサイズに対応する復号ブロックサイズで、前記複数の特徴画像を復号する、
請求項1に記載の画像復号装置。 - 前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、
前記複数種類の特徴画像の複数のサイズに対応する複数の復号ブロックサイズで、前記複数の特徴画像を復号する、
請求項1に記載の画像復号装置。 - 前記特徴マップに基づいて、推定を伴うニューラルネットワークタスクを実行し、
前記推定の結果を出力する、
請求項1に記載の画像復号装置。 - 前記ニューラルネットワークタスクは、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、及びハイブリッドビジョンの少なくとも1つを含む、
請求項7に記載の画像復号装置。 - 入力画像に基づいて、特徴マップを生成し、
前記特徴マップを複数の特徴画像に分割するための走査順序を設定し、
前記特徴マップと、前記走査順序を示す設定情報とを符号化し、
前記設定情報は、前記走査順序としてラスタ走査順序を示す、
画像符号化装置。 - 前記特徴マップは、複数のセグメントを含み、
前記複数のセグメントの各々は、前記複数の特徴画像を含み、
同一の前記セグメントに属する前記複数の特徴画像を連続して符号化する、
請求項9に記載の画像符号化装置。 - 前記複数の特徴画像の各々を符号化ブロックサイズで符号化及び算術符号化することにより、ビットストリームを生成する、
請求項9に記載の画像符号化装置。 - 前記算術符号化は、コンテキスト適応2進算術符号化(CABAC)である、
請求億11に記載の画像符号化装置。 - 前記特徴マップを再構築し、
前記特徴マップに基づいて、推定を伴うニューラルネットワークタスクを実行し、
前記推定の結果を出力する、
請求項9に記載の画像符号化装置。 - 前記ニューラルネットワークタスクは、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、及びハイブリッドビジョンの少なくとも1つを含む、
請求項13に記載の画像符号化装置。 - 画像復号装置が、
複数の特徴画像を復号し、
前記複数の特徴画像をラスタ走査順序で配列することによって、特徴マップを構築する、
画像復号方法。 - 画像符号化装置が、
入力画像に基づいて、特徴マップを生成し、
前記特徴マップを複数の特徴画像に分割するための走査順序を設定し、
前記特徴マップと、前記走査順序を示す設定情報とを符号化し、
前記設定情報は、前記走査順序としてラスタ走査順序を示す、
画像符号化方法。
Applications Claiming Priority (6)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202163178751P | 2021-04-23 | 2021-04-23 | |
| US202163178788P | 2021-04-23 | 2021-04-23 | |
| US63/178,788 | 2021-04-23 | ||
| US63/178,751 | 2021-04-23 | ||
| PCT/JP2022/018475 WO2022225025A1 (ja) | 2021-04-23 | 2022-04-21 | 画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置 |
| JP2023515521A JP7568835B2 (ja) | 2021-04-23 | 2022-04-21 | 画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置 |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023515521A Division JP7568835B2 (ja) | 2021-04-23 | 2022-04-21 | 画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2024177335A true JP2024177335A (ja) | 2024-12-19 |
Family
ID=83722346
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023515521A Active JP7568835B2 (ja) | 2021-04-23 | 2022-04-21 | 画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置 |
| JP2024173253A Pending JP2024177335A (ja) | 2021-04-23 | 2024-10-02 | 画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置 |
Family Applications Before (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023515521A Active JP7568835B2 (ja) | 2021-04-23 | 2022-04-21 | 画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20240037797A1 (ja) |
| EP (1) | EP4311238A4 (ja) |
| JP (2) | JP7568835B2 (ja) |
| WO (1) | WO2022225025A1 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP4311238A4 (en) * | 2021-04-23 | 2024-08-28 | Panasonic Intellectual Property Corporation of America | IMAGE DECODING METHOD, IMAGE ENCODING METHOD, IMAGE DECODER AND IMAGE ENCODER |
| WO2024057721A1 (ja) * | 2022-09-16 | 2024-03-21 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 復号装置、符号化装置、復号方法、及び符号化方法 |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007503784A (ja) * | 2003-05-20 | 2007-02-22 | アーエムテー アドバンスド マルチメディア テクノロジー アクティエボラーグ | ハイブリッドビデオ圧縮法 |
| WO2018199051A1 (ja) * | 2017-04-25 | 2018-11-01 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置、復号装置、符号化方法および復号方法 |
| WO2020061005A1 (en) * | 2018-09-18 | 2020-03-26 | Google Llc | Use of non-linear function applied to quantization parameters in machine-learning models for video coding |
| JP2020537445A (ja) * | 2017-10-13 | 2020-12-17 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | ブロック単位の画像符号化のためのイントラ予測モード概念 |
| WO2020261314A1 (ja) * | 2019-06-24 | 2020-12-30 | 日本電信電話株式会社 | 画像符号化方法、及び画像復号方法 |
| JP2024510710A (ja) * | 2021-04-07 | 2024-03-11 | キヤノン株式会社 | 特徴マップ符号化対通常のビデオ符号化のためのツール選択 |
| JP7568835B2 (ja) * | 2021-04-23 | 2024-10-16 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DK3920538T3 (da) | 2007-04-12 | 2023-03-27 | Dolby Int Ab | Tiling i videokodning- og afkodning |
| US11158055B2 (en) | 2019-07-26 | 2021-10-26 | Adobe Inc. | Utilizing a neural network having a two-stream encoder architecture to generate composite digital images |
| CN114616832A (zh) * | 2019-09-11 | 2022-06-10 | 南洋理工大学 | 基于网络的视觉分析 |
-
2022
- 2022-04-21 EP EP22791796.0A patent/EP4311238A4/en active Pending
- 2022-04-21 JP JP2023515521A patent/JP7568835B2/ja active Active
- 2022-04-21 WO PCT/JP2022/018475 patent/WO2022225025A1/ja not_active Ceased
-
2023
- 2023-10-16 US US18/380,253 patent/US20240037797A1/en active Pending
-
2024
- 2024-10-02 JP JP2024173253A patent/JP2024177335A/ja active Pending
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007503784A (ja) * | 2003-05-20 | 2007-02-22 | アーエムテー アドバンスド マルチメディア テクノロジー アクティエボラーグ | ハイブリッドビデオ圧縮法 |
| WO2018199051A1 (ja) * | 2017-04-25 | 2018-11-01 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置、復号装置、符号化方法および復号方法 |
| JP2020537445A (ja) * | 2017-10-13 | 2020-12-17 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | ブロック単位の画像符号化のためのイントラ予測モード概念 |
| WO2020061005A1 (en) * | 2018-09-18 | 2020-03-26 | Google Llc | Use of non-linear function applied to quantization parameters in machine-learning models for video coding |
| WO2020261314A1 (ja) * | 2019-06-24 | 2020-12-30 | 日本電信電話株式会社 | 画像符号化方法、及び画像復号方法 |
| JP2024510710A (ja) * | 2021-04-07 | 2024-03-11 | キヤノン株式会社 | 特徴マップ符号化対通常のビデオ符号化のためのツール選択 |
| JP7568835B2 (ja) * | 2021-04-23 | 2024-10-16 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP4311238A1 (en) | 2024-01-24 |
| US20240037797A1 (en) | 2024-02-01 |
| EP4311238A4 (en) | 2024-08-28 |
| WO2022225025A1 (ja) | 2022-10-27 |
| JP7568835B2 (ja) | 2024-10-16 |
| JPWO2022225025A1 (ja) | 2022-10-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2024177335A (ja) | 画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置 | |
| Zhang et al. | St crossingpose: A spatial-temporal graph convolutional network for skeleton-based pedestrian crossing intention prediction | |
| Zocco et al. | Towards more efficient efficientdets and real-time marine debris detection | |
| CN114266938B (zh) | 一种基于多模态信息和全局注意力机制的场景识别方法 | |
| CN1130847A (zh) | 用于编码包含在视频信号中的区域的轮廓的装置 | |
| CN117095287A (zh) | 一种基于时空交互Transformer模型的遥感图像变化检测方法 | |
| CN116061973B (zh) | 车辆轨迹预测方法、控制装置、可读存储介质及车辆 | |
| CN118711145B (zh) | 基于全景分割与关系检测的铁路场景理解方法及系统 | |
| CN117280689A (zh) | 图像解码方法、图像编码方法、图像解码装置以及图像编码装置 | |
| US6263115B1 (en) | Method and apparatus for encoding a binary shape signal | |
| CN117173633B (zh) | 一种基于旋转等变卷积神经网络的行人轨迹预测方法 | |
| Pavlitskaya et al. | Evaluating mixture-of-experts architectures for network aggregation | |
| KR20190048597A (ko) | 딥 러닝을 이용한 이종 센서 정보 융합 장치 및 방법 | |
| CN115546236B (zh) | 基于小波变换的图像分割方法及装置 | |
| CN112929662B (zh) | 解决码流结构化图像编码方法中对象重叠问题的编码方法 | |
| KR20240090245A (ko) | 기계용 스케일러블 비디오 코딩 시스템 및 방법 | |
| CN115631343A (zh) | 基于全脉冲网络的图像生成方法、装置、设备及存储介质 | |
| JP7704842B2 (ja) | 画像符号化方法、画像復号方法、画像処理方法、画像符号化装置、及び画像復号装置 | |
| Cui et al. | Semantic and Saliency-Aware Scalable Image Coding towards Human-Machine Collaboration | |
| Zhou et al. | Learning trajectory-conditioned relations to predict pedestrian crossing behavior | |
| Sood et al. | Selective Lossy Image Compression for Autonomous Systems | |
| CN119649309B (zh) | 基于目标检测模型的密集拥挤行人检测方法及系统 | |
| KR102688086B1 (ko) | 영상 예측 생성적 적대 신경망 기반 영상 예측 장치 및 방법 | |
| Yuan et al. | Towards Feature Compression of LiDAR Point Cloud for 3D Object Detection | |
| JP4743319B2 (ja) | 画像処理装置および画像処理方法、並びに、学習装置および学習方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20241002 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250909 |