ESTIMATION DE LA PERCEPTION DES DISTORSIONS D'IMAGE
La présente invention concerne un procédé d'estimation de la perception locale des distorsions de quantification dans une image fixe pour le traitement numérique d'image en général, et en particulier pour les décodeurs numériques de type DCT.
Le passage d'un signal analogique représentant une image, au signal numérique correspondant, est réalisé par un échantillonnage du signal continu en un certain nombre fini d'instants discrets et par une quantification des valeurs possibles de ce signal à chacun de ces instants. Alors que l'échantillonnage sous certaine conditions n'altère pas l'information portée par un signal, la quantification, c'est à dire la restriction du signal analogique à un nombre fini de valeurs, ne permet pas d'exprimer lors de la restitution sur un écran de l'image source (image de référence), toutes les nuances subtiles de l'information analogique originale. Une approximation systématique est introduite qui peut être minimisée, mais jamais éliminée complètement. Or, la perception par l'oeil humain de cette quantification peut être assimilée à une perception de distorsion locale de contraste, le contraste étant une différence relative de la luminance (intensité lumineuse) ΔL entre deux point ou deux zones. Dans l'art antérieur, une simple mesure de la différence entre le signal image de référence (image non codée) et le signal image test (image codée) est effectuée. Malheureusement, cette mesure ne permet pas une estimation optimum de la distorsion perçue, car les spécificités des traitements opérés par le système visuel ne sont pas prises en compte. Un exemple de modèle de perception de contraste est décrit dans l'article de F.Kingdom et B.Moulden : "A model for contrast discrimination with incrémental and décrémentai patches", Vision Research, volume 31, 1991.
Le but de l'invention est de mesurer la qualité d'une image au niveau de la perception qu'en a l'oeil humain, en obtenant une carte des valeurs de la perception locale des distorsions de contraste par blocs de l'image, et de permettre ainsi d'optimiser la qualité de l'image perçue par l'oeil en permettant de choisir le pas de quantification du système de codage le mieux adapté à la perception visuelle.
La présent invention propose un procédé d'estimation de la perception locale des distorsions de quantification, c'est à dire de la perception locale des distorsions de contraste, qui prend en compte ces spécificités de traitement du système visuel, et qui permet ainsi une mesure plus fine de la qualité d'image et une meilleure sélection du pas de quantification à choisir.
En effet, selon la présente invention, le procédé d'estimation de la perception locale de distorsion de quantification d'un système de codage d'une image, à partir de l'image codée et de l'image non codée correspondantes, est caractérisé en ce qu'il comporte les étapes suivantes : . définition pour chaque bloc I de l'image codée et de l'image non codée décomposées en une pluralité de blocs I, d'une première fenêtre II centrée sur le bloc I, sur laquelle est calculée la luminance locale (Lj :), ainsi que d'une seconde fenêtre III centrée sur le premier bloc I et sur la première fenêtre II, et sur lequel est calculée la luminance d'adaptation (La), . traitement non linéaire de la luminance locale (Lj :) et de la luminance d'adaptation (La) obtenues, et calcul du contraste intermédiaire (ΔLj j*=Lj ;*-La*) par la différence entre les valeurs obtenues de la luminance point (Lj :*) et de luminance d'adaptation (La*),
. filtrage spatial orienté du contraste intermédiaire (ΔLj :*) selon les fréquences spatiales,
. séparation par orientations des valeurs relatives aux orientations relatives de fréquences du contraste intermédiaire obtenu lors de l'étape précédente
(SQ=ΔLJ : *), permettant d'obtenir n valeurs (AL"; ;*^, ΔL"j j*^,..., ΔL"; :*(n)) de contraste intermédiaire, chacune correspondant à une orientation spatiale de fréquence,
. second traitement non linéaire de chacune des n valeurs obtenues lors de l'étape précédente permettant d'obtenir n valeurs correspondantes (ΔL"j j**(ι)5
AIj ι,j (2)'-» ΔL ι,j (n))' eι
. calcul de la différence pondérée par orientation spatiale de fréquence, point à point, entre les n valeurs finales des contrastes du bloc I de l'image non codée obtenues lors de l'étape précédente, et les n valeurs finales des contrastes du bloc I de l'image codée obtenues lors de l'étape précédente.
Cette valeur peut être relativisée en la divisant par la somme par orientations spatiales de fréquences, des valeurs finales des contrastes obtenues dans
l'étape précédente sur le bloc I de l'image non codée, permettant d'obtenir la valeur de la perception locale des distorsions de contraste (PLDC) pour chaque bloc I de l'image .
Selon un mode de réalisation préféré de la présente invention, l'étape de filtrage spatial isotrope consiste en un filtrage bi-dimensionnel des fréquences horizontales/verticales, et diagonales (n=2), et lors de l'étape de calcul de la différence pondérée par orientations spatiales de fréquences, la différence entre les valeurs selon les fréquences diagonales sont pondérées par 0,5.
De préférence, l'étape de filtrage spatial isotrope consiste en un filtrage réalisé par un filtre centré autour de 8 cycles par degré (cpd).
L'étape du premier traitement non linéaire consistent en un traitement logarithmique (gain variable), et celle du second traitement est analogue à la réponse d'un neurone. De préférence, ce second traitement non linéaire consiste en un traitement par mise à la puissance m, avec m<l . Un exemple de fenêtrage sur lequel doit être appliqué le procédé selon la présente invention consiste à considérer une première fenêtre II constituée d'au moins trois blocs sur trois blocs I de N sur N points, et une seconde fenêtre III constituée d'au moins cinq blocs sur cinq blocs I de N sur N points.
Le procédé selon l'invention prend en compte les phénomènes suivants : - la réponse non linéaire au contraste,
- la sensibilité variable en fonction de la fréquence,
- la zone localisée de la luminance d'adaptation,
- la zone de cumul définissant un maximum de probabilité de perception d'un stimulus (contraste lumineux pouvant être perçu), et - le masquage des signaux faibles par les signaux forts.
Le procédé selon la présente invention fournit à la fois une évaluation numérique de la distorsion de contraste, liée à la quantification perçue par le système visuel, ainsi que le seuil au-dessous duquel aucune distorsion n'est perçue.
Le procédé s'applique bloc d'image par bloc d'image en respectant la perception locale des distorsions de contraste lumineux de chaque bloc, et permet ainsi d'obtenir une carte des valeurs de la perception des distorsions locales de contraste liée à la quantification de l'image.
La présente invention sera mieux comprise à la lecture de la description qui va suivre, dans laquelle seront détaillés le procédé selon l'invention ainsi qu'un
mode de réalisation préféré de la présente invention illustrés par les figures suivantes :
. la figure 1 représente le bloc-diagramme synoptique du procédé d'estimation de la perception de distorsion locale de contraste selon la présente invention,
. la figure 2 représente un bloc associé aux fenêtres de l'image test et de référence à partir desquelles sera exécutée la première étape du procédé selon un mode de réalisation préféré de la présente invention,
. la figure 3 représente un bloc-diagramme synoptique du traitement rétinien des seconde et troisième étapes du procédé selon le mode de réalisation préféré de la présente invention,
. la figure 4 représente un bloc-diagramme synoptique des premiers traitements corticaux des quatrième et cinquième étapes du procédé selon le mode de réalisation préféré de la présente invention,
. la figure 5 représente le diagramme de séparation des fréquences horizontales et verticales des fréquences diagonales du procédé selon le mode de réalisation préféré de la présente invention, et
. la figure 6 représente les spécifications d'un filtre pour la transition en fréquence sur un axe horizontal selon le mode de réalisation de la présente invention.
Le procédé selon la présente invention est représenté sur la figure 1. Il consiste à traiter en parallèle l'image test 8, c'est à dire l'image codée, et l'image de référence 9, c'est à dire l'image non codée, par le procédé d'estimation de la perception locale des distorsions de quantification dans une image fixe selon la présente invention.
Pour plus de clarté, la figure 1 est limitée à l'illustration du traitement de l'image de référence jusqu'à la sixième étape de calcul de la différence pondérée des fenêtres courantes des images test 8 et de référence 9, dans laquelle interviennent les valeurs de contraste intermédiaires traitées de l'image test 8,
celles-ci ayant subi le même traitement que les valeurs de contraste intermédiaires de l'image de référence 9.
L'étape 1 consiste à traiter les signaux numériques de l'image test 8 et de l'image référence 9 pour les transformer en valeur de luminance. Pour cela, l'image test 8 et l'image de référence 9 sont divisées en une pluralité de sous- ensembles d'image. Un exemple d'un tel sous ensemble d'image est représenté sur la figure 2. Celui-ci est constitué d'un bloc d'image I qui est par exemple carré et constitué de N points sur N points, sur lequel est centrée, d'une part, une première fenêtre II de i points sur j points (ou constituée d'au moins trois blocs sur trois blocs dans le cas de la figure 2), pour le calcul de la luminance Lj : (ou luminance environnante), et d'autre part une seconde fenêtre III (d'au moins cinq blocs sur cinq blocs dans le cas de la figure 2), pour le calcul de la luminance d'adaptation La (ou luminance moyenne) en vue du calcul de la perception locale de distorsions de contraste. La valeur calculée de la luminance Lj : est alors appliquée au bloc courant, et l'opération est répétée de blocs en blocs sur l'ensemble des images test et de référence.
Les étapes 2 et 3 du procédé selon l'invention constituent des traitements rétiniens des luminances définies précédemment.
En effet, l'étape 2 consiste à appliquer un traitement non linéaire à la luminance Lj ; (Lj ;*) ainsi qu'à la luminance d'adaptation La (La*), puis à en déduire le contraste adapté localement à la luminance moyenne, c'est à dire le contraste intermédiaire ΔLj ;* = Lj :* - La*. Ce premier traitement non linéaire est de préférence de type logarithmique, et opère au niveau rétinien comme une commande de gain variable d'adaptation à la lumière ambiante.
Lors de l'étape 3, est effectué un traitement prenant en compte la sensibilité aux fréquences spatiales, c'est à dire la sensibilité aux fréquences projetées sur la rétine, s'exprimant en cycle par degré (cpd), en filtrant le contraste intermédiaire ΔLj ;* de préférence par un filtre spatial bi-dimensionnel isotrope. On obtient le signal SQ = ΔL'j ;* issu de la rétine.
Les étapes 4 et 5 du procédé selon l'invention constituent des premiers traitements corticaux des signaux SQ issus de la rétine.
L'étape 4 consiste à traiter ce signal SQ par rapport à n orientations spatiales de fréquences choisies. On obtient ainsi les n signaux ΔL"j j*( j)5 ΔL"j ;*(2),—J et ΔL"j :*(n). Par exemple, pour un traitement cortical complet, les orientations peuvent être de 30° (n=12). L'étape 5 consiste à appliquer à chacune de ces valeurs séparées un nouveau traitement non linéaire caractéristiques de la réponse compressive d'un neurone à un contraste, pour obtenir les valeurs correspondantes ΔL"j j**(i), Aij ι,j (2)v, ei AL ,j (n).
Les étapes 6 et 7 constituent des seconds traitements corticaux appliqués aux contrastes intermédiaires traités précédemment relativement aux n orientations spatiales de fréquences.
En effet, l'étape 6 consiste à effectuer les différences des contrastes intermédiaires ainsi traités par type d'orientation entre les blocs courants de l'image test 8 et de l'image référence 9, point à point, ayant subit les cinq étapes précédentes. Ces différences sont pondérées en fonction des orientations avant d'être additionnées.
Enfin, l'étape 7 consiste en une adaptation aux contrastes de la première fenêtre II courante de référence en effectuant une division du résultat de la sixième étape par le calcul du contraste équivalent par type d'orientation dans cette fenêtre.
On obtient ainsi la Perception Locale des Distorsions de Contraste (notée PLDC) qui exprime une sensibilité à une erreur relative.
En renouvelant ce traitement sur tous les blocs constituant l'image, il est possible d'obtenir une cartographie précise des valeurs de la perception locale des distorsions de contraste (notée PLDC) dans une image fixe.
Ainsi, toutes les spécificités de traitement du système visuel évoquées plus haut, ont été prises en compte, et on obtient une valeur perçue visuellement des distorsions de contraste liées à la quantification des signaux dans une image fixe.
Dans le mode de réalisation préféré décrit ci-après, le procédé d'estimation de la perception locale de contraste est appliquée au domaine 4:2:2, norme mondiale de codage dont les spécifications sont décrites dans la recommandation UIT-R BT.601-4, "Paramètres de codage de télévision numérique pour studios" de Y Union Internationale des Télécommunications.
La première étape du procédé consiste, dans un premier temps, à transformer les signaux numériques d'une image 4:2:2 entrante en valeur de luminance. La valeur théorique de la luminance L (en cd/m2) exprimée dans le domaine 4:2:2 sur N points de l'image est données par:
L = 70/2192-2 χ (N-16)2-2
(1)
avec γ=2,2, valeur nominale retenue pour la norme 4:2:2.
L'image test 8 et l'image de référence 9 sont divisées en sous ensembles d'image comme cela est représenté sur la figure 2. Un bloc d'image I de 16 points sur 16 points est défini, autour duquel est centrée une première fenêtre de 3 blocs sur 3 blocs (48 points sur 48 points), dans laquelle est calculée la luminance Lj : puis centrée une seconde fenêtre III de 5 blocs sur 5 blocs (80 points sur 80 points) dans laquelle la luminance d'adaptation La est calculée.
La valeur calculée de la luminance est alors appliquée au bloc courant. L'opération peut ainsi être répétée de blocs en blocs sur l'ensemble de l'image 4:2:2. La luminance d'adaptation La est la suivante:
i = N j = N
L0 λ _L
N X N Σ Σ L (2) y J = \ J = l
avec N=5xl6=80 points. Durant la seconde étape du procédé selon le mode de réalisation préféré de la présente invention, la luminance d'adaptation L
a ainsi que la luminance L
j : subissent un premier traitement non-linéaire ainsi qu'une adaptation locale au contexte lumineux, comme cela est représenté par le diagramme de la figure 3. Ce premier traitement non-linéaire 10 est de type logarithmique et opère au niveau rétinien comme une commande de gain variable d'adaptation à la lumière ambiante. E = L: : étant la luminance environnante avant et L; :* la luminance environnante après le même traitement non-linéaire 10, les luminances Li,j et La après le traitement 10 sont :
La*=ln[l+La/Lh]
(4)
Lj1 étant la luminance de coupure correspondant à la limitation du gain d'une ganglionnaire (dR/dL=K/[l+L/Lj1], avec R réponse d'une ganglionnaire) du fait de la limite physiologique liée à la vision diurne, cette luminance de coupure est d'environ 0,4 cd/m2. Le contraste intermédiaire ΔLj :* est obtenu par :
Λ T . . * = T . . * _ T =ι (5)
Puis, dans la troisième étape du procédé, ce contraste intermédiaire est filtré en 12 par un filtre spatial orienté correspondant à la sensibilité aux fréquences spatiales de l'oeil, c'est à dire, correspondant aux fréquences projetées sur la rétine (exprimées en cpd, cycles par degré). Cela est représenté sur la figure 3, et correspond à un traitement rétinien du contraste intermédiaire. L'expérience a montré que l'on pouvait utiliser de préférence un filtre centré sur 8 cpd. Ce filtre spatial isotrope visuel de luminance est de type passe-bande et est constitué par la différence de deux gaussiennes telles que:
avec: kc = 3,177 : paramètre qui conditionne le gain maximal du filtre, α = 3,6 : rapport de grandeur entre la gausienne centrale et la gausienne périphérique, σc = 0,666 minutes d'arc : écart type de la gausienne centrale, et ech = 1 : facteur d'échelle d'échantillonnage des valeurs des coefficients du filtre, sa valeur est prise autour de 1 minute d'arc puisque pour une perception
normalisée à 6 fois la hauteur d'un écran de télévision, la distance entre 2 points de l'écran est de 1 minute d'arc .
Comme cela est représenté sur la figure 4, dans une quatrième étape, le signal SQ = ΔL'J :* issu de la rétine est filtré en 13 de manière à séparer les fréquences horizontales et verticales des fréquences diagonales. Comme cela est représenté schématiquement sur la figure 5, du fait du traitement cortical, les fréquences pourront être de préférence séparées en fréquences horizontales et verticales des fréquences diagonales à partir d'un exemple de filtre bi-dimensionnel orienté dont le gabarit est représenté sur les figures 5 et 6. Dans une cinquième étape du procédé selon l'invention, les deux grandeurs obtenues, respectivement ΔL"j j*(Hv) et ΔL"j ;*(DIAG), subissent chacun un second traitement non-linéaire caractéristique de la réponse compressive d'un neurone à un contraste comme cela est représenté sur la figure 4. Ce traitement permet d'obtenir, pour chaque signal, la réponse neuronale au contraste point suivante:
ΔL' .** ΛT ' • •* ι,J + c0]m - κ0 (V
avec: m = 0,243 : exposant matérialisant la réponse compressive à un contraste pour simuler la réponse d'un neurone (m<l),
C0 = 0,067 : sensibilité au seuil de détection (ΔL=0) dans le mode de réalisation décrit, et
K0 = 0,518 : facteur permettant d'avoir une réponse nulle pour un contraste ΔL nul.
Puis, durant la sixième étape du procédé, est effectuée la. somme points à points (i et j compris entre 1 et N) des différences entre les contrastes intermédiaires ainsi obtenus selon les orientations horizontale/verticale, et diagonales, du bloc I courant de l'image de référence et du bloc I courant de l'image test. Dans cette somme la différence des contrastes intermédiaires selon l'orientation diagonale des fréquences est pondérée par un facteur k, de préférence égal à 0,5 du fait d'une moindre sensibilité de l'oeil aux fréquences diagonales. Pour obtenir la Perception Locale de Distorsions de Contraste (PLDC) relative, cette somme est divisée par la somme par orientations horizontale/verticale et diagonale
des contrastes intermédiaires ainsi obtenus du bloc I de l'image de référence selon l'équation suivante :
II u
Q
P avec k = 0,5 et N = 48 points, soit
U
Q
Le masquage des signaux faibles par les signaux forts est implicitement inclus dans le calcul de la fraction.
Le processus d'analyse pour mettre en relief des différences entre images s'effectue soit en comparant directement les images lorsque cela est possible
ou alors par mémorisation préalable à la suite d'un apprentissage. Notre calcul de perception des distorsions de quantification est donc basé sur la perception d'une différence entre l'image référence non codée et l'image test codée.
La présente invention tient compte du fait l'œil humain est sensible à une erreur relative par rapport au contraste local et non à une erreur absolue comme cela était considéré jusqu'à présent. L'observateur humain a un critère de décision constant pour le seuil de perception d'une distorsion de contraste. Or, il est considéré ici que la perception de la quantification est équivalente à une distorsion de contraste, c'est pourquoi la valeur de PLDC doit être constante au seuil de perception de la quantification quelque soit le contraste local, la fréquence spatiale et son orientation. Au dessous de cette valeur, il n'y a pas de perception d'une distorsion de contraste (perception de la quantification). L'estimation de la distorsion locale de contraste liée à la quantification qui est proposée est basée sur la perception d'une erreur relative à l'énergie locale du signal de référence et prend en compte les sensibilités différentes selon les orientations. Dans le cas d'un traitement selon les orientations horizontales et diagonales, les différences des contrastes intermédiaires selon les fréquences diagonales peuvent être avantageusement pondérées par k = 0,5.
La présente invention permet ainsi d'obtenir les valeurs de la perception de la distorsion locale de contraste liée à la quantification de l'image dans chaque blocs de celle-ci sur la base de critères de perception visuelle objectifs.
La présente invention est particulièrement bien adaptée pour le choix du pas de quantification d'une image traitée en 4:2:2 dans le domaine MPEG2, mais peut être appliquée à d'autre type de format d'image, comme par exemple au JPEG, sans sortir du cadre de l'invention, et est indépendante du type de codage numérique de signaux de télévision.