FR2806814A1

FR2806814A1 - Procede de reconnaissance et d'indexation de documents

Info

Publication number: FR2806814A1
Application number: FR0003639A
Authority: FR
Inventors: Stephane Berche; Laurent Najman
Original assignee: Oce Industries SA
Current assignee: Oce Print Logic Technologies SA
Priority date: 2000-03-22
Filing date: 2000-03-22
Publication date: 2001-09-28
Anticipated expiration: 2020-03-22
Also published as: EP1136938B1; US20010033690A1; DE60120810D1; JP4873787B2; DE60120810T2; JP2001312500A; EP1136938A1; US7319799B2; FR2806814B1

Abstract

Procédé de reconnaissance et d'indexation de documents consistant, à partir d'un numériseur relié à un ordinateur, tout d'abord à numériser (200) ces documents puis à désigner (250) au moyen d'un organe de pointage de l'ordinateur un point quelconque P d'au moins une case de ces documents et enfin à reconnaître par reconnaissance OCR (270) les caractères de cette case afin de les stocker (280) dans une première base de données reliée à l'ordinateur pour permettre une indexation des dessins ainsi numérisé. L'étape de désignation comprend une étape de recherche et d'identification de la case du document à laquelle appartient ledit point P désigné par l'utilisateur.

Description

Domaine de l'invention La présente invention se rapporte au domaine

spécifique de la

reconnaissance et de l'indexation de documents dans une base de données.

Elle vise tout particulièrement un dispositif et le procédé correspondant permettant l'indexation de dessins techniques et de formulaires à partir de la

reconnaissance de seulement certains de leurs éléments.

1o Art antérieur Les procédés de reconnaissance de documents sont multiples et sont bien connus. Ils mettent en oeuvre une étape initiale de numérisation suivie d'une étape de segmentation elle même suivie d'une étape de reconnaissance OCR. L'étape de segmentation (découpe du document) peut

1 porter sur tout (cas du " pleine page " classique) ou partie du document.

Toutefois. une telle méthode conventionnelle permettant ensuite une indexation automatique du document n'est envisageable que si le document à reconnaître n'est pas trop complexe. En outre, elle n'est pas appliquée en matière de dessins techniques. En effet, dans ce domaine spécifique, il est procédé seulement à la première étape de numérisation. les étapes de segmentation et de reconnaissance étant remrplacées par une étape effectuée directement par un opérateur et consistant en une saisie manuelle des éléments particuliers nécessaires à l'indexation du dessin, au niveau de une ou plusieurs zones de ce dessin (présentes en pratique dans son seul

2' cartouche).

On comprend dès lors que ce traitement devienne vite fastidieux lorsqu'il s'agit d'indexer plus d'une dizaine de dessins techniques éventuellement de types différents (c'est à dire avec des cartouches de formes différentes). Il existe donc actuellement un besoin non satisfait pour une méthode d'indexation à partir d'une reconnaissance automatique de ces dessins. Objet et définition de l'invention L'invention se propose donc de résoudre ce problème de façon simple et économique en mettant en oeuvre un procédé de reconnaissance et d'indexation de documents consistant, à partir d'un numériseur relié à un ordinateur, tout d'abord à numériser ces documents puis à désigner au moyen d'un organe de pointage de l'ordinateur un point quelconque P d'au moins une case de ces documents et enfin à reconnaître par reconnaissance OCR les caractères de cette case afin de les stocker dans une première base de données reliée à l'ordinateur pour permettre une indexation des documents ainsi numérisés. L'étape de désignation comprend une étape de recherche et d'identification de la case du document à laquelle appartient

ledit point P désigné par l'utilisateur.

Ainsi, avec le procédé de l'invention, la saisie manuelle antérieure se limite à une désignation de zones déterminées (appelées cases) à l'intérieure desquelles une reconnaissance automatique des éléments nécessaires à l'indexation d'un premier document de même type sont disponibles. Les documents à reconnaître et à indexer peuvent être constitués par un

ensemble de dessins techniques ou de formulaires de type distincts ou non.

L'étape de recherche et d'identification de ladite case est effectuée en appliquant un algorithme de recherche de forme sur une zone de recherche déterminée entourant ledit point P désigné préalablement par 2' l'utilisateur. Cet algorithme de recherche de forme peut être un algorithme à base de transformée de HOUGH ou un algorithme de projection qui compte le nombre de pixels présents dans chaque ligne verticale ou horizontale de ladite zone de recherche déterminée et, à partir de ces nombres, retrouve par l'examen de pics de profils de projection selon X et Y, les lignes

3o horizontales et verticales présentes dans cette zone de recherche.

Ainsi, en limitant la surface à laquelle l'algorithme est appliqué, on peut augmenter notablement sa vitesse d'exécution tout en limitant le

nombre d'itérations nécessaires pour reconnaitre une case du document.

De préférence. l'étape de numérisation est effectuée tout d'abord pour l'ensemble des documents à exploiter, lesdites étapes d'identification de la case et de reconnaissance OCR de son contenu étant ensuite effectuées successivement pour chacun de ces documents. Toutefois, cette étape de numérisation peut aussi être effectuée tout d'abord pour un premier document, lesdites étapes d'identification de la case et de reconnaissance OCR de son contenu étant ensuite effectuées pour ce même document, ces trois étapes se répétant successivement pour l'ensemble des documents à exploiter. L'invention se rapporte également au dispositif de reconnaissance et

d'indexation de documents mettant en oeuvre le procédé précédent.

Avantagyeusemnent, ce dispositif comporte en outre une seconde base de données reliée à l'ordinateur pour stocker des données (dites données de caractérisation) permettant une identification ultérieure automatique de la

case sans désignation préalable d'un point quelconque P de cette case.

Les bases de données peuvent être intégrées dans la mémoire de l'ordinateur ou extérieures à celui-ci. L'organe de pointage peut être remplacé par le clavier de l'ordinateur ou bien encore le doigt de l'utilisateur.

Brève description des dessins

258 D'autres caractéristiques et avantages de la présente invention

ressortiront mieux de la description suivante, faite à titre indicatif et nlon

limitatif, en regard des dessins annexés, sur lesquels: - la figure I représente un exemple de dessin technique, - la figure 2 montre un exemple de cartouche d'un dessin conforme à la o figure 1, - la figure 3 illustre la structure matérielle générale du dispositif de reconnaissance et d'indexation de documents selon l'invention, - la figure 4 est un organigiramme explicitant le fonctionnement du dispositif de la figure 3 lors de la reconnaissance et l'indexation du dessin de la figure 1, - la figure 5 est un organigramme détaillant la fonction de recherche et

d'identification d'une case du cartouche de la figure 2.

- la figure 6a représente une première zone de recherche incorporant une partie de la case à identifier, - les figures 6b et 6c illustrent des profils de projection obtenus à partir de la zone de recherche de la figure 6a, - la figure 7a représente une seconde zone de recherche incorporant une partie plus importante de la case à identifier, - les figures 7b et 7c illustrent des profils de projection obtenus à partir de la t zone de recherche de la figure 7a, - la figure Sa représente une troisième zone de recherche entourant complètement la case à identifier, et - les figures 8b et Sc illustrent des profils de projection obtenus à partir de la

zone de recherche de la 8igure 8.

Description détaillée d'un mode préférentiel de réalisation

Conformémenit aux figures 1 et 2, un dessin technique tel qu'un plan industriel 10 se compose essentiellement du dessin lui mème 12 et d'un cartouche 14 comportant plusieurs cases rectangulaires de dimensions diverses Ces différentes cases qui portent pour la plupart d'entre elles des mentions par-ticulières ne présentent pas toutes le nmême intérêt pour une indexation d'un dessin technique. Il en est ainsi par exemple de la mention de la projection, de l'échelle ou du format de ce dessin. Parmi les mentions qui importent lors d'une indexation, on distingue en général au moins une première case 16 comportant un numéro d'identification du dessin, une deuxième case 18 comportant un titre du dessin et une troisième case 20 comportant une mention de l'auteur du dessin. Bien entendu, ces trois mentions ne doivent en aucun cas être considérées comme limitatives, et on pourrait aussi bien envisager de prendre également en compte une date de la dernière mise à jour accessible dans une quatrième case 22 ou un numéro de

planche repérable dans une cinquième case 24.

La figure 3 montre l'architecture matérielle minimale nécessaire à unll ensemble informatique pour permettre, selon l'invention, la reconnaissance

et l'indexation de documents du type de la figure 1.

Cet ensemble comporte tout d'abord un numériseur ou scanner 30 pour effectuer une numérisation de documents (en l'espèce des plans) devant ensuite être indexés. Ce numériseur est relié à un ordinateur ou microordinateur de type conventionnel 32 muni de moyens logiciels 100 connus pour assurer cette nulmérisation. Une plremière base de données 34 reliée également à l'ordinateur 32 est prévue pour stocker les documents ainsi numérisés. On notera, que selon la capacité de stockage interne de cet ordinateur et le volume des données correspondant aux documents à numériser, cette première base de données 34 peut être soit externe, commre 2 illustré, soit directement logée en interne dans l'ordinateur. L'ordinateur comporte bien entendu des moyens logiciels 110 de gestion (création,

consultation, modification) de cette première base.

Pour assurer l'indexation des documents au niveau de la première base de données 34, il est prévu que l'ordinateur 32 comporte également des moyens logiciels 120 de reconnaissance OCR de type connu pour

reconnaître et identifier certains éléments particuliers de ces documents.

Toutefois, ces moyens de reconnaissance OCR sont commandés sous l'action de moyens logiciels spécifiques 130 en liaison avec une seconde base de données 38 contenant des données de caractérisation et permettant

3o un traitement particulièrement simple et rapide de ces documents.

En effet, selon l'invention, cette reconnaissance est effectuée seulement dans des zones déterminées du document, plus particulièrement, dans le cas d'un dessin technique, dans des cases de son cartouche localisées par l'utilisateur au moyen d'un organe de pointage 36 de l'ordinateur, tel qu'une souris, une boule de pointage ou tout autre dispositif équivalent (y compris le doigt de l'utilisateur dans le cas de recours à un écran tactile), lequel permet la désignation d'un point quelconque P de cette case. Eventuellement, en complément, pour améliorer encore le traitement, ces moyens logiciels 130 peuvent proposer à l'utilisateur à l'issue de cette io opération de désignation de définir le type de données à reconnaître dans la case ainsi désignée, par exemple une suite de caractères numériques (pour le numéro d'identification) ou une suite de caractères alphanumériques (pour

le titre ou le nom de l'auteur par exemple).

Le procédé mis en oeuvre dans le dispositif précédent, illustré à la figure 4, suit ainsi les étapes suivantes. Après une numérisation d'un premier document dans une première étape 200 par le numériseur 30 associé aux moyens logiciels 100, il est procédé dans une deuxième étape 210 à un stockage intermédiaire de l'image de ce document au niveau de la mémoire de l'ordinateur 32 ainsi, éventuellement simultanément, qu'à son affichage sur l'écran de visualisation de l'ordinateur (après si nécessaire une opération d'agrandissement dite aussi de << zoom "). Si les moyens logiciels de traitement 130 ne peuvent identifier le type de document numérisé à partir des données issues de la base de données de caractérisation 38 (test de l'étape 220), il est alors procédé à cette identification au cours des étapes suivantes du processus, et notamment, il est tout d'abord opéré, dans une étape 230, au moyen de l'organe de pointage 36 associé à ces moyens logiciels 130, à une désignation par l'utilisateur d'un point P d'une première zone déterminée de ce document, par exemple la case 16 du cartouche 14 du dessin comportant le numéro d'identification de ce dessin. Eventuellement, de façon facultative, comme l'illustre en pointillé l'étape 240, il est possible que l'utilisateur précise alors le type de caractères qui devront être reconnus dans cette case. Cette indication permet de limiter le choix des caractères à reconnaître (par exemple les seuls caractères numériques 0 à 9) et donc d'améliorer l'étape de reconnaissance OCR ultérieure. A partir de la désignation de ce point (dont les coordonnées sont alors déduites par rapport à un point origine prédéterminé), il est procédé dans une nouvelle étape 250 à la recherche et l'identification de la case à laquelle appartient ce point P (c'est à dire à celle de ou des lignes frontières de cette case comme explicité plus avant en regard de la figure 5) et, une fois cette identification effectuée (par exemple en affichant en surbrillance ou en couleur les contours de cette case) et ses éléments de caractérisation stockés dans la seconde base de données 38 dans une étape 260 (les coordonnées dimensionnelles de la case et la position de son centre sont ainsi mémorisées), il est procédé classiquement dans l'étape immédiatement suivante 270 à la reconnaissance OCR des caractères de cette case grâce aux moyens logiciels connus 120, la fin de cette opération de reconnaissance étant matérialisée par exemple par le fait que l'ordinateur "< rend la main >> à l'utilisateur. Les cinq étapes précédentes 230, éventuellement 240, 250, 260 et 270 sont ensuite reprises pour une seconde zone détenrminée, puis une suivante, jusqu'à une complète identification du document, c'est à dire jusqu'à ce que toutes les zones nécessaires à son indexation, et déterminées préalablement selon l'utilisation souhaitée, au niveau des moyens logiciels , soient prises en compte. Une fois cette opération effectuée, il est procédé, dans une nouvelle étape 280, au stockage de l'image numérisée dans la première base de données 34. Toutes les étapes précédentes sont répétées éventuellement pour un second type de document et, ainsi de suite, jusqu'à épuisement des documents à numériser et indexer. La consultation de la première base 34 sera ensuite possible par les moyens logiciels 110 qui permettront classiquement d'accéder à chacun des documents de la base selon le critère choisi par l'utilisateur et correspondant à un ou plusieurs des

éléments d'indexation retenus initialement.

En effet, et ceci est très important, les opérations de désignation précédentes ne sont réalisées que lors de l'indexation d'un premier document d'un type donné car, si les documents suivants à exploiter sont de même type, il est alors répondu par l'affinrmative au test de l'étape 220 et un pointage des mêmes différentes zones supports de l'indexation n'est alors plus nécessaire. Les moyens logiciels 130 ayant mémorisés les coordonnées des cases reconnues à l'issue des premières désignations dans la base de 1o données de caractérisation 38, il leur suffit alors simplement de rechercher à partir du point origine ces mêmes cases dans les documents suivants (cette ressemblance est testée sur la surface de la case et avec une certaine tolérance comme expliqué en regard de la figure 5) et après leur identification d'en analyser automatiquement le contenu par la reconnaissance OCR, sans la désignation préalable d'un point quelconque

de ces cases.

On comprend dès lors aisément que le procédé de l'invention est particulièrement rapide et efficace, puisque pour un ensemble de documents semblables, une fois la première identification d'un type donné de document, au cours de laquelle l'intervention de l'utilisateur est indispensable, les suivantes peuvent se poursuivre automatiquement sans nouvelle action de cet utilisateur. A chaque fois, la reconnaissance OCR ne porte que sur les éléments indispensables à l'indexation des documents et

non sur l'ensemble de celui-ci, comme dans l'art antérieur.

On notera également qu'à la numérisation " à l'unité " précitée (un document après l'autre), il est possible de substituer une numérisation par lot ou bien encore une numérisation complète (et alors automatique) de l'ensemble des documents à traiter (et à un stockage correspondant dans l'ordinateur), les étapes d'identification et de reconnaissance OCR s'effectuant seulement ensuite successivement pour chaque document de cet ensemble, une fois cette opération initiale de numérisation entièrement réalisée. La figure 5 montre les différentes opérations réalisées par le sous programme de recherche mis en oeuvre dans les moyens logiciels 130 et destiné à identifier une case détermninée à partir de la seule désignation par l'utilisateur d'un point P de cette case. Ces opérations sont basées sur l'application d'un algorithme de recherche de fonrme tel qu'un algorithme de projection ou une transfonnée de HOUGH (pour les formes rondes). En l'espèce, il est procédé à une application particulière d'un algorithme de projection connu en soi et qui consiste à compter le nombre de pixels présents dans chaque ligne verticale ou horizontale d'une image et, à partir de ces nombres, de retrouver par des profils de projection selon X et Y, les lignes horizontales et verticales de cette image (qui sont détenninées par des pics dans ces profils de projection). Cet algorithme présente l'intérêt de 1 5 procurer un rapport signal/bruit très élevé, car un éventuel << trou " dans une ligne (l'absence d'un pixel) modifie peu la hauteur d'un pic, de même qu'une éventuelle inclinaison d'une ligne n'affecte que peu la position de ce pic. Toutefois, selon l'invention, cet algorithme de projection n'est pas appliqué à l'ensemble du document mais simplement à une zone détermnninée de celui-ci (d'aire Si définie dans une étape première 300) définie autour du point désigné P lors de l'étape de pointage 220. Ainsi, à supposer que cette zone de recherche comprend entièrement la case à reconnaître, il suffit alors seulement d'effectuer une projection de toutes les lignes verticales à droite du point P pour retrouver le coté droit de la case (ce sera celle dont le pic est le plus important ou supérieur à un seuil donné). On fera de même avec les lignes verticales à gauche de ce point pour le coté gauche de la case et avec les lignes horizontales en haut et en bas de ce point pour retrouver respectivement les cotés haut et bas de cette case. Toutefois, en pratique, cette zone de recherche initiale est soit comprise dans celle de la case à identifier soit à cheval sur celle-ci (voir par exemple l'aire S1 de la figure 6a), et il convient donc d'accroître sa surface progressivement (par paliers déterminés successifs) jusqu'à ce qu'elle comprenne entièrement cette case pour parvenir à cette identification (voir l'aire S3 de la figure 8a). A chaque fois, il est fait application de l'algorithme de projection (étape 310). L'identification est achevée (test de l'étape 330) lorsque pour deux aires successives les positions des pics de projection déterminées à l'étape précédente 320 restent invariables. Les coordonnées de la case trouvée sont alors mémorisées dans une étape suivante 340 pour pouvoir ensuite être 0o utilisées pour une reconnaissance automatique des documents suivants. Un exemple de mrise en oeuvre de l'algorithme est illustré en regard des figures 6a à 8c qui montrent le processus mis en oeuvre pour l'identification par

exemple de la case 18 contenant une information à indexer.

On supposera que l'utilisateur a << cliqué " à l'extrême droite de cette case. Les moyens logiciels 130 créent alors une première zone de recherche rectangulaire d'aire SI1 autour de ce point qui, comme l'illustre la figure 6a, va comprendre un coté vertical droit 400 et deux parties des cotés horizontaux haut 402 et bas 404 de la case à identifier. L'application de l'algorithme de projection à cette première zone de recherche conduit aux projections horizontales et verticales des figures 6b et 6c. On remarque très bien, sur la figure 6b, les deux pics 412, 414 correspondant aux cotés horizontaux respectifs 402, 404, comme sur la figure 6c, on peut noter le seul pic 410 correspondant au coté vertical 400. Cette première analyse ne permettant pas l'identification de la case 18, il est procédé à un examen automatique d'une deuxième zone de recherche d'aire S2 qui, comme le montre la figure 7a, intègre toujours le coté vertical droit 400 et une partie, toutefois plus importante, des deux cotés horizontaux 402, 404. Le résultats des algorithmes de projection horizontale et verticale sont donnés aux figures 7b et 7c. On reconnaît les pics 410, 412, 414 et d'autres pics 418, 420, plus ou moins nets et correspondant à la mention <" gauche ", Il apparaissent à la fois sur la projection horizontale et sur la projection verticale. Enfin, cette seconde application de l'algorithme ne permettant toujours pas une identification complète de la case 18, il est définit automatiquement une troisième zone de recherche d'aire S3 qui cette fois englobe totalement la case 18 (voir la figure 8a), notamment entièrement ses cotés horizontaux 402, 404 mais également son coté vertical gauche 406. La projection horizontale résultant de l'algorithme correspondant est illustrée à la figure 8b avec ses deux pics 412, 414 correspondant aux deux cotés horizontaux 402, 404. Par contre, la projection verticale fait maintenant lo apparaître, outre la série de pics 420, non seulement le pic 410 correspondant au coté droit 400 de la case 18 mais également un nouveau pic 416 correspondant au coté gauche 406 de cette case, pennrmettant ainsi

une parfaite identification de la case 18.

Il est important de noter que, si le procédé et le dispositif de l'invention ont été décrits essentiellement au regard de la reconnaissance et l'indexation de dessins techniques, il est bien entendu envisageable de mettre en oeuvre ce procédé pour d'autres types de documents et, notamment, une application particulièrement intéressante est celle de la reconnaissance et l'indexation de formulaires, par exemple de type bon de commande (en matière de vente par correspondance notamment) ou encore feuille d'opérations. En effet, le traitement de tels formulaires suppose actuellement de les caractériser préalablement au moyen de symboles particuliers disposés en des endroits spécifiques de ces formulaires, lesquels symboles pennrmettront ensuite une identification automatique du type de formulaire. Dès lors, la caractérisation d'un formulaire est un processus long et complexe qui ne peut se justifier que pour la numérisation de

quantité importante de documents semblables.

Avec la présente invention, cette phase de caractérisation préalable disparaît au profit de l'étape de désignation/identification des seules cases

du formulaire à traiter.

Ainsi, le procédé d'identification est particulièrement rapide (ce qui est important quant il ne s'agit de traiter que quelques dessins techniques ou

formulaires), simple et utilisable par tout opérateur même très peu qualifié.

En outre, il est stable vis à vis de bruits de saisie éventuels résultant du

déplacement des documents numérisés.

Claims

REVENDICATIONS

1. Procédé de reconnaissance et d'indexation de documents (10) consistant, à partir d'un numériseur (30) relié à un ordinateur (32), tout d'abord à numériser (200) ces documents puis à désigner (250) au moyen d'un organe de pointage (36) de l'ordinateur un point quelconque P d'au moins une case (16-24) de ces documents et enfin à reconnaître par reconnaissance OCR (270) les caractères de cette case afin de les stocker (280) dans une première base de données (34) reliée à l'ordinateur pour

permettre une indexation des dessins ainsi numérisés.

2. Procédé selon la revendication 1, caractérisé en ce que ladite étape de désignation comprend une étape de recherche et d'identification de la

case du document à laquelle appartient ledit point P désigné par l'utilisateur.

3. Procédé selon la revendication 2, caractérisé en ce que ladite étape de recherche et d'identification de ladite case est effectuée en appliquant un algorithme de recherche de forme sur une zone de recherche détenninée

entourant ledit point P désigné préalablement par l'utilisateur.

4. Procédé selon la revendication 3, caractérisé en ce que ledit algorithme de recherche de fonrme est un algorithme de projection qui compte le nombre de pixels présents dans chaque ligne verticale ou horizontale de ladite zone de recherche déterminée et, à partir de ces nombres, retrouve par l'examen de pics de profils de projection selon X et Y, les lignes horizontales et verticales présentes dans cette zone de recherche.

5. Procédé selon la revendication 3, caractérisé en ce que ledit algorithme de recherche de forme est un algorithme à base de transformée

de HOUGH.

6. Procédé selon la revendication 1, caractérisé en ce que ladite étape de reconnaissance OCR est précédée par une étape (260) de définition par

l'utilisateur du type de caractère à reconnaître dans ladite case du document.

7. Procédé selon la revendication 1, caractérisé en ce que ladite étape de numérisation est effectuée tout d'abord pour l'ensemble des documents à exploiter, lesdites étapes d'identification de la case et de reconnaissance OCR de son contenu étant ensuite effectuées successivement pour chacun de ces documents.

8. Procédé selon la revendication 1, caractérisé en ce que ladite étape de numérisation est effectuée tout d'abord pour un premier document, lesdites étapes d'identification de la case et de reconnaissance OCR de son contenu étant ensuite effectuées pour ce même document, ces trois étapes se

o0 répétant successivement pour l'ensemble des documents à exploiter.

9. Procédé selon l'une quelconque des revendications 1 à 8,

caractérisé en ce que lesdits documents à reconnaître et à indexer sont

constitués par un ensemble de dessins techniques de type distincts ou non.

10. Procédé selon l'une quelconque des revendications 1 à 8,

caractérisé en ce que lesdits documents à reconnaître et à indexer sont

constitués par un ensemble de fonnulaires de type distincts ou non.

11. Dispositif de reconnaissance et d'indexation de documents (10) comportant un numériseur (30) pour numériser un document et délivrer une image de ce document, un ordinateur (32) relié au numériseur pour recevoir cette image numérisée, et une première base de données (34) reliée à cet ordinateur pour stocker cette image numérisée, caractérisé en ce qu'il comporte en outre des moyens logiciels (120, 130) pour désigner, au moyen d'un organe de pointage (36) de l'ordinateur, un point quelconque P d'au moins une case (16-24) de cette image, pour rechercher et identifier la case à laquelle appartient ledit point P désigné par l'utilisateur et pour reconnaître, par reconnaissance OCR, les caractères de cette case afin de

permnettre une indexation des images ainsi numérisées.

12. Dispositif selon la revendication 11, caractérisé en ce qu'il comporte en outre une seconde base de données (38) reliée à l'ordinateur (32) pour stocker des données (dites données de caractérisation) permettant une identification ultérieure automatique de la case sans désignation

préalable d'un point quelconque P de cette case.

13. Dispositif selon la revendication 11, caractérisé en ce qu'il comporte en outre des moyens logiciels (120, 130) pour définir le type de données à reconnaître dans ladite case du document.

14. Dispositif selon la revendication 11 ou la revendication 12, caractérisé en ce que les première (34) et deuxième (38) bases de données

sont intégrées dans la mémoire de l'ordinateur (32).

15. Dispositif selon la revendication 11, caractérisé en ce que ledit 1o organe de pointage est remplacé par le clavier de l'ordinateur (32) ou le

doigt de l'utilisateur.