[go: up one dir, main page]

FR2806814A1 - Procede de reconnaissance et d'indexation de documents - Google Patents

Procede de reconnaissance et d'indexation de documents Download PDF

Info

Publication number
FR2806814A1
FR2806814A1 FR0003639A FR0003639A FR2806814A1 FR 2806814 A1 FR2806814 A1 FR 2806814A1 FR 0003639 A FR0003639 A FR 0003639A FR 0003639 A FR0003639 A FR 0003639A FR 2806814 A1 FR2806814 A1 FR 2806814A1
Authority
FR
France
Prior art keywords
box
documents
computer
document
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0003639A
Other languages
English (en)
Other versions
FR2806814B1 (fr
Inventor
Stephane Berche
Laurent Najman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oce Print Logic Technologies SA
Original Assignee
Oce Industries SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oce Industries SA filed Critical Oce Industries SA
Priority to FR0003639A priority Critical patent/FR2806814B1/fr
Priority to DE60120810T priority patent/DE60120810T2/de
Priority to EP01200872A priority patent/EP1136938B1/fr
Priority to US09/813,955 priority patent/US7319799B2/en
Priority to JP2001082072A priority patent/JP4873787B2/ja
Publication of FR2806814A1 publication Critical patent/FR2806814A1/fr
Application granted granted Critical
Publication of FR2806814B1 publication Critical patent/FR2806814B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

Procédé de reconnaissance et d'indexation de documents consistant, à partir d'un numériseur relié à un ordinateur, tout d'abord à numériser (200) ces documents puis à désigner (250) au moyen d'un organe de pointage de l'ordinateur un point quelconque P d'au moins une case de ces documents et enfin à reconnaître par reconnaissance OCR (270) les caractères de cette case afin de les stocker (280) dans une première base de données reliée à l'ordinateur pour permettre une indexation des dessins ainsi numérisé. L'étape de désignation comprend une étape de recherche et d'identification de la case du document à laquelle appartient ledit point P désigné par l'utilisateur.

Description

Domaine de l'invention La présente invention se rapporte au domaine
spécifique de la
reconnaissance et de l'indexation de documents dans une base de données.
Elle vise tout particulièrement un dispositif et le procédé correspondant permettant l'indexation de dessins techniques et de formulaires à partir de la
reconnaissance de seulement certains de leurs éléments.
1o Art antérieur Les procédés de reconnaissance de documents sont multiples et sont bien connus. Ils mettent en oeuvre une étape initiale de numérisation suivie d'une étape de segmentation elle même suivie d'une étape de reconnaissance OCR. L'étape de segmentation (découpe du document) peut
1 porter sur tout (cas du " pleine page " classique) ou partie du document.
Toutefois. une telle méthode conventionnelle permettant ensuite une indexation automatique du document n'est envisageable que si le document à reconnaître n'est pas trop complexe. En outre, elle n'est pas appliquée en matière de dessins techniques. En effet, dans ce domaine spécifique, il est procédé seulement à la première étape de numérisation. les étapes de segmentation et de reconnaissance étant remrplacées par une étape effectuée directement par un opérateur et consistant en une saisie manuelle des éléments particuliers nécessaires à l'indexation du dessin, au niveau de une ou plusieurs zones de ce dessin (présentes en pratique dans son seul
2' cartouche).
On comprend dès lors que ce traitement devienne vite fastidieux lorsqu'il s'agit d'indexer plus d'une dizaine de dessins techniques éventuellement de types différents (c'est à dire avec des cartouches de formes différentes). Il existe donc actuellement un besoin non satisfait pour une méthode d'indexation à partir d'une reconnaissance automatique de ces dessins. Objet et définition de l'invention L'invention se propose donc de résoudre ce problème de façon simple et économique en mettant en oeuvre un procédé de reconnaissance et d'indexation de documents consistant, à partir d'un numériseur relié à un ordinateur, tout d'abord à numériser ces documents puis à désigner au moyen d'un organe de pointage de l'ordinateur un point quelconque P d'au moins une case de ces documents et enfin à reconnaître par reconnaissance OCR les caractères de cette case afin de les stocker dans une première base de données reliée à l'ordinateur pour permettre une indexation des documents ainsi numérisés. L'étape de désignation comprend une étape de recherche et d'identification de la case du document à laquelle appartient
ledit point P désigné par l'utilisateur.
Ainsi, avec le procédé de l'invention, la saisie manuelle antérieure se limite à une désignation de zones déterminées (appelées cases) à l'intérieure desquelles une reconnaissance automatique des éléments nécessaires à l'indexation d'un premier document de même type sont disponibles. Les documents à reconnaître et à indexer peuvent être constitués par un
ensemble de dessins techniques ou de formulaires de type distincts ou non.
L'étape de recherche et d'identification de ladite case est effectuée en appliquant un algorithme de recherche de forme sur une zone de recherche déterminée entourant ledit point P désigné préalablement par 2' l'utilisateur. Cet algorithme de recherche de forme peut être un algorithme à base de transformée de HOUGH ou un algorithme de projection qui compte le nombre de pixels présents dans chaque ligne verticale ou horizontale de ladite zone de recherche déterminée et, à partir de ces nombres, retrouve par l'examen de pics de profils de projection selon X et Y, les lignes
3o horizontales et verticales présentes dans cette zone de recherche.
Ainsi, en limitant la surface à laquelle l'algorithme est appliqué, on peut augmenter notablement sa vitesse d'exécution tout en limitant le
nombre d'itérations nécessaires pour reconnaitre une case du document.
De préférence. l'étape de numérisation est effectuée tout d'abord pour l'ensemble des documents à exploiter, lesdites étapes d'identification de la case et de reconnaissance OCR de son contenu étant ensuite effectuées successivement pour chacun de ces documents. Toutefois, cette étape de numérisation peut aussi être effectuée tout d'abord pour un premier document, lesdites étapes d'identification de la case et de reconnaissance OCR de son contenu étant ensuite effectuées pour ce même document, ces trois étapes se répétant successivement pour l'ensemble des documents à exploiter. L'invention se rapporte également au dispositif de reconnaissance et
d'indexation de documents mettant en oeuvre le procédé précédent.
Avantagyeusemnent, ce dispositif comporte en outre une seconde base de données reliée à l'ordinateur pour stocker des données (dites données de caractérisation) permettant une identification ultérieure automatique de la
case sans désignation préalable d'un point quelconque P de cette case.
Les bases de données peuvent être intégrées dans la mémoire de l'ordinateur ou extérieures à celui-ci. L'organe de pointage peut être remplacé par le clavier de l'ordinateur ou bien encore le doigt de l'utilisateur.
Brève description des dessins
258 D'autres caractéristiques et avantages de la présente invention
ressortiront mieux de la description suivante, faite à titre indicatif et nlon
limitatif, en regard des dessins annexés, sur lesquels: - la figure I représente un exemple de dessin technique, - la figure 2 montre un exemple de cartouche d'un dessin conforme à la o figure 1, - la figure 3 illustre la structure matérielle générale du dispositif de reconnaissance et d'indexation de documents selon l'invention, - la figure 4 est un organigiramme explicitant le fonctionnement du dispositif de la figure 3 lors de la reconnaissance et l'indexation du dessin de la figure 1, - la figure 5 est un organigramme détaillant la fonction de recherche et
d'identification d'une case du cartouche de la figure 2.
- la figure 6a représente une première zone de recherche incorporant une partie de la case à identifier, - les figures 6b et 6c illustrent des profils de projection obtenus à partir de la zone de recherche de la figure 6a, - la figure 7a représente une seconde zone de recherche incorporant une partie plus importante de la case à identifier, - les figures 7b et 7c illustrent des profils de projection obtenus à partir de la t zone de recherche de la figure 7a, - la figure Sa représente une troisième zone de recherche entourant complètement la case à identifier, et - les figures 8b et Sc illustrent des profils de projection obtenus à partir de la
zone de recherche de la 8igure 8.
Description détaillée d'un mode préférentiel de réalisation
Conformémenit aux figures 1 et 2, un dessin technique tel qu'un plan industriel 10 se compose essentiellement du dessin lui mème 12 et d'un cartouche 14 comportant plusieurs cases rectangulaires de dimensions diverses Ces différentes cases qui portent pour la plupart d'entre elles des mentions par-ticulières ne présentent pas toutes le nmême intérêt pour une indexation d'un dessin technique. Il en est ainsi par exemple de la mention de la projection, de l'échelle ou du format de ce dessin. Parmi les mentions qui importent lors d'une indexation, on distingue en général au moins une première case 16 comportant un numéro d'identification du dessin, une deuxième case 18 comportant un titre du dessin et une troisième case 20 comportant une mention de l'auteur du dessin. Bien entendu, ces trois mentions ne doivent en aucun cas être considérées comme limitatives, et on pourrait aussi bien envisager de prendre également en compte une date de la dernière mise à jour accessible dans une quatrième case 22 ou un numéro de
planche repérable dans une cinquième case 24.
La figure 3 montre l'architecture matérielle minimale nécessaire à unll ensemble informatique pour permettre, selon l'invention, la reconnaissance
et l'indexation de documents du type de la figure 1.
Cet ensemble comporte tout d'abord un numériseur ou scanner 30 pour effectuer une numérisation de documents (en l'espèce des plans) devant ensuite être indexés. Ce numériseur est relié à un ordinateur ou microordinateur de type conventionnel 32 muni de moyens logiciels 100 connus pour assurer cette nulmérisation. Une plremière base de données 34 reliée également à l'ordinateur 32 est prévue pour stocker les documents ainsi numérisés. On notera, que selon la capacité de stockage interne de cet ordinateur et le volume des données correspondant aux documents à numériser, cette première base de données 34 peut être soit externe, commre 2 illustré, soit directement logée en interne dans l'ordinateur. L'ordinateur comporte bien entendu des moyens logiciels 110 de gestion (création,
consultation, modification) de cette première base.
Pour assurer l'indexation des documents au niveau de la première base de données 34, il est prévu que l'ordinateur 32 comporte également des moyens logiciels 120 de reconnaissance OCR de type connu pour
reconnaître et identifier certains éléments particuliers de ces documents.
Toutefois, ces moyens de reconnaissance OCR sont commandés sous l'action de moyens logiciels spécifiques 130 en liaison avec une seconde base de données 38 contenant des données de caractérisation et permettant
3o un traitement particulièrement simple et rapide de ces documents.
En effet, selon l'invention, cette reconnaissance est effectuée seulement dans des zones déterminées du document, plus particulièrement, dans le cas d'un dessin technique, dans des cases de son cartouche localisées par l'utilisateur au moyen d'un organe de pointage 36 de l'ordinateur, tel qu'une souris, une boule de pointage ou tout autre dispositif équivalent (y compris le doigt de l'utilisateur dans le cas de recours à un écran tactile), lequel permet la désignation d'un point quelconque P de cette case. Eventuellement, en complément, pour améliorer encore le traitement, ces moyens logiciels 130 peuvent proposer à l'utilisateur à l'issue de cette io opération de désignation de définir le type de données à reconnaître dans la case ainsi désignée, par exemple une suite de caractères numériques (pour le numéro d'identification) ou une suite de caractères alphanumériques (pour
le titre ou le nom de l'auteur par exemple).
Le procédé mis en oeuvre dans le dispositif précédent, illustré à la figure 4, suit ainsi les étapes suivantes. Après une numérisation d'un premier document dans une première étape 200 par le numériseur 30 associé aux moyens logiciels 100, il est procédé dans une deuxième étape 210 à un stockage intermédiaire de l'image de ce document au niveau de la mémoire de l'ordinateur 32 ainsi, éventuellement simultanément, qu'à son affichage sur l'écran de visualisation de l'ordinateur (après si nécessaire une opération d'agrandissement dite aussi de << zoom "). Si les moyens logiciels de traitement 130 ne peuvent identifier le type de document numérisé à partir des données issues de la base de données de caractérisation 38 (test de l'étape 220), il est alors procédé à cette identification au cours des étapes suivantes du processus, et notamment, il est tout d'abord opéré, dans une étape 230, au moyen de l'organe de pointage 36 associé à ces moyens logiciels 130, à une désignation par l'utilisateur d'un point P d'une première zone déterminée de ce document, par exemple la case 16 du cartouche 14 du dessin comportant le numéro d'identification de ce dessin. Eventuellement, de façon facultative, comme l'illustre en pointillé l'étape 240, il est possible que l'utilisateur précise alors le type de caractères qui devront être reconnus dans cette case. Cette indication permet de limiter le choix des caractères à reconnaître (par exemple les seuls caractères numériques 0 à 9) et donc d'améliorer l'étape de reconnaissance OCR ultérieure. A partir de la désignation de ce point (dont les coordonnées sont alors déduites par rapport à un point origine prédéterminé), il est procédé dans une nouvelle étape 250 à la recherche et l'identification de la case à laquelle appartient ce point P (c'est à dire à celle de ou des lignes frontières de cette case comme explicité plus avant en regard de la figure 5) et, une fois cette identification effectuée (par exemple en affichant en surbrillance ou en couleur les contours de cette case) et ses éléments de caractérisation stockés dans la seconde base de données 38 dans une étape 260 (les coordonnées dimensionnelles de la case et la position de son centre sont ainsi mémorisées), il est procédé classiquement dans l'étape immédiatement suivante 270 à la reconnaissance OCR des caractères de cette case grâce aux moyens logiciels connus 120, la fin de cette opération de reconnaissance étant matérialisée par exemple par le fait que l'ordinateur "< rend la main >> à l'utilisateur. Les cinq étapes précédentes 230, éventuellement 240, 250, 260 et 270 sont ensuite reprises pour une seconde zone détenrminée, puis une suivante, jusqu'à une complète identification du document, c'est à dire jusqu'à ce que toutes les zones nécessaires à son indexation, et déterminées préalablement selon l'utilisation souhaitée, au niveau des moyens logiciels , soient prises en compte. Une fois cette opération effectuée, il est procédé, dans une nouvelle étape 280, au stockage de l'image numérisée dans la première base de données 34. Toutes les étapes précédentes sont répétées éventuellement pour un second type de document et, ainsi de suite, jusqu'à épuisement des documents à numériser et indexer. La consultation de la première base 34 sera ensuite possible par les moyens logiciels 110 qui permettront classiquement d'accéder à chacun des documents de la base selon le critère choisi par l'utilisateur et correspondant à un ou plusieurs des
éléments d'indexation retenus initialement.
En effet, et ceci est très important, les opérations de désignation précédentes ne sont réalisées que lors de l'indexation d'un premier document d'un type donné car, si les documents suivants à exploiter sont de même type, il est alors répondu par l'affinrmative au test de l'étape 220 et un pointage des mêmes différentes zones supports de l'indexation n'est alors plus nécessaire. Les moyens logiciels 130 ayant mémorisés les coordonnées des cases reconnues à l'issue des premières désignations dans la base de 1o données de caractérisation 38, il leur suffit alors simplement de rechercher à partir du point origine ces mêmes cases dans les documents suivants (cette ressemblance est testée sur la surface de la case et avec une certaine tolérance comme expliqué en regard de la figure 5) et après leur identification d'en analyser automatiquement le contenu par la reconnaissance OCR, sans la désignation préalable d'un point quelconque
de ces cases.
On comprend dès lors aisément que le procédé de l'invention est particulièrement rapide et efficace, puisque pour un ensemble de documents semblables, une fois la première identification d'un type donné de document, au cours de laquelle l'intervention de l'utilisateur est indispensable, les suivantes peuvent se poursuivre automatiquement sans nouvelle action de cet utilisateur. A chaque fois, la reconnaissance OCR ne porte que sur les éléments indispensables à l'indexation des documents et
non sur l'ensemble de celui-ci, comme dans l'art antérieur.
On notera également qu'à la numérisation " à l'unité " précitée (un document après l'autre), il est possible de substituer une numérisation par lot ou bien encore une numérisation complète (et alors automatique) de l'ensemble des documents à traiter (et à un stockage correspondant dans l'ordinateur), les étapes d'identification et de reconnaissance OCR s'effectuant seulement ensuite successivement pour chaque document de cet ensemble, une fois cette opération initiale de numérisation entièrement réalisée. La figure 5 montre les différentes opérations réalisées par le sous programme de recherche mis en oeuvre dans les moyens logiciels 130 et destiné à identifier une case détermninée à partir de la seule désignation par l'utilisateur d'un point P de cette case. Ces opérations sont basées sur l'application d'un algorithme de recherche de fonrme tel qu'un algorithme de projection ou une transfonnée de HOUGH (pour les formes rondes). En l'espèce, il est procédé à une application particulière d'un algorithme de projection connu en soi et qui consiste à compter le nombre de pixels présents dans chaque ligne verticale ou horizontale d'une image et, à partir de ces nombres, de retrouver par des profils de projection selon X et Y, les lignes horizontales et verticales de cette image (qui sont détenninées par des pics dans ces profils de projection). Cet algorithme présente l'intérêt de 1 5 procurer un rapport signal/bruit très élevé, car un éventuel << trou " dans une ligne (l'absence d'un pixel) modifie peu la hauteur d'un pic, de même qu'une éventuelle inclinaison d'une ligne n'affecte que peu la position de ce pic. Toutefois, selon l'invention, cet algorithme de projection n'est pas appliqué à l'ensemble du document mais simplement à une zone détermnninée de celui-ci (d'aire Si définie dans une étape première 300) définie autour du point désigné P lors de l'étape de pointage 220. Ainsi, à supposer que cette zone de recherche comprend entièrement la case à reconnaître, il suffit alors seulement d'effectuer une projection de toutes les lignes verticales à droite du point P pour retrouver le coté droit de la case (ce sera celle dont le pic est le plus important ou supérieur à un seuil donné). On fera de même avec les lignes verticales à gauche de ce point pour le coté gauche de la case et avec les lignes horizontales en haut et en bas de ce point pour retrouver respectivement les cotés haut et bas de cette case. Toutefois, en pratique, cette zone de recherche initiale est soit comprise dans celle de la case à identifier soit à cheval sur celle-ci (voir par exemple l'aire S1 de la figure 6a), et il convient donc d'accroître sa surface progressivement (par paliers déterminés successifs) jusqu'à ce qu'elle comprenne entièrement cette case pour parvenir à cette identification (voir l'aire S3 de la figure 8a). A chaque fois, il est fait application de l'algorithme de projection (étape 310). L'identification est achevée (test de l'étape 330) lorsque pour deux aires successives les positions des pics de projection déterminées à l'étape précédente 320 restent invariables. Les coordonnées de la case trouvée sont alors mémorisées dans une étape suivante 340 pour pouvoir ensuite être 0o utilisées pour une reconnaissance automatique des documents suivants. Un exemple de mrise en oeuvre de l'algorithme est illustré en regard des figures 6a à 8c qui montrent le processus mis en oeuvre pour l'identification par
exemple de la case 18 contenant une information à indexer.
On supposera que l'utilisateur a << cliqué " à l'extrême droite de cette case. Les moyens logiciels 130 créent alors une première zone de recherche rectangulaire d'aire SI1 autour de ce point qui, comme l'illustre la figure 6a, va comprendre un coté vertical droit 400 et deux parties des cotés horizontaux haut 402 et bas 404 de la case à identifier. L'application de l'algorithme de projection à cette première zone de recherche conduit aux projections horizontales et verticales des figures 6b et 6c. On remarque très bien, sur la figure 6b, les deux pics 412, 414 correspondant aux cotés horizontaux respectifs 402, 404, comme sur la figure 6c, on peut noter le seul pic 410 correspondant au coté vertical 400. Cette première analyse ne permettant pas l'identification de la case 18, il est procédé à un examen automatique d'une deuxième zone de recherche d'aire S2 qui, comme le montre la figure 7a, intègre toujours le coté vertical droit 400 et une partie, toutefois plus importante, des deux cotés horizontaux 402, 404. Le résultats des algorithmes de projection horizontale et verticale sont donnés aux figures 7b et 7c. On reconnaît les pics 410, 412, 414 et d'autres pics 418, 420, plus ou moins nets et correspondant à la mention <" gauche ", Il apparaissent à la fois sur la projection horizontale et sur la projection verticale. Enfin, cette seconde application de l'algorithme ne permettant toujours pas une identification complète de la case 18, il est définit automatiquement une troisième zone de recherche d'aire S3 qui cette fois englobe totalement la case 18 (voir la figure 8a), notamment entièrement ses cotés horizontaux 402, 404 mais également son coté vertical gauche 406. La projection horizontale résultant de l'algorithme correspondant est illustrée à la figure 8b avec ses deux pics 412, 414 correspondant aux deux cotés horizontaux 402, 404. Par contre, la projection verticale fait maintenant lo apparaître, outre la série de pics 420, non seulement le pic 410 correspondant au coté droit 400 de la case 18 mais également un nouveau pic 416 correspondant au coté gauche 406 de cette case, pennrmettant ainsi
une parfaite identification de la case 18.
Il est important de noter que, si le procédé et le dispositif de l'invention ont été décrits essentiellement au regard de la reconnaissance et l'indexation de dessins techniques, il est bien entendu envisageable de mettre en oeuvre ce procédé pour d'autres types de documents et, notamment, une application particulièrement intéressante est celle de la reconnaissance et l'indexation de formulaires, par exemple de type bon de commande (en matière de vente par correspondance notamment) ou encore feuille d'opérations. En effet, le traitement de tels formulaires suppose actuellement de les caractériser préalablement au moyen de symboles particuliers disposés en des endroits spécifiques de ces formulaires, lesquels symboles pennrmettront ensuite une identification automatique du type de formulaire. Dès lors, la caractérisation d'un formulaire est un processus long et complexe qui ne peut se justifier que pour la numérisation de
quantité importante de documents semblables.
Avec la présente invention, cette phase de caractérisation préalable disparaît au profit de l'étape de désignation/identification des seules cases
du formulaire à traiter.
Ainsi, le procédé d'identification est particulièrement rapide (ce qui est important quant il ne s'agit de traiter que quelques dessins techniques ou
formulaires), simple et utilisable par tout opérateur même très peu qualifié.
En outre, il est stable vis à vis de bruits de saisie éventuels résultant du
déplacement des documents numérisés.

Claims (15)

REVENDICATIONS
1. Procédé de reconnaissance et d'indexation de documents (10) consistant, à partir d'un numériseur (30) relié à un ordinateur (32), tout d'abord à numériser (200) ces documents puis à désigner (250) au moyen d'un organe de pointage (36) de l'ordinateur un point quelconque P d'au moins une case (16-24) de ces documents et enfin à reconnaître par reconnaissance OCR (270) les caractères de cette case afin de les stocker (280) dans une première base de données (34) reliée à l'ordinateur pour
permettre une indexation des dessins ainsi numérisés.
2. Procédé selon la revendication 1, caractérisé en ce que ladite étape de désignation comprend une étape de recherche et d'identification de la
case du document à laquelle appartient ledit point P désigné par l'utilisateur.
3. Procédé selon la revendication 2, caractérisé en ce que ladite étape de recherche et d'identification de ladite case est effectuée en appliquant un algorithme de recherche de forme sur une zone de recherche détenninée
entourant ledit point P désigné préalablement par l'utilisateur.
4. Procédé selon la revendication 3, caractérisé en ce que ledit algorithme de recherche de fonrme est un algorithme de projection qui compte le nombre de pixels présents dans chaque ligne verticale ou horizontale de ladite zone de recherche déterminée et, à partir de ces nombres, retrouve par l'examen de pics de profils de projection selon X et Y, les lignes horizontales et verticales présentes dans cette zone de recherche.
5. Procédé selon la revendication 3, caractérisé en ce que ledit algorithme de recherche de forme est un algorithme à base de transformée
de HOUGH.
6. Procédé selon la revendication 1, caractérisé en ce que ladite étape de reconnaissance OCR est précédée par une étape (260) de définition par
l'utilisateur du type de caractère à reconnaître dans ladite case du document.
7. Procédé selon la revendication 1, caractérisé en ce que ladite étape de numérisation est effectuée tout d'abord pour l'ensemble des documents à exploiter, lesdites étapes d'identification de la case et de reconnaissance OCR de son contenu étant ensuite effectuées successivement pour chacun de ces documents.
8. Procédé selon la revendication 1, caractérisé en ce que ladite étape de numérisation est effectuée tout d'abord pour un premier document, lesdites étapes d'identification de la case et de reconnaissance OCR de son contenu étant ensuite effectuées pour ce même document, ces trois étapes se
o0 répétant successivement pour l'ensemble des documents à exploiter.
9. Procédé selon l'une quelconque des revendications 1 à 8,
caractérisé en ce que lesdits documents à reconnaître et à indexer sont
constitués par un ensemble de dessins techniques de type distincts ou non.
10. Procédé selon l'une quelconque des revendications 1 à 8,
caractérisé en ce que lesdits documents à reconnaître et à indexer sont
constitués par un ensemble de fonnulaires de type distincts ou non.
11. Dispositif de reconnaissance et d'indexation de documents (10) comportant un numériseur (30) pour numériser un document et délivrer une image de ce document, un ordinateur (32) relié au numériseur pour recevoir cette image numérisée, et une première base de données (34) reliée à cet ordinateur pour stocker cette image numérisée, caractérisé en ce qu'il comporte en outre des moyens logiciels (120, 130) pour désigner, au moyen d'un organe de pointage (36) de l'ordinateur, un point quelconque P d'au moins une case (16-24) de cette image, pour rechercher et identifier la case à laquelle appartient ledit point P désigné par l'utilisateur et pour reconnaître, par reconnaissance OCR, les caractères de cette case afin de
permnettre une indexation des images ainsi numérisées.
12. Dispositif selon la revendication 11, caractérisé en ce qu'il comporte en outre une seconde base de données (38) reliée à l'ordinateur (32) pour stocker des données (dites données de caractérisation) permettant une identification ultérieure automatique de la case sans désignation
préalable d'un point quelconque P de cette case.
13. Dispositif selon la revendication 11, caractérisé en ce qu'il comporte en outre des moyens logiciels (120, 130) pour définir le type de données à reconnaître dans ladite case du document.
14. Dispositif selon la revendication 11 ou la revendication 12, caractérisé en ce que les première (34) et deuxième (38) bases de données
sont intégrées dans la mémoire de l'ordinateur (32).
15. Dispositif selon la revendication 11, caractérisé en ce que ledit 1o organe de pointage est remplacé par le clavier de l'ordinateur (32) ou le
doigt de l'utilisateur.
FR0003639A 2000-03-22 2000-03-22 Procede de reconnaissance et d'indexation de documents Expired - Fee Related FR2806814B1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
FR0003639A FR2806814B1 (fr) 2000-03-22 2000-03-22 Procede de reconnaissance et d'indexation de documents
DE60120810T DE60120810T2 (de) 2000-03-22 2001-03-09 Verfahren zur Dokumenterkennung und -indexierung
EP01200872A EP1136938B1 (fr) 2000-03-22 2001-03-09 Procédé de reconnaissance et d'indexation de documents
US09/813,955 US7319799B2 (en) 2000-03-22 2001-03-22 Method of recognizing and indexing documents
JP2001082072A JP4873787B2 (ja) 2000-03-22 2001-03-22 文書を認識及びインデックスする方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0003639A FR2806814B1 (fr) 2000-03-22 2000-03-22 Procede de reconnaissance et d'indexation de documents

Publications (2)

Publication Number Publication Date
FR2806814A1 true FR2806814A1 (fr) 2001-09-28
FR2806814B1 FR2806814B1 (fr) 2006-02-03

Family

ID=8848371

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0003639A Expired - Fee Related FR2806814B1 (fr) 2000-03-22 2000-03-22 Procede de reconnaissance et d'indexation de documents

Country Status (5)

Country Link
US (1) US7319799B2 (fr)
EP (1) EP1136938B1 (fr)
JP (1) JP4873787B2 (fr)
DE (1) DE60120810T2 (fr)
FR (1) FR2806814B1 (fr)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE356389T1 (de) * 2003-08-20 2007-03-15 Oce Tech Bv Dokumentenscanner
CN100382096C (zh) 2003-08-20 2008-04-16 奥西-技术有限公司 文档扫描设备及方法
US20050185225A1 (en) * 2003-12-12 2005-08-25 Brawn Dennis E. Methods and apparatus for imaging documents
GB2413420A (en) * 2004-04-23 2005-10-26 Hewlett Packard Development Co Interactive document reading
GB2415519A (en) * 2004-06-24 2005-12-28 Canon Europa Nv A scanning and indexing device
EP1791088A4 (fr) * 2004-09-14 2009-04-15 Nec Corp Système de collation de données, dispositif de collation de données et méthode de collation de données
US8102383B2 (en) 2005-03-18 2012-01-24 The Invention Science Fund I, Llc Performing an action with respect to a hand-formed expression
US7809215B2 (en) 2006-10-11 2010-10-05 The Invention Science Fund I, Llc Contextual information encoded in a formed expression
US8599174B2 (en) * 2005-03-18 2013-12-03 The Invention Science Fund I, Llc Verifying a written expression
US8340476B2 (en) 2005-03-18 2012-12-25 The Invention Science Fund I, Llc Electronic acquisition of a hand formed expression and a context of the expression
US8787706B2 (en) * 2005-03-18 2014-07-22 The Invention Science Fund I, Llc Acquisition of a user expression and an environment of the expression
US20070273674A1 (en) * 2005-03-18 2007-11-29 Searete Llc, A Limited Liability Corporation Machine-differentiatable identifiers having a commonly accepted meaning
US7826687B2 (en) 2005-03-18 2010-11-02 The Invention Science Fund I, Llc Including contextual information with a formed expression
US8749480B2 (en) * 2005-03-18 2014-06-10 The Invention Science Fund I, Llc Article having a writing portion and preformed identifiers
US8229252B2 (en) * 2005-03-18 2012-07-24 The Invention Science Fund I, Llc Electronic association of a user expression and a context of the expression
US7760917B2 (en) * 2005-05-09 2010-07-20 Like.Com Computer-implemented method for performing similarity searches
US7657100B2 (en) 2005-05-09 2010-02-02 Like.Com System and method for enabling image recognition and searching of images
US7783135B2 (en) 2005-05-09 2010-08-24 Like.Com System and method for providing objectified image renderings using recognition information from images
US7542610B2 (en) * 2005-05-09 2009-06-02 Like.Com System and method for use of images with recognition analysis
US8732025B2 (en) 2005-05-09 2014-05-20 Google Inc. System and method for enabling image recognition and searching of remote content on display
US7660468B2 (en) * 2005-05-09 2010-02-09 Like.Com System and method for enabling image searching using manual enrichment, classification, and/or segmentation
US7809722B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for enabling search and retrieval from image files based on recognized information
EP1889207A4 (fr) * 2005-05-09 2012-12-12 Google Inc Systeme et procede permettant l'utilisation d'images capturees par reconnaissance
US7809192B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for recognizing objects from images and identifying relevancy amongst images and information
US7519200B2 (en) * 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
US7945099B2 (en) 2005-05-09 2011-05-17 Like.Com System and method for use of images with recognition analysis
US20080177640A1 (en) 2005-05-09 2008-07-24 Salih Burak Gokturk System and method for using image analysis and search in e-commerce
US7657126B2 (en) * 2005-05-09 2010-02-02 Like.Com System and method for search portions of objects in images and features thereof
WO2007041647A2 (fr) * 2005-10-03 2007-04-12 Riya, Inc. Systeme et procede destines permettant d'utiliser des images par une analyse de reconnaissance
US9690979B2 (en) 2006-03-12 2017-06-27 Google Inc. Techniques for enabling or establishing the use of face recognition algorithms
US8571272B2 (en) * 2006-03-12 2013-10-29 Google Inc. Techniques for enabling or establishing the use of face recognition algorithms
US20070300295A1 (en) * 2006-06-22 2007-12-27 Thomas Yu-Kiu Kwok Systems and methods to extract data automatically from a composite electronic document
US8233702B2 (en) * 2006-08-18 2012-07-31 Google Inc. Computer implemented technique for analyzing images
US7986843B2 (en) 2006-11-29 2011-07-26 Google Inc. Digital image archiving and retrieval in a mobile device system
US20080162602A1 (en) * 2006-12-28 2008-07-03 Google Inc. Document archiving system
US8416981B2 (en) * 2007-07-29 2013-04-09 Google Inc. System and method for displaying contextual supplemental content based on image content
US20090282009A1 (en) * 2008-05-09 2009-11-12 Tags Ltd System, method, and program product for automated grading
AU2009270946A1 (en) * 2008-07-14 2010-01-21 Google Inc. System and method for using supplemental content items for search criteria for identifying other content items of interest
US9396540B1 (en) * 2012-03-28 2016-07-19 Emc Corporation Method and system for identifying anchors for fields using optical character recognition data
US9645729B2 (en) * 2012-10-18 2017-05-09 Texas Instruments Incorporated Precise object selection in touch sensing systems
US9811925B2 (en) 2014-10-15 2017-11-07 Texas Instruments Incorporated Method and apparatus to render lines on a display screen
JP2021149439A (ja) * 2020-03-18 2021-09-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
US11823476B2 (en) 2021-05-25 2023-11-21 Bank Of America Corporation Contextual analysis for digital image processing

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996030860A2 (fr) * 1995-03-24 1996-10-03 United Parcel Service Of America, Inc. Procede et apprareil pour enlever des lignes superposees et restaurer des valeurs de pixel dans des images contenant des motifs repetitifs
EP0851382A2 (fr) * 1996-12-27 1998-07-01 Fujitsu Limited Appareil et méthode d'extraction d'information de gestion lors d'une image
US5815595A (en) * 1995-12-29 1998-09-29 Seiko Epson Corporation Method and apparatus for identifying text fields and checkboxes in digitized images
US5822454A (en) * 1995-04-10 1998-10-13 Rebus Technology, Inc. System and method for automatic page registration and automatic zone detection during forms processing
US5966473A (en) * 1996-11-28 1999-10-12 International Business Machines Corporation Method and apparatus for recognizing a quadrilateral object contained in an input bitmap image

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0488489A (ja) * 1990-08-01 1992-03-23 Internatl Business Mach Corp <Ibm> 一般化ハフ変換を用いた文字認識装置および方法
JPH09325854A (ja) * 1996-06-05 1997-12-16 Sharp Corp 画像処理型座標入力装置
JPH10240958A (ja) * 1996-12-27 1998-09-11 Fujitsu Ltd 画像から管理情報を抽出する管理情報抽出装置および方法
US6621941B1 (en) * 1998-12-18 2003-09-16 Xerox Corporation System of indexing a two dimensional pattern in a document drawing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996030860A2 (fr) * 1995-03-24 1996-10-03 United Parcel Service Of America, Inc. Procede et apprareil pour enlever des lignes superposees et restaurer des valeurs de pixel dans des images contenant des motifs repetitifs
US5822454A (en) * 1995-04-10 1998-10-13 Rebus Technology, Inc. System and method for automatic page registration and automatic zone detection during forms processing
US5815595A (en) * 1995-12-29 1998-09-29 Seiko Epson Corporation Method and apparatus for identifying text fields and checkboxes in digitized images
US5966473A (en) * 1996-11-28 1999-10-12 International Business Machines Corporation Method and apparatus for recognizing a quadrilateral object contained in an input bitmap image
EP0851382A2 (fr) * 1996-12-27 1998-07-01 Fujitsu Limited Appareil et méthode d'extraction d'information de gestion lors d'une image

Also Published As

Publication number Publication date
EP1136938B1 (fr) 2006-06-21
US20010033690A1 (en) 2001-10-25
DE60120810D1 (de) 2006-08-03
JP4873787B2 (ja) 2012-02-08
DE60120810T2 (de) 2006-12-07
JP2001312500A (ja) 2001-11-09
EP1136938A1 (fr) 2001-09-26
US7319799B2 (en) 2008-01-15
FR2806814B1 (fr) 2006-02-03

Similar Documents

Publication Publication Date Title
FR2806814A1 (fr) Procede de reconnaissance et d&#39;indexation de documents
CN102156751B (zh) 一种提取视频指纹的方法及装置
US9824299B2 (en) Automatic image duplication identification
FR2845236A1 (fr) Systemes et procedes pour inserer une etiquette de metadonnees dans un document
FR2977692A1 (fr) Enrichissement de document electronique
FR2822261A1 (fr) Procede de navigation par calcul de groupes, recepteur mettant en oeuvre le procede, et interface graphique pour la presentation du procede
EP0261997A1 (fr) Procédé de reconnaissance d&#39;écriture manuscrite
US20150347818A1 (en) Method, system, and application for obtaining complete resource according to blob images
FR2807849A1 (fr) Procede et systeme de recherche et d&#39;aide au choix
Ramel et al. AGORA: the interactive document image analysis tool of the BVH project
Kuzovkin et al. Image selection in photo albums
FR2807852A1 (fr) Procedes et dispositifs d&#39;indexation et de recherche d&#39;images numeriques prenant en compte la distribution spatiale du contenu des images
EP3202115B1 (fr) Procédé et dispositif de mise en relations d&#39;un ensemble d&#39;informations
US7755646B2 (en) Image management through lexical representations
FR2743416A1 (fr) Procede de comparaison de douilles projectiles et dispositif
US9626596B1 (en) Image variation engine
FR3050551A1 (fr) Procede de copie d&#39;ecran
JPH10254901A (ja) 画像検索方法および装置
CN108459928B (zh) 一种相关数据关联可视化方法、终端设备及存储介质
EP1525553A2 (fr) Procede et systeme de localisation automatique de zones de texte dans une image
EP2388973B1 (fr) Procédé de récupération automatique de documents annexes dans une édition multimédia
KR100882274B1 (ko) 부분 동적 시간 정합을 이용한 이미지 검색 장치 및 방법
FR2805063A1 (fr) Methode de gestion informatisee de dessins industriels
FR2980861A1 (fr) Procede d&#39;affichage d&#39;un contenu numerique sur un ecran
EP0938699A1 (fr) Interface pour cederoms

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20071130