[go: up one dir, main page]

CN102592121B - 一种ocr漏识判断方法及系统 - Google Patents

一种ocr漏识判断方法及系统 Download PDF

Info

Publication number
CN102592121B
CN102592121B CN2011104463653A CN201110446365A CN102592121B CN 102592121 B CN102592121 B CN 102592121B CN 2011104463653 A CN2011104463653 A CN 2011104463653A CN 201110446365 A CN201110446365 A CN 201110446365A CN 102592121 B CN102592121 B CN 102592121B
Authority
CN
China
Prior art keywords
word
ocr
image
rectangle frame
unicom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2011104463653A
Other languages
English (en)
Other versions
CN102592121A (zh
Inventor
兰荣春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Founder International Co Ltd
Original Assignee
Founder International Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder International Co Ltd filed Critical Founder International Co Ltd
Priority to CN2011104463653A priority Critical patent/CN102592121B/zh
Publication of CN102592121A publication Critical patent/CN102592121A/zh
Application granted granted Critical
Publication of CN102592121B publication Critical patent/CN102592121B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种OCR漏识判断方法及系统,涉及计算机文字识别处理技术领域。本发明使用OCR提供的文字矩形坐标从矩形四边向外做图像增长,将与矩形框相邻的黑点也视作文字的像素点,得到一个文字的所有像素点的列表。然后删除该文字的所有像素点,直到完成所有文字的处理,得到OCR的漏识区,再经过联通区扫描,过滤图像和噪点,最终将OCR漏识的文字输出。本发明解决书籍加工人员在查找漏识区间时的繁重工作,通过自动搜索识别后的图象,得到OCR的漏识区,输出漏识的文字。

Description

一种OCR漏识判断方法及系统
技术领域
本发明涉及计算机文字识别处理技术领域,尤其涉及一种基于图像区域增长算法的OCR漏识判断方法及系统。
背景技术
随着计算机技术及数字化技术的不断发展,需要将传统的纸质书籍、文档、报纸等电子化。在将这些物理实体数据到电子数据的转换加工过程中,纸质的书籍、文档、报纸最终转换为电子数据(TXT、WORD,PDF等格式的电子文件),不可避免的使用文字识别技术(OCR技术,OpticalCharacter Recognition,光学字符识别)。
基于图书数字化加工的特点,要求有效图像内容不能“丢失”,现在的有很多OCR引擎,如汉王,ABBYY,文通等。这些OCR技术虽然已经比较成熟,但在应用过程中并不能完全满足实际的需求,特别是OCR的漏识问题。
OCR漏识的原因主要是:
1.被识别文档本身的原因,如印刷的油墨问题,或者被识别文档年代久远或破损,字迹模糊不清晰等;
2.扫描文档时存在的问题,如扫描的质量,图像的分辨率等,容易造成文字笔画不规则,为后续的正确识别造成障碍;
3.OCR技术本身给出的文字坐标不能将整个文字包围,也会造成漏识。
OCR漏识后,就会造成了页面有效内容的丢失,现在采用通过识别后的文字与原图人工对比查找漏识区的方法,效率低。
因此,在OCR识别过程中,OCR识别图像的正确性与效率固然重要,但如何找到OCR的漏识区间也是非常重要的。目前还未见针对OCR识别中的漏识问题提出的技术解决方案及相关文献。
发明内容
针对现有技术中所存在的不足,本发明的目的在于提供一种能够快速找到OCR过程中的漏识区间的基于图像区域增长算法的OCR漏识判断方法及系统。
为实现上述发明目的,本发明采用的技术方案如下:
一种OCR漏识判断方法,包括以下步骤:
(1)数据输入:输入原始图像,所述的原始图像为二值图;
(2)对输入的原始图像进行OCR识别,输出识别结果;
(3)漏识判断:根据步骤(2)中的输出识别结果,判断漏识区间;
(4)搜索漏识区间里的联通区,过滤图像与噪点;
(5)输出漏识文字。
进一步,步骤(2)中所述的输出识别结果包括识别出的文字及其矩形坐标即矩形框。
进一步,步骤(3)中,判断漏识区间的方法如下:对输出的文字逐个处理,判断文字笔画是否全部在矩形框内,如果不是,则根据输出的该文字的矩形坐标从矩形四边向外做图像增长,将与矩形框相邻的黑点也视作该文字的像素点,得到该文字的所有像素点,从图像中删除该文字的所有像素点;如果是,则继续处理下一个文字,直到完成所有文字的处理,最后就得到了图像中的漏识区间。
更进一步,在对文字的矩形框作增长时,具体方法是:从矩形框边缘开始,遇与文字连接有效像素点的就向外扩边,直到无有效像素点为止,这就得到了该文字新的边界。
再进一步,在对文字矩形框向外增长时,按像素点逐点向外增长,增长的比例控制在50%以内。
进一步,步骤(4)中,搜索联通区时,对步骤(3)中得到的所有漏识区间中的黑色像素点周围进行扫描,得到所有联通区;
然后根据联通区面积及文字矩形框面积的大小,将联通区面积远大于文字矩形框面积的区域视作图像,将联通区面积远小于文字矩形框面积的区域视作噪点,然后对这些图像与噪点进行过滤。
更进一步,将大于文字矩形框面积4-8倍以上的联通区视作图像。将小于文字矩形框面积1/8-1/16以下的联通区视作噪点。
进一步,步骤(5)中,将接近于文字矩形框面积的联通区域视作漏识文字进行输出。
一种OCR漏识判断系统,包括以下装置:
数据输入装置,用于输入原始图像,所述的原始图像为二值图;
OCR识别装置,用于对输入的原始图像进行OCR识别,输出识别结果,所述识别结果包括识别出的文字及其矩形坐标即矩形框;
漏识判断装置,用于对输出的文字逐个处理,判断文字笔画是否全部在矩形框内,如果不是,则根据输出的该文字的矩形坐标从矩形四边向外做图像增长,将与矩形框相邻的黑点也视作该文字的像素点,得到该文字的所有像素点,从图像中删除该文字的所有像素点;如果是,则继续处理下一个文字,直到完成所有文字的处理,最后就得到了图像中的漏识区间;
联通区搜索装置,用于搜索漏识区间里的联通区;
图像与噪点过滤装置,用于过滤漏识区间里的图像与噪点;
输出装置,用于输出漏识文字。
本发明的效果在于:采用本发明所述的方法及系统,通过自动搜索识别后的图象,可以快速找到漏识区间,为人工补录或再次识别做准备,替代了书籍数字化加工过程中通过人工查找漏识区间时的繁重工作。
附图说明
图1为现有OCR技术提供的文字矩形坐标示意图;
图2为本发明所述系统的结构图;
图3为本发明所述方法的流程图;
图4a、图4b分别为对字符“A”的文字矩形框做增长前、增长后的示意图;
图5为OCR识别后的文字及文字矩形框示意图;
图6为对字符矩形框进行增长处理并删除文字框像素后得到的漏识区。
具体实施方式
本发明的核心在于OCR识别中的漏识判断技术。使用OCR提供的文字矩形坐标从矩形四边向外做图像增长,将与矩形框相邻的黑点也视作文字的像素点,得到一个文字的所有像素点的列表。然后删除该文字的所有像素点,直到完成所有文字的处理,得到OCR的漏识区,再经过联通区扫描,过滤图像和噪点,最终将OCR漏识的文字输出。
下面结合附图和具体实施例来对本发明进行详细描述。
如图1所示,图1为现有OCR技术提供的文字矩形坐标示意图,若完全按OCR矩形坐标处理,将多出框外两个点,造成程序去除矩形框内容后留下两个点,被下次识别或人工录入当成小数点或标点,着重号等。
如图2所示,一种OCR漏识判断系统,包括以下装置:
(1)数据输入装置11,用于输入原始图像,所述的原始图像为二值图;
(2)OCR识别装置12,用于对输入的原始图像进行OCR识别,输出识别结果,所述识别结果包括识别出的文字(包括符号)及其矩形坐标(矩形框);
(3)漏识判断装置13,用于对输出的文字逐个处理,判断文字笔画是否全部在矩形框内,如果不是,则根据输出的该文字的矩形坐标从矩形四边向外做图像增长,将与矩形框相邻的黑点也视作该文字的像素点,得到该文字的所有像素点,从图像中删除该文字的所有像素点;如果是,则继续处理下一个文字,直到完成所有文字的处理,最后就得到了图像中的漏识区间;
(4)联通区搜索装置14,用于搜索漏识区间里的联通区;
(5)图像与噪点过滤装置15,用于过滤漏识区间里的图像与噪点;
(6)输出装置16,用于输出漏识文字。
图3中,如步骤S21-S25所示,一种OCR漏识判断方法,包括以下步骤:
(1)数据输入:输入原始图像,所述的原始图像为二值图;
所述的原始图像可以是经过扫描设备扫描获取的二值图,也可以是通过摄像装置摄取的图像的二值图。
(2)对输入的原始图像进行OCR识别,输出识别结果;
在对输入的原始图像或文字进行OCR识别时,可以采用现有的OCR识别技术。输出的识别结果包括识别出的文字及其矩形坐标(矩形框)。
(3)漏识判断:对于步骤(2)中的识别结果,对输出的文字逐个处理,判断文字笔画是否全部在矩形框内,如果不是,则根据输出的该文字的矩形坐标从矩形四边向外做图像增长,将与矩形框相邻的黑点也视作该文字的像素点,得到该文字的所有像素点,从图像中删除该文字的所有像素点;如果是,则继续处理下一个文字,直到完成所有文字的处理,最后就得到了图像中的漏识区间。
在对文字的矩形框作增长时,具体方法是:从矩形框边缘开始,遇与文字连接有效像素点的就向外扩边,直到无有效像素点为止,这就得到了该文字新的边界。
在对文字矩形框向外增长时,按像素点逐点向外增长,增长的比例通常控制在50%以内。
如图4所示,图4a为对字符“A”的文字矩形框做增长前的示意图,文字矩形框与字符的笔画相交,文字矩形框外仍有部分像素点属于字符“A”的一部分。图4b为将字符“A”的文字矩形框边界向上下左右做增长扩充得到的示意图,此时字符“A”整个在增长后的文字矩形框内。
在对文字矩形框进行增长处理及删除图像中所有文字矩形框内的文字像素点后,就得到了图像中的漏识区间。
如图5所示,图5为OCR识别后的文字及文字矩形框,51、52为OCR过程中漏识的字符。
在对图5中的所有字符的矩形框进行增长处理并删除文字框像素后,得到的漏识区间,如图6所示,其中,浅色“全”上边的黑色也是漏识像素,但将“全”的文字框做区域增长后,可以判断出这个黑点属于“全”字的一部分,不是漏识区间。
(4)搜索漏识区间里的联通区,过滤图像与噪点;
搜索联通区时,对步骤(3)中得到的所有漏识区间中的黑色像素点周围进行扫描,得到所有联通区;
根据联通区面积及文字矩形框面积的大小,将联通区面积远大于文字矩形框面积的区域视作图像,比如通常设定在大于文字矩形框面积4-8倍以上的联通区视作图像,具体的数值要根据实际情况来确定。将联通区面积远小于文字矩形框面积的区域视作噪点,比如将小于文字矩形框面积1/8-1/16以下的联通区视作噪点,具体的数值也要根据实际情况来确定。然后对这些图像与噪点进行过滤。
(5)输出漏识文字;
将步骤(4)中联通区接近于文字矩形框的联通区域视作漏识文字进行输出,为后续的人工补录或再次识别做准备。
根据上述实施例,可以看出,采用本发明所述的方法,通过自动搜索识别后的图像,可以快速找到OCR识别后的漏识区间,为后续的人工补录或再次识别做准备,替代了书籍数字化加工过程中通过人工查找漏识区间时的繁重工作。
需要注意的是,上述具体实施例仅仅是示例性的,在本发明的上述教导下,本领域技术人员可以在上述实施例的基础上进行各种改进和变形,而这些改进或者变形落在本发明的保护范围内。本领域技术人员应该明白,上面的具体描述只是为了解释本发明的目的,并非用于限制本发明。本发明的保护范围由权利要求及其等同物限定。

Claims (8)

1.一种OCR漏识判断方法,包括以下步骤:
(1)数据输入:输入原始图像,所述的原始图像为二值图;
(2)对输入的原始图像进行OCR识别,输出识别结果;所述的输出识别结果包括识别出的文字及其矩形坐标即矩形框;
(3)漏识判断:根据步骤(2)中的输出识别结果,判断漏识区间;判断漏识区间的方法如下:对输出的文字逐个处理,判断文字笔画是否全部在矩形框内,如果不是,则根据输出的该文字的矩形坐标从矩形四边向外做图像增长,将与矩形框相邻的黑点也视作该文字的像素点,得到该文字的所有像素点,从图像中删除该文字的所有像素点;如果是,则继续处理下一个文字,直到完成所有文字的处理,最后就得到了图像中的漏识区间;
(4)搜索漏识区间里的联通区,过滤图像与噪点;
(5)输出漏识文字。
2.如权利要求1所述的一种OCR漏识判断方法,其特征在于,在对文字的矩形框作增长时,具体方法是:从矩形框边缘开始,遇与文字连接有效像素点的就向外扩边,直到无有效像素点为止,这就得到了该文字新的边界。
3.如权利要求2所述的一种OCR漏识判断方法,其特征在于:在对文字矩形框向外增长时,按像素点逐点向外增长,增长的比例控制在50%以内。
4.如权利要求1到3任一所述的一种OCR漏识判断方法,其特征在于:步骤(4)中,搜索漏识区间里的联通区时,对步骤(3)中得到的所有漏识区间中的黑色像素点周围进行扫描,得到所有联通区;
然后根据联通区面积及文字矩形框面积的大小,将联通区面积远大于文字矩形框面积的区域视作图像,将联通区面积远小于文字矩形框面积的区域视作噪点,然后对这些图像与噪点进行过滤。
5.如权利要求4所述的一种OCR漏识判断方法,其特征在于:将大于文字矩形框面积4-8倍以上的联通区视作图像。
6.如权利要求4所述的一种OCR漏识判断方法,其特征在于:将小于文字矩形框面积1/8-1/16以下的联通区视作噪点。
7.如权利要求4所述的一种OCR漏识判断方法,其特征在于:步骤(5)中,将接近于文字矩形框面积的联通区域视作漏识文字进行输出。
8.一种OCR漏识判断系统,包括以下装置:
数据输入装置,用于输入原始图像,所述的原始图像为二值图;
OCR识别装置,用于对输入的原始图像进行OCR识别,输出识别结果,所述识别结果包括识别出的文字及其矩形坐标即矩形框;
漏识判断装置,用于对输出的文字逐个处理,判断文字笔画是否全部在矩形框内,如果不是,则根据输出的该文字的矩形坐标从矩形四边向外做图像增长,将与矩形框相邻的黑点也视作该文字的像素点,得到该文字的所有像素点,从图像中删除该文字的所有像素点;如果是,则继续处理下一个文字,直到完成所有文字的处理,最后就得到了图像中的漏识区间;
联通区搜索装置,用于搜索漏识区间里的联通区;
图像与噪点过滤装置,用于过滤漏识区间里的图像与噪点;
输出装置,用于输出漏识文字。
CN2011104463653A 2011-12-28 2011-12-28 一种ocr漏识判断方法及系统 Expired - Fee Related CN102592121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104463653A CN102592121B (zh) 2011-12-28 2011-12-28 一种ocr漏识判断方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104463653A CN102592121B (zh) 2011-12-28 2011-12-28 一种ocr漏识判断方法及系统

Publications (2)

Publication Number Publication Date
CN102592121A CN102592121A (zh) 2012-07-18
CN102592121B true CN102592121B (zh) 2013-12-04

Family

ID=46480735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104463653A Expired - Fee Related CN102592121B (zh) 2011-12-28 2011-12-28 一种ocr漏识判断方法及系统

Country Status (1)

Country Link
CN (1) CN102592121B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929843B (zh) * 2012-09-14 2015-10-14 《中国学术期刊(光盘版)》电子杂志社有限公司 一种文字编改系统及编改的方法
CN104537026B (zh) * 2014-12-22 2018-08-24 福建亿榕信息技术有限公司 基于本地缓存的纸质档案文件处理方法
CN104765815B (zh) * 2015-04-03 2016-11-09 北京奇虎科技有限公司 一种识别搜索关键词的方法和装置
CN106372632B (zh) * 2016-08-23 2019-04-16 山西同方知网数字出版技术有限公司 一种基于ocr的漏识文字自动检测的方法
CN108875737B (zh) * 2018-06-11 2022-06-21 四川骏逸富顿科技有限公司 一种纸质处方单据中检测复选框是否勾选的方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL115971A (en) * 1995-11-14 1997-01-10 Razon Moshe Computer stereo vision system and method
DE19820353C2 (de) * 1998-05-07 2001-06-13 Ibm Verfahren und Vorrichtung zur Erkennung eines Musters auf einer Vorlage
CN101398894B (zh) * 2008-06-17 2011-12-07 浙江师范大学 机动车车牌自动识别方法及其实现装置

Also Published As

Publication number Publication date
CN102592121A (zh) 2012-07-18

Similar Documents

Publication Publication Date Title
CN102592121B (zh) 一种ocr漏识判断方法及系统
CN105654072A (zh) 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
US8693790B2 (en) Form template definition method and form template definition apparatus
CN109977723A (zh) 大票据图片文字识别方法
CN110309806B (zh) 一种基于视频图像处理的手势识别系统及其方法
CN101976114B (zh) 一种基于摄像头的计算机与纸笔信息交互系统及方法
CN108146093B (zh) 一种去除票据印章的方法
CN109766749A (zh) 一种用于财务报表的弯曲表格线的检测方法
CN112861736B (zh) 基于图像处理的文献表格内容识别与信息提取方法
CN110516673B (zh) 基于连通分量和回归式字切分的彝文古籍字符检测方法
CN106980857A (zh) 一种基于碑帖的毛笔字分割识别方法
CN104978576A (zh) 一种文字识别方法及装置
CN102456212A (zh) 一种数值图像中可见水印的分离方法及系统
CN109409378A (zh) 一种纳西东巴经书的数字化处理方法
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN111445402A (zh) 一种图像去噪方法及装置
CN109034154A (zh) 发票专用章税号的提取和识别方法
CN116958996A (zh) Ocr信息提取方法、系统及设备
CN117079297A (zh) 一种继电保护定值核对方法、系统、设备及介质
CN114519860A (zh) 一种基于深度学习的盲文读物校对方法及系统
CN107066997B (zh) 一种基于图像识别的电气元件报价方法
CN106709437A (zh) 一种改进的针对早期专利文档扫描件中图文信息的智能处理方法
CN104504385B (zh) 手写粘连数字串的识别方法
CN117711004A (zh) 一种基于图像识别的表格文档信息抽取方法
CN114663900B (zh) 航空行程单总金额快速识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131204

Termination date: 20141228

EXPY Termination of patent right or utility model