CN102592121B

CN102592121B - 一种ocr漏识判断方法及系统

Info

Publication number: CN102592121B
Application number: CN2011104463653A
Authority: CN
Inventors: 兰荣春
Original assignee: Founder International Co Ltd
Current assignee: Founder International Co Ltd
Priority date: 2011-12-28
Filing date: 2011-12-28
Publication date: 2013-12-04
Anticipated expiration: 2031-12-28
Also published as: CN102592121A

Abstract

本发明公开了一种OCR漏识判断方法及系统，涉及计算机文字识别处理技术领域。本发明使用OCR提供的文字矩形坐标从矩形四边向外做图像增长，将与矩形框相邻的黑点也视作文字的像素点，得到一个文字的所有像素点的列表。然后删除该文字的所有像素点，直到完成所有文字的处理，得到OCR的漏识区，再经过联通区扫描，过滤图像和噪点，最终将OCR漏识的文字输出。本发明解决书籍加工人员在查找漏识区间时的繁重工作，通过自动搜索识别后的图象，得到OCR的漏识区，输出漏识的文字。

Description

一种OCR漏识判断方法及系统

技术领域

本发明涉及计算机文字识别处理技术领域，尤其涉及一种基于图像区域增长算法的OCR漏识判断方法及系统。

背景技术

随着计算机技术及数字化技术的不断发展，需要将传统的纸质书籍、文档、报纸等电子化。在将这些物理实体数据到电子数据的转换加工过程中，纸质的书籍、文档、报纸最终转换为电子数据(TXT、WORD，PDF等格式的电子文件)，不可避免的使用文字识别技术(OCR技术，OpticalCharacter Recognition，光学字符识别)。

基于图书数字化加工的特点，要求有效图像内容不能“丢失”，现在的有很多OCR引擎，如汉王，ABBYY，文通等。这些OCR技术虽然已经比较成熟，但在应用过程中并不能完全满足实际的需求，特别是OCR的漏识问题。

OCR漏识的原因主要是：

1.被识别文档本身的原因，如印刷的油墨问题，或者被识别文档年代久远或破损，字迹模糊不清晰等；

2.扫描文档时存在的问题，如扫描的质量，图像的分辨率等，容易造成文字笔画不规则，为后续的正确识别造成障碍；

3.OCR技术本身给出的文字坐标不能将整个文字包围，也会造成漏识。

OCR漏识后，就会造成了页面有效内容的丢失，现在采用通过识别后的文字与原图人工对比查找漏识区的方法，效率低。

因此，在OCR识别过程中，OCR识别图像的正确性与效率固然重要，但如何找到OCR的漏识区间也是非常重要的。目前还未见针对OCR识别中的漏识问题提出的技术解决方案及相关文献。

发明内容

针对现有技术中所存在的不足，本发明的目的在于提供一种能够快速找到OCR过程中的漏识区间的基于图像区域增长算法的OCR漏识判断方法及系统。

为实现上述发明目的，本发明采用的技术方案如下：

一种OCR漏识判断方法，包括以下步骤：

(1)数据输入：输入原始图像，所述的原始图像为二值图；

(2)对输入的原始图像进行OCR识别，输出识别结果；

(3)漏识判断：根据步骤(2)中的输出识别结果，判断漏识区间；

(4)搜索漏识区间里的联通区，过滤图像与噪点；

(5)输出漏识文字。

进一步，步骤(2)中所述的输出识别结果包括识别出的文字及其矩形坐标即矩形框。

进一步，步骤(3)中，判断漏识区间的方法如下：对输出的文字逐个处理，判断文字笔画是否全部在矩形框内，如果不是，则根据输出的该文字的矩形坐标从矩形四边向外做图像增长，将与矩形框相邻的黑点也视作该文字的像素点，得到该文字的所有像素点，从图像中删除该文字的所有像素点；如果是，则继续处理下一个文字，直到完成所有文字的处理，最后就得到了图像中的漏识区间。

更进一步，在对文字的矩形框作增长时，具体方法是：从矩形框边缘开始，遇与文字连接有效像素点的就向外扩边，直到无有效像素点为止，这就得到了该文字新的边界。

再进一步，在对文字矩形框向外增长时，按像素点逐点向外增长，增长的比例控制在50％以内。

进一步，步骤(4)中，搜索联通区时，对步骤(3)中得到的所有漏识区间中的黑色像素点周围进行扫描，得到所有联通区；

然后根据联通区面积及文字矩形框面积的大小，将联通区面积远大于文字矩形框面积的区域视作图像，将联通区面积远小于文字矩形框面积的区域视作噪点，然后对这些图像与噪点进行过滤。

更进一步，将大于文字矩形框面积4-8倍以上的联通区视作图像。将小于文字矩形框面积1/8-1/16以下的联通区视作噪点。

进一步，步骤(5)中，将接近于文字矩形框面积的联通区域视作漏识文字进行输出。

一种OCR漏识判断系统，包括以下装置：

数据输入装置，用于输入原始图像，所述的原始图像为二值图；

OCR识别装置，用于对输入的原始图像进行OCR识别，输出识别结果，所述识别结果包括识别出的文字及其矩形坐标即矩形框；

漏识判断装置，用于对输出的文字逐个处理，判断文字笔画是否全部在矩形框内，如果不是，则根据输出的该文字的矩形坐标从矩形四边向外做图像增长，将与矩形框相邻的黑点也视作该文字的像素点，得到该文字的所有像素点，从图像中删除该文字的所有像素点；如果是，则继续处理下一个文字，直到完成所有文字的处理，最后就得到了图像中的漏识区间；

联通区搜索装置，用于搜索漏识区间里的联通区；

图像与噪点过滤装置，用于过滤漏识区间里的图像与噪点；

输出装置，用于输出漏识文字。

本发明的效果在于：采用本发明所述的方法及系统，通过自动搜索识别后的图象，可以快速找到漏识区间，为人工补录或再次识别做准备，替代了书籍数字化加工过程中通过人工查找漏识区间时的繁重工作。

附图说明

图1为现有OCR技术提供的文字矩形坐标示意图；

图2为本发明所述系统的结构图；

图3为本发明所述方法的流程图；

图4a、图4b分别为对字符“A”的文字矩形框做增长前、增长后的示意图；

图5为OCR识别后的文字及文字矩形框示意图；

图6为对字符矩形框进行增长处理并删除文字框像素后得到的漏识区。

具体实施方式

本发明的核心在于OCR识别中的漏识判断技术。使用OCR提供的文字矩形坐标从矩形四边向外做图像增长，将与矩形框相邻的黑点也视作文字的像素点，得到一个文字的所有像素点的列表。然后删除该文字的所有像素点，直到完成所有文字的处理，得到OCR的漏识区，再经过联通区扫描，过滤图像和噪点，最终将OCR漏识的文字输出。

下面结合附图和具体实施例来对本发明进行详细描述。

如图1所示，图1为现有OCR技术提供的文字矩形坐标示意图，若完全按OCR矩形坐标处理，将多出框外两个点，造成程序去除矩形框内容后留下两个点，被下次识别或人工录入当成小数点或标点，着重号等。

如图2所示，一种OCR漏识判断系统，包括以下装置：

(1)数据输入装置11，用于输入原始图像，所述的原始图像为二值图；

(2)OCR识别装置12，用于对输入的原始图像进行OCR识别，输出识别结果，所述识别结果包括识别出的文字(包括符号)及其矩形坐标(矩形框)；

(3)漏识判断装置13，用于对输出的文字逐个处理，判断文字笔画是否全部在矩形框内，如果不是，则根据输出的该文字的矩形坐标从矩形四边向外做图像增长，将与矩形框相邻的黑点也视作该文字的像素点，得到该文字的所有像素点，从图像中删除该文字的所有像素点；如果是，则继续处理下一个文字，直到完成所有文字的处理，最后就得到了图像中的漏识区间；

(4)联通区搜索装置14，用于搜索漏识区间里的联通区；

(5)图像与噪点过滤装置15，用于过滤漏识区间里的图像与噪点；

(6)输出装置16，用于输出漏识文字。

图3中，如步骤S21-S25所示，一种OCR漏识判断方法，包括以下步骤：

(1)数据输入：输入原始图像，所述的原始图像为二值图；

所述的原始图像可以是经过扫描设备扫描获取的二值图，也可以是通过摄像装置摄取的图像的二值图。

(2)对输入的原始图像进行OCR识别，输出识别结果；

在对输入的原始图像或文字进行OCR识别时，可以采用现有的OCR识别技术。输出的识别结果包括识别出的文字及其矩形坐标(矩形框)。

(3)漏识判断：对于步骤(2)中的识别结果，对输出的文字逐个处理，判断文字笔画是否全部在矩形框内，如果不是，则根据输出的该文字的矩形坐标从矩形四边向外做图像增长，将与矩形框相邻的黑点也视作该文字的像素点，得到该文字的所有像素点，从图像中删除该文字的所有像素点；如果是，则继续处理下一个文字，直到完成所有文字的处理，最后就得到了图像中的漏识区间。

在对文字的矩形框作增长时，具体方法是：从矩形框边缘开始，遇与文字连接有效像素点的就向外扩边，直到无有效像素点为止，这就得到了该文字新的边界。

在对文字矩形框向外增长时，按像素点逐点向外增长，增长的比例通常控制在50％以内。

如图4所示，图4a为对字符“A”的文字矩形框做增长前的示意图，文字矩形框与字符的笔画相交，文字矩形框外仍有部分像素点属于字符“A”的一部分。图4b为将字符“A”的文字矩形框边界向上下左右做增长扩充得到的示意图，此时字符“A”整个在增长后的文字矩形框内。

在对文字矩形框进行增长处理及删除图像中所有文字矩形框内的文字像素点后，就得到了图像中的漏识区间。

如图5所示，图5为OCR识别后的文字及文字矩形框，51、52为OCR过程中漏识的字符。

在对图5中的所有字符的矩形框进行增长处理并删除文字框像素后，得到的漏识区间，如图6所示，其中，浅色“全”上边的黑色也是漏识像素，但将“全”的文字框做区域增长后，可以判断出这个黑点属于“全”字的一部分，不是漏识区间。

(4)搜索漏识区间里的联通区，过滤图像与噪点；

搜索联通区时，对步骤(3)中得到的所有漏识区间中的黑色像素点周围进行扫描，得到所有联通区；

根据联通区面积及文字矩形框面积的大小，将联通区面积远大于文字矩形框面积的区域视作图像，比如通常设定在大于文字矩形框面积4-8倍以上的联通区视作图像，具体的数值要根据实际情况来确定。将联通区面积远小于文字矩形框面积的区域视作噪点，比如将小于文字矩形框面积1/8-1/16以下的联通区视作噪点，具体的数值也要根据实际情况来确定。然后对这些图像与噪点进行过滤。

(5)输出漏识文字；

将步骤(4)中联通区接近于文字矩形框的联通区域视作漏识文字进行输出，为后续的人工补录或再次识别做准备。

根据上述实施例，可以看出，采用本发明所述的方法，通过自动搜索识别后的图像，可以快速找到OCR识别后的漏识区间，为后续的人工补录或再次识别做准备，替代了书籍数字化加工过程中通过人工查找漏识区间时的繁重工作。

需要注意的是，上述具体实施例仅仅是示例性的，在本发明的上述教导下，本领域技术人员可以在上述实施例的基础上进行各种改进和变形，而这些改进或者变形落在本发明的保护范围内。本领域技术人员应该明白，上面的具体描述只是为了解释本发明的目的，并非用于限制本发明。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种OCR漏识判断方法，包括以下步骤：

(1)数据输入：输入原始图像，所述的原始图像为二值图；

(2)对输入的原始图像进行OCR识别，输出识别结果；所述的输出识别结果包括识别出的文字及其矩形坐标即矩形框；

(3)漏识判断：根据步骤(2)中的输出识别结果，判断漏识区间；判断漏识区间的方法如下：对输出的文字逐个处理，判断文字笔画是否全部在矩形框内，如果不是，则根据输出的该文字的矩形坐标从矩形四边向外做图像增长，将与矩形框相邻的黑点也视作该文字的像素点，得到该文字的所有像素点，从图像中删除该文字的所有像素点；如果是，则继续处理下一个文字，直到完成所有文字的处理，最后就得到了图像中的漏识区间；

(4)搜索漏识区间里的联通区，过滤图像与噪点；

(5)输出漏识文字。

2.如权利要求1所述的一种OCR漏识判断方法，其特征在于，在对文字的矩形框作增长时，具体方法是：从矩形框边缘开始，遇与文字连接有效像素点的就向外扩边，直到无有效像素点为止，这就得到了该文字新的边界。

3.如权利要求2所述的一种OCR漏识判断方法，其特征在于：在对文字矩形框向外增长时，按像素点逐点向外增长，增长的比例控制在50%以内。

4.如权利要求1到3任一所述的一种OCR漏识判断方法，其特征在于：步骤(4)中，搜索漏识区间里的联通区时，对步骤(3)中得到的所有漏识区间中的黑色像素点周围进行扫描，得到所有联通区；

5.如权利要求4所述的一种OCR漏识判断方法，其特征在于：将大于文字矩形框面积4-8倍以上的联通区视作图像。

6.如权利要求4所述的一种OCR漏识判断方法，其特征在于：将小于文字矩形框面积1/8-1/16以下的联通区视作噪点。

7.如权利要求4所述的一种OCR漏识判断方法，其特征在于：步骤(5)中，将接近于文字矩形框面积的联通区域视作漏识文字进行输出。

8.一种OCR漏识判断系统，包括以下装置：

联通区搜索装置，用于搜索漏识区间里的联通区；

图像与噪点过滤装置，用于过滤漏识区间里的图像与噪点；

输出装置，用于输出漏识文字。