用于识别数字文档中的字符的方法、设备和计算机可读存储介质与流程-k8凯发

文档序号:37023230发布日期:2024-02-09 13:17阅读:76来源:国知局
用于识别数字文档中的字符的方法、设备和计算机可读存储介质与流程

本公开总体上涉及字符识别领域。具体地,本公开涉及识别手写字符和打印字符。


背景技术:

1、通常,使用各种字符识别算法来执行字符识别。当前用于识别手写字符和打印字符的字符识别方法是繁重、缓慢且低效的,尤其是当文档包括大容量的要处理的字符时。

2、前述“背景技术”描述是为了一般性地呈现本公开的上下文的目的。发明人在本背景技术部分中所描述的范围内的工作以及在提交时可能未取得现有技术资格的所描述的各方面既不明确地也不暗示地承认是相对于本公开的现有技术。


技术实现思路

1、本公开涉及数字文档中的字符的识别。

2、根据实施例,本公开进一步涉及识别数字文档中字符的方法,该方法包括:通过处理电路将数字文档的片段分类为包括文本;通过处理电路计算与数字文档的所分类的片段相关联的至少一个参数值;通过处理电路并且基于所计算的至少一个参数值来确定区域参数值;通过处理电路基于所确定的区域参数值和阈值来将数字文档的片段分类为手写文本区域或为打印文本区域,阈值基于对手写文本分布曲线和打印文本分布曲线的相交的选择,手写文本分布曲线和打印文本分布曲线中的每一者都与对应于所确定的区域参数值的区域参数相关联;以及通过处理电路并且基于分类来生成数字文档的修改版本。

3、根据实施例,本公开进一步涉及非暂时性计算机可读存储介质,该非暂时性计算机可读存储介质存储指令,当该指令由计算机运行时,使计算机执行识别数字文档中的字符的方法,该方法包括:将数字文档的片段分类为包括文本;计算与数字文档的所分类的片段相关联的至少一个参数值;基于所计算的至少一个参数值来确定区域参数值;基于所确定的区域参数值和阈值来将数字文档的片段分类为手写文本区域或为打印文本区域,阈值基于对手写文本分布曲线和打印文本分布曲线的相交的选择,手写文本分布曲线和打印文本分布曲线中的每一者都与对应于所确定的区域参数值的区域参数相关联;以及基于分类来生成数字文档的修改版本。

4、根据实施例,本公开进一步涉及用于识别数字文档中字符的设备,该设备包括处理电路,该处理电路被配置成:将数字文档的片段分类为包括文本;计算与数字文档的所分类的片段相关联的至少一个参数值;基于所计算的至少一个参数值来确定区域参数值;基于所确定的区域参数值和阈值来将数字文档的片段分类为手写文本区域或为打印文本区域,阈值基于对手写文本分布曲线和打印文本分布曲线的相交的选择,手写文本分布曲线和打印文本分布曲线中的每一者都与对应于所确定的区域参数值的区域参数相关联;以及基于片段分类来生成数字文档的修改版本。

5、前述段落已经通过一般引入的方式提供,而非旨在限制以下权利要求的范围。通过参考以下结合附图的详细描述,将最好地理解所描述的实施方案以及另外的优点。



技术特征:

1.一种识别数字文档中的字符的方法,所述方法包括:

2.根据权利要求1所述的方法,所述方法进一步包括

3.根据权利要求1所述的方法,其中所述所确定的区域参数值是通过以下计算的对象密度值

4.根据权利要求1所述的方法,其中所述生成所述数字文档的所述修改版本包括

5.根据权利要求2所述的方法,所述方法进一步包括

6.根据权利要求2所述的方法,所述方法进一步包括

7.根据权利要求1所述的方法,所述方法进一步包括

8.根据权利要求7所述的方法,其中所述直方图中的每一个基于标记文本区域以内的对象的参数值与所述对象的对应排序的比较,所述对应排序基于所述对象的所述参数值和所述标记文本区域以内的每一个其他对象的参数值。

9.根据权利要求1所述的方法,其中对所述手写文本分布曲线和所述打印文本分布曲线的所述相交的所述选择包括

10.根据权利要求1所述的方法,其中所述分类包括

11.一种存储指令的非暂时性计算机可读介质,所述指令当由计算机运行时,使所述计算机执行识别数字文档中的字符的方法,所述方法包括:

12.根据权利要求11所述的非暂时性计算机可读介质,所述非暂时性计算机可读介质进一步包括

13.根据权利要求11所述的非暂时性计算机可读介质,其中所述所确定的区域参数值是通过以下计算的对象密度值

14.根据权利要求11所述的非暂时性计算机可读介质,其中所述生成所述数字文档的所述修改版本包括

15.根据权利要求12所述的非暂时性计算机可读介质,所述非暂时性计算机可读介质进一步包括

16.根据权利要求11所述的非暂时性计算机可读介质,所述非暂时性计算机可读介质进一步包括

17.根据权利要求16所述非暂时性计算机可读存储介质,其中所述直方图中的每一个基于标记文本区域以内的对象的参数值与所述对象的对应排序的比较,所述对应排序基于所述对象的所述参数值和所述标记文本区域以内的每一个其他对象的参数值。

18.根据权利要求11所述的非暂时性计算机可读存储介质,其中对所述手写文本分布曲线和所述打印文本分布曲线的所述相交的所述选择包括

19.根据权利要求11所述的非暂时性计算机可读介质,其中所述分类包括

20.一种用于识别数字文档中的字符的设备,所述设备包括:


技术总结
本公开涉及识别数字文档中的字符区域的方法、计算机可读介质和设备。在实施例中,所述方法包括:将所述数字文档的片段分类为包括文本;计算与所述数字文档的所分类的片段相关联的至少一个参数值;基于所计算的至少一个参数值来确定区域参数值;基于所确定的区域参数值和阈值来将所述数字文档的所述片段分类为手写文本区域或为打印文本区域,所述阈值基于对手写文本分布曲线和打印文本分布曲线的相交的选择,所述手写文本分布曲线和所述打印文本分布曲线中的每一者都与对应于所述所确定的区域参数值的区域参数相关联;以及基于所述分类来生成所述数字文档的修改版本。

技术研发人员:m·达赫尔,w·沙迪德
受保护的技术使用者:利德技术股份有限公司
技术研发日:
技术公布日:2024/2/8
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图