OCR识别的处理技术流程二
OCR识别的处理技术流程二
比对数据库
当输人文字算完特征后,不管是用统计或结构的特征,都需有一比对数据库或特征数据库来进行比对,数据库的内容应包含所有欲识别的字集文字以及根据与输人文字一样的特征抽取方法所得的特征群组。
比对识别
比对识别是指根据不同的特征特性,选用不同的数学距离函数进行比对.较有名的比对方法有欧式空间的比对方法、松弛比对法(Relaxation)、动态程序比对法(Dynamic Programming, DP)以及类神经网络的数据库建立及比对、HMM(Hidden Markov Model)等著名的方法。为了使识别的结果更稳定,提出了专家系统(Experts System),利用各种转征比对方袂的相异互补性,使识别结果的可靠性提高。
字词后处理
由于OCR的识别率并无法达到百分之百,为了加强比对的正确性及信心值,一些除错或甚至帮忙更正的功能,便成为OCR系统中必要的一个模块。字词后处理就是一例。它在比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎“词”的词,作为更正的功能。例如识别出“找门”,在词库中找不到这个词,而“我”是“找”的相似候选字,因此很自然地将“我”取代“找”,而成“我们”。
字词数据库
它是为字词后处理所建立的词库。
人工校正
这是OCR最后的关卡。在此之前,使用者可能只是拿个鼠标,跟着软件设计的节奏操作或仅是观看,而在此则需要使用者去更正甚至找寻可能是OCR出错的地方。一个好的OCR软件,除了有一个稳定的影像处理及识别核心以降低错误率外,人工校正的操作流程及其功能也影响OCR的处理效率。因此,文字影像与识别文字的对照及其屏幕信息摆放的位置,还有每一识别文字的候选字功能、拒认字的功能及继字词后处理而特意标示出可能有问题的字词,都是为了让使用者尽量少地使用键盘。当然,不是说系统没显示出的文字就一定正确,可根据具体要求决定是否重新校正一次。
结果输出
其实输出是件简单的事,但需看使用者用OCR到底为了什么。有人只要求文本文件用于部分文字的再使用,所以只要一般的文字文件,有人要求输人文件的原文原封不动地重现出来;有人注重表格内的文字,要求跟Excel等软件结合。无论怎么变化,都只是输出档案格式的变化而已。
(张成海、张铎)
《现代自动识别技术与应用》
声明:
本文来源于网络版权归原作者所有,仅供大家共同分享学习,如作者认为涉及侵权,请与我们联系,我们核实后立即删除。
- 2022-04-29大厚度水稳层压实利器国机洛建GYS30压路机
- 2022-04-29第二届中外矿山技术装备发展论坛暨展览会在京召开
- 2022-04-29胆碱酯酶活性测试市场农业中农药使用量的增加为测试创造了需求
- 2022-04-29斗山设备助力巴基斯坦卡拉高速项目如期完成
- 2022-04-29电源竟然有这么多讲究工业应用一定要懂的知识点
- 2022-04-29分析印后上光加工的故障及处理措施
- 2022-04-29方便食品包装发展趋势三
- 2022-04-29到2025年方向盘开关市场规模将达到25亿美元
- 2022-04-28BiotechBeachEmergentBioSolutions旨在对抗COVID110
- 2022-04-28OCR识别的处理技术流程二