标签:img 了解 根据 允许 ali 结果 测试 word 切割
首先,请允许我隆重介绍一下——OCR识别,OCR(Optical Character Recognition),中文名叫光学字符识别。如今的它应该在技术领域上那是小有名气了,毕竟它可是实用型技术的代表,技术融入生活最快最好的方式那就是利用与商业化。如何通过识别软件将图像中的信息提取或文字转换文本格式,或者解决除错和利用辅助信息提高识别的正确率,是OCR识别的最重要课题。下面就来详细了解一下OCR识别技术的核心。
1、图像输入:要进行OCR识别,第一步就是通过采集所要识别的图像,可以是名片、身份证、护照、行驶证、驾驶证、公文、文档等等,然后将图像输入到识别核心区域。
2、图像进行预处理:此过程包含二值化(像素)、去噪、倾斜度矫正等
3、版面分析:将所要识别的文档分段、分行处理
4、字符切割:此步骤需要字符定位和字符切割,定位出字符串的边界,然后分别对字符串进行单个切割,单个分割出来的字符再做识别。
5、字符特征提取:提取需要的字符特征,为后面的识别提供依据。
6、字符识别:将当前字符提取的特征向量与特征模板库进行模板粗分类和模板细匹配,识别出字符。
7、版面回复:将识别结果按照原来的版面排班,输出Word或pdf格式的文档。
8、后处理校正: 根据特定的语言上下文的关系,对识别结果进行较正的算法。
实际上,衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性及可行性等。OCR识别核心已被广泛的应用,经过数以万计的测试、训练,它已成功实现了车牌识别、护照识别、行驶证识别、驾驶证识别等等。已经成功融入到了人们的生活中。生活中随处可见,也许您正在使用或者您已经使用过,只是不了解,原来它就是OCR识别。
标签:img 了解 根据 允许 ali 结果 测试 word 切割
原文地址:https://www.cnblogs.com/candy15673511207/p/9543653.html