码迷,mamicode.com
首页 > 其他好文 > 详细

OCR 项目记录

时间:2017-04-28 20:31:57      阅读:150      评论:0      收藏:0      [点我收藏+]

标签:朋友圈   证件   上传   应用   场景   个人   问题解决   题解   识别   

应用场景:

用户在朋友圈中会上传许多图片,而我们希望从用户上传的这些图片中识别出那些关于证件的照片(比如:身份证,驾驶证,护照等),因为这些证件的照片会含有一些个人敏感信息。我们希望通过OCR识别出照片中的文字,然后判断这些文字中有没有诸如:passport,name,nationality等字段来判断这张图片是不是一张证件相关的照片,为此我们会维护一个关键字的wordlist。

问题解决:

首先要进行OCR,我们选择了tesseract。tesseract是一个开源的OCR引擎,最初有HP开发,后来贡献给开源社区,现由谷歌维护。tesseract识别能力和一些付费OCR软件相比还是差一些,但是对于这个项目也差不多够用了。

OCR 项目记录

标签:朋友圈   证件   上传   应用   场景   个人   问题解决   题解   识别   

原文地址:http://www.cnblogs.com/vincent93/p/6782655.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!