码迷,mamicode.com
首页 > 其他好文 > 详细

Tesseract训练

时间:2017-03-12 11:22:15      阅读:215      评论:0      收藏:0      [点我收藏+]

标签:ide   批处理文件   cal   put   style   文件   and   技术   ges   

最近在用Tesseract做一个图片识别的小应用,目标图像只有数字和英文字母,在实际使用过程中发现个别数识别错误,因此不得不研究学习Tesseract的训练。

http://www.cnblogs.com/cnlian/p/5765871.html 该链接是重要的参考资料,然则按照文章操作,第二步对box文件进行修正就出现问题:jTessBoxEditor无法正确识别图像。

经过阅读jTessBoxEditor的帮助文档,问题得以解决。其中有一段提到关键点:

You will need to provide the TIFF/Box files as input to the editor. Images to be used in training should be of 300 DPI and 1 bpp (bit per pixel) black&white or 8 bpp grayscale, uncompressed TIFF format;

这段话大意就是要求tiff文件的分辨率为300DPI,1比特黑白图像或8比特的灰度等级,无压缩。用photoshop重新处理图片,成功实现了识别。(这点在上诉的文章没有提及)

技术分享

然后就可以对图片进行识别的修正了。

其次,box文件调整完后,可以不用编写批处理文件,jTessBoxEditor已经实现了自动化处理:

技术分享

 

Tesseract训练

标签:ide   批处理文件   cal   put   style   文件   and   技术   ges   

原文地址:http://www.cnblogs.com/MonkChen/p/6537128.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!