码迷,mamicode.com
首页 > 其他好文 > 详细

关于Tesseract的简单训练方法

时间:2017-09-25 13:14:06      阅读:148      评论:0      收藏:0      [点我收藏+]

标签:tiff   文件夹   安装完成   输入   idt   margin   文件   file   操作方法   

Tesseract训练方法指导

一、首先,需要将图片转换成TIF格式的,所用到的工具为VietOCR.NET,操作方法为如下几个步骤

  1. 打开VietOCR.NET软件,选中菜单栏------>Tools ------> Merge TIFF,将所需要的图片全部选上,然后再选择文件夹保存,命名为你需要的名字,例如TEST.tif

 

如下图片是自己画的图片

 

  技术分享技术分享技术分享技术分享技术分享

操作图如下:

 技术分享

图1

 技术分享

图2

技术分享 

图3

 技术分享

图4

技术分享 

图5

二、此时,我们需要另外两个软件,才可以做进一步的训练,一个是Tesseract3.0.exe,一个是jTessBoxEditorFX(运用此软件需要先安装Jre(JAVA开发运行环境)),两个软件下载安装完成之后,我们就可以用两个软件来进行训练了。

1.将之前合并的TEST.tif图片放到tesseract的安装目录下,和tesseract.exe在同等目录下,然后输入如下指令,获得box文件,此文件一定要和tif图片在同一个文件目录下

tesseract.exe C:\Program Files (x86)\Tesseract-OCR \TEST.tif C:\Program Files (x86)\Tesseract-OCR \TEST batch.nochop makebox

2.打开jTessBoxEditorFX.jar文件,选择中间工具栏三个选项中的Box Editor选项,打开相应的tif图片,会得到如图所示效果,将识别错误的通过选择左边后在右边Character内输入正确的内容,点击旁边的齿轮状按钮进行保存,等所有内容校验完毕之后,一定要点击Save保存。注意圈出来的位置,通过左右键翻页,将所有内容全部校正。

 技术分享技术分享

 

 

3.当BOX已经校验完毕之后,选择中间工具栏的左边选项“Trianer”选项,同时,将两个路径内容选择一下,第一个路径为tesseract.exe的路径,第二个路径为box的路径;语言里面写入需要保存的名称,RTL后面的枚举框中选择Train with Existing Box,随后选择Run运行,运行完成之后,点击Validate检查训练后的结果。训练完成后,我们可以在tessdata文件夹下找到TEST.traineddata文件,此文件就是训练后的模板文件。

例如,选择之前的第一张图片,就会显示下方第三张图的结果。

 技术分享

技术分享

技术分享

 

 

4.运行如下指令,也可以识别图片中的内容

"C:\Program Files (x86)\Tesseract-OCR\ Tesseract.exe " "C:\Program Files (x86)\Tesseract-OCR\TEST.tif" "C:\Program Files (x86)\Tesseract-OCR\ TEST" -l TEST

格式说明:第一个为Tesseract的路径,第二个为需要识别的图像的路径,第三个是输出的文档路径(其中TEST就是文档),最后的-l TEST是之前我们生成的TEST.traineddata模板文件

关于Tesseract的简单训练方法

标签:tiff   文件夹   安装完成   输入   idt   margin   文件   file   操作方法   

原文地址:http://www.cnblogs.com/Jerry-Zhuang/p/7591204.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!