首先是安装,我参考的是这个 http://blog.csdn.net/xinghun_4/article/details/47860645 我是centos,使用yum tesseract安装包我下载的是3.0.4,安装的时候提示搭配的leptonica的版本必须是1.7.2以上,所以不能使用1.6 ...
分类:
系统相关 时间:
2017-09-28 14:14:29
阅读次数:
177
简介 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料。关于中文OCR,目前国内水平较高的有清华 ...
Tesseract训练方法指导 一、首先,需要将图片转换成TIF格式的,所用到的工具为VietOCR.NET,操作方法为如下几个步骤 如下图片是自己画的图片 操作图如下: 图1 图2 图3 图4 图5 二、此时,我们需要另外两个软件,才可以做进一步的训练,一个是Tesseract3.0.exe,一个 ...
分类:
其他好文 时间:
2017-09-25 13:14:06
阅读次数:
148
1、pip install pyocr 2、pip install PIL 3、安装tesseract-ocr http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe exe文 ...
分类:
编程语言 时间:
2017-09-21 23:19:41
阅读次数:
438
#非黑即白--谷歌OCR光学字符识别 颜色的世界里,非黑即白。computer表示深信不疑。 今天研究一下前沿技术OCR光学识别庞大领域中的众多分支里的一个开源项目的一个包-tesseract。 能让机器识别图片是无数工程师梦寐以求的事 任何物体只有成功转为二进制才有可能被机器识别,而识别是做出一系... ...
分类:
其他好文 时间:
2017-08-26 19:39:43
阅读次数:
146
1.准备验证码图片 2.将验证码图片转为灰度图 , 扩展名改为.tif 3. 后续步骤参考原先的博客: http://www.cnblogs.com/CoolJayson/p/7395824.html 问题: 生成box文件后, 用jTessBoxEditor修改box文件时, 里面的矩形画的误差较 ...
分类:
其他好文 时间:
2017-08-19 18:37:53
阅读次数:
308
jTessBoxEditor依赖java虚拟机 , 所以要先安装 java. jTessBoxEditor下载地址: https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/jTessBoxEditor-1.5.zip/downlo ...
分类:
其他好文 时间:
2017-08-19 12:58:34
阅读次数:
135
在Tesseract处理背景渐变图片不太理想的情况下, 可以利用Pillow库, 创建一个阈值过滤器来去掉渐变的背景色, 只把文字留下来, 从而让图片更清晰, 便于Tesseract读取: 以下两张图片分别为text_2.png和text_2_clean.png ...
分类:
其他好文 时间:
2017-08-13 01:14:00
阅读次数:
170
代码托管:https://github.com/tesseract-ocr/tesseract 环境:win10 安装版本:tesseract-ocr-setup-3.02.02.exe 基本使用命令: tesseract number.jpg result -l eng -psm 7 训练 下载使 ...
分类:
其他好文 时间:
2017-07-29 22:15:57
阅读次数:
161
安装pytesseact出错, 下载 tesseract-ocr , 地址 https://github.com/tesseract-ocr/tesseract 修改pytesseract.py ...
分类:
编程语言 时间:
2017-07-28 22:31:22
阅读次数:
160