码迷,mamicode.com
首页 > 系统相关 > 详细

mac下安装tesseract-OCR

时间:2017-02-15 12:19:13      阅读:1069      评论:0      收藏:0      [点我收藏+]

标签:process   default   jpeg   ber   extra   less   sdi   efault   mac   

1、先下载需要的软件包

       OCR工具:  Tesseract-OCR3.0.1  source code    tesseract-ocr-3.01.eng.tar.gz 破验证码用英文就够了。

       图像处理工具:  Leptonica  1.68

       png识别工具:  libpng

       jpeg识别工具 :libjpeg

       tif识别工具:   libtiff

2、安装步骤

      1-  安装libpng,libjpeg,libtiff

以下是命令:

./configure  

make  

sudo make install   

    2-安装Leptionica

以下是命令:

./configure  

make  

sudo make install  

make的时候如果发现错误,提示

  pngio.c:119: error: ‘Z_DEFAULT_COMPRESSION’ undeclared here (not in a function)

   去wiki上搜了一把发现是 pngio.c这个文件有个BUG,在MAC下无法找到zlib1g包修改Leptionica/src/pngio.c在  #include "png.h"后插入一下代码即可

以下为命令代码:

#ifdef HAVE_LIBZ  

#include "zlib.h"  

#endif  

 

    3- 安装Tesseract-OCR

    以下为命令

./autogen.sh  

./configure  

make  

sudo make install

 

   如果发现错误,可以改成以下命令:

./autogen.sh
export LIBLEPT_HEADERSDIR=/usr/local/include
./configure --with-extra-libraries=/usr/local/lib
sudo make install

    4- 安装语言包

    解压tesseract-ocr-3.01.eng.tar.gz到/usr/local/share/tesseract就可以了。

 

3、try ocr

  1. MacBook-Pro:work my$ tesseract pin.jpg  out -l eng  
  2. Tesseract Open Source OCR Engine v3.01 with Leptonica  
  3. MacBook-Pro:work my$ more out.txt   
  4. Bvcs

至此,已经tesseract已经可以正常工作了。

剩下我们写段代码去通过命令行调用就可以实现图片的识别了。

 

tesseract自己提供的训练好的语言包不能保证百分百识别出验证码图片,这个可以通过抓取一定量的验证码来进行

训练,以更加精准的识别,官方有文档和工具如何进行

http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

 

转自(略有修改):http://holybless.iteye.com/blog/1338717

 

mac下安装tesseract-OCR

标签:process   default   jpeg   ber   extra   less   sdi   efault   mac   

原文地址:http://www.cnblogs.com/gradven/p/6400758.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!