码迷,mamicode.com
首页 > 其他好文 > 详细

pytesseract库的安装和使用

时间:2018-09-09 00:38:21      阅读:151      评论:0      收藏:0      [点我收藏+]

标签:tesseract   ima   需要   -o   github   img   安装   爬虫   info   

在写爬虫的时候总是遇到一些以图片的形式展示的信息,因此要怎么解析图片上的信息呢?在Google上查了一下,需要安装pytesseract和pillow(我用的python3.7)和Tesseract-OCR

1. 安装pytesseract

  pip insatll pytesseract

2. 安装pillow

  pip install pillow

3. 安装Tesseract-OCR(https://github.com/tesseract-ocr/tesseract)

4. 安装完后将Tesseract-OCR的安装路径添加到环境变量中PATH和Path中都要添加

例如:

技术分享图片

 

5. 在python的安装路径下的修改安装的pytesseract库里面的pytesseract.py,将默认的改成Tesseract-OCR的安装路径

技术分享图片

7. 配置完了开始撸代码吧

技术分享图片

运行后发现会报错

技术分享图片

用Google查了一下,发现是因为验证码的图片模式为RGBA,是无法分配调色盘给透明通道的。更换为RGB模式则不会出现该问题。

对原先的代码修改一下,变为:

技术分享图片

修改后就能正常使用了。

 

pytesseract库的安装和使用

标签:tesseract   ima   需要   -o   github   img   安装   爬虫   info   

原文地址:https://www.cnblogs.com/Lvg3687/p/9611104.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!