码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫 - 用ocr来识别验证码

时间:2018-08-26 15:44:30      阅读:595      评论:0      收藏:0      [点我收藏+]

标签:验证码   ext   实践   ima   hold   sse   效果   ble   imp   

用OCR来识别
直接识别效果不好,因为验证码内的多余线条干扰了图片的识别。先转为灰度图像,再二值化。经实践证明,该方法不是100%正确。

# 获取图片
curl -X GET http://my.cnki.net/elibregister/CheckCode.aspx

import tesserocr
from PIL import Image

image = Image.open(‘1.png‘)
# 转为灰度图像
image = image.convert(‘L‘)

threshold = 127
table = []

# 二值化
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
# mode=‘1‘默认的阀值为127
image = image.point(table, ‘1‘)
image.show()
result = tesserocr.image_to_text(image)
print(result)

爬虫 - 用ocr来识别验证码

标签:验证码   ext   实践   ima   hold   sse   效果   ble   imp   

原文地址:https://www.cnblogs.com/allen2333/p/9537471.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!