码迷,mamicode.com
首页 > 编程语言 > 详细

python 简单图像识别--验证码Ⅲ

时间:2018-04-15 14:51:08      阅读:204      评论:0      收藏:0      [点我收藏+]

标签:ror   highlight   code   src   tde   print   nec   open   inpu   

python  简单图像识别--验证码Ⅲ

实现自动登陆网站

登录学校图书馆管理系统为例,做一个简单的例子。python识别简单的没有干扰的纯数字验证码还是可以的,但是识别字母数字再加上干扰因素,误报率很高,因此这个我是采用”人工识别“,人工输入。

首先得明白cookie的作用,cookie是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。因此我们需要用Cookielib模块来保持网站的cookie。

登录学校图书馆管理系统登陆(http://122.207.221.227:8080/opac/login),验证码(http://122.207.221.227:8080/kaptcha/goldlib)

可以发现这个验证码是动态更新的每次打开都不一样,一般这种验证码和cookie是同步的。想识别验证码肯定是吃力不讨好的事,因此我们的思路是首先访问验证码页面,保存验证码、获取cookie用于登录,然后再直接向登录地址post数据。

先分析登录页面需要post的request和header信息

技术分享图片

技术分享图片

 

从中可以看出需要 post 的url并不是访问的页面,而是(http://122.207.221.227:8080/pages/include/checklogin.jsp)

其中需要提交的表单数据中 username 和 password 分别用户名和密码。

 

分析了上面的因素,下面就直接贴出代码。

#coding=utf-8
from PIL import Image
import pytesseract
import urllib2
import urllib
import PIL.ImageOps
import requests
import cookielib
import re
import sys
‘‘‘图书馆登陆‘‘‘
reload(sys)
sys.setdefaultencoding("utf-8")  #防止中文报错
url = ‘http://122.207.221.227:8080/pages/include/checklogin.jsp‘
capchaurl = ‘http://122.207.221.227:8080/kaptcha/0.5458022691509324‘
cookie = cookielib.CookieJar()   # 将cookies绑定到一个opener  cookie由cookielib自动管理
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
username=‘xxxxx‘
password=‘xxxxx‘  #用户名,密码
callNo = ‘callNo‘
picture = opener.open(capchaurl).read()   # 用openr访问验证码地址,获取cookie
local = open(‘C:\Users\ww\Desktop\goldlib.jpg‘,"wb")   # 保存验证码到本地
local.write(picture)
local.close()
secrecode = raw_input(‘yanzhengma: ‘)   # 输入验证码
postData = {
    ‘username‘: username,
	‘password‘: password,
	‘loginType‘: callNo,
	‘kaptcha‘: secrecode,
}   # 抓包信息 构造表单
headers = {
    ‘Accept‘: ‘*/*‘,
	‘Accept-Encoding‘: ‘gzip, deflate‘,
	‘Accept-Language‘: ‘zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2‘,
	‘Connection‘: ‘keep-alive‘,
	‘Content-Length‘: ‘64‘,
	‘Content-Type‘: ‘application/x-www-form-urlencoded‘,
	‘Host‘: ‘122.207.221.227:8080‘,
	‘Referer‘: ‘http://122.207.221.227:8080/opac/login‘,
	‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0‘,
	‘X-Requested-With‘: ‘XMLHttpRequest‘,
}   # 根据抓包信息 构造headers
data = urllib.urlencode(postData)  # 生成post数据 ?key1=value1&key2=value2的形式
request = urllib2.Request(url,data,headers)  #构造request请求
try:
	response = opener.open(request)
	result = response.read().decode(‘utf-8‘)
	print result
except urllib2.HTTPError, e:
	print e.code

 演示结果

技术分享图片

 

python 简单图像识别--验证码Ⅲ

标签:ror   highlight   code   src   tde   print   nec   open   inpu   

原文地址:https://www.cnblogs.com/Oran9e/p/8847313.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!