标签:val windows 代码 header app png http aic 中国
# 爬取河南企业信用信息公示系统为案例
# 案例网址 http://gsxt.haaic.gov.cn/index.jspx
下面这个选项一定要勾选
极验打码要的参数
要爬取数据所在的页面
根据上面的截图然后找到相对应的菜蔬 然后下面这个代码就可以实现打印list页面的源代码 ,剩下的就是用解析器解析的部分。
import requests import json from urllib.parse import quote # 获取极验网的gt和challenge url = ‘http://gsxt.haaic.gov.cn/registerValidate.jspx?t=1526366559281‘ s = requests.session() headers = { ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36‘,} response = s.get(url,headers=headers).text source = json.loads(response) fan = s.get("http://jiyanapi.c2567.com/shibie?user=username&pass=123456&return=json&ip=>=" + source[‘gt‘] + ">=" + source[‘challenge‘]).text fang = json.loads(fan) # 获取页面要的参数 name = quote(quote(‘中国‘)) data = {‘searchText‘: ‘中国‘, ‘geetest_challenge‘: fang[‘challenge‘], ‘geetest_validate‘: fang[‘validate‘], ‘geetest_seccode‘: fang[‘validate‘]+‘|jordan‘,} url = ‘http://gsxt.haaic.gov.cn/validateSecond.jspx‘ response = s.post(url,headers=headers,data=data).text response = json.loads(response) url = ‘http://gsxt.haaic.gov.cn/‘+response[‘obj‘]+‘&searchType=1&entName=‘+name response = s.get(url,headers=headers).text print(response)
标签:val windows 代码 header app png http aic 中国
原文地址:https://www.cnblogs.com/zlel/p/9042769.html