因为总是忘记签到,所以尝试写了一个签到脚本,因为使用的是Python3,所以没法使用Urllib2,于是选择了Requests,事实证明,Requests比Urllib2好用。整体思路比较简单,就是模拟百度登陆的过程进行交互,然后获取COOKIES并保存,之后都使用COOKIES登陆,然后模拟贴吧客 ...
分类:
编程语言 时间:
2018-01-26 18:45:02
阅读次数:
247
requests Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 License ...
分类:
其他好文 时间:
2018-01-24 00:40:54
阅读次数:
227
Urllib模块 在python2和python3中的差异 在python2中,urllib和urllib2各有各个的功能,虽然urllib2是urllib的升级版,但是urllib2还是不能完全替代urllib,但是在python3中,全部封装成一个类,urllib 在python2和python ...
分类:
Web程序 时间:
2018-01-21 22:42:12
阅读次数:
308
# coding:utf-8 import urllib import urllib2 url = "http://wwww.baidu.com/s" headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleW... ...
分类:
其他好文 时间:
2018-01-19 19:56:22
阅读次数:
144
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下。 Windows 平台: 我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同。 ...
分类:
编程语言 时间:
2018-01-17 10:11:18
阅读次数:
143
python2爬虫:从网页上采取数据爬虫模块:urllib,urllib2,re,bs4,requests,scrapy,xlml1.urllib2.request3.bs44.正则re5种数据类型(1)数字Number(2)字符串String(3)列表List[]中文在可迭代对象就是unicode对象(4)元组Tuple()(5)字典Set{}爬虫思路:1.静态urlopen打开网页------
分类:
编程语言 时间:
2018-01-17 00:46:40
阅读次数:
200
1.1介绍通过过滤和分析HTML代码,实现对文件、图片等资源的获取,一般用到:urllib和urllib2模块正则表达式(re模块)requests模块Scrapy框架urllib库:1)获取web页面2)在远程http服务器上验证3)表单提交(GET和POST)4)异常处理(urllib2.URLError)5)非http协议通信(ftp)获取页面信息:urllib2.urlopen(url,d
分类:
编程语言 时间:
2018-01-17 00:37:36
阅读次数:
223
urllib2高级特性使用设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登陆之后界面都变化了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内
分类:
Web程序 时间:
2018-01-16 18:27:07
阅读次数:
160
为什么要添加头部信息,因为有时候有些网页会有反爬虫的设置,导致无法获取正常的网页,在这里,在代码的头部添加一个headers信息,模拟成浏览器去访问网页。没有添加头部信息的代码importurllib2url="http://blog.51cto.com/lsfandlinux/2046467"file=urllib2.urlopen(url)html=file.read()printhtml接下
分类:
编程语言 时间:
2018-01-14 19:35:47
阅读次数:
221
1.1 介绍通过过滤和分析HTML代码,实现对文件、图片等资源的获取一般用到:urllib和urllib2模块正则表达式(re模块)requests模块Scrapy框架urllib库:1)获取web页面2)在远程http服务器上验证3)表单提交(GET和POST)4)异常处理(urllib2.URLError)5)非http协议通信(ftp)获取页面信息:urllib2.urlopen(url,d
分类:
编程语言 时间:
2018-01-12 22:38:08
阅读次数:
264