爬虫,是我学习的比较多的,也是比较了解的。打算写一个系列教程,网上搜罗一下,感觉别人写的已经很好了,我没必要重复造轮子了。爬虫不过就是访问一个页面然后用一些匹配方式把自己需要的东西摘出来。而访问页面经常用到的几个库,一是urllib和urllib2结合使用,二是requests的使用。第一种方法可以...
分类:
编程语言 时间:
2015-09-20 00:12:58
阅读次数:
444
这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法、鼠标操作、键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~记录此站第一篇文章,希望能分享更多文章于此!一.定位元素方法这里有各种策略用于定位网页中的元素(locate elements),你可以选择...
分类:
编程语言 时间:
2015-09-15 18:17:43
阅读次数:
716
环境准备
Python
我们使用Python2.7进行开发,注意配置好环境变量。
IDE
我们使用Pycharm进行开发,它和大名鼎鼎的Android Studio、IDEA同出一门——Jet Brains。
关于破解,很无耻的贴两个:
用户名:yueting3527
注册码:
===== LICENSE BEGIN =====
93347-12042010
00001FMHemWIs...
分类:
编程语言 时间:
2015-09-13 18:43:58
阅读次数:
345
代码如下: 1 import re 2 import urllib.request 3 import urllib 4 import time 5 6 from collections import deque 7 8 head = { 9 'Connection': 'Keep-Al...
分类:
编程语言 时间:
2015-09-12 12:12:03
阅读次数:
360
今天开始学习Python写个爬虫。首先,从百度找个实例来看看。1importurllib.request,re,sys,os2defget_bing_backphoto():3if(os.path.exists('photos')==False):4os.mkdir('photos')5foriin...
分类:
编程语言 时间:
2015-09-10 11:03:12
阅读次数:
220
#!/usr/bin/envpython
#coding=utf-8
‘‘‘
@这个脚本会显示除urls列表中定义的网页的header,在请求时,会随机使用已经定义好的my_headers列表中的User-Agent
并且在最后使用chardet模块,显示出此网页使用的编码
‘‘‘
importurllib2
importrandom
importchardet
urls=[‘htt..
分类:
编程语言 时间:
2015-09-08 16:52:55
阅读次数:
179
#!/usr/bin/envpython
#coding=utf-8
‘‘‘
@这个脚本会将指定网页中的壁纸图片下载到本地
‘‘‘
importurllib
importre
defget_html_info(url):
‘‘‘@获取网页源代码‘‘‘
html=urllib.urlopen(url)
html_info=html.read()
returnhtml_info
defget_img(info):
‘‘‘@获取通过正则表..
分类:
编程语言 时间:
2015-09-08 15:36:21
阅读次数:
229
1.urllib2.urlopen(request)url="http://www.baidu.com"
#url还可以是其他协议的路径,比如ftp
values={‘name‘:‘MichaelFoord‘,‘location‘:‘Northampton‘,language‘:‘Python‘}
data=urllib.urlencode(values)
user_agent=‘Mozilla/4.0(compatible;MSIE5.5;WindowsNT)‘
header..
分类:
编程语言 时间:
2015-09-08 07:12:01
阅读次数:
259
任务:需要获取的内容:廖雪峰的官方网站中的python部分的标题和内容,之后获取整个python教程的内容,而不仅仅是这一个页面:http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000 对h...
分类:
编程语言 时间:
2015-09-06 21:22:28
阅读次数:
270
一、使用正则表达式实现爬虫: Import requests,re 获取网页源码:htmlsource=requests.get(url).text 使用正则表达式匹配网页中的内容: Re模块常用的函数 Re.findall(pattern,string,flags=0) #返回内容为包含匹配结果的...
分类:
编程语言 时间:
2015-09-06 20:06:56
阅读次数:
212