码迷,mamicode.com
首页 >  
搜索关键字:python、爬虫    ( 2294个结果
python 爬虫系列教程方法总结及推荐
爬虫,是我学习的比较多的,也是比较了解的。打算写一个系列教程,网上搜罗一下,感觉别人写的已经很好了,我没必要重复造轮子了。爬虫不过就是访问一个页面然后用一些匹配方式把自己需要的东西摘出来。而访问页面经常用到的几个库,一是urllib和urllib2结合使用,二是requests的使用。第一种方法可以...
分类:编程语言   时间:2015-09-20 00:12:58    阅读次数:444
[python爬虫] Selenium常见元素定位方法和操作的学习介绍
这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法、鼠标操作、键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~记录此站第一篇文章,希望能分享更多文章于此!一.定位元素方法这里有各种策略用于定位网页中的元素(locate elements),你可以选择...
分类:编程语言   时间:2015-09-15 18:17:43    阅读次数:716
天罗地网——Python爬虫初初初探
环境准备 Python 我们使用Python2.7进行开发,注意配置好环境变量。 IDE 我们使用Pycharm进行开发,它和大名鼎鼎的Android Studio、IDEA同出一门——Jet Brains。 关于破解,很无耻的贴两个: 用户名:yueting3527 注册码: ===== LICENSE BEGIN ===== 93347-12042010 00001FMHemWIs...
分类:编程语言   时间:2015-09-13 18:43:58    阅读次数:345
Python爬虫获取迅雷会员帐号
代码如下: 1 import re 2 import urllib.request 3 import urllib 4 import time 5 6 from collections import deque 7 8 head = { 9 'Connection': 'Keep-Al...
分类:编程语言   时间:2015-09-12 12:12:03    阅读次数:360
Python爬虫学习
今天开始学习Python写个爬虫。首先,从百度找个实例来看看。1importurllib.request,re,sys,os2defget_bing_backphoto():3if(os.path.exists('photos')==False):4os.mkdir('photos')5foriin...
分类:编程语言   时间:2015-09-10 11:03:12    阅读次数:220
简单 python爬虫 <1>
#!/usr/bin/envpython #coding=utf-8 ‘‘‘ @这个脚本会显示除urls列表中定义的网页的header,在请求时,会随机使用已经定义好的my_headers列表中的User-Agent 并且在最后使用chardet模块,显示出此网页使用的编码 ‘‘‘ importurllib2 importrandom importchardet urls=[‘htt..
分类:编程语言   时间:2015-09-08 16:52:55    阅读次数:179
简单 python爬虫 <2>
#!/usr/bin/envpython #coding=utf-8 ‘‘‘ @这个脚本会将指定网页中的壁纸图片下载到本地 ‘‘‘ importurllib importre defget_html_info(url): ‘‘‘@获取网页源代码‘‘‘ html=urllib.urlopen(url) html_info=html.read() returnhtml_info defget_img(info): ‘‘‘@获取通过正则表..
分类:编程语言   时间:2015-09-08 15:36:21    阅读次数:229
python的urllib2包基本使用方法
1.urllib2.urlopen(request)url="http://www.baidu.com" #url还可以是其他协议的路径,比如ftp values={‘name‘:‘MichaelFoord‘,‘location‘:‘Northampton‘,language‘:‘Python‘} data=urllib.urlencode(values) user_agent=‘Mozilla/4.0(compatible;MSIE5.5;WindowsNT)‘ header..
分类:编程语言   时间:2015-09-08 07:12:01    阅读次数:259
python爬虫实战
任务:需要获取的内容:廖雪峰的官方网站中的python部分的标题和内容,之后获取整个python教程的内容,而不仅仅是这一个页面:http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000 对h...
分类:编程语言   时间:2015-09-06 21:22:28    阅读次数:270
Python爬虫入门
一、使用正则表达式实现爬虫: Import requests,re 获取网页源码:htmlsource=requests.get(url).text 使用正则表达式匹配网页中的内容: Re模块常用的函数 Re.findall(pattern,string,flags=0) #返回内容为包含匹配结果的...
分类:编程语言   时间:2015-09-06 20:06:56    阅读次数:212
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!