测试环境:python2.7 + beautifulsoup4.4.1 + selenium2.48.0测试网址:http://tieba.baidu.com/p/2827883128目的是下载该网页下所有图片,共160+张。可以分为以下几步:1、获取网页源代码。发现直接通过urllib2或者req...
分类:
编程语言 时间:
2015-12-06 15:55:01
阅读次数:
301
概要:利用python进行web数据抓取简单方法和实现。1、python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返回的内容。一、第一种方法通常用来获取静态页面内容,比如豆瓣电影内容分类下动画对应的链接:http:...
分类:
编程语言 时间:
2015-12-05 17:29:36
阅读次数:
150
# -*- coding: utf-8 -*-import requestsimport reimport sysreload(sys)sys.setdefaultencoding('utf-8')if __name__ == '__main__': url = 'http://photost...
分类:
编程语言 时间:
2015-12-03 02:07:52
阅读次数:
251
代码:# _*_ coding:utf-8 _*_import urllib2import reimport sys#reload(sys)#sys.setdefaultencoding('utf-8') class Tool: removeImg = re.compile(r'') ...
分类:
编程语言 时间:
2015-11-28 21:37:59
阅读次数:
334
代码:# _*_ coding:utf-8 _*_import urllibimport urllib2import reclass Tool: removingImg = re.compile('| {7}|') removingAddr = re.compile('|') re...
分类:
编程语言 时间:
2015-11-27 19:42:32
阅读次数:
239
#-*- encoding: utf-8 -*- python2.7 '''Created on 2015-11-27@author: max'''import re,urllib,time,uuid,osfor i in re.findall(r'img?src="(.+?\.jpg)"',url...
分类:
编程语言 时间:
2015-11-27 16:57:51
阅读次数:
175
与之前爬的网站图片的不同的是,现在爬取的是要自己个人的关注的东西,所以需要做到模拟登录。模拟登录的原理是登录网站后,在浏览器上获取保存的cookies信息,填充之后与请求一起发送。...
分类:
编程语言 时间:
2015-11-27 13:10:13
阅读次数:
221
代码:# _*_ coding:utf-8 _*_import urllib2import refrom datetime import datetimeclass QSBK: def __init__(self): self.pageIndex = 1 self....
分类:
编程语言 时间:
2015-11-26 12:39:47
阅读次数:
137
最近想学一下Python爬虫与检索相关的知识,在网上看到这个教程,觉得挺不错的,分享给大家。来源:http://cuiqingcai.com/1052.html一、Python入门1.Python爬虫入门一之综述2.Python爬虫入门二之爬虫基础了解3.Python爬虫入门三之Urllib库的基本...
分类:
编程语言 时间:
2015-11-25 10:53:25
阅读次数:
166
python爬虫基本告一段落,琢磨搞点其他的,正好在网上看到一个帖子,一个外国13岁小朋友用python写的下棋程序,内容详细,也有意思,拿来练手。13岁啊。。 我这年纪还在敲 dir啥的吧想到原先玩跑跑卡丁车时看到欧酷有个4岁熊孩子玩的完美漂移录像,深受打击,从此退出车坛。。。 废话不多说,记录一...
分类:
编程语言 时间:
2015-11-23 16:34:22
阅读次数:
188