前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识,用来解决简单的贴吧下载,绩点运算自然不在话下。不过要想批量下载大量的内容,比如知乎的所有的问答,那便显得游刃不有余了点。于是乎,爬虫框架Scrapy就这样出场了!Scrapy = Scrach+Python,Scrach这个单词是抓取的意...
分类:
其他好文 时间:
2015-08-07 07:02:47
阅读次数:
175
Python爬虫,下载豆瓣小组图片
# -*- coding: utf-8 -*-
# -----------------------------------------------
# 程序:豆瓣小组图片爬虫
# 版本:1.0
# 语言:Python 3.4
# 作者:gdp12315
# 操作:输入豆瓣小组讨论版块地址、起始页面、终止页面
# 功能:下载小组帖子里发布...
分类:
编程语言 时间:
2015-08-06 22:22:33
阅读次数:
194
python爬虫(二):向网页提交数据回忆一下,我们有的时候在看一些网站的时候,是否遇见过一些网站里面的信息开始显示一部分,然后当我们把鼠标滑轮向下拉动后,又显示出一些信息。这就是异步加载。我的上一篇文章python爬虫百度贴吧标题数据爬取的所有标题都是页面已经加载好的。但是对于这种开始没有加载好的数据我们应该如何爬取呢?接下来我们先介绍下一些概念:
异步加载:举个简单的例子就是说,假如老师判作业,...
分类:
编程语言 时间:
2015-08-06 16:58:15
阅读次数:
327
我用爬虫一天时间“偷了”知乎一百万用户,只为证明PHP是世界上最好的语言2015-08-06猿圈 我用爬虫一天时间“偷了”知乎一百万用户只为证明PHP是世界上最好的语言看了不少朋友圈里推荐的Python爬虫文章, 都觉得太小儿科,处理内容本来就是PHP的强项,P...
分类:
编程语言 时间:
2015-08-06 12:34:30
阅读次数:
181
零基础写python爬虫之urllib2使用指南 前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节。 1.Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。 如果想在程序中明确控制 ...
分类:
编程语言 时间:
2015-08-06 09:36:40
阅读次数:
241
python写爬虫使用urllib2方法
整理了一部分urllib2的使用细节。
1.Proxy 的设置
urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。
如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理。
新建test14来实现一个简单的代理Demo:
import urllib2
e...
分类:
编程语言 时间:
2015-08-06 09:34:51
阅读次数:
271
example:self.file = www.baidu.com存有baidu站的index.html1 def parseAndGetLinks(self): # parse HTML, save links2 self.parser = HTMLParser(Abst...
分类:
编程语言 时间:
2015-08-05 00:58:41
阅读次数:
156
因为发现爬虫爬取出来的数据如果按照表结构划分后存储,不仅麻烦而且非常大的冗余
干脆试试用这样的非关系数据库来试试存储效果如何。
这里我不打算用redis 进行比较,因为他是内存数据库,他擅长的领域应该是缓存和少量数据的统计归类
(做这个的还有另外一大家伙memcache),redis 以后相配合 其他应用提高效率的。
这里相比较的主要是mongodb和mysql 的性能差,就特定指的是这样...
分类:
数据库 时间:
2015-08-04 22:59:07
阅读次数:
224
import?re
import?urllib
import?urllib.request
from?collections?import?deque
queue?=?deque()#存放待爬取的网址
visited?=?set()#存放爬取过的网址。判断是否爬取过
url?=?"http://news.dbanotes...
分类:
编程语言 时间:
2015-08-04 17:29:13
阅读次数:
128
读取cookies 可以这样:
filename='FileCookieJar.txt'
ckjar = cookielib.MozillaCookieJar()
#这里读取cookie
ckjar.load(filename, ignore_discard=True, ignore_expires=True)
for it...
分类:
编程语言 时间:
2015-08-03 22:51:10
阅读次数:
277