码迷,mamicode.com
首页 >  
搜索关键字:python、爬虫    ( 2294个结果
爬虫框架Scrapy
前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识,用来解决简单的贴吧下载,绩点运算自然不在话下。不过要想批量下载大量的内容,比如知乎的所有的问答,那便显得游刃不有余了点。于是乎,爬虫框架Scrapy就这样出场了!Scrapy = Scrach+Python,Scrach这个单词是抓取的意...
分类:其他好文   时间:2015-08-07 07:02:47    阅读次数:175
Python伪装浏览器请求爬虫豆瓣小组
Python爬虫,下载豆瓣小组图片 # -*- coding: utf-8 -*- # ----------------------------------------------- # 程序:豆瓣小组图片爬虫 # 版本:1.0 # 语言:Python 3.4 # 作者:gdp12315 # 操作:输入豆瓣小组讨论版块地址、起始页面、终止页面 # 功能:下载小组帖子里发布...
分类:编程语言   时间:2015-08-06 22:22:33    阅读次数:194
python爬虫(二):向网页提交数据
python爬虫(二):向网页提交数据回忆一下,我们有的时候在看一些网站的时候,是否遇见过一些网站里面的信息开始显示一部分,然后当我们把鼠标滑轮向下拉动后,又显示出一些信息。这就是异步加载。我的上一篇文章python爬虫百度贴吧标题数据爬取的所有标题都是页面已经加载好的。但是对于这种开始没有加载好的数据我们应该如何爬取呢?接下来我们先介绍下一些概念: 异步加载:举个简单的例子就是说,假如老师判作业,...
分类:编程语言   时间:2015-08-06 16:58:15    阅读次数:327
我用爬虫一天时间“偷了”知乎一百万用户,只为证明PHP是世界上最好的语言
我用爬虫一天时间“偷了”知乎一百万用户,只为证明PHP是世界上最好的语言2015-08-06猿圈 我用爬虫一天时间“偷了”知乎一百万用户只为证明PHP是世界上最好的语言看了不少朋友圈里推荐的Python爬虫文章, 都觉得太小儿科,处理内容本来就是PHP的强项,P...
分类:编程语言   时间:2015-08-06 12:34:30    阅读次数:181
零基础写python爬虫之urllib2使用指南
零基础写python爬虫之urllib2使用指南 前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节。 1.Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。 如果想在程序中明确控制 ...
分类:编程语言   时间:2015-08-06 09:36:40    阅读次数:241
python写爬虫使用urllib2方法
python写爬虫使用urllib2方法 整理了一部分urllib2的使用细节。 1.Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。 如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理。 新建test14来实现一个简单的代理Demo: import urllib2 e...
分类:编程语言   时间:2015-08-06 09:34:51    阅读次数:271
python 爬虫部分解释
example:self.file = www.baidu.com存有baidu站的index.html1 def parseAndGetLinks(self): # parse HTML, save links2 self.parser = HTMLParser(Abst...
分类:编程语言   时间:2015-08-05 00:58:41    阅读次数:156
python爬虫补充章,在总控节点那台机器上安装mongodb和redis数据库 都是非apt方法
因为发现爬虫爬取出来的数据如果按照表结构划分后存储,不仅麻烦而且非常大的冗余 干脆试试用这样的非关系数据库来试试存储效果如何。 这里我不打算用redis 进行比较,因为他是内存数据库,他擅长的领域应该是缓存和少量数据的统计归类 (做这个的还有另外一大家伙memcache),redis 以后相配合 其他应用提高效率的。 这里相比较的主要是mongodb和mysql 的性能差,就特定指的是这样...
分类:数据库   时间:2015-08-04 22:59:07    阅读次数:224
python爬虫(五)--爬虫程序的开始
import?re import?urllib import?urllib.request from?collections?import?deque queue?=?deque()#存放待爬取的网址 visited?=?set()#存放爬取过的网址。判断是否爬取过 url?=?"http://news.dbanotes...
分类:编程语言   时间:2015-08-04 17:29:13    阅读次数:128
python 爬虫2 介绍一下怎么抓取cookies,python多线程
读取cookies 可以这样: filename='FileCookieJar.txt'   ckjar = cookielib.MozillaCookieJar()         #这里读取cookie         ckjar.load(filename, ignore_discard=True, ignore_expires=True)         for it...
分类:编程语言   时间:2015-08-03 22:51:10    阅读次数:277
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!