在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。 我们最常规的做法就是通过鼠标右键,选择另存为。但有些图片鼠标右键的时候并没有另存为选项,还有办法就通过就是通过截图工具截取下来,但这样就降低图片的清晰度。好吧~!.....
分类:
编程语言 时间:
2015-01-15 07:01:44
阅读次数:
262
第三部分替换默认下载器,使用selenium下载页面对详情页稍加分析就可以得出:我们感兴趣的大部分信息都是由javascript动态生成的,因此需要先在浏览器中执行javascript代码,再从最终的页面上抓取信息(当然也有别的解决方案)。scrapy本身提供了Middleware机制。利用Dowloader..
分类:
编程语言 时间:
2015-01-12 11:09:41
阅读次数:
371
selenium本是用来对webapplication做自动化测试的。不过,它有个天大的好处:能让我们用python(当然不仅是python)代码模拟人对浏览器的操作。所需软件:python2.7,firefox25.0.1(版本不能太高),selenium2.44.0(使用pipinstallselenium安装即可)1.打开浏览器,请求百度主页,5秒..
分类:
编程语言 时间:
2015-01-12 06:57:37
阅读次数:
700
第一部分:任务描述起始页面:http://shanhuijj.tmall.com/search.htm?spm=a1z10.3-b.w4011-3112923129.1.KjGkS2这个页面列出了网店的所有宝贝,如图:点击进入宝贝详情页面,例如:http://detail.tmall.com/item.htm?spm=a1z10.3-b.w4011-3112923129.62.xGx75B&id=1091021..
分类:
编程语言 时间:
2015-01-12 06:55:47
阅读次数:
800
第二部分抽取起始页中进入宝贝详情页面的链接创建项目,并生成spider模板,这里使用crawlspider。2.在中scrapyshell中测试选取链接要使用的正则表达式。首先使用firefox和firebug查看源码,定位到要链接然后在shell中打开网页:scrapyshellhttp://shanhuijj.tmall.com/search.h..
分类:
编程语言 时间:
2015-01-12 06:53:47
阅读次数:
945
先贴上代码# coding:utf-8import urllib2import urllibimport regjc = urllib.quote('你好')url = 'http://sug.so.360.cn/suggest?callback=suggest_so&encodein=utf-8&...
分类:
编程语言 时间:
2015-01-11 16:04:12
阅读次数:
175
什么是爬虫?从逻辑角度讲,爬虫对应一个树。树枝是网页,树叶是感兴趣的信息。当我们从一个URL出发查找感兴趣的信息时,当前URL返回的内容可能包含我们感兴趣的信息,也可能包含另一个可能包含我们感兴趣的信息的URL。一个爬虫对应一次信息搜索,信息搜索过程会建立起一棵树。s..
分类:
编程语言 时间:
2015-01-11 06:25:52
阅读次数:
641
最近在学习Python的网络操作,网上有很多模拟登陆方法。这里做个笔记。 没有验证码的还是比较容易的。
#coding:utf-8
import re
import urllib
import urllib2
import cookielib
import os
import json
import sys
import time
from urllib import quote,unquote...
分类:
编程语言 时间:
2015-01-10 18:13:00
阅读次数:
369
三张图告诉你python爬虫时转换\u中文字符的“坑”...
分类:
编程语言 时间:
2015-01-09 21:01:02
阅读次数:
215
在前面的example中,我们知道定义一个Item类很简单,只要继承scrapy.Item,然后添加几个类型为scrapy.Field的对象作为类属性,就像下面这样importscrapy
classProduct(scrapy.Item):
name=scrapy.Field()
price=scrapy.Field()
stock=scrapy.Field()
last_updated=scrapy.Field(..
分类:
编程语言 时间:
2015-01-08 07:18:25
阅读次数:
958