#---------------------------------import---------------------------------------
#coding:utf-8
import urllib2;
from BeautifulSoup import BeautifulSoup;
#-----------------------------------------------...
分类:
编程语言 时间:
2015-02-21 09:46:47
阅读次数:
256
环境:Python2.7.9 / Sublime Text 2 / Chrome1.url访问,直接调用urllib库函数即可import urllib2url='http://www.baidu.com/'response = urllib2.urlopen(url)html=response.r...
分类:
编程语言 时间:
2015-02-14 12:16:42
阅读次数:
5893
scrapy作为一个用python编写的网络爬虫,继承了python简单易用的特点,目前已经在很多项目中所使用。这里也是因为工作中的需要,把scrapy使用过程中的一些心得和遇到的问题记录下来以便加深记忆。scrapy安装的过程就不在这里详述了,大家安装都会碰到各种不同的问题,主要还是因为pytho...
分类:
其他好文 时间:
2015-02-12 19:53:39
阅读次数:
251
如何通过jsoup网络爬虫工具爬取网页数据,并通过jxl工具导出到excel...
分类:
Web程序 时间:
2015-02-11 14:37:34
阅读次数:
274
平时没事喜欢看看freebuf的文章,今天在看文章的时候,无线网总是时断时续,于是自己心血来潮就动手写了这个网络爬虫,将页面保存下来方便查看 ? 先分析网站内容,红色部分即是网站文章内容div,可以看到,每一页...
分类:
编程语言 时间:
2015-02-11 09:27:54
阅读次数:
264
本文转载至http://www.cnblogs.com/wawlian/archive/2012/06/18/2554072.html四、更新策略 互联网是实时变化的,具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略又以下三种: 1.历史参考策略 顾名思义,...
分类:
其他好文 时间:
2015-02-08 00:23:58
阅读次数:
141
【引言】
在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断 它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新 元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用...
分类:
编程语言 时间:
2015-02-04 12:56:17
阅读次数:
214
Robots.txt是一种专门用于搜索引擎网络爬虫的文件,当构造一个网站时,如果作者希望该网站的内容被搜索引擎收录,就可以在网站中创建一个纯文本文件robots.txt,在这个文件中,声明该网站不想被robot访问的部分。这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收.....
分类:
其他好文 时间:
2015-02-01 14:42:52
阅读次数:
172
1 #coding:utf-8 2 import urllib2 3 import re 4 import threading 5 6 #图片下载 7 def loadImg(addr,x,y,artName): 8 data = urllib2.urlopen(addr).read()...
分类:
编程语言 时间:
2015-01-30 14:37:43
阅读次数:
150
Scrapy介绍
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加...
分类:
其他好文 时间:
2015-01-25 18:16:58
阅读次数:
212