码迷,mamicode.com
首页 >  
搜索关键字:网络爬虫    ( 1546个结果
Python 实现网络爬虫 抓取静态网页【代码】
#---------------------------------import--------------------------------------- #coding:utf-8 import urllib2; from BeautifulSoup import BeautifulSoup; #-----------------------------------------------...
分类:编程语言   时间:2015-02-21 09:46:47    阅读次数:256
Python网络爬虫(1)--url访问及参数设置
环境:Python2.7.9 / Sublime Text 2 / Chrome1.url访问,直接调用urllib库函数即可import urllib2url='http://www.baidu.com/'response = urllib2.urlopen(url)html=response.r...
分类:编程语言   时间:2015-02-14 12:16:42    阅读次数:5893
scrapy爬虫1--基础设置篇
scrapy作为一个用python编写的网络爬虫,继承了python简单易用的特点,目前已经在很多项目中所使用。这里也是因为工作中的需要,把scrapy使用过程中的一些心得和遇到的问题记录下来以便加深记忆。scrapy安装的过程就不在这里详述了,大家安装都会碰到各种不同的问题,主要还是因为pytho...
分类:其他好文   时间:2015-02-12 19:53:39    阅读次数:251
如何通过jsoup网络爬虫工具爬取网页数据,并通过jxl工具导出到excel
如何通过jsoup网络爬虫工具爬取网页数据,并通过jxl工具导出到excel...
分类:Web程序   时间:2015-02-11 14:37:34    阅读次数:274
看我如何利用Python写简单网络爬虫
平时没事喜欢看看freebuf的文章,今天在看文章的时候,无线网总是时断时续,于是自己心血来潮就动手写了这个网络爬虫,将页面保存下来方便查看 ? 先分析网站内容,红色部分即是网站文章内容div,可以看到,每一页...
分类:编程语言   时间:2015-02-11 09:27:54    阅读次数:264
网络爬虫基本原理(二)
本文转载至http://www.cnblogs.com/wawlian/archive/2012/06/18/2554072.html四、更新策略 互联网是实时变化的,具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略又以下三种: 1.历史参考策略 顾名思义,...
分类:其他好文   时间:2015-02-08 00:23:58    阅读次数:141
[算法系列之十]大数据量处理利器:布隆过滤器
【引言】 在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断 它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新 元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用...
分类:编程语言   时间:2015-02-04 12:56:17    阅读次数:214
在Prefetcher中取消robots.txt的限制
Robots.txt是一种专门用于搜索引擎网络爬虫的文件,当构造一个网站时,如果作者希望该网站的内容被搜索引擎收录,就可以在网站中创建一个纯文本文件robots.txt,在这个文件中,声明该网站不想被robot访问的部分。这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收.....
分类:其他好文   时间:2015-02-01 14:42:52    阅读次数:172
一个简单的Python网络爬虫(抓图),针对某论坛.
1 #coding:utf-8 2 import urllib2 3 import re 4 import threading 5 6 #图片下载 7 def loadImg(addr,x,y,artName): 8 data = urllib2.urlopen(addr).read()...
分类:编程语言   时间:2015-01-30 14:37:43    阅读次数:150
【scrapy】学习Scrapy入门
Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加...
分类:其他好文   时间:2015-01-25 18:16:58    阅读次数:212
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!