搜索关键字：网络爬虫，搜索到1546个结果！码迷,mamicode.com！

Python 实现网络爬虫抓取静态网页【代码】

#---------------------------------import--------------------------------------- #coding:utf-8 import urllib2; from BeautifulSoup import BeautifulSoup; #-----------------------------------------------...

分类：编程语言时间：2015-02-21 09:46:47 阅读次数：256

Python网络爬虫（1）--url访问及参数设置

环境：Python2.7.9 / Sublime Text 2 / Chrome1.url访问，直接调用urllib库函数即可import urllib2url='http://www.baidu.com/'response = urllib2.urlopen(url)html=response.r...

分类：编程语言时间：2015-02-14 12:16:42 阅读次数：5893

scrapy爬虫1--基础设置篇

scrapy作为一个用python编写的网络爬虫，继承了python简单易用的特点，目前已经在很多项目中所使用。这里也是因为工作中的需要，把scrapy使用过程中的一些心得和遇到的问题记录下来以便加深记忆。scrapy安装的过程就不在这里详述了，大家安装都会碰到各种不同的问题，主要还是因为pytho...

分类：其他好文时间：2015-02-12 19:53:39 阅读次数：251

如何通过jsoup网络爬虫工具爬取网页数据,并通过jxl工具导出到excel

如何通过jsoup网络爬虫工具爬取网页数据,并通过jxl工具导出到excel...

分类：Web程序时间：2015-02-11 14:37:34 阅读次数：274

看我如何利用Python写简单网络爬虫

平时没事喜欢看看freebuf的文章，今天在看文章的时候，无线网总是时断时续，于是自己心血来潮就动手写了这个网络爬虫，将页面保存下来方便查看 ? 先分析网站内容，红色部分即是网站文章内容div，可以看到，每一页...

分类：编程语言时间：2015-02-11 09:27:54 阅读次数：264

网络爬虫基本原理(二)

本文转载至http://www.cnblogs.com/wawlian/archive/2012/06/18/2554072.html四、更新策略互联网是实时变化的，具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略又以下三种： 1.历史参考策略顾名思义，...

分类：其他好文时间：2015-02-08 00:23:58 阅读次数：141

[算法系列之十]大数据量处理利器：布隆过滤器

【引言】在日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上；在网络爬虫里，一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中，遇到一个新元素时，将它和集合中的元素直接比较即可。一般来讲，计算机中的集合是用...

分类：编程语言时间：2015-02-04 12:56:17 阅读次数：214

在Prefetcher中取消robots.txt的限制

Robots.txt是一种专门用于搜索引擎网络爬虫的文件，当构造一个网站时，如果作者希望该网站的内容被搜索引擎收录，就可以在网站中创建一个纯文本文件robots.txt，在这个文件中，声明该网站不想被robot访问的部分。这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收.....

分类：其他好文时间：2015-02-01 14:42:52 阅读次数：172

一个简单的Python网络爬虫(抓图),针对某论坛.

1 #coding:utf-8 2 import urllib2 3 import re 4 import threading 5 6 #图片下载 7 def loadImg(addr,x,y,artName): 8 data = urllib2.urlopen(addr).read()...

分类：编程语言时间：2015-01-30 14:37:43 阅读次数：150

【scrapy】学习Scrapy入门

Scrapy介绍 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。抓取网页的一般方法是，定义一个入口页面，然后一般一个页面会有其他页面的URL，于是从当前页面获取到这些URL加...

分类：其他好文时间：2015-01-25 18:16:58 阅读次数：212

共1546条上一页 1 ... 140 141 142 143 144 ... 155 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)