搜索关键字：网络爬虫，搜索到1546个结果！码迷,mamicode.com！

网络爬虫+HtmlAgilityPack+windows服务从博客园爬取20万博文

网络爬虫+HtmlAgilityPack+windows服务从博客园爬取20万博文1.前言最新在公司做一个项目，需要一些文章类的数据，当时就想到了用网络爬虫去一些技术性的网站爬一些，当然我经常去的就是博客园，于是就有下面的这篇文章。2.准备工作我需要把我从博客园爬取的数据，保存起来，最好的方式当然是...

分类：Windows程序时间：2015-08-07 09:27:01 阅读次数：207

Python网络爬虫(一)：初步认识网络爬虫

无论你是由于什么原因想做一个网络爬虫，首先做的第一件事情就是要了解它。...

分类：编程语言时间：2015-08-07 01:56:37 阅读次数：425

Nutch2.3+Mongodb+ElasticSearch

Nutch2.3 Nutch诞生于2002年8月，是Apache旗下的一个用Java实现的开源搜索引擎项目，自Nutch1.2版本之后，Nutch已经从搜索引擎演化为网络爬虫，接着Nutch进一步演化为两大分支版本：1.X和2.X，这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种....

分类：数据库时间：2015-08-04 22:50:55 阅读次数：1247

Scrapy 轻松定制网络爬虫

网络爬虫（Web Crawler, Spider）就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人，因为网络本身也是虚拟的东西，所以这个“机器人”其实也就是一段程序，并且它也不是乱爬，而是有一定目的的，并且在爬行的时候会搜集一些信息。例如 Google 就有一大堆爬虫会在 Intern...

分类：其他好文时间：2015-08-04 20:52:46 阅读次数：238

Python爬虫入门一之综述

现在，我们已经进入到大数据时代，在对数据进行处理分析时，首要的是需要有数据，而作为数据的一个重要来源则来自于网络爬虫，鉴于Python语言的简洁高效，以及对爬虫技术的大力支持，我们选择利用Python作...

分类：编程语言时间：2015-08-03 17:05:38 阅读次数：261

dotNet使用HttpWebRequest模拟浏览器

在编写网络爬虫时，HttpWebRequest几乎可以完成绝大多数网站的抓取，为了更好的使用这一技术，我将常用的几个功能进行了封装，以方便调用。这个类已经在多个项目中得到使用，主要解决了Cookies相关的一些问题；如果有其它方面的问题可以提出来，我会进一步完善。

分类：Web程序时间：2015-07-30 21:20:43 阅读次数：221

简易“线程池”在Python网络爬虫中的应用

一，我是如何使用Python抓取网页的我知道Python有一个爬虫框架scrapy，但是目前还没有学习，并且也没有什么很棘手的的问题需要去使用一个爬虫框架，所以我就用Python自带的urllib，将目标网页爬下来，然后用正则过滤出自己需要的内容。二，效率问题上面的方法简单，真的是上手即用，但是问题是效率问题，如果一个网页一个网页的抓，显然带宽无法达到最高，浪费了大部分带宽，这时候大部分人都会想到，...

分类：编程语言时间：2015-07-30 00:46:17 阅读次数：253

[转载]网络爬虫（12）：爬虫框架Scrapy的第一个爬虫示例入门教程

我们使用dmoz.org这个网站来作为小抓抓一展身手的对象。首先先要回答一个问题。问：把网站装进爬虫里，总共分几步？答案很简单，四步：新建项目 (Project)：新建一个新的爬虫项目明确目标（Items）：明确你想要抓取的目标制作爬虫（Spider）：制作爬虫开始爬取网页存储内容（Pipeline...

分类：其他好文时间：2015-07-30 00:25:03 阅读次数：160

Python写的Web spider（网络爬虫）

Python写的Web spider： # web spider # author vince 2015/7/29 import urllib2 import re # get href content pattern = '<a(?:\\s+.+?)*?\\s+href=\"([h]{1}[^\"]*?)\"' t = set("") # collection of url def...

分类：编程语言时间：2015-07-29 21:29:10 阅读次数：144

一个简单的网络爬虫-从网上爬取美女图片

CrawlerPicture.java 文件 package com.lym.crawlerDemo; import java.io.DataInputStream; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; impo...

分类：其他好文时间：2015-07-27 20:59:46 阅读次数：107

共1546条上一页 1 ... 131 132 133 134 135 ... 155 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)