搜索关键字：网络爬虫，搜索到1546个结果！码迷,mamicode.com！

[Python]网络爬虫（一）：抓取网页的含义和URL基本构成

一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这...

分类：编程语言时间：2014-10-24 00:11:57 阅读次数：276

python编写网络爬虫

一，利用网络爬虫来下载韩寒博客文章，主要需要用到以下知识要点：1，简要了解HTML标记语言，熟悉HTTP协议，发现HTML规律2，熟悉urllib模块3，熟悉python在此我利用的是ie8的开发者工具，当然也可以使用比较出名的firebug，这是火狐的一个插件，十分好用。中心思想：获取URL链..

分类：编程语言时间：2014-10-23 06:57:58 阅读次数：333

IT忍者神龟之Java网络爬虫回顾

网络爬虫的强大和伟大耸立在我们IT技术里面...

分类：编程语言时间：2014-10-21 10:23:03 阅读次数：279

布隆过滤器

通常，我们需要判断一个元素是否在一个集合中。比如在WPS字处理软件中，需要检查一个单词是否拼写正确；在FBI 中需要判断一个嫌疑犯的名字是否在嫌疑名单上；在网络爬虫里，判断一个网址是否被访问过。最简单的解决办法就是采用HashTable的方法来存储，它的好处是快速且精确，缺点是耗费大量内存空间。现在，来介绍一种数学工具，叫做布隆过滤器（Bloom Filter），是布隆在1970年...

分类：其他好文时间：2014-10-19 02:41:55 阅读次数：310

多线程网页爬虫 python 实现

采用了多线程和锁机制，实现了广度优先算法的网页爬虫。对于一个网络爬虫，如果要按广度遍历的方式下载，它就是这样干活的： 1.从给定的入口网址把第一个网页下载下来 2.从第一个网页中提取出所有新的网页地址，放入下载列表中 3.按下载列表中的地址，下载所有新的网页 4.从所有新的网页中找出没有下载过的网页...

分类：编程语言时间：2014-10-13 22:44:27 阅读次数：248

基于JAVA语言的网络爬虫

Introduction：这个小demo用于爬取淘宝网的相关链接。首先从“www.taobao.com"这个url开始，手机页面上的所有url，然后存入toCrawList 。当toCrawList不为空时，拿出一个url,把它存入数据集并且搜寻这个url上的所有链接充入toCrawList. 这是一个BFS过程。 Framework: Code: 就网络爬虫来讲这个de...

分类：编程语言时间：2014-10-09 18:49:37 阅读次数：345

[Python学习] 简单网络爬虫抓取博客文章及思想介绍

前面一直强调Python运用到网络爬虫方面非常有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简单介绍下Python是如何爬去网络数据的,文章知识非常简单,但是也分享给大家,就当简单入门吧!同时只分享知识,希望大家不要去做破坏网络的知识或侵犯别人的原创型文章.主要介绍了如何手动爬取新浪播客和CSDN博客的思想和方法.如果有错误或不足之处,请海涵!...

分类：编程语言时间：2014-10-04 17:57:27 阅读次数：266

搜索引擎源码及流程

?? 对从网络上抓取到的网页进行处理：建立网络库，分词，去重，if-tdf计算权重，归一化，然后根据查询词将文本相似度从高到低的依次返回给客户第一阶段：python网络爬虫抓取网页，并存盘第二阶段：对磁盘上的网页文件建立网页库，将全部网页写入网页库，并建立相应网页的偏移量索引文件(1 23 100)-->(dofid, offset, size)，以便读取网页内容 ...

分类：其他好文时间：2014-10-04 16:33:27 阅读次数：269

nutch从搜索引擎到网络爬虫

人物介绍姓名：DougCutting个人名望：开发出开源全文检索引擎工具包Lucene。个人简介/主要荣誉：除了 Lucene，还开发了著名的网络爬虫工具 Nutch，分布式系统基础架构Hadoop，这些大师级作品都是开源的。目前任职 Apache 软件基金会主席。网络上对 Doug Cutting...

分类：其他好文时间：2014-10-03 13:28:14 阅读次数：368

Mac OS使用技巧十九：Safari碉堡功能之二查看网页源码

因为大三下的时候选修了搜索技术，了解了网络上搜索引擎和网络爬虫的信息扒取的一些东西，后来我们做了一个比较水的东西，就是只扒取了几家较大的下载网站几十个软件的评分下载量等信息，当用户输入一个程序名称，我们会根据下载量和评分算出的分数做一个推荐排序。咳，扯远了。那时候我们在windows下需要用火狐来查看网页的源代码，这点强大的Safari也是可以做到的，甚至Safari提供的查看源...

分类：Web程序时间：2014-10-01 02:14:30 阅读次数：337

共1546条上一页 1 ... 145 146 147 148 149 ... 155 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)