爬虫-简介

时间：2018-09-06 22:52:13 阅读：194 评论：0 收藏：0 [点我收藏+]

标签：命令埃森哲流程通过阅读 htm submit 分类主机

爬虫的定义

为什么要做爬虫

首先请问：都说现在是“大数据时代”，那数据从何而来？

企业产生的用户数据：百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数
数据平台购买数据：数据堂、国云数据市场、贵阳大数据交易所
政府/机构公开的数据：中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。
数据管理咨询公司：麦肯锡、埃森哲、艾瑞咨询
爬取网络数据：如果需要的数据市场上没有，或者不愿意购买，那么可以选择招/做一名爬虫工程师，自己动手丰衣足食。拉勾网Python爬虫职位。

爬虫是什么？

百度百科：网络爬虫.

关于爬虫，要学习的知识：

Python基础语法学习（基础知识）
HTML页面的内容抓取（数据抓取）
HTML页面的数据提取（数据清洗）
Scrapy框架以及scrapy-redis分布式策略（第三方框架）
爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争....

爬虫的分类

根据使用场景，网络爬虫可分为 通用爬虫和聚焦爬虫

通用爬虫

通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

通用搜索引擎（Search Engine）工作原理

通用网络爬虫 从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。

第一步：抓取网页

搜索引擎网络爬虫的基本工作流程如下：

首先选取一部分的种子URL，将这些URL放入待抓取URL队列
取出待抓取URL，解析DNS得到主机的IP，并将URL对应的网页下载下来，存储进已下载网页库中，并且将这些URL放进已抓取URL队列
分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环....

搜索引擎如何获取一个新网站的URL:

新网站向搜索引擎主动提交网址：(如百度：http://zhanzhang.baidu.com/linksubmit/url)
在其他网站上设置新网站外链（尽可能处于搜索引擎爬取范围内）
搜索引擎和DNS解析服务商(如DNSPod等）合作，新网站域名将被迅速抓取

但是搜索引擎蜘蛛的爬行是被输入了一定的规则的，它需要遵从一些命令或文件的内容，如标注为nofollow的链接，或者是Robots协议。.

Robots协议（也叫爬虫协议、机器人协议等）,全称是“网络爬虫排除标准”（Robots Exclusion Protocol）,网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取,例如：
淘宝网：https://www.taobao.com/robots.txt
腾讯网： http://www.qq.com/robots.txt