码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫初入

时间:2018-11-15 12:08:36      阅读:92      评论:0      收藏:0      [点我收藏+]

标签:索引   模拟浏览器   取数   互联网   通过   重要   需求   通用   网页   

什么是爬虫?

爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。

爬虫的分类

通用爬虫

  通用爬虫是搜索引擎“抓取系统”的重要组成部分,主要目的是将互联网上的内容下载到本地,形成一个互联网内容的镜像备份。简单来讲就是尽可能将网页下载到本地服务器进行备份,再对这些内容进行处理,最后提供一个用户检索接口。

聚焦爬虫

  根据指定需求抓取互联网上指定的数据。

反爬虫

  门户网站通过一定的策略和技术手段,防止爬虫程序进行网站数据的爬取。

反反爬虫

  爬虫程序通过相应的技术和手段,破解门户网站的饭爬虫手段,从而爬取到相应的数据。

爬虫初入

标签:索引   模拟浏览器   取数   互联网   通过   重要   需求   通用   网页   

原文地址:https://www.cnblogs.com/yuliangkaiyue/p/9962409.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!