码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫前奏

时间:2019-09-09 23:06:15      阅读:190      评论:0      收藏:0      [点我收藏+]

标签:google   网页   rom   network   支持   模拟   提取   目的   联网   

爬虫的实际例子

  1. 搜索引擎(百度,谷歌,360搜索等)。
  2. 伯乐在线。(网站里的内容都是从别的爬取,相当于搬运工)
  3. 惠惠购物助手。
  4. 数据分析和研究(数据冰山知乎专栏)。
  5. 抢票软件。

什么是爬虫

   1. 通俗理解,爬虫是模拟人请求网站的程序。可以自动请求网页,并将数据抓取下来,然后使用一定的规则提取有价值的数据。

   2. 专业介绍:百度百科

通用爬虫和聚焦爬虫

  1. 通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

  2. 聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

为什么用Python写爬虫

  • 跨平台,对Linux和windows都有不错的支持。
  • 科学计算,数值拟合:Numpy,Scipy
  • 可视化:2d:Matplotlib 3d: Mayavi2  
  • 复杂网络:Networkx
  • 统计:与R语言接口:Rpy
  • 交互式终端
  • 网站的快速开发

爬虫前奏

标签:google   网页   rom   network   支持   模拟   提取   目的   联网   

原文地址:https://www.cnblogs.com/jeavy/p/11494549.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!