码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫开坑之路(一)

时间:2018-05-26 17:09:48      阅读:184      评论:0      收藏:0      [点我收藏+]

标签:ast   original   包含   bsp   获取   去掉   好用   结构化   互联网   

什么是爬虫

  网络爬虫(web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网网络机器人(bots)。爬虫是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到按照某种条件把互联网上所有的网页都抓取完为止的技术。

 技术分享图片

                      某爬虫的结构  

爬虫的工作原理

  简单来说就是从给定的入口进入然后按逻辑获取需要的信息资源。原理主要是通过http或者其他协议,发送请求到目标接口,然后解析返回的内容成结构化数据存储到本地。

URL(爬虫的开始)

  URL(A Uniform Resource Locator),即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

  而爬虫就是根据预先设定的一个或若干初始种子URL开始,以此获得初始网页上的URL列表,在爬行过程中不断从URL队列中获一个的URL,进而访问并下载该页面。页面下载后页面解析器去掉页面上的HTML标记后得到页面内容,将摘要、URL等信息保存到Web数据库中,同时抽取当前页面上新的URL,保存到URL队列,直到满足所设定停止条件。

 

  URL 的格式由三部分组成:

     第一部分是协议(或称为服务方式)。(http)

    第二部分是存有该资源的主机IP地址(有时也包括端口号)。(www.example.com)

    第三部分是主机资源的具体地址,如目录和文件名等。(index.html)

  这样就是一个基本的URL:http://www.example.com/index.html

环境配置

  本鶸的爬虫开坑之路都是基于Ubuntu + Python3.6.5 + Pycharm的,在Linux下还是Jetbrains.的IDE比较好用。代码编辑器可以选择Sublime Text 3,VS code或者notepad++,这个就看自己的喜好了,下部分正式开坑...

 

  

 

爬虫开坑之路(一)

标签:ast   original   包含   bsp   获取   去掉   好用   结构化   互联网   

原文地址:https://www.cnblogs.com/rivervan/p/9093557.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!