第八周学习总结

时间：2020-05-06 22:07:35 阅读：96 评论：0 收藏：0 [点我收藏+]

数据科学概论

一、爬虫（Web Scraping）

1.网络爬虫（Web Scraping），又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

使用Python可以很方便地编写出爬虫程序，进行互联网信息的自动化检索。

2.理解为一段代码（一个程序）。比如说，当我们要在网上获得一些数据，可以通过搜索引擎来获取，然后将内容和地址存储到本地。通常情况下得到的结果有很多，但需要我们一个一个去点开获取，十分麻烦。此时，我们可以利用爬虫。爬虫先进行页面分析，找到目标链接的为止，然后模拟请求目标链接，获取跳转的新的URL（地址）和网页的标题，循环进行下去，直到数据获取完毕。

3.网络蜘蛛

我们可以将互联网上的每一个网页比喻成蜘蛛网上的点，点与点之间有“蛛丝”联系，每一个网站之间都有或多或少的关联。而我们写的那个程序，就好比网上的那只蜘蛛，可以在蛛网上爬取每一个网站的信息，所以把网络爬虫比喻成蜘蛛更加形象。

例子：百度蜘蛛，它每天会在海量的互联网信息中进行爬取，爬取优质信息并收录，当用户在百度搜索引擎上检索对应关键词时，百度将对关键词进行分析处理，从收录的网页中找出相关网页，按照一定的排名规则进行排序并将结果展现给用户。

技术图片