标签:机器 本质 com 响应 模拟 社区 解释 python 额外
什么是爬虫?
爬虫可以做什么?
爬虫的本质
爬虫的基本流程
什么是request&response
爬取到数据该怎么办
什么是爬虫?
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据
爬虫可以做什么?
你可以爬取小姐姐的图片,爬取自己有兴趣的岛国视频,或者其他任何你想要的东西,前提是,你想要的资源必须可以通过浏览器访问的到。
爬虫的本质是什么?
上面关于爬虫可以做什么,定义了一个前提,是浏览器可以访问到的任何资源,特别是对于知晓web请求生命周期的学者来说,爬虫的本质就更简单了。爬虫的本质就是模拟浏览器打开网页,获取网页中我们想要的那部分数据。
浏览器打开网页的过程:
1、在浏览器的输入地址栏,输入想要访问的网址。
2、经过DNS服务器找到服务器主机,向服务器发送一个请求
3、服务器经过解析处理后返回给用户结果(包括html,js,css文件等等内容)
4、浏览器接收到结果,进行解释通过浏览器屏幕呈现给用户结果
上面我们说了爬虫的本质就是模拟浏览器自动向服务器发送请求,获取、处理并解析结果的自动化程序。
爬虫的关键点:模拟请求,解析处理,自动化。
爬虫的基本流程
发起请求
通过HTTP库向目标站点发起请求(request),请求可以
包含额外的header等信息,等待服务器响应
获取响应内容
如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型
解析内容
得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理
保存数据
保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件
标签:机器 本质 com 响应 模拟 社区 解释 python 额外
原文地址:https://www.cnblogs.com/nlong/p/12320966.html