标签:代码简介 就是 c++ 数据 模块 网页数据 选择 超文本标记语言 16px
什么是爬虫?
爬虫:就是抓取网页数据的程序。
网页的三大特征:
1.确定对方位置。 **(URL(统一资源定位符),理解成网页或资源地址。
2.协议联系的方式(微信,打电话) **HTTP/HTTPS(超文本传输协议)
3.语言的选择 **HTML(超文本标记语言)
浏览器用来干嘛的? 解释器(HTML)
Python用来做爬虫?
JAVA:生态圈非常完善。重构(改写)成本比较高。
C/C++:运行效率以及性能几乎是最强的,学习成本太高了。
PHP:天生不是用来做爬虫的,对多线程和异步的支持不是很好。
Python:语法非常优美,代码简介,开发效率高,支持的模块以及库很多。
爬虫的分类:
1.通用爬虫:搜索引擎用的爬虫系统(百度,谷歌)
2.聚焦爬虫:针对某种内容的爬虫。
爬虫思路:
1.获取URL
2.发起请求
3.得到反馈作调整
4.保存
标签:代码简介 就是 c++ 数据 模块 网页数据 选择 超文本标记语言 16px
原文地址:https://www.cnblogs.com/wxq201810/p/9800464.html