码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫项目 (知识点)

时间:2017-08-26 21:25:02      阅读:122      评论:0      收藏:0      [点我收藏+]

标签:抓取   传输   closed   alt   html   介绍   有用   http请求   style   

一. 基本介绍

技术分享
什么是爬虫?
    - 就是抓取网页数据的程序

怎么抓取网页数据


网页三大特征:
    - 每个网页都有自己的URL (统一资源定位符) 来进行定位
    - 网页都是用HTML(超文本标记语言)来描述页面信息
    - 网页都使用HTTP/HTTPS(超文本传输协议)来传输HTML数据

爬虫的设计思路:
    -1. 首先确定需要爬取的网页URL地址
    -2. 通过HTTP/HTTPS协议来获取对应的HTML页面
    -3. 提取HTML页面里面有用的数据
        a. 如果是需要的数据,就保存起来。
        b. 如果是页面里的其它URL,那就继续执行第二步。

为什么选择Python做爬虫?
    - PHP   对多线程 异步支持不够好 并发处理很弱
    - Java  Python爬虫的最大对手,但是Java语言本身很笨重,代码量很大,重构成本比较高
    - C/C++ 运行效率几乎最强,但是学习成本很高,代码成型比较慢
    - Python 语言优美,代码简洁,开发效率高,支持的模块多,相关的HTTP请求模块和
             还有强大的爬虫Scrapy 以及成熟高效的scrapy-redis分布式策略
             而且 调用其他接口也非常方便(胶水语言)
View Code

 

爬虫项目 (知识点)

标签:抓取   传输   closed   alt   html   介绍   有用   http请求   style   

原文地址:http://www.cnblogs.com/oyoui/p/7436342.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!