python笔记——爬虫1

时间：2015-10-31 22:46:52 阅读：212 评论：0 收藏：0 [点我收藏+]

标签：

网络爬虫（Web crawler）：也叫网络蜘蛛（Web spider）,网络爬虫的基本操作就是抓取网页。

浏览网页：在火狐浏览器中打开百度www.baidu.com ，就是将浏览器作为一个’客户端‘，

向服务器发送一次请求，把服务器的文件’抓取‘到本地，再进行解释和展现.

HTML：是一种标记语言，用标签标记内容并加以解析和区分。

浏览器功能：将获取到的HTML代码进行解析，然后将原始的代码转变成我们直接看到的网站页面。

URL（Uniform / Universal Resource Locator）：称为统一资源定位符（也叫网址）

URL格式：

第一部分协议和第二部分服务器用‘ :// ‘符合隔开，第二部分服务器和第三部分路径用‘ / ‘隔开

http：是协议

zh.wikipedia.org，是服务器

80，是服务器上的网络端口号

/w/index.php，是路径

爬虫最主要的处理对象就是URL

参考资源：http://blog.csdn.net/pleasecallmewhy/article/details/8922826

标签：

原文地址：http://www.cnblogs.com/wujiadong2014/p/4926313.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行