码迷,mamicode.com
首页 > 编程语言 > 详细

用python 写网络爬虫--零基础

时间:2017-10-03 23:27:17      阅读:267      评论:0      收藏:0      [点我收藏+]

标签:install   lin   零基础   bsp   检查   http   with   mil   完成   

在爬取网站之前,要做以下几项工作

 

1.下载并检查 网站的robots.txt文件 ,让爬虫了解该网站爬取时有哪些限制。

2.检查网站地图 

 

3.估算网站大小

利用百度或者谷歌搜索 Site:example.webscraping.com

 

结果如下  

找到相关结果数约5个

 

数字为估算值。网站管理员如需了解更准确的索引量

 

 

4.识别网站所使用的技术

使用python 中的builtwith 模块

下载地址

https://pypi.python.org/pypi/python-builtwith

 

运行  pip install builtuith

 

安装完成后 使用命令

 

Import builtwith

Builtwith.parse(http://example.webscraping.com)

用python 写网络爬虫--零基础

标签:install   lin   零基础   bsp   检查   http   with   mil   完成   

原文地址:http://www.cnblogs.com/mrruning/p/7624699.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!