初阶爬虫（一）

时间：2019-03-10 11:08:29 阅读：156 评论：0 收藏：0 [点我收藏+]

标签：路径 star request 例子 www java print 时间必须

爬虫处理的对象为链接、标题、段落、图片
<a href="http:baidu.com">baidu</a>
<h1>xxxx<h1>
<p>xxxx<p>
<img src="xxxxxxxxxx"/>

链接中有两种必须剔除的：
1、内部跳转链接
<a href="#title">xxxx</a>
2、由脚本处理的链接
<a href="javascript:void(0)">xxxx</a>

举个例子：

import requests
url="https://www.baidu.com/"
r=requests.get(url)
print(r.text)
print(r.content)
print(r.status_code)

由于爬虫需要保存大量网页，所以保存时需要保证名字不一样，常见的保存名方法有
1、domain+filename（可能重名）
2、md5（我装hashlib失败了，没法用）
3、时间戳（我的选择，时间戳的精度根据爬取的速度定，比如精确到秒还是微秒）

文件保存路径

# <a  href="http://www.baidu.com/?tn=sitehao123_15">百度</a>
url="http://www.baidu.com/?tn=sitehao123_15"
#提取domain
start_pos=url.find("//")#从前向后检索
end_pos=url.rfind(‘/‘)#从后向前检索
domain=url[start_pos+2:end_pos]
print(domain)

初阶爬虫（一）

标签：路径 star request 例子 www java print 时间必须

原文地址：https://blog.51cto.com/14156081/2360671

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行