码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫小问题

时间:2018-11-20 13:30:08      阅读:155      评论:0      收藏:0      [点我收藏+]

标签:sele   user   内容   scp   cp命令   数加   请求响应   关于   ssl   

爬虫爬取网站信息
1 需要用到的库
-requests
-bs4
2 流程
1通过requests发送get请求,这里请求包括url和user-agent
2通过beautifulsoup将response转换成lxml格式
3通过soup.select查找需要的数据,是一个列表的形式,可以同归索引取值,之后通过get_text()方法来获取标签里的值
3 出现的错误
1 关于soup.select获取内容的一些方式

  标签名不加任何修饰,类名前加点,id名前加 #

2 设置过期时间通过timeout来实现

  两种形式的错误read time out 和 time out  第一种是获取响应数据的时间,第二种是请求时间

  timeout=(10,20)请求响应时间是10s,等待response时间是20s
3 如果出现ssl认证错误的话,参数加上verify=False
远程连接服务器通过ssh来实现:
ssh juteng@服务器ip,之后会要求输入密码
scp命令实现本地文件与服务器文件之间相互传输
1、从本地将文件传输到服务器
scp【本地文件的路径】【服务器用户名】@【服务器地址】:【服务器上存放文件的路径】
2、从本地将文件夹传输到服务器
scp -r【本地文件的路径】【服务器用户名】@【服务器地址】:【服务器上存放文件的路径】
3、将服务器上的文件传输到本地
scp 【服务器用户名】@【服务器地址】:【服务器上存放文件的路径】【本地文件的路径】
4、将服务器上的文件夹传输到本地
scp -r 【服务器用户名】@【服务器地址】:【服务器上存放文件的路径】【本地文件的路径】

 

爬虫小问题

标签:sele   user   内容   scp   cp命令   数加   请求响应   关于   ssl   

原文地址:https://www.cnblogs.com/juteng/p/9988056.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!