码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫学习

时间:2018-09-15 23:18:26      阅读:187      评论:0      收藏:0      [点我收藏+]

标签:code   write   enc   odi   attr   编写   ext   url   等于   

1、requests   模块

  res = requests.get("url")    请求网页

  res.text      将获取的网页转化成文本格式

  具体函数

  res = requests.get("url")

  res.text  ====>获取文本

  res.content   ====>下载内容

        举例    img_res= rrequests.get(url)     =======>获取要下载的文件的url

              name  =  "name"+".jpg"    ==========>文件命名成要下载的内容的格式  一般url最后 都有格式 比如  jpg    MP4   等

              with open   ("name",‘wb’)  as  f:     ======》打开文件,以前面  编写的名字为文件名     一个下载文件要建立一个存放文件

                f.write(img_res.content)    =======>下载文件进入存放文件,自动转化成我们要下载的文件

  res.encoding  =====>解码方式

  res.aparent_encoding   ======>获取解码方式

  res.status_code    ======>  获取访问的状态码     200表示成功

                        404  表示访问不成功

                        300  是否 稳定网站

 

2、beautifulsoup

  soup = beautifulsoup(res.text,features="lxml")   =======>建立soup对象    lxml的效率是最高的

  v1 = soup.find("div")    =====>寻找第一个div  标签下的内容

  v1 =soup.find(id = "il")  ======>寻找id是il的标签里的内容  

  v1 =soup.find("div",id="il")  ========>寻找第一个id等于il的  div标签 里的内容   两个条件同时满足     id可以改成其他属性

 

  v2 =soup.find_all("div")    =====>寻找所有div  标签下的内容     列表类型

  v2 =soup.find_all(id = "il")  ======>寻找所有   id是il的标签里的内容   列表类型

  v2 =soup.find_all("div",id="il")  ========>寻找所有的id等于il的  div标签 里的内容   两个条件同时满足     列表类型

  obj =v1  获取标签内容

  obj = v2[0]    获取标签内容

  obj.text    获取标签内容文本格式

  obj.attrs    获取标签  属性内容

 

 

 

 

 

 

 

                        

爬虫学习

标签:code   write   enc   odi   attr   编写   ext   url   等于   

原文地址:https://www.cnblogs.com/ychj/p/9652684.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!