码迷,mamicode.com
首页 > 编程语言 > 详细

python之初学爬虫

时间:2019-05-23 00:07:11      阅读:108      评论:0      收藏:0      [点我收藏+]

标签:print   ecb   content   开发工具   htm   url   安装   命令行   font   

一、开发工具:

  1. 运行环境: python3.7  win10
  2. python 第三方库: requests (自行安装 )  >>> cmd --->pip install requests, 具体不做介绍)

二、 检测是否安装成功

      在命令行中输入python,敲击回车,进入python环境。

       再输入以下指令并回车:

  import requests   如果不报错,那一般是已经安装好了。

三、request库简介:

技术图片

 

四、response属性

技术图片

五、我们用requeses库的个体()函数访问必应主页20次,打印返回状态,text内容,并且计算text()属性和content属性返回网页内容的长度

代码如下:

import requests
def getHTMLText(url):
    try: 
        for i in range(0,20):                   #访问20次
            r = requests.get(url, timeout=30)
        r.raise_for_status() #如果状态不是200,引发异常
        r.encoding = utf-8 #无论原来用什么编码,都改成utf-8
        return r.status_code,r.text,r.content,len(r.text),len(r.content)  ##返回状态,text和content内容,text()和content()网页的长度
    except:
        return ""
url = "https://cn.bing.com/?toHttps=1&redig=731C98468AFA474D85AECB7DB98B95D9"
print(getHTMLText(url))

运行结果如下:

技术图片

技术图片

好了,今天的分享就到这里了~~~~~~

 

python之初学爬虫

标签:print   ecb   content   开发工具   htm   url   安装   命令行   font   

原文地址:https://www.cnblogs.com/sgy614092725/p/shiguiyu16.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!