用urllib库几行代码实现最简单爬虫

时间：2020-07-19 23:19:06 阅读：78 评论：0 收藏：0 [点我收藏+]

标签：pre 格式 viewport env urllib ram 读取网站 lld

"""
使用urllib.request()请求一个网页内容，并且把内容打印出来。

"""

from urllib import request

import chardet

if __name__ == ‘__main__‘:

    # 有的网站url使用不了
    url = "https://www.cnblogs.com/gshelldon/p/13332798.html"

    # 打开url把内容赋值给rsp
    rsp = request.urlopen(url)

    # 存取到内存当中是bytes流，使用read方法把rsp的内容读取出来，赋值给变量html。
    html = rsp.read()

    # 使用decode解码成我们能够看懂的格式。
    # print(type(html))         # 查看返回的格式

    html = html.decode(‘utf-8‘)  # 默认的是utf-8
    print(html)

?```python

返回的内容是html格式的文本

D:\ProgramData\Anaconda3\envs\spider\python.exe D:/爬虫/v1-最简单的爬虫.py
<!DOCTYPE html>
<html lang="zh-cn">
<head>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1.0" />
    <meta name="referrer" content="origin" />
    <meta property="og:description" content="nginx 动静分离 不需要运维来做，开发做的。 动态请求：该请求会调用数据库中的数据。 静态请求：用户请求不会调用数据库。 动态页面：后端开发写的需要调用数据库的页面(python、java、C、p" />
    <meta http-equiv="Cache-Control" content="no-transform" />
 
省略。。。。。。。

用urllib库几行代码实现最简单爬虫

标签：pre 格式 viewport env urllib ram 读取网站 lld

原文地址：https://www.cnblogs.com/gshelldon/p/13340990.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行