Python爬虫学习之获取网页源码

时间：2017-05-19 01:01:33 阅读：224 评论：0 收藏：0 [点我收藏+]

　　偶然的机会，在知乎上看到一个有关爬虫的话题<利用爬虫技术能做到哪些很酷很有趣很有用的事情？>,因为强烈的好奇心和觉得会写爬虫是一件高大上的事情，所以就对爬虫产生了兴趣。

　　关于网络爬虫的定义就不多说了，不知道的请自行点击查看 =>百度百科网络爬虫，维基百科网络爬虫

　　有很多编程语言都可以编写网络爬虫，只不过各有各的优缺点，这里我选择用Python语言编写爬虫，因为Python是一门非常适合用来编写爬虫的语言，用它实现爬虫的代码量相对其他语言要少很多，并且python语言对网络编程这类模块的封装特别的好，它的语言特点使得很多程序员愿意用其编写程序。为了学习爬虫，我接触了Python这门语言，并且在不断深入学习中，把它于爬虫相结合起来，以便于实现爬虫。我学习并且使用的版本是 Python3.

　　学习网络爬虫需要先了解一些基础知识：

1. 　　HTML 用于了解整个网页的构成，方便从网页中爬取需要的东西
2. 　　HTTP 协议，用于了解网址的构成，以便于解析URL
3. 　　Python 用于编写相关的程序以实现爬虫

　　我所学到的第一个爬虫程序就是爬取网页的源码。不要以为获取网页源码是一个非常小而简单的程序，它是爬虫的基础，至关重要。下面是我自己理解并实现的代码，若有不对的地方请指出，以便学习改进。

1 # -*- coding:utf-8 -*-          #设置编码类型为utf-8
2 import requests                 #导入相关的请求模块
3 
4 url = ‘http://www.jianshu.com/‘  #要获取的网页网址(简书首页)
5 response = requests.get(url)    #通过requests中的get()获取网页连接的状态码
6 content = response.text         #通过text从返回的状态码中获取网页的信息
7 print(content)                  #把源码输出到控制台

Python爬虫学习之获取网页源码

标签：实现产生解析其他 imp font http tar 知识

原文地址：http://www.cnblogs.com/zincpool/p/6876271.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行