标签:实现 产生 解析 其他 imp font http tar 知识
偶然的机会,在知乎上看到一个有关爬虫的话题<利用爬虫技术能做到哪些很酷很有趣很有用的事情?>,因为强烈的好奇心和觉得会写爬虫是一件高大上的事情,所以就对爬虫产生了兴趣。
关于网络爬虫的定义就不多说了,不知道的请自行点击查看 =>百度百科 网络爬虫,维基百科 网络爬虫
有很多编程语言都可以编写网络爬虫,只不过各有各的优缺点,这里我选择用Python语言编写爬虫,因为Python是一门非常适合用来编写爬虫的语言,用它实现爬虫的代码量相对其他语言要少很多,并且python语言对网络编程这类模块的封装特别的好,它的语言特点使得很多程序员愿意用其编写程序。为了学习爬虫,我接触了Python这门语言,并且在不断深入学习中,把它于爬虫相结合起来,以便于实现爬虫。我学习并且使用的版本是 Python3.
学习网络爬虫需要先了解一些基础知识:
我所学到的第一个爬虫程序就是爬取网页的源码。不要以为获取网页源码是一个非常小而简单的程序,它是爬虫的基础,至关重要。下面是我自己理解并实现的代码,若有不对的地方请指出,以便学习改进。
1 # -*- coding:utf-8 -*- #设置编码类型为utf-8 2 import requests #导入相关的请求模块 3 4 url = ‘http://www.jianshu.com/‘ #要获取的网页网址(简书首页) 5 response = requests.get(url) #通过requests中的get()获取网页连接的状态码 6 content = response.text #通过text从返回的状态码中获取网页的信息 7 print(content) #把源码输出到控制台
标签:实现 产生 解析 其他 imp font http tar 知识
原文地址:http://www.cnblogs.com/zincpool/p/6876271.html