下载链接http://sourceforge.net/projects/pywin32/files/pywin32/Build%20218/pywin32-218.win32-py2.7.exe/download
标签:
2016-6-18
--今天实现了第一个用urllib2实现的爬虫程序。
--过程中发现
req = urllib2.Request(url,headers = headers)
总是报错: 主要原因在于 url 地址错误。
例如:http://www.neihan8.com/wenzi/index_1.html
这个网址打开的是404网页错误。
但是 http://www.neihan8.com/wenzi/index_2.html 这个网页却可以了。
源代码如下:
#-*- coding:utf-8 -*- import urllib2 class Spider: ‘‘‘ 内涵段子吧。。。 ‘‘‘ def load_page(self,page): ‘‘‘ 发送内涵段子url ‘‘‘ url = ‘http://www.neihan8.com/wenzi/index_‘+ str(page) +‘.html‘ headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36"} req = urllib2.Request(url,headers = headers) response = urllib2.urlopen(req) html = response.read() return html #main ‘‘‘ ‘‘‘ if __name__ == ‘__main__‘: mySpider = Spider() the_page = mySpider.load_page(2) print the_page
综上,我们可以在代码中加一个判断 url 是否打开正常的代码,这个需要学习。
-----------------------------------------------------------华丽丽的分割线-------------------------------------------------------------------------------------------------
安装Scrapy
下载链接http://sourceforge.net/projects/pywin32/files/pywin32/Build%20218/pywin32-218.win32-py2.7.exe/download
标签:
原文地址:http://www.cnblogs.com/goodge/p/5595754.html