码迷,mamicode.com
首页 > 编程语言 > 详细

python 爬虫学习之路

时间:2016-06-18 18:27:12      阅读:120      评论:0      收藏:0      [点我收藏+]

标签:

2016-6-18

--今天实现了第一个用urllib2实现的爬虫程序。

--过程中发现

 req = urllib2.Request(url,headers = headers)

  总是报错: 主要原因在于 url  地址错误。

  例如:http://www.neihan8.com/wenzi/index_1.html

  这个网址打开的是404网页错误。

 但是  http://www.neihan8.com/wenzi/index_2.html  这个网页却可以了。

  源代码如下:

#-*- coding:utf-8 -*-
import urllib2
class Spider:
    ‘‘‘
        内涵段子吧。。。
    ‘‘‘
    def load_page(self,page):
        ‘‘‘
        发送内涵段子url
        ‘‘‘
        url = ‘http://www.neihan8.com/wenzi/index_‘+ str(page) +‘.html‘
        headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36"}
        req = urllib2.Request(url,headers = headers)
        response = urllib2.urlopen(req)
        html = response.read()
        return  html
#main
‘‘‘

‘‘‘
if __name__ == ‘__main__‘:
    mySpider = Spider()
    the_page = mySpider.load_page(2)
    print the_page            

  综上,我们可以在代码中加一个判断 url 是否打开正常的代码,这个需要学习。

 

 

-----------------------------------------------------------华丽丽的分割线-------------------------------------------------------------------------------------------------

安装Scrapy

技术分享

Python教程:pywin32下载安装

下载链接http://sourceforge.net/projects/pywin32/files/pywin32/Build%20218/pywin32-218.win32-py2.7.exe/download

 

python 爬虫学习之路

标签:

原文地址:http://www.cnblogs.com/goodge/p/5595754.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!