前段时间小编写了一篇有关于Python入门的文章,我觉得写的还是不够好,所以我特地补上一篇Python爬虫的入门的,本文特别适合Python小白,刚学习爬虫不久。接下来就让我们一起来写第一个例子吧!
一、我们的目标
1、作为第一个例子,我就以抓取糗事百科热门贴为例吧
2、糗事百科热门帖,获取其发布者、评论、点赞数、评论等信息
3、将信息清洗并打印,循环输出
4、设计程序,使可以选择抓取的页面范围
5、将每一页的信息保存到文本
二、开发环境介绍
phthon 2.7.13
IDE:PyCharm
采用库:re、requests、time
三、步骤
1、获取源码
首先用requests库的get方法获取首页源代码
<span style="font-size:14px;">user_agent = ‘Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36‘
headers={‘User_agent‘: user_agent}
r=requests.get(url,headers=headers)
result=r.text
print result</span>
结果输出如下
2、正则匹配
打开360浏览器,右键点击审查元素,可以清晰的看到发布者、年龄、发布内容、评论数等的分布及标签构造,根据各种关键词可以匹配正则设置循环,打印输
<span style="font-size:14px;">pattern=re.compile(‘<div class="author.*?<h2>(.*?)</h2>.*?Icon">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<span.*?stats-vote.*?number">(.*?)</i>.*?stats-comments.*?number">(.*?)</i>.*?up.*?number hidden">(.*?)</span>.*?down.*?number hidden">(.*?)</span>‘,re.S)
items=re.findall(pattern,result)
<span style="white-space:pre"> </span>number=1
for item in items:
print u‘‘
print number,u‘楼‘,u‘\n楼主:‘,item[0],u‘‘,item[1],u‘岁‘,u‘\n发言:‘,self.tool.replace(item[2]),u‘\n好笑:‘,item[3],u‘\n评论:‘,item[4],u‘\n赞:‘,item[5],u‘\n踩:‘,item[6]
time.sleep(0.1)
number+=1</span>
3、 面向对象
<span style="font-size:14px;">#定义一个Spider类
class Spider(object):
#初始化参数
def __init__(self):
self.siteURL =‘http://www.qiushibaike.com/‘
self.tool=Tool()
#获取网页源码
def getSource(self,url):
user_agent = ‘Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36‘
headers = {‘User_agent‘: user_agent}
r=requests.get(url,headers=headers)
result=r.text
return result
#获取详情页信息,并循环打印输出
def getDetailPage(self,detailURL):
source=self.getSource(detailURL)
pattern=re.compile(‘<div class="author.*?<h2>(.*?)</h2>.*?Icon">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<span.*?stats-vote.*?number">(.*?)</i>.*?stats-comments.*?number">(.*?)</i>.*?up.*?number hidden">(.*?)</span>.*?down.*?number hidden">(.*?)</span>‘,re.S)
items=re.findall(pattern,source)
number=1
for item in items:
print u‘‘
print number,u‘楼‘,u‘\n楼主:‘,item[0],u‘‘,item[1],u‘岁‘,u‘\n发言:‘,self.tool.replace(item[2]),u‘\n好笑:‘,item[3],u‘\n评论:‘,item[4],u‘\n赞:‘,item[5],u‘\n踩:‘,item[6]
time.sleep(0.1)
number+=1
return items</span><strong>
</strong>
4、数据清洗
可以看到所得代码中含较多的</br><br><br />等标签,可以定义一个Tool类进行清洗
class Tool():
def replace(self,x):
x=re.sub(re.compile(‘<br>|</br>|/>|<br‘),"",x)
return x.strip()
5、文本保存
定义一个saveDetailPage函数,传入文件名和数据,在此不赘述
6、获取多页
上面的内容我们已经成功用正则表达式匹配出想要的内容,想获取多页,只需设置一个循环即可
所以关键内容来啦!
观察底面标签可知热门评论共35页,观察网页地址栏可发现规律:
首页 url即‘糗事百科 - 超搞笑的原创糗事笑话分享社区‘,从第二页开始为 url+/8hr/page/x/?s=4964698 ,可以推测:8hr为8小时内最热门,x即页数,后面s=4964698,博主猜测是访问该网站的总次数,因为如果在同一个会话中,s是相同的,反之另外打开访问时s又不同,且每次发现s有增加!
由以上分析,我们要遍历这35页,要分情况讨论。
最后来看抓取的结果:
以上就是小编带领大家一起学习的Python爬虫的基础入门啦,喜欢本文的小伙伴或者觉得本文对你有帮助可以点播关注或转发,如果你有好的意见或意见也可以在下面留言或评论,如果你想进一步学习Python或者了解Python,可以私信小编0505,小编准备了一份适合Python初学者的系统入门学习资料可供领取喔。文末小编奉上本次的源码!
四、奉上源码
<span style="font-size:14px;">#usr/bin/env python
# -*- coding: utf-8 -*-
import re
import requests
import time
#定义一个Tool类,方便用replace方法把换行符等删除
class Tool():
def replace(self,x):
x=re.sub(re.compile(‘<br>|</br>|/>|<br‘),"",x)
return x.strip()
#定义一个Spider类
class Spider(object):
#初始化参数
def __init__(self):
self.siteURL =‘http://www.qiushibaike.com/‘
self.tool=Tool()
#获取网页源码
def getSource(self,url):
user_agent = ‘Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36‘
headers = {‘User_agent‘: user_agent}
r=requests.get(url,headers=headers)
result=r.text
return result
#获取详情页信息,并循环打印输出
def getDetailPage(self,detailURL):
source=self.getSource(detailURL)
pattern=re.compile(‘<div class="author.*?<h2>(.*?)</h2>.*?Icon">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<span.*?stats-vote.*?number">(.*?)</i>.*?stats-comments.*?number">(.*?)</i>.*?up.*?number hidden">(.*?)</span>.*?down.*?number hidden">(.*?)</span>‘,re.S)
items=re.findall(pattern,source)
number=1
for item in items:
print u‘‘
print number,u‘楼‘,u‘\n楼主:‘,item[0],u‘‘,item[1],u‘岁‘,u‘\n发言:‘,self.tool.replace(item[2]),u‘\n好笑:‘,item[3],u‘\n评论:‘,item[4],u‘\n赞:‘,item[5],u‘\n踩:‘,item[6]
time.sleep(0.1)
number+=1
return items
#保存信息写入文件
def saveDetailPage(self,data,name):
fileName=‘page‘+name+‘.‘+‘txt‘
f=open(fileName,‘wb‘)
f.write(data.encode(‘utf-8‘))
print u‘‘,u‘成功将数据保存入文件‘,fileName
f.close()
#对一页的操作
def OnePage(self,detailURL,name):
data=self.getDetailPage(detailURL)
self.saveDetailPage(str(data),str(name))
#对很多页的操作
#分两种情况讨论,start页等于1\start页大于1
def getAllPage(self,start,end):
if start==1:
print u‘正在获取第1页的数据...‘
detailURL=self.siteURL
self.OnePage(detailURL,start)
number=2
for page in range(2, end+1):
print u‘正在获取第‘, number, u‘页的数据...‘
detailURL = self.siteURL + ‘8hr/page/‘ + str(page) + ‘/?s=4964625‘
self.OnePage(detailURL,number)
time.sleep(2)
number +=1
if number==end+1:
print u‘‘,u‘\n加载结束!‘
return False
elif start>1:
number=start
for page in range(start,end+1):
print u‘‘,u‘\n正在获取第‘,number,u‘页的数据...‘
detailURL=self.siteURL + ‘8hr/page/‘ +str(page)+ ‘/?s=4964625‘
self.OnePage(detailURL,number)
time.sleep(2)
number += 1
if number==end+1:
print u‘‘,u‘加载结束!‘
return False
spider=Spider()
spider.getAllPage(start=int(raw_input(‘请输入起始页数:‘)),end=int(raw_input(‘请输入结束页数)
本文来自网络,如有侵权,请联系小编删除!