参考资料:http://cuiqingcai.com/990.html 1.非面向对象模式 完整代码1: 注释1:糗事百科是不需要登录的,所以也没必要用到Cookie。 2.面向对象模式 上面代码是最核心的部分,下面我们要达到的目的是: 按下回车,读取一个段子,显示出段子的发布人,发布内容,点赞个数 ...
分类:
编程语言 时间:
2017-12-09 15:58:06
阅读次数:
277
import reimport urllib.requestfrom docx import Documentheader=("User-Agent",'User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML ...
分类:
编程语言 时间:
2017-11-21 23:53:29
阅读次数:
207
爬取糗事百科段子,假设页面的URL是 http://www.qiushibaike.com/8hr/page/1 要求: 使用requests获取页面信息,用XPath / re 做数据提取 获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数 保存到 json 文件内 参考代码 ...
分类:
编程语言 时间:
2017-08-23 00:41:33
阅读次数:
153
1.提取某一页的所有段子
#-*-coding:utf-8-*-
importurllib
importurllib2
importre
page=1
url=‘http://www.qiushibaike.com/hot/page/‘+str(page)
user_agent=‘haha/4.0(compatible;MSIE5.5;WindowsNT)‘
headers={‘User-Agent‘:user_agent}
try:
request=urllib2.Request(..
分类:
其他好文 时间:
2017-08-17 13:02:49
阅读次数:
142
闲来无事,学学python爬虫。 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门。 1.获取糗事百科url http://www.qiushibaike.com/hot/page/2/ 末尾2指第2页 2.先抓取HTML页面 当然这里可能会产生error:主要有H ...
分类:
编程语言 时间:
2017-05-19 19:28:18
阅读次数:
213
这一次我们利用BeautifulSoup进行网页的解析,方法其实跟前一次的差不多,只是这里我们爬取的是糗事百科,糗事百科有反爬机制,我们需要模拟用户来访问糗事百科网站,也就是加上头部信息headers,其实整体思路与上一篇所写爬虫的思路差不多,拿个速度可以共用。 1、首先我们在打开网页,并在网页空白 ...
分类:
其他好文 时间:
2017-05-16 21:34:03
阅读次数:
230
#!/usr/bin/env python # coding: UTF-8 # -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup #import pandas newurl='http://www.qiushiba ...
分类:
编程语言 时间:
2017-03-14 18:44:34
阅读次数:
165
糗事百科实例: 爬取糗事百科段子,假设页面的URL是 http://www.qiushibaike.com/8hr/page/1 要求: 使用requests获取页面信息,用XPath / re 做数据提取 获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数 保存到 json 文件 ...
分类:
Web程序 时间:
2017-03-06 01:14:58
阅读次数:
387
参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import reimport threadimport timeimport sys #定义要抓取的网页#url ...
分类:
编程语言 时间:
2016-11-19 15:39:57
阅读次数:
179
#-*-coding:utf-8-*-
importurllib2
importsys
importre
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
url=‘http://www.qiushibaike.com/hot/page/1/‘
header={‘User-Agent‘:‘Mozilla/5.0(WindowsNT6.1;WOW64)‘}
try:
page=1
whileTrue:
rawurl=‘http://www.qiushibaike.com/h..
分类:
编程语言 时间:
2016-10-20 15:56:25
阅读次数:
141