初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) 1 #-*-coding:utf-8-*- 2 import urllib 3 import urllib2 4 import re 5 page = 1 6 url ='http://www.qiushibaike.com/hot/p...
分类:
编程语言 时间:
2016-01-02 16:23:20
阅读次数:
173
代码:# _*_ coding:utf-8 _*_import urllib2import refrom datetime import datetimeclass QSBK: def __init__(self): self.pageIndex = 1 self....
分类:
编程语言 时间:
2015-11-26 12:39:47
阅读次数:
137
今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单。程序每按一次回车输出一条段子,代码参考了http://cuiqingcai.com/990.html 但该博主的代码似乎有些问题,我自己做了修改,运行成功,下面是代码内容: 1 # -*- coding:ut...
分类:
编程语言 时间:
2015-10-19 17:11:01
阅读次数:
291
#出处:http://python.jobbole.com/81351/#确定url并抓取页面代码,url自己写一个import urllib,urllib2def getUrl(): page=1 url="http://www.qiushibaike.com/hot/page/"+s...
分类:
编程语言 时间:
2015-05-16 00:00:01
阅读次数:
370
1.本文的目的是练习Web爬虫目标:1.爬去糗事百科热门段子2.去除带图片的段子3.获取段子的发布时间,发布人,段子内容,点赞数。2.首先我们确定URL为http://www.qiushibaike.com/hot/page/10(可以随便自行选择),先构造看看能否成功构造代码: 1 # -*- c...
分类:
编程语言 时间:
2015-05-08 21:51:04
阅读次数:
196