上篇文章已经介绍了抓取糗事百科的段子,这篇文章来抓取百度贴吧帖子内容,涉及到urllib,urllib2,re等模块。 代码实现功能: 1.获取某一个帖子的标题 2.获取帖子回复的所有页数,以及每一页的内容 3.可以只获取楼主的回复(使用数字1声明),或者所有回复(使用数字0声明) 直接使用oop编 ...
分类:
其他好文 时间:
2016-09-13 20:33:34
阅读次数:
201
代码如下:用的 Python3.5————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————— ...
分类:
其他好文 时间:
2016-09-01 22:58:03
阅读次数:
152
一个简单的百度贴吧爬虫程序: 代码: 学习笔记: 定义一个百度函数,这个函数可以将你所要爬虫的贴吧网页保存到本地。 函数三个参数: sName为保存到本地的文件名 string.zfill(i,5)保证文件名为6位数字 sName = string.zfill(i,5) + '.html'#自动填充 ...
分类:
编程语言 时间:
2016-08-24 17:27:01
阅读次数:
201
本着周末逛贴吧看图片,发现电脑运行内存太小,网页加载太慢,一怒之下写个爬虫把图片都下载到本地慢慢看 得到结果如下: 千张内涵图随意浏览 程序第一个选项: 对应的贴吧是: 第二个选项: 对应的贴吧是 抓取的对象为楼主所发的图片: 好的,开搞: 下面是基于python3写的 通过观察,得到爬虫思路为: ...
分类:
其他好文 时间:
2016-08-21 18:23:34
阅读次数:
133
在网上看到爬百度贴吧的例子,仿照写了一个用BeautifulSoup实现的,直接上代码吧 #coding:gbk import urllib2 from bs4 import BeautifulSoup import re import os class TiebatoTxt: def __init... ...
分类:
其他好文 时间:
2016-08-19 18:51:24
阅读次数:
166
访问百度贴吧,出现一个黑条,上面写着一些游戏玩家的网名。 在家里,有时候突然我的500元win8小平板上不了网,而且手机的wifi也被完全切断,怀疑是防火长城的防火墙把我拉黑所致。 我的上百万本电子书自从中毒之后,我把他们全部封存,同时攒钱去找数据恢复公司,并购买正版系统,考虑win10,并加移动盘 ...
环境:ubuntu 16.04 LTS (X86-64),pycharm python版本 :3.5.1+ 运行结果: ...
分类:
其他好文 时间:
2016-07-18 02:53:21
阅读次数:
211
更新:感谢评论中朋友的提醒,百度贴吧现在已经改成utf-8编码了吧,需要把代码中的decode('gbk')改成decode('utf-8')。 百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件。 源码下载: http://download. ...
分类:
其他好文 时间:
2016-07-01 06:42:15
阅读次数:
401
最近,我们这边需要做一次防爬虫和机器蜘蛛的困扰,感觉困惑,有点无从入手,倒不如,直接用Python来写一个Spiner理解其各种原理,再下手也不迟啊,于是便立刻去写一个爬虫程序。使用方法:新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行。程序功能:将贴吧中楼主..
分类:
编程语言 时间:
2016-06-24 16:19:08
阅读次数:
382