网上好多抓取贴吧的小爬虫都失效了,原因是百度贴吧的编码格式变了,或者是html代码变了,像这种简单的读取源代码的爬虫,只要网页源代码改变之后就得重新修改。
请诸位大牛指点。# -*- coding:utf8 -*-
"""
程序就是读取网页的源代码,如果想获取相应的内容就找到其特定的格式,再利用正则表达式来获取。
"""
import string
import urllib2
import r...
分类:
编程语言 时间:
2015-04-24 09:06:46
阅读次数:
177
说明:仅为测试下载图片、正则表达式
测试url为钢铁侠贴吧的一个介绍mark各代盔甲帖子
以下代码将第一页的图片全部下载到本程序根目录#!/usr/bin/env python
#! -*- coding: utf-8 -*-
import urllib,urllib2
import re
#返回网页源代码
def getHtml(url):
html = urllib2.urlopen...
分类:
编程语言 时间:
2015-04-23 13:27:53
阅读次数:
184
说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制;
此外也加入了输出格式控制,如果想加入手动设定存储路径功能,可以参考之前的百度贴吧爬虫#!/usr/bin/env python
#! -*- coding: utf-8 -*-
#图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif...
分类:
编程语言 时间:
2015-04-23 13:18:49
阅读次数:
228
osg与qt配置环境的讲解:
http://blog.csdn.net/sadasasdasd/article/details/44573637
osg与qt百度贴吧:
http://tieba.baidu.com/f?ie=utf-8&kw=osg%E4%B8%8Eqt&fr=search
配置环境第一讲试看地址:链接:http://pan.ba...
分类:
其他好文 时间:
2015-04-22 09:32:33
阅读次数:
419
知乎上有人问:“贴吧都是十五六岁就用引擎写游戏的天才,大家怎么看?”,感觉现在做游戏真实一件幸福的事情呀,不尽想起当年开发游戏的各种艰辛。
现在做游戏很简单,大把代码给你参考,大把框架给你使用,Windows帮你作完了大部分事情。我们那个年纪写游戏时,家里还没有Internet,什么资料都查不到,什么开源引擎都没有,95年左右你要写一个游戏,你起码面临:
同显卡打交道,显卡著名的 Mo...
分类:
其他好文 时间:
2015-04-22 00:42:02
阅读次数:
136
一、用户界面界面简单明了:将所有的信息进行了分类:新闻、网页、贴吧、知道、音乐……很容易找到自己想要了解的东西。二、记住用户选择刚刚输入过的内容,被放置在第一位并用蓝色加以标注,后面还有其他的搜索提示。我觉得在记住用户的选择上,百度做的很优秀。三、短期刺激广告太多——百度饱受诟病的一点在这里体现得淋...
分类:
其他好文 时间:
2015-04-21 22:14:50
阅读次数:
148
群雄兵法:针对起凡游戏平台旗下群雄逐鹿游戏的一款非官方资料软件,具有装备、等级、体魄模拟等功能,皮肤、灵技能查看功能,装备属性查看、比较功能,官方,贴吧,论坛资讯等功能。乃群雄逐鹿游戏玩家必备APP!下载地址:http://yunpan.cn/cVE3UnVgBvLfI (提取码:3998)原计划一...
分类:
移动开发 时间:
2015-04-17 17:30:51
阅读次数:
164
人家辛辛苦苦做出的火焰纹章的改版竟然到处攻击,做改版虽然用了国外的一些素材到做出的改版作者也没说是自己画的,还有他自己修改的就是他自己原作的吗?这狗自己也是拿国外的素材去做的难道他就是原画的?他能做改版就容不下别人做改版?天底下从来没见过这样的狗,有一次我做了改版用了国外的素材这狗还跑去国外的人讲,...
分类:
其他好文 时间:
2015-04-13 14:20:17
阅读次数:
98
编程1.上午参加蓝桥杯,发现自己水平还是不够,没有及时返回结果的比赛真不适应,继续努力,明年有机会再来,还被%*s给坑了。不过这种比赛居然还有比赛时在贴吧讨论的,真是蓝翔杯啊。2.晚上bc写出一题,居然还是神奇的上分了。3.本周写了10题,主要是搞懂了简单的bfs题目和队列的使用。4.mooc讲到图...
分类:
其他好文 时间:
2015-04-11 22:22:23
阅读次数:
129
现有的HTTP-POST请求信息还原工具都是基于特征(包括网络应用的行为识别特征与信息提取特征)的,而特征的获取往往依赖于人工分析。本文以分析百度贴吧客户端的发帖为例,说明这种基于人工分析获取HTTP-POST请求报文特征的一般流程。...
分类:
Web程序 时间:
2015-04-09 21:59:44
阅读次数:
252