# coding=utf-8
import urllib2
import urllib
import re
class QiuShi:
def _init_(self):
self.page = 1
# 从网页获取糗事
def GetQiuShis(self,page):
#网址
url = "http://www.qiushibaike.com/...
分类:
编程语言 时间:
2014-12-21 15:22:50
阅读次数:
279
以下为我们爬虫遇到问题的报告 我们团队的m2阶段原本计划是爬取美团的信息以支持我们的app对比功能,但在这一阶段遇到很多问题,主要表现如下:美团反爬机制: 由于我们团队人员在事先并不知道美团具有反爬机制,所以一开始就全力着重于美团网页的分析,但当我们几乎把爬虫程序写完之后才发现,美团的网页具有反.....
分类:
其他好文 时间:
2014-12-21 00:36:54
阅读次数:
296
最近爬取遇到了动态页面的爬取,然而伤心的是autopy只支持python2.7(python2.6的可以通过源码build,无奈觉得好麻烦)所以铁了心要让python2.7和python2.6并行首先安装了python2.7,到c:\studytool\python27然后修改了环境变量里的pyth...
分类:
编程语言 时间:
2014-12-20 18:11:55
阅读次数:
280
姓名昨日任务今日任务刘垚鹏完善和增加quiz页面的过滤功能完善和增加quiz页面的过滤功能王骜对问答功能的修复对问答功能的修复林旭鹏存储文件路径太长导致bug修复存储文件路径太长导致bug修复安康无关页面过滤算法的优化限制爬取功能(quiz)无关页面过滤算法的优化限制爬取功能(quiz)黄新越Lin...
分类:
其他好文 时间:
2014-12-20 01:59:40
阅读次数:
214
301错误主要是域名更换后,搜索引擎还在使用你原有的域名地址访问你的网站,如果搜索引擎爬取的时候得到的是一个301错误,那么搜索引擎就知道你已经更换了域名,下次就会使用新域名来索引你的网站,当然你要告诉搜索引擎你的新域名是什么【引用百度拉】//需要在webconfig配置 ...
分类:
其他好文 时间:
2014-12-19 11:56:28
阅读次数:
161
姓名昨日任务今日任务刘垚鹏完善和增加quiz页面的过滤功能完善和增加quiz页面的过滤功能王骜限制爬取功能(quiz/pdf/html)对问答功能的修复林旭鹏存储文件路径太长导致bug修复存储文件路径太长导致bug修复安康无关页面过滤算法的优化限制爬取功能(quiz)无关页面过滤算法的优化限制爬取功...
分类:
其他好文 时间:
2014-12-19 00:29:56
阅读次数:
179
最近想做一个图书馆的客户端,由于学校没有提供API,只能模拟登陆然后爬取数据了。
首先要解决的就是登陆问题,其实会了之后并不难,我在此竟然耗费了两天……都是一些细节问题。
采用HTTPclient模拟请求,需要注意:
HttpClient(DefaultHttpClient)代表了一个会话,在同一个会话中,HttpClient对cookie自动进行管理(当然,也可以在程序中进行控制...
分类:
Web程序 时间:
2014-12-18 17:05:01
阅读次数:
206
今日任务情况:名字今日任务刘垚鹏完善和增加quiz页面的过滤功能王骜限制爬取功能(quiz/pdf/html)林旭鹏存储文件路径太长导致bug修复安康无关页面过滤算法的优化限制爬取功能(quiz)黄新越LinkQueue.java有可能出空指针错误的修改李桐博客编写今天大家遇到些瓶颈,进程没有太大的...
分类:
其他好文 时间:
2014-12-17 23:51:46
阅读次数:
234
目标:以特定语言技术为关键字,爬取八戒网中网站设计开发栏目下发布的任务相关信息需求:用户通过设置自己感兴趣的关键字或正则表达式,来过滤信息。我自己选择的是通过特定语言技术作为关键字,php、java和python。注意:如果不选用正则表达式,就会把javascript也爬进来,那前端的信息就比较多了...
分类:
编程语言 时间:
2014-12-17 22:12:52
阅读次数:
304
今天大家又聚在一起开了个小会。我们的爬虫出现了一些问题。某些美团的网页无法爬取,现在正在努力工作中。关于用户统计的功能我们的以部分成员依然在完善中,17、18号应该基本能够推出。成员任务彭林江落实API,实现活跃用户统计郝倩研究遍历美团数据方法高雅智测试以完成组件牛强落实意见反馈功能测试王卓研究遍历...
分类:
其他好文 时间:
2014-12-17 01:31:04
阅读次数:
176