码迷,mamicode.com
首页 > 其他好文 > 详细

SCRUM 12.20

时间:2014-12-21 00:36:54      阅读:296      评论:0      收藏:0      [点我收藏+]

标签:

以下为我们爬虫遇到问题的报告

     我们团队的m2阶段原本计划是爬取美团的信息以支持我们的app对比功能,但在这一阶段遇到很多问题,主要表现如下:

  • 美团反爬机制:

    由于我们团队人员在事先并不知道美团具有反爬机制,所以一开始就全力着重于美团网页的分析,但当我们几乎把爬虫程序写完之后才发现,美团的网页具有反爬机制,每当我们爬取3到5的网页的内容时,就不能再继续爬取。但我们并没有因此放弃,我们又尝试了其他     方法。我们尝试着写程序把美团网页给下载下来,但是发现下载下来的网页全是报错网页,到最后我们直接用浏览器打开美团的网页都打不开,不得不放弃美团。

  • 大众点评外卖,百度外卖,淘点点外卖:

    在爬取美团失败之后,我们也并没有直接放弃,又尝试了其他外卖网站,但都通通碰壁。

    首先是大众点评,也有反扒机制,网页下载下来和美团的一样全是出错网页。百度外卖也是如此。

    还有就是淘点点外卖。这个是比较特殊的问题,因为淘点点外卖是和淘宝账号关联的,订餐以前必须先登陆淘宝账户。所以我们爬取的时候只能以某一个团队成员的账户进行爬取。结果是,网页能成功爬取下来,但是爬取得到的链接再次打开时打开的却是淘宝的登录界     面,自然信息就无法成功获取。

 

最后,我们负责爬虫的 成员决定不再爬取其他外卖网站的信息,而是转向爬虫程序的性能提升,希望能做到我们app数据的实时更新。

 

成员任务分配如下

成员 已完成任务 新任务
彭林江 研究美团爬虫  落实API
牛强  研究美团爬虫 落实意见反馈功能测试
高雅智 研究美团爬虫 测试已完成组件
郝倩 研究遍历美团数据方法 提升爬虫程序性能
王卓 研究遍历美团数据方法 提升爬虫程序性能
张明培育 实施UI改善 实施UI改善

 

燃尽图(TFS还是有问题,无法生成正常的燃尽图,等到正常了再发)

SCRUM 12.20

标签:

原文地址:http://www.cnblogs.com/sixsix/p/4175744.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!