码迷,mamicode.com
首页 > 其他好文 > 详细

TeamWork#3,Week5,Performance Test of Crawlers

时间:2014-11-19 20:18:35      阅读:161      评论:0      收藏:0      [点我收藏+]

标签:blog   http   sp   for   数据   2014   问题   log   bs   

爬虫总体性能不错,能完成基本的网络数据爬取,没有功能上的缺陷。下图为饿了么网站商户信息爬取结果及原网站信息。

bubuko.com,布布扣

bubuko.com,布布扣

大部分信息是正确的,但也有一些错误。比如下图,小渝馆家常菜和渝码头川菜位置爬取错了。

bubuko.com,布布扣

bubuko.com,布布扣

再比如鑫蜀轩酒楼和久久丫的顺序错了。

 

bubuko.com,布布扣

bubuko.com,布布扣

quantity_sold这一项,有的没有数据,是网站标签的问题,不是爬虫问题。

bubuko.com,布布扣

我们会根据出现的问题,找出程序存在的错误,进一步完善爬虫程序。

TeamWork#3,Week5,Performance Test of Crawlers

标签:blog   http   sp   for   数据   2014   问题   log   bs   

原文地址:http://www.cnblogs.com/sixsix/p/4108855.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!