之前本打算做垂直搜索时使用了python的scrapy抓取 大众点评网的数据。现在准备做一款互联网医疗的产品。爬虫是需要抓取自然理论数据。因此对主流的开源爬虫框架做一个介绍。Java:Nutch,HeritrixC++:Larbin,PolyBotPython:ScrapyErlang:EbotR....
分类:
其他好文 时间:
2015-05-10 17:11:17
阅读次数:
141
一、cat简介CAT(CentralApplicationTracking)是基于Java开发的实时应用监控平台,为大众点评网提供了全面的监控服务和决策支持。CAT目前现状集成中间件产品(RPC、SQL、Cache等)5台CAT物理监控集群200+业务应用(包括部分.net以及Job)900+应用服务器~6TB消息大小,~50亿消息..
分类:
其他好文 时间:
2015-04-27 23:57:51
阅读次数:
314
在大众点评网上,有非常多种方式对餐厅进行排序,比方http://www.dianping.com/search/category/1/10/o10,是上海全市依照评论总数最多对餐厅进行排序,以下有50个分页,也就是上海历年累计评论综述最多的750家餐厅。但仅仅有750家,少了点。上海有18个区,逐区...
分类:
其他好文 时间:
2015-03-05 20:56:51
阅读次数:
416
使用PHP单线程抓取,速度比较慢,可以抓取所有的团购信息;店铺信息也可以抓取; 公司测试产品需要使用一些数据,所有试着抓取的,感觉就是写正则,不指定别人是怎么样的实现思路,感觉使用php多线程应该会速度更好吧。 我主要是抓评论跟一些图片,但是其他思路基本一样。按理来说,只要能显示出到网页上的...
分类:
Web程序 时间:
2015-01-10 01:02:12
阅读次数:
545
本博文主要介绍activity间动画跳转的问题,在这里讲一下怎么设置所有activity的动画跳转和退出跳转。其实有些软件已经这样做了,比如我们都比较熟悉的大众点评网。
下面我们通过一个实例来看一下怎么实现所有activity动画跳转,这里我们不妨就模仿下大众点评网activity的动画跳转。
首先在layout/anim新建 anim_e...
分类:
移动开发 时间:
2014-11-04 15:06:21
阅读次数:
183
近日需要对大众点评网60万+的景点评论进行语义分析,所以必须使用分词工具,刚刚开始时我是选择使用NLPIR汉语分词系统(又名ICTCLAS2014),NLPIR的教程在[分词]NLPIR/ICTCLAS2014分词系统的C++ API 在Windows下初次使用,但是直观上感觉分词效果不怎么理想.....
分类:
编程语言 时间:
2014-09-20 09:57:17
阅读次数:
342
清华大学出版社推出的《HTML5网页开发实例详解》是一本最全的HTML5技术书,是一本最全的HTML5案例书,由大众点评网资深前端工程师周遥和聚划算资深前端工程师李春城联袂奉献。所有的实例和框架在这里给读者做一个预览。1、当前天气的APP2、新闻阅读列表APP3、一个网站的用户增..
分类:
Web程序 时间:
2014-09-05 18:32:22
阅读次数:
247
靠回头客生意的餐饮行业,从诞生伊始,其实都是粉丝经济,只是过去是线下粉丝,而现在可以拓展到网络上。而所谓移动支付、优惠打折、网上订座等,本身只是一种便捷的工具化的存在,而如何升级“80后”、“90后”顾客的消费体验则将真正成为考验传统餐饮的关键。文/张书乐本文刊..
分类:
其他好文 时间:
2014-09-01 16:00:14
阅读次数:
351
在大众点评网上,有很多种方式对餐厅进行排序,比如http://www.dianping.com/search/category/1/10/o10,是上海全市按照评论总数最多对餐厅进行排序,下面有50个分页,也就是上海历年累计评论综述最多的750家餐厅。但只有750家,少了点。上海有18个区,逐区点击的话,每区都会显示前750家餐厅,比如这个http://www.dianping.com/searc...
分类:
Web程序 时间:
2014-08-06 14:53:31
阅读次数:
293
如果想抓数据,就需要有爬虫程序,业内叫crawler或者spider。
有各种语言版本的开源爬虫,c++, Java, php,在github上搜一下,以"spider c++"为关键字,有245个开源爬虫,以"spider java"为关键字,有48个。那python呢?156个。
爬虫技术在业界已经很成熟了,有很多开源框架,在它们的帮助下写爬虫可以很快,几个小时就能写一个...
分类:
Web程序 时间:
2014-08-04 17:37:47
阅读次数:
285