我们假设每个个体就是一台电脑,我们生活中的物品就是电脑中保存的文件。我们有一天想要与世界上其他地方的人交换货物,我们会用什么方法呢? 我们首先会看我们想要交换什么样的物品,如果是电子产品,可能会上苏宁易购,如果是书本,可能会上当当网,如果是服装裤子,可能会上淘宝或京东,如果是生活中的小玩意,可能会上 ...
分类:
其他好文 时间:
2018-06-13 00:11:50
阅读次数:
538
Scrapy爬虫系列(5)爬取当当网图书畅销榜,并将爬取结果储存到CSV文件~~ ...
分类:
其他好文 时间:
2018-06-12 12:16:33
阅读次数:
292
scrapy项目3中已经对网页规律作出解析,这里用crawlspider类对其内容进行爬取; 项目结构与项目3中相同如下图,唯一不同的为book.py文件 crawlspider类的爬虫文件book的生成命令为:scrapy genspider -t crawl book 'category.dan ...
分类:
其他好文 时间:
2018-06-03 16:22:41
阅读次数:
224
以爬取当当网作为实例 http://bj.ganji.com/fang1/chaoyang/ 通过xpath获取title和price 分别贴出spider, items, pipelines的code spider通过 rh = RenthouseItem() 这一句话初始化一个rh的实例,使我们 ...
分类:
数据库 时间:
2018-05-12 22:36:08
阅读次数:
1272
电子书阅读器(Kindle,电子纸技术、LCD、电子墨水技术等; 亚马逊/当当网站) 电子书产业可分5大环节:内容供应商、数字格式制作商、内容流通服务平台、传输平台以及终端阅读器产品。 全球电子书市场上,亚马逊占据第一位置,紧随其后的是索尼,而中国电子书领先企业汉王科技位居第三。在中国,汉王已经占据 ...
分类:
其他好文 时间:
2018-04-09 21:05:09
阅读次数:
176
前言:今天在给我们开发人员亚亚哥搭建服务,部署上线,对Dubbo困扰了我很长时间,今天要将它一网打尽。。。。。 Dubbo是一个被国内很多互联网公司广泛使用的开源分布式服务治理框架,是一个非常全面的SOA基础框架,当当网在Dubbo基础上新增了一些功能, 并将其命名为Dubbox (Dubbo eX ...
分类:
其他好文 时间:
2018-02-08 19:55:49
阅读次数:
143
前面已经安装了Scrapy,下面来实现第一个测试程序。概述Scrapy是一个爬虫框架,他的基本流程如下所示(下面截图来自互联网)简单的说,我们需要写一个item文件,定义返回的数据结构;写一个spider文件,具体爬取的数据程序,以及一个管道pipeline文件,作为后续操作,比如保存数据等等。下面以当当网为例,看看怎么实现。这个例子里面我想爬取的内容是前面20页的羽绒服产品,包括产品名字,链接和
分类:
其他好文 时间:
2018-02-06 10:19:11
阅读次数:
209
Elasticjob是当当网架构师张亮,曹昊和江树建基于Zookepper、Quartz开发并开源的一个Java分布式定时任务,解决了Quartz不支持分布式的弊端。Elasticjob主要的功能有支持弹性扩容,通过Zookepper集中管理和监控job,支持失效转移等,这些都是Quartz等其他定时任务无法比拟的。目..
分类:
其他好文 时间:
2017-10-15 21:15:41
阅读次数:
186
dubbo就是分布式的服务框架。我们用的是dubbox就是当当网现在维护那个;简单的说 dubbo就是个服务框架,如果没有分布式的需要 ,是不需要用的。只有在分布式的时候,才有dubbo这样分布式框架的需求。说白了就是个远程服务调用的分布式框架。 说道dubbo就得肯定想到zookeeper就是注册 ...
分类:
其他好文 时间:
2017-09-07 19:38:07
阅读次数:
156