好久好久没有写博客了,发现再不写博客我都快忘了我有这个博客了!好了,不说废话了。最近项目使用kettle的地方比较多,鉴于项目优化的思考决定使用jndi来为kettle脚本设置数据源。这样不仅可以控制连接数,而且可以减少大量的数据库配置,那么我们怎么样才能实现在Web项目中调..
分类:
其他好文 时间:
2014-08-31 10:35:01
阅读次数:
251
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络...
分类:
其他好文 时间:
2014-08-30 23:13:50
阅读次数:
434
http://blog.fens.me/linux-redis-install/在Ubuntu中安装RedisR利剑NoSQL系列文章,主要介绍通过R语言连接使用nosql数据库。涉及的NoSQL产品,包括Redis,MongoDB,HBase,Hive,Cassandra,Neo4j。希望通过我的...
分类:
其他好文 时间:
2014-08-30 17:43:49
阅读次数:
328
什么是hbasehbase是一个高可靠性、高性能、高吞吐量、面向列、可伸缩的分布式数据库,设计的最初目的是用来解决关系型数据库在处理海量数据时的局限性。hbase特性海量数据(TB\PB)高吞吐量高性能(海量数据中实现高效随机读取)可伸缩能够同时处理结构化和非结构化的数据不需要拥有传统数据库所具备的...
分类:
其他好文 时间:
2014-08-29 17:58:58
阅读次数:
236
最近开始折腾数据,起源是多业务数据源需要转换到数据分析平台。这个过程需要跨机器,跨库。同时还需要将业务数据表的内容进行转换,合并,清洗等等操作。经过多方选型,最终决定使用kettle来作为数据抽取处理的工具。但是,在这里,是想吐槽下kettle这东西的问题。1.kettle的版本使用的是5.1,搭建...
分类:
其他好文 时间:
2014-08-28 17:47:45
阅读次数:
308
1、region热点:
开始会不断往一个region写,可以预划分region
在rowkey加哈希前缀 对region server数量取余
2、memstore提高写性能,blockcache提高读性能,看需求调整
3、使用bloomfilter,如果大多是scan顺序读,可将block设大些,默认块大小是64K,可以设为128
4、设计好rowkey
5、关闭major comp...
分类:
其他好文 时间:
2014-08-28 16:58:40
阅读次数:
176
1.开启Hbase的Thrift服务在Hbase的master上运行:hbase-daemon.sh start thrift -threadpool1.下载Thrift 0.7.0的源码和代码生成工具(姑且这么叫)从上面提供的Thrift下载页面中的目录里分别下载代码生成工具:thrift-0.7...
分类:
其他好文 时间:
2014-08-28 11:16:09
阅读次数:
408
一般操作查看服务器状态status查看hbase版本versionDDL操作创建表create 'member','member_id','address','info'创建了3个列族,分别是member_id, address, info知识点回顾:cf是schema的一部分,而column不是。...
分类:
其他好文 时间:
2014-08-27 16:30:58
阅读次数:
225
关于MemStore的补充在通过HStore.add向store中加入?一个kv时,首先把数据写入到memstore中。这一点没有什么说明;publiclongadd(finalKeyValue kv) {lock.readLock().lock();try{returnthis.memstore....
分类:
其他好文 时间:
2014-08-27 12:50:57
阅读次数:
235