大数据扫盲 目录 大数据扫盲1 0.1.大数据处理流程1 0.2.大数据处理技术架构2 1.数据分区与路由2 1.1.二级映射机制3 1.1.1.哈希分区3 1.1.2.虚拟桶(virtual bucket)3 1.1.3.一致性哈希(consiste...
分类:
其他好文 时间:
2015-07-29 00:34:37
阅读次数:
230
大数据扫盲 目录 大数据扫盲1 0.1.大数据处理流程1 0.2.大数据处理技术架构2 1.数据分区与路由2 1.1.二级映射机制3 1.1.1.哈希分区3 1.1.2.虚拟桶(virtual bucket)3 1.1.3.一致性哈希(consiste...
分类:
其他好文 时间:
2015-07-29 00:33:59
阅读次数:
216
2015年技术类《linux鸟哥的私房菜》2th Edition《大型网站网站系统与Java中间件实践》 已完成《大型网站技术架构核心原理与案例分析》《Java虚拟机规范 Java SE 7版》 已完成《Lucene实战》 已完成《第一本Docker书》《Spark大数据处理技术》《从Paxos到Z...
分类:
其他好文 时间:
2015-07-28 22:47:17
阅读次数:
183
转载自http://www.ibm.com/developerworks/cn/opensource/os-twitterstorm/流式处理大数据简介Storm 是一个开源的、大数据处理系统,与其他系统不同,它旨在用于分布式实时处理且与语言无关。了解 Twitter Storm、它的架构,以及批处...
分类:
其他好文 时间:
2015-07-28 20:16:33
阅读次数:
120
众所周知,Nodejs是单进程异步运行的,但不光是单进程,Nodejs也提供了多进程方面的支持
其创始人应该还是比较重视这一块的,最有力的证据就是child_process是Nodejs核心模块之一大多数情况下应该用不到这个模块,但child_process却能做很多有意思的事情shell调用最近用到的比较实用的功能,在做大数据处理的时候,需要根据客户在页面上的点击转化为spark集群的命令
s...
分类:
Web程序 时间:
2015-07-27 19:08:10
阅读次数:
116
开源大数据处理工具:查询引擎:phoenix、Stinger、Presto、shark、pig、Cloudera impala、Apache Drill、Apache Tajo、Hive流式计算:Facebook Puma、Twitter Rainbird、YAhoo S4、Twitter Stor...
分类:
其他好文 时间:
2015-07-26 17:01:21
阅读次数:
343
在生物领域中,常常处理gff,gtf,bam,sam等格式的文件。在此我总结了几点我处理这些文件的经验。1.善用split分割每行,这些文件基本都是用tab分割的,所以有split分割非常方便,每行最后的注释信息一般都是;分割。2.找出你所需要的列,并找出这列所有不同的元素。因为你拿到的文件可能之前...
分类:
其他好文 时间:
2015-07-23 13:50:19
阅读次数:
121
一种大数据外部排序(内存无法加载所有排序元素)、去除重复元素、快速找到随机被删除元素的BitMap小算法,核心思想即通过将一个数作为下标(index)来索引一个bit表示一个数是否存在,排序时的时间复杂度为O(N),需要的额外空间的复杂度O(N/8),支持整个int范围(正负数都支持)的算法示例如下:char BitMask[] = {0x80 , 0x40 , 0x20 , 0x10 , 0x8...
分类:
编程语言 时间:
2015-07-22 00:11:29
阅读次数:
193
需要源码请加QQ:3121026417 框架简介: 项目Maven构建,真实大型互联网架构,做到高并发,大数据处理,整个项目使用定制化服务思想,提供模块化、服务化、原子化的方案,将功能模块进行拆分,可以公用到所有的项目中。架构采用分布式部署架构,所有模块进行拆分,使项目做到绝对解耦,稳定压倒一切...
分类:
其他好文 时间:
2015-07-20 01:04:59
阅读次数:
196
wed开发者七项全能1、b/s架构,知道b端,s端,知道b/s端的交互协议http2、s端,lamp、lnmp、redis、memcache等3、b端,html、css、javascript、jquery等4、思想,mvc,框架设计思想,模块化编程,oo,设计模式,开发模式5、性能调优,缓存使用、负载均衡、大数据处理6、稳定性..
分类:
其他好文 时间:
2015-07-17 14:21:49
阅读次数:
120