标签:cpu trie 选择 增删改 批量 hash_map 机器 www. 搜索
看了那么多海量数据处理的文章,只有这篇对其套路进行了总结。
原文地址:https://www.cnblogs.com/ranjiewen/articles/6883723.html
内容不错,就是排版差一点。于是转载过来,略有修改。
所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。
何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。那解决办法呢?
针对时间,我们可以采用巧妙的算法搭配合适的数据结构,如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树。
针对空间,无非就一个办法:大而化小,分而治之(hash映射),你不是说规模太大嘛,那简单啊,就把规模大化为规模小的,各个击破不就完了嘛。
至于所谓的单机及集群问题,通俗点来讲,单机就是处理装载数据的机器有限(只要考虑cpu,内存,硬盘的数据交互),而集群,机器有多辆,适合分布式处理,并行计算(更多考虑节点和节点间的数据交互)。
多层划分,其实本质上还是分而治之的思想,重在“分”的技巧上!
Bloom filter
适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集。
基本原理:当一个元素被加入集合时,通过K个Hash函数将这个元素映射成一个位阵列(Bit array)中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检索元素一定不在;如果都是1,则被检索元素很可能在。
Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省。
Bitmap
Bitmap就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来表示某个元素是否存在,因此在存储空间方面,可以大大节省。
Bitmap排序方法
第一步,将所有的位都置为0,从而将集合初始化为空。
第二步,通过读入文件中的每个整数来建立集合,将每个对应的位都置为1。
第三步,检验每一位,如果该位为1,就输出对应的整数。
Bloom filter可以看做是对Bitmap的扩展。
Map Reduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减少整个操作的时间。
标签:cpu trie 选择 增删改 批量 hash_map 机器 www. 搜索
原文地址:https://www.cnblogs.com/parody/p/10053875.html