最近需要处理过亿的数据,笔者在朋友的推荐下学习了ElasticSearch,看了网上很多博客也遇到了很多问题,所以笔者记录一下学习和使用ElasticSearch的过程。 ElasticSearch的概念网上很多,笔者就不在此多啰嗦了,直接进入实战。 一、环境配置(仅window用户) 1. Ela ...
分类:
Web程序 时间:
2017-10-13 00:33:15
阅读次数:
174
一、Oracle中大数据处理 在Oracle中,LOB(Large Object,大型对象)类型的字段现在用得越来越多了。因为这种类型的字段,容量大(最多能容纳4GB的数据),且一个表中可以有多个这种类型的字段,很灵活,适用于数据 量非常大的业务领域(如图象、档案等)。 LOB类型分为BLOB和CL ...
分类:
数据库 时间:
2017-09-26 17:38:56
阅读次数:
214
https://www.ibm.com/developerworks/cn/opensource/os-cn-apache-flink/index.html 大数据计算引擎的发展 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都 ...
分类:
Web程序 时间:
2017-09-25 20:51:17
阅读次数:
301
PM问:“Vic,现在ETL Job跑到哪一个Package了,正在执行哪个Task?”,第一次遇到这个问题时,一下就懵逼了,只能硬着头皮说:“我看看”。 在做项目开发时,这个问题很常见,但是,被很多ETL开发工程师忽略了,可能是因为,这不是一个直接可以给出答案的命题。 在做大数据处理时,ETL P ...
分类:
数据库 时间:
2017-09-19 15:27:27
阅读次数:
232
相当长一段时间以来,大数据社区已经普遍认识到了批量数据处理的不足。很多应用都对实时查询和流式处理产生了迫切需求。最近几年,在这个理念的推动下,催生出了一系列解决方案,Twitter Storm,Yahoo S4,Cloudera Impala,Apache Spark和Apache Tez纷纷加入大 ...
分类:
其他好文 时间:
2017-09-07 21:25:56
阅读次数:
217
HDFS解决大数据存储的问题 HDFS优点 高容错性 数据自动保存多个副本 副本丢失后自动恢复 适合批处理 移动计算而非数据 数据位置暴露给计算框架 适合大数据处理 GB、TB、甚至PB级数据 百万规模以上的文件数据量 10K+结点 可构建在廉价机器上(为啥-->因为有高容错性,即使机器挂了数据也不 ...
分类:
其他好文 时间:
2017-09-06 23:51:28
阅读次数:
160
通过对全国各地不同时间段的购买华硕笔记本电脑的销售量进行大数据处理,将其通过汇总分析,即可制成图表的格式,使用户能对华硕笔记本销售量进 行研究,可以查看出华硕笔记本最近的销售同比(与上一年的销售比较)与环比(与上月的销售比较),购买的人数地域分布量,及购买的人群年龄分布 ,性别分布等等 首先就是对华 ...
分类:
其他好文 时间:
2017-09-04 15:09:13
阅读次数:
172
大数据处理——Trie树1.1、什么是Trie树 Trie树,即字典树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。 Tri... ...
分类:
其他好文 时间:
2017-09-04 13:31:39
阅读次数:
230
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"Bit-map空间压缩和快速排序去重1. Bit-map的基本思想 32位机器上,对于一个整型数,比如int a=1 在内存中占32bit位,这是为了方便计算机的运算。但是对于... ...
分类:
其他好文 时间:
2017-09-04 12:03:20
阅读次数:
228
http://www.csdn.net/article/2015-12-18/2826512 摘要:因为云计算应用的不断深入。以及对大数据处理需求的不断扩大,用户要求功能丰富、性能强大、高可用性的产品,云计算厂商们也推陈出新,不断地推出新产品,本文就盘点了业内翘楚阿里云在2015年那些有价值的新产品 ...
分类:
其他好文 时间:
2017-08-19 20:08:15
阅读次数:
156