曾经的学习笔记 1.Hadoop简介: a) 分布式存储系统HDFS b) 分布式计算框架MapReduce 2.HDFS优点: a) 高容错性 b) 适合批处理 c) 适合大数据处理 d) 可构建在廉价机器上 3.HDFS的缺点: a) 低延迟数据访问 b) 小文件存取 c) 并发写入、文件随机修 ...
分类:
其他好文 时间:
2017-05-04 18:34:27
阅读次数:
188
框架简介: 项目Maven构建,真实大型互联网架构,做到高并发,大数据处理,整个项目使用定制化服务思想,提供模块化、服务化、原子化的方案,将功能模块进行拆分,可以公用到所有的项目中。架构采用分布式部署架构,所有模块进行拆分,使项目做到绝对解耦,稳定压倒一切~~ 框架整合: Springmvc ... ...
分类:
编程语言 时间:
2017-05-03 14:37:52
阅读次数:
144
什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。 首先,S ...
分类:
其他好文 时间:
2017-04-20 19:32:05
阅读次数:
194
一、与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。 1、Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理。 2、Spark可以将Hadoop集群中的应用在内存中 ...
分类:
其他好文 时间:
2017-04-18 12:41:35
阅读次数:
138
近期工作调动。打算补一下大数据处理的知识。可能会陆续涉及hadoop、mongodb、ddbs等。首先Apache提供二进制的Hadoop版本号是32位的。在启动时总是有警告,所以想自己编译一遍。部分内容来源于网络。 0、环境说明: 操作系统环境: ububtu 14.04 LTS 64位操作系统 ...
分类:
其他好文 时间:
2017-04-17 21:45:38
阅读次数:
204
1.概述 在大数据的浪潮之下,技术的更新迭代十分频繁。受技术开源的影响,大数据开发者提供了十分丰富的工具。但也因为如此,增加了开发者选择合适工具的难度。在大数据处理一些问题的时候,往往使用的技术是多样化的。这完全取决于业务需求,比如进行批处理的MapReduce,实时流处理的Flink,以及SQL交 ...
分类:
Web程序 时间:
2017-04-09 16:27:41
阅读次数:
321
初识 Spark 大数据处理,目前还只是小白阶段,初步搭建起运行环境,慢慢学习之。 本文熟悉下 Spark 数据处理的几个经典案例。 Word Count 注意其中的几个问题: 正则表达式 "\\s+" 匹配任意空白字符 SparkConf Name 和 Master Level 必须设置,本地调试 ...
分类:
其他好文 时间:
2017-04-06 20:45:54
阅读次数:
316
目录 资料篇 技术站点 必看书籍 大牛博客 GitHub篇 工具篇 平台工具 常用工具 第三方服务 爬虫相关(好玩的工具) 安全相关 Web服务器性能/压力测试工具/负载均衡器 大数据处理/数据分析/分布式工具 Web前端 语言篇 Scala Java Python Swift .NET C & C ...
分类:
其他好文 时间:
2017-04-05 09:23:44
阅读次数:
412
未来是大数据的时代,未来的竞争就是数据的竞争。以前,我们都是有问题找数据,而大数据时代,其最核心的特质则是“用数据找机会”。——车品觉 《决战大数据:驾驭未来商业的利器》是我在两年前接触到的第一本关于大数据的书籍,由阿里巴巴集团副总裁车品觉所著。此书不是讲具体的大数据处理技术,而是从一个大数据运营践 ...
分类:
其他好文 时间:
2017-03-30 18:40:41
阅读次数:
162
回顾大数据技术领域大事件,最早可追溯到06年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术。这是个技术人的好时代,仅数据库领域热门DB就有300+,围绕着Hadoop生态圈的大数据处理技术更是繁花似锦。在云栖社区2017在线技术峰会大数据技术峰会上,阿 ...
分类:
其他好文 时间:
2017-03-14 13:13:48
阅读次数:
190