搜索关键字：入门实战，搜索到197个结果！码迷,mamicode.com！

Spark入门实战系列--9.Spark图计算GraphX介绍及实例

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、GraphX介绍1.1GraphX应用背景Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。众所周知·，...

分类：其他好文时间：2015-09-14 09:23:27 阅读次数：1259

Spark入门实战系列--7.Spark Streaming（下）--Spark Streaming实战

Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，数据库和现场仪表盘。...

分类：其他好文时间：2015-09-10 11:10:49 阅读次数：212

Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming介绍

Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，数据库和现场仪表盘。...

分类：其他好文时间：2015-09-10 11:10:31 阅读次数：169

Spark入门实战系列--8.Spark MLlib（下）--机器学习库SparkMLlib实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、MLlib实例1.1聚类实例1.1.1算法说明聚类（Cluster analysis）有时也被翻译为簇类，其核心任务是：将一组目标object划分为若干个簇，每个簇之间的object尽可能相似，簇与簇之...

分类：其他好文时间：2015-09-10 09:32:08 阅读次数：358

Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、机器学习概念1.1机器学习的定义在维基百科上对机器学习提出以下几种定义：l“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通...

分类：其他好文时间：2015-09-09 07:23:45 阅读次数：269

Spark入门实战系列--7.Spark Streaming（下）--实时流计算Spark Streaming实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、实例演示1.1流数据模拟器1.1.1流数据说明在实例演示中模拟实际情况，需要源源不断地接入流数据，为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能：通过Socket方式监听指定的端口号...

分类：其他好文时间：2015-09-07 08:16:56 阅读次数：350

7.Spark Streaming（上）--Spark Streaming原理介绍

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、Spark Streaming简介1.1概述Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、...

分类：其他好文时间：2015-09-01 08:02:02 阅读次数：322

Spark入门实战系列--6.SparkSQL（下）--Spark实战应用

SparkSQL引入了一种新的RDD——SchemaRDD，SchemaRDD由行对象（Row）以及描述行对象中每列数据类型的Schema组成；SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外，还可以通过registerTempTable注册成临时表，然后通过SQL语...

分类：数据库时间：2015-08-31 10:08:08 阅读次数：377

dockone上2015.08 Docker有价值文章

Docker入门与基础 [1] Docker入门实战, http://yuedu.baidu.com/ebook/d817967416fc700abb68fca1 [2]?什么是Docker？刘梦馨,?28 Jun 2014,?http://oilbeater.com/docker/2014/06/28/what-is-docker.html [3] ...

分类：其他好文时间：2015-08-28 21:49:55 阅读次数：268

Spark入门实战系列--6.SparkSQL（中）--深入了解运行计划及调优

前面介绍了SparkSQL的运行过程，罗列了很多概念很抽象，比如Unresolved LogicPlan、LogicPlan、PhysicalPlan，下面介绍一个工具hive/console，来加深对SparkSQL的运行计划的理解。另外Spark是一个快速的内存计算框架，同时是一个并行运算的框架，在计算性能调优的时候，除了要考虑广为人知的木桶原理外，还要考虑平行运算的Amdahl定理。...

分类：数据库时间：2015-08-27 11:06:02 阅读次数：287