码迷,mamicode.com
首页 >  
搜索关键字:大数据处理    ( 465个结果
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第2节:Spark架构设计(1)
一、到底什么是Spark?Spark是一个通用的大数据计算平台,基于“OneStacktorulethemall”的理念成功成为了一体化多元化的大数据处理平台,轻松应对大数据处理中的实时流计算、SQL交互式查询、机器学习和图计算等:Spark源于BDAS:基于该技术堆栈,Spark目前已经成为大数据...
分类:其他好文   时间:2014-12-26 14:16:41    阅读次数:149
大数据处理之道 (htmlparser 过滤器<二>)
一:起因 (1)最近用于任务需要一直在爬取网页HTML的内容,与类似于爬虫的HtmlParser接触的比较多,爬取无非就是过滤自己想要的信息,因此Filter是核心,当然String类中的matches(regex)函数和contains(str)函数也是非常有用的 (2)经常和爬虫打交道就会分析各式各样的网站设计以及布局:用的设计的非常有规律,如QQ空间,微博信息等爬取非常简单(当时要想翻页...
分类:Web程序   时间:2014-12-25 18:28:39    阅读次数:325
.NET下文本相似度算法余弦定理和SimHash浅析及应用
在数据采集及大数据处理的时候,数据排重、相似度计算是很重要的一个环节,由此引入相似度计算算法。常用的方法有几种:最长公共子串(基于词条空间)、最长公共子序列(基于权值空间、词条空间)、最少编辑距离法(基于词条空间)、汉明距离(基于权值空间)、余弦值(基于权值空间)等,今天我们着重介绍最后两种方式。余...
分类:编程语言   时间:2014-12-25 01:23:26    阅读次数:506
一天征服Spark!
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“One Stack to rule them all”思想的引领下,Spark成功的使用Spark SQL、Spark Streaming、MLLib、Graph...
分类:其他好文   时间:2014-12-24 23:59:13    阅读次数:358
征服Spark as a Service
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“One Stack to rule them all”思想的引领下,Spark成功的使用Spark SQL、Spark Streaming、MLLib、Graph...
分类:其他好文   时间:2014-12-24 23:55:35    阅读次数:195
决胜大数据时代:Hadoop&Yarn&Spark企业级最佳实践(8天完整版脱产式培训版本)
Hadoop、Yarn、Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课。课程简介大数据时代的精髓技术在于Hadoop、Yarn、Spark,是大数据时代公司和个人必须掌握和使用的核心内容。Hadoop、Yarn、Spark是Yahoo!、...
分类:其他好文   时间:2014-12-24 22:44:20    阅读次数:277
大数据处理之道 (htmlparser获取数据<一>)
一:简介 (1)HTML Parser是一个用于解析Html的Java的库,可采用线性或嵌套两种方式。主要用于网页的转换或提取,他有一些特性:过滤器filter,遍历器visitors,通常的标签tagName和易用的JavaBeans。它是一个快速,健壮,并严格测试过的组件。 (2)个人理解:HTMLParser遍历了网页的内容以后,以树(森林)结构保存了结果,各个节点代表HTML中的标签和...
分类:Web程序   时间:2014-12-24 11:47:52    阅读次数:265
BigData预处理(步骤)
一:为什么要预处理数据? (1)现实世界的数据是肮脏的(不完整,含噪声,不一致) (2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致地集成) (3)原始数据中存在的问题: 不一致 —— 数据内含出现不一致情况 重复 不完整 —— 感兴趣的属性没有 含噪声 —— 数据中存在着错误、或异常(偏离期望值)的数据 高维度...
分类:其他好文   时间:2014-12-23 12:31:19    阅读次数:193
一天征服Spark!
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“OneStacktorulethemall”思想的引领下,Spark成功的使用SparkSQL、SparkStreaming、MLLib、GraphX近乎完美的解...
分类:其他好文   时间:2014-12-23 06:41:54    阅读次数:192
征服Spark as a Service
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“OneStacktorulethemall”思想的引领下,Spark成功的使用SparkSQL、SparkStreaming、MLLib、GraphX近乎完美的解...
分类:其他好文   时间:2014-12-23 06:39:55    阅读次数:217
465条   上一页 1 ... 38 39 40 41 42 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!