码迷,mamicode.com
首页 >  
搜索关键字:大数据开发 Hadoop Spark    ( 19831个结果
hadoop和maven
1、大数据有哪些特点? valume(大量) velocity(高速) variety(多样) value(低价值密度) 2、什么是大数据? 指无法在一定的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信 ...
分类:其他好文   时间:2020-11-16 13:51:20    阅读次数:9
Spark Stuctured Streaming 读取文件夹数据
package com.atguigu.structure.streaming import org.apache.spark.sql.streaming.Trigger import org.apache.spark.sql.{DataFrame, SparkSession} import org ...
分类:其他好文   时间:2020-11-16 13:25:07    阅读次数:3
12个行业月均阅读超100亿,看Spark如何助力微博Feed算法提升活跃度
12个行业月均阅读超100亿,看Spark如何助力微博Feed算法提升活跃度#编者按:本文由高可用架构向黄波约稿,介绍黄波在SparkSummitChina2016中的演讲精华,并侧重对微博系统和Feed系统进行了更多的介绍。黄波,2010年加入新浪微博,微博研发中心Feed技术专家,负责微博Feed流排序和推荐相关项目。目前专注于基于Spark、Storm等计算平台的大数据处理,致力于将分布式计
分类:编程语言   时间:2020-11-16 13:06:48    阅读次数:9
华为 FusionInsight HD Hive数据库
1.环境的安装与准备 参考下图: 2.数据库服务的安装与添加(HADOOP,HDFS,HIVE) 如下图所示: 3.华为官网的文档的指导手册(HADOOP,HDFS,HIVE) FusionInsight HD 6.5.1 应用开发指南 03 https://support.huawei.com/e ...
分类:数据库   时间:2020-11-13 12:11:51    阅读次数:18
2020101101-1
本周因为一些原因实际开发时间过于零散,因而开发报告未按每日进行总结 但是本周进展也说不上多,这点不太好 花在学习上:20小时 花在代码上:15小时 花在解决问题上:9小时 本周遇到的问题:Hadoop可以正常启动 但是Namenode无法通过浏览器访问(连接被拒绝),离谱的是Secondary Na ...
分类:其他好文   时间:2020-11-12 13:43:39    阅读次数:7
本周总结
本周主要是制作了河北重大技术需求分析的数据录入板块,通过这个主要是练习了前端的制作,例如通过js以及json数据进行多级联动,还有一些特殊条件的查询等等。另外就是软件需求的分析,对于客户提出的要求我们作为软件的设计者以现有技术为根基来进行设计,设计出尽可能合理的系统,并针对其中的诸多细节与客户进行交 ...
分类:其他好文   时间:2020-11-12 13:30:08    阅读次数:9
spark学习(一) --spark基本概念和任务调度
(一)RDD、DataFream、DataSet 理解 1. RDD理解 (1) RDD定义为弹性分布式数据集合。 MR运算之间数据共享差: MR的计算之间的数据共享只能通过将数据写入外部存储系统。后一步计算需要从外部存储系统中加载进来的方式进行。 Spark 思路相反,设计了一种抽象-RDD(弹性 ...
分类:其他好文   时间:2020-11-10 10:31:29    阅读次数:3
经典教程 | 基于Spark GraphX实现微博二度关系推荐
经典教程|基于SparkGraphX实现微博二度关系推荐导读:图计算是近几年大数据领域非常受关注的热点,社交网络中的好友关系推荐是一种典型图计算场景,本文是微博关系项目团队在二度关系计算中的一些实践,供高可用架构读者参考,作者为王舜、蒋生武、田瑞林。关系计算问题描述二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系。目前微博通过二度关系实现了潜在用户的推荐。用户的一度关系包含了关注、好
分类:其他好文   时间:2020-11-07 17:07:30    阅读次数:27
Hadoop namenode高可用性分析:QJM核心源代码解读
Hadoopnamenode高可用性分析:QJM核心源代码解读背景介绍HDFSnamenode在接受写操作时会记录日志,最早HDFS日志写本地,每次重启或出现故障后重启,通过本地镜像文件+操作日志,就能还原到宕机之前的状态,不会出现数据不一致。如果要做高可用(HA),日志写在单个机器上,这个机器磁盘出现问题,重启就恢复不了,导致数据不一致,出现的现象就是新建的文件不存在,删除成功的还在等诡异现象。
分类:其他好文   时间:2020-11-07 17:00:30    阅读次数:24
Hadoop使用实例
1.词频统计 a.下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 b.编写map与reduce函数 c.本地测试map和reduce d.将文本数据上传到HDFS上 e.用hadoop streaming提交任务 f.查看运行结果 g.计算结果取回本地 ...
分类:其他好文   时间:2020-11-07 16:36:45    阅读次数:33
19831条   上一页 1 ... 28 29 30 31 32 ... 1984 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!