码迷,mamicode.com
首页 >  
搜索关键字:大数据集    ( 238个结果
大数据集群搭建
1、virtualbox 网卡桥接 vim /etc/sysconfig/network-scripts/ifcfj-enp0s3 onBoot=yes 2、Centos7 3、JDK1.8 4、MobaXterm 5、hadoop2.4.1 6、Hive 0.13 7、Zookeeper3.4.5 ...
分类:其他好文   时间:2020-05-02 00:04:41    阅读次数:51
Linux集群配置离线ntp时间同步服务
集群中时间不同步有可能会让大数据的应用程序运行混乱,造成不可预知的问题,比如Hbase、mongodb副本集等,Hbase当时间差别过大时就会挂掉,mongodb如果副本时间过快,会出现时间栈帧溢出提前出发选举等,所以在大数据集群中,ntp服务,应该作为一种基础的服务,以下在演示在CentOS 7. ...
分类:系统相关   时间:2020-04-26 13:47:38    阅读次数:201
mapreduce实现数据去重
原文链接: https://www.toutiao.com/i6764933201203823107/ 概念:“数据去重”主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。 数据去重的最终目标是让原始数据 ...
分类:其他好文   时间:2020-03-20 00:27:36    阅读次数:75
聚类分析代码总结
代码 1.自创数据集进行聚类 2. 相关系数 皮尔逊相关系数 斯皮尔曼相关系数 3. PCA代码 4. example 探究用户对物品类别的喜好细分降维 相关数据集联系邮箱yawei_sia@yeah.net获取 特殊知识点 K means聚类步骤 随机设置K个特征空间内的点作为初始的聚类中心 2、 ...
分类:其他好文   时间:2020-03-08 17:16:14    阅读次数:62
【设计理念】分片
分片 每个分区都是自己的小型数据库,尽管数据库可能支持同时进行多个分区的操作。分区主要是为了可扩展性。不同的分区可以放在不共享集群中的不同节点上。因此,大数据集可以分布在多个磁盘上,并且查询负载可以分布在多个处理器上。 分区目标是将数据和查询负载均匀分布在各个节点上。如果分区是不公平的,一些分区比其 ...
分类:其他好文   时间:2020-02-15 23:22:41    阅读次数:65
Redis详解(一)——RDB
Redis详解(一)——RDB 前言 ? 由于 Redis 是一个内存数据库,所谓内存数据库,就是将数据库中的内容保存在内存中,这与传统的MySQL,Oracle等关系型数据库直接将内容保存到硬盘中相比,内存数据库的读写效率比传统数据库要快的多(内存的读写效率远远大于硬盘的读写效率)。但是保存在内存 ...
分类:数据库   时间:2020-02-01 16:36:56    阅读次数:100
从 ListView 到 RecyclerView 的用法浅析
文章目录 要走好明天的路,必须记住昨天走过的路,思索今天正在走着的路。ListView,一种在垂直滚动列表中显示条目的视图;RecyclerView,一种在局限的窗口呈现大数据集合的灵活视图。RecyclerView 部件是 ListView 的一种更高级且更灵活的版本。以上描述来自官网。移动设备屏... ...
分类:其他好文   时间:2020-01-21 23:49:13    阅读次数:162
mac 搭建虚拟机安装spark,hive,zookeeper,scala,kafka等大数据集群搭建
大数据相关资料 课程环境 Virtual Box 4.1安装 1、使用课程提供的Virtual Box安装包,一步一步安装即可。Oracle_VM_VirtualBox_Extension_Pack-4.1.40-101594.vbox-extpack。2、之所以选用Virtual Box是因为它比 ...
分类:系统相关   时间:2020-01-13 18:05:58    阅读次数:106
Spark实战--寻找5亿次访问中,访问次数最多的人
问题描述 对于一个大型网站,用户访问量尝尝高达数十亿。对于数十亿是一个什么样的概念,我们这里可以简单的计算一下。对于一个用户,单次访问,我们通常会记录下哪些数据呢? 1、用户的id 2、用户访问的时间 3、用户逗留的时间 4、用户执行的操作 5、用户的其余数据(比如IP等等) 我们单单从用户id来说 ...
分类:其他好文   时间:2020-01-12 10:07:15    阅读次数:98
大数据之一:Hadoop2.6.5+centos7.5三节点大数据集群部署搭建
一、VM虚拟环境搭建(详细讲解)说明:在windos10上使用VmWareWorkstation创建3节点Hadoop虚拟环境创建虚拟机下一步设置虚拟机主机名和介质存放路径设置20G磁盘大小选择“自定义硬件”配置网络模式为NAT模式配置虚拟机启动镜像到这里,使用虚拟机克隆技术配置另外两台slave同理克隆slave2,步骤省略此时windos网络连接里面会出现两张虚拟网卡接下来就是给虚拟机配置IP
分类:其他好文   时间:2020-01-08 17:28:21    阅读次数:120
238条   上一页 1 2 3 4 ... 24 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!