码迷,mamicode.com
首页 >  
搜索关键字:mahout hadoop canopy 聚类 大数据    ( 26726个结果
层次聚类 Hierarchical Clustering
不管是GMM,还是k-means,都面临一个问题,就是k的个数如何选取?比如在bag-of-words模型中,用k-means训练码书,那么应该选取多少个码字呢?为了不在这个参数的选取上花费太多时间,可以考虑层次聚类。 假设有N个待聚类的样本,对于层次聚类来说,基本步骤就是: 1、(初始化)把每个样 ...
分类:其他好文   时间:2021-01-20 11:55:49    阅读次数:0
NGK Global英国路演落下帷幕,区块链赋能大数据取得新突破
NGK全球巡回路演于7月25日在英国圆满举行,此次路演是由NGK英国社区主办,旨在探讨当前大数据爆炸的形式下,区块链如何赋能,解决行业痛点。会上,行业精英、区块链爱好者、各实体产业代表以及科技人员纷纷出席,路演现场十分热闹,更有英国当地知名媒体进行争相报道。 本次路演由讲师Mark进行主题分享,Ma ...
分类:其他好文   时间:2021-01-20 11:46:41    阅读次数:0
Hadoop HA 模式搭建
一 、 Hadoop 集群架构设计 二 、 搭建集群 修改IP地址与hostname以及部署zookeeper、hadoop见上一篇博文《Hadoop 完全分布式搭建》。 三 、修改配置文件 修改nna上的core-site.xml <configuration> <!-- 指定hdfs的names ...
分类:其他好文   时间:2021-01-19 12:16:24    阅读次数:0
zookeeper:安装和测试
前言: 端口号:21881 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 本质:主要作用是注册 ...
分类:其他好文   时间:2021-01-19 12:08:39    阅读次数:0
大数据之Hbase(一):HBase简介、BigTable、面向列的数据库、非结构化数据存储、HBase在Hadoop生态中的地位、 HBase与HDFS、HBase使用场景
文章目录 5.1 HBase简介 什么是HBase BigTable 面向列的数据库 什么是非结构化数据存储 HBase在Hadoop生态中的地位 HBase与HDFS HBase使用场景 5.1 HBase简介 1 什么是HBase HBase是一个分布式的、面向列的开源数据库 HBase是Goo ...
分类:数据库   时间:2021-01-19 12:02:43    阅读次数:0
hdfs常见操作java示例
我们学习hadoop,最常见的编程是编写mapreduce程序,但是,有时候我们也会利用java程序做一些常见的hdfs操作。比如删除一个目录,新建一个文件,从本地上传一个文件到hdfs等,甚至是追加内容到hdfs文件中。 这里介绍一些常见的hdfs操作的java示例,帮助我们加深对hdfs的理解。 ...
分类:编程语言   时间:2021-01-19 11:58:35    阅读次数:0
Java进阶专题(二十一) 消息中间件架构体系(3)-- Kafka研究
前言 Kafka 是一款分布式消息发布和订阅系统,具有高性能、高吞吐量的特点而被广泛应用与大数据传输场景。它是由 LinkedIn 公司开发,使用 Scala 语言编写,之后成为 Apache 基金会的一个顶级项目。kafka 提供了类似 JMS 的特性,但是在设计和实现上是完全不同的,而且他也不是 ...
分类:编程语言   时间:2021-01-19 11:48:43    阅读次数:0
pyspark dataframe save into hive
# 先定义dataframe各列的数据类型 from pyspark.sql.types import *schema = StructType([ StructField("a", NullType(), True), StructField("b", AtomicType(), True), S ...
分类:其他好文   时间:2021-01-18 11:29:36    阅读次数:0
Redis 设计与实现 10:五大数据类型之有序集合
有序集合有两种编码方式:压缩列表 ziplist 和跳表 skiplist。 ...
分类:其他好文   时间:2021-01-16 12:09:10    阅读次数:0
hive性能调优
1. 设置执行引擎 set hive.execution.engine=mr;set hive.execution.engine=spark; 如果设置执行引擎为MR,那么调用Hadoop的maprecude来运行需要执行的job的程序; 如果设置执行引擎为spark,那么就会调用spark来执行任 ...
分类:其他好文   时间:2021-01-15 12:15:21    阅读次数:0
26726条   上一页 1 ... 19 20 21 22 23 ... 2673 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!