搜索关键字：mahout hadoop canopy 聚类大数据，搜索到26726个结果！码迷,mamicode.com！

层次聚类 Hierarchical Clustering

不管是GMM，还是k-means，都面临一个问题，就是k的个数如何选取？比如在bag-of-words模型中，用k-means训练码书，那么应该选取多少个码字呢？为了不在这个参数的选取上花费太多时间，可以考虑层次聚类。假设有N个待聚类的样本，对于层次聚类来说，基本步骤就是： 1、（初始化）把每个样 ...

分类：其他好文时间：2021-01-20 11:55:49 阅读次数：0

NGK Global英国路演落下帷幕，区块链赋能大数据取得新突破

NGK全球巡回路演于7月25日在英国圆满举行，此次路演是由NGK英国社区主办，旨在探讨当前大数据爆炸的形式下，区块链如何赋能，解决行业痛点。会上，行业精英、区块链爱好者、各实体产业代表以及科技人员纷纷出席，路演现场十分热闹，更有英国当地知名媒体进行争相报道。本次路演由讲师Mark进行主题分享，Ma ...

分类：其他好文时间：2021-01-20 11:46:41 阅读次数：0

Hadoop HA 模式搭建

一、 Hadoop 集群架构设计二、搭建集群修改IP地址与hostname以及部署zookeeper、hadoop见上一篇博文《Hadoop 完全分布式搭建》。三、修改配置文件修改nna上的core-site.xml <configuration> <!-- 指定hdfs的names ...

分类：其他好文时间：2021-01-19 12:16:24 阅读次数：0

zookeeper：安装和测试

前言：端口号：21881 ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。本质：主要作用是注册 ...

分类：其他好文时间：2021-01-19 12:08:39 阅读次数：0

大数据之Hbase（一）：HBase简介、BigTable、面向列的数据库、非结构化数据存储、HBase在Hadoop生态中的地位、 HBase与HDFS、HBase使用场景

文章目录 5.1 HBase简介什么是HBase BigTable 面向列的数据库什么是非结构化数据存储 HBase在Hadoop生态中的地位 HBase与HDFS HBase使用场景 5.1 HBase简介 1 什么是HBase HBase是一个分布式的、面向列的开源数据库 HBase是Goo ...

分类：数据库时间：2021-01-19 12:02:43 阅读次数：0

hdfs常见操作java示例

我们学习hadoop，最常见的编程是编写mapreduce程序，但是，有时候我们也会利用java程序做一些常见的hdfs操作。比如删除一个目录，新建一个文件，从本地上传一个文件到hdfs等，甚至是追加内容到hdfs文件中。这里介绍一些常见的hdfs操作的java示例，帮助我们加深对hdfs的理解。 ...

分类：编程语言时间：2021-01-19 11:58:35 阅读次数：0

Java进阶专题(二十一) 消息中间件架构体系（3）-- Kafka研究

前言 Kafka 是一款分布式消息发布和订阅系统，具有高性能、高吞吐量的特点而被广泛应用与大数据传输场景。它是由 LinkedIn 公司开发，使用 Scala 语言编写，之后成为 Apache 基金会的一个顶级项目。kafka 提供了类似 JMS 的特性，但是在设计和实现上是完全不同的，而且他也不是 ...

分类：编程语言时间：2021-01-19 11:48:43 阅读次数：0

pyspark dataframe save into hive

# 先定义dataframe各列的数据类型 from pyspark.sql.types import *schema = StructType([ StructField("a", NullType(), True), StructField("b", AtomicType(), True), S ...

分类：其他好文时间：2021-01-18 11:29:36 阅读次数：0

Redis 设计与实现 10：五大数据类型之有序集合

有序集合有两种编码方式：压缩列表 ziplist 和跳表 skiplist。 ...

分类：其他好文时间：2021-01-16 12:09:10 阅读次数：0

hive性能调优

1. 设置执行引擎 set hive.execution.engine=mr;set hive.execution.engine=spark; 如果设置执行引擎为MR，那么调用Hadoop的maprecude来运行需要执行的job的程序；如果设置执行引擎为spark，那么就会调用spark来执行任 ...

分类：其他好文时间：2021-01-15 12:15:21 阅读次数：0

共26726条上一页 1 ... 19 20 21 22 23 ... 2673 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)