搜索关键字：大数据集，搜索到238个结果！码迷,mamicode.com！

《美团 R 语言数据运营实战》

美团 R 语言数据运营实战 2018年08月02日作者: 喻灿刘强文章链接 3689字 8分钟阅读一、引言近年来，随着分布式数据处理技术的不断革新，Hive、Spark、Kylin、Impala、Presto 等工具不断推陈出新，对大数据集合的计算和存储成为现实，数据仓库/商业分析部门日益 ...

分类：编程语言时间：2020-01-05 11:29:38 阅读次数：115

机器学习（6）之聚类算法（k-means\Canopy\层次聚类\谱聚类）

@[toc] 1 聚类的定义聚类就是对大量未知标注的数据集，按照数据内部存在的数据特征将数据集划分为多个不同的类别，使类别内的数据比较相似，类别之间的数据相似度比较小；属于无监督学习。聚类算法的重点是计算样本项之间的相似度，有时候也称为样本间的距离。和分类算法的区别：分类算法 ...

分类：编程语言时间：2020-01-04 01:38:28 阅读次数：134

大数据集报表点击表头排序

在润乾官方在线 demo的 "交互报表" 中，有介绍 "点击表头排序" 的报表案例，该报表针对普通统计类报表。对于使用大数据集的报表，当按照此方式改造时发现排序没起作用或仅对第一页或前几页排序，后面的都没成功。要想了解啥原因导致？就需要分析该报表的做法及知道大数据集的取数原理。首先，来分析下在线 ...

分类：编程语言时间：2019-12-17 14:57:03 阅读次数：76

大数据集群启动

hadoop@master ~]$ 1、hadoop 启动start-all.sh 停止 stop-all.sh 2、hive hive 3、zookeeper cd /home/hadoop启动命令（每台机器都启动） zookeeper-3.4.14/bin/zkServer.sh start ...

分类：其他好文时间：2019-12-16 15:01:41 阅读次数：98

基于yolo3自定义训练数据（三）使用imgaug扩大数据集

一、imguag简介备选参考的图片扩大框架：kears Imagedatagenerator 参考文档 https://imgaug.readthedocs.io/en/latest/ python3.7 numpy1.17.0 https://imgaug.readthedocs.io/en/l ...

分类：其他好文时间：2019-12-12 18:23:50 阅读次数：241

认识pandas

pandas是数据分析必不可少的工具之一那么pandas主要用来做什么?(或者说擅长做什么呢) 轻松处理浮点与非浮点的缺失数据通过DataFrame或者更高维的对象可以完成列的增加与删除自动和显式地完成数据对齐强大且灵活的group by功能可对数据集执行拆分应用组合操作，用于聚合和转换数据 ...

分类：其他好文时间：2019-12-05 01:23:19 阅读次数：107

Hadoop4-HDFS分布式文件系统原理

一、简介 1、分布式文件系统钢结构分布式文件系统由计算机集群中的多个节点构成，这些节点分为两类：主节点（MasterNode）或者名称节点（NameNode）从节点（Slave Node）或者数据节点（DataNode） 2、HDFS能够带来什么好处兼容廉价的硬件设备流数据读写大数据集 ...

分类：其他好文时间：2019-11-15 12:07:41 阅读次数：209

hive基础知识

从早期的互联网大数据爆发开始，主要的搜索引擎公司和电子商务公司就一直在和不断增长的数据进行较量。最近社交网站也遇到了同样的问题。如今，许多组织已经意识到他们所收集的数据是让他们了解用户，提高业务在市场上的表现以及提高基础架构效率的一个宝贵资源。 Hadoop生态系统就是为处理如此大数据集二产生的一个 ...

分类：其他好文时间：2019-11-02 18:13:38 阅读次数：81

Hadoop

Hadoop：大数据集群，只能运行在Linux平台RDBMS：表字段、数据类型、约束结构化数据关系数据库在数据中占据重要的地位但不是所有的数据都可以结构化结构化数据：structureddata非结构化数据：unstructureddata半结构化数据：semi-structureddata通常保存为xml,jsonGoogle：pagerank页面算法

分类：其他好文时间：2019-10-22 10:32:44 阅读次数：108

使用Apriori算法进行关联分析（python2）

summary: 关联分析是用于发现大数据集中元素间有趣关系的一个工具集，可以采用两种方式来量化这些有趣的关系。第一种方式是频繁项集，它会给出经常出现在一起的元素项；第二种方式是关联规则，每条关联规则意味着元素项之间“如果……那么”的关系。发现元素项间不同的组合是个十分耗时的任务，不可避免需要大量 ...

分类：编程语言时间：2019-10-07 09:24:23 阅读次数：158

共238条上一页 1 2 3 4 5 ... 24 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)