码迷,mamicode.com
首页 >  
搜索关键字:大数据集    ( 238个结果
《美团 R 语言数据运营实战》
美团 R 语言数据运营实战 2018年08月02日 作者: 喻灿 刘强 文章链接 3689字 8分钟阅读 一、引言 近年来,随着分布式数据处理技术的不断革新,Hive、Spark、Kylin、Impala、Presto 等工具不断推陈出新,对大数据集合的计算和存储成为现实,数据仓库/商业分析部门日益 ...
分类:编程语言   时间:2020-01-05 11:29:38    阅读次数:115
机器学习(6)之聚类算法(k-means\Canopy\层次聚类\谱聚类)
@[toc] 1 聚类的定义 聚类就是对大量未知标注的数据集,按照数据 内部存在的数据特征 将数据集划分为多个不同的类别,使类别内的数据比较相似,类别之间的数据相似度比较小;属于 无监督学习 。 聚类算法的重点是计算样本项之间的 相似度 ,有时候也称为样本间的 距离 。 和分类算法的区别: 分类算法 ...
分类:编程语言   时间:2020-01-04 01:38:28    阅读次数:134
大数据集报表点击表头排序
在润乾官方在线 demo的 "交互报表" 中,有介绍 "点击表头排序" 的报表案例,该报表针对普通统计类报表。对于使用大数据集的报表,当按照此方式改造时发现排序没起作用或仅对第一页或前几页排序,后面的都没成功。 要想了解啥原因导致?就需要分析该报表的做法及知道大数据集的取数原理。 首先,来分析下在线 ...
分类:编程语言   时间:2019-12-17 14:57:03    阅读次数:76
大数据集群启动
hadoop@master ~]$ 1、hadoop 启动start-all.sh 停止 stop-all.sh 2、hive hive 3、zookeeper cd /home/hadoop启动 命令(每台机器都启动) zookeeper-3.4.14/bin/zkServer.sh start ...
分类:其他好文   时间:2019-12-16 15:01:41    阅读次数:98
基于yolo3自定义训练数据(三)使用imgaug扩大数据集
一、imguag简介 备选参考的图片扩大框架:kears Imagedatagenerator 参考文档 https://imgaug.readthedocs.io/en/latest/ python3.7 numpy1.17.0 https://imgaug.readthedocs.io/en/l ...
分类:其他好文   时间:2019-12-12 18:23:50    阅读次数:241
认识pandas
pandas是数据分析必不可少的工具之一 那么pandas主要用来做什么?(或者说擅长做什么呢) 轻松处理浮点与非浮点的缺失数据 通过DataFrame或者更高维的对象可以完成列的增加与删除 自动和显式地完成数据对齐 强大且灵活的group by功能可对数据集执行拆分应用组合操作,用于聚合和转换数据 ...
分类:其他好文   时间:2019-12-05 01:23:19    阅读次数:107
Hadoop4-HDFS分布式文件系统原理
一、简介 1、分布式文件系统钢结构 分布式文件系统由计算机集群中的多个节点构成,这些节点分为两类: 主节点(MasterNode)或者名称节点(NameNode) 从节点(Slave Node)或者数据节点(DataNode) 2、HDFS能够带来什么好处 兼容廉价的硬件设备 流数据读写 大数据集 ...
分类:其他好文   时间:2019-11-15 12:07:41    阅读次数:209
hive基础知识
从早期的互联网大数据爆发开始,主要的搜索引擎公司和电子商务公司就一直在和不断增长的数据进行较量。最近社交网站也遇到了同样的问题。如今,许多组织已经意识到他们所收集的数据是让他们了解用户,提高业务在市场上的表现以及提高基础架构效率的一个宝贵资源。 Hadoop生态系统就是为处理如此大数据集二产生的一个 ...
分类:其他好文   时间:2019-11-02 18:13:38    阅读次数:81
Hadoop
Hadoop:大数据集群,只能运行在Linux平台RDBMS:表字段、数据类型、约束结构化数据关系数据库在数据中占据重要的地位但不是所有的数据都可以结构化结构化数据:structureddata非结构化数据:unstructureddata半结构化数据:semi-structureddata通常保存为xml,jsonGoogle:pagerank页面算法
分类:其他好文   时间:2019-10-22 10:32:44    阅读次数:108
使用Apriori算法进行关联分析(python2)
summary: 关联分析是用于发现大数据集中元素间有趣关系的一个工具集,可以采用两种方式来量化这些有趣的关系。第一种方式是频繁项集,它会给出经常出现在一起的元素项;第二种方式是关联规则,每条关联规则意味着元素项之间“如果……那么”的关系。 发现元素项间不同的组合是个十分耗时的任务,不可避免需要大量 ...
分类:编程语言   时间:2019-10-07 09:24:23    阅读次数:158
238条   上一页 1 2 3 4 5 ... 24 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!