码迷,mamicode.com
首页 >  
搜索关键字:r语言 数据分析 数据挖掘    ( 7783个结果
08 学生课程分数的Spark SQL分析
一. 读学生课程分数文件chapter4-data01.txt,创建DataFrame。 1.生成“表头” 2.生成“表中的记录” 3.把“表头”和“表中的记录”拼装在一起 用DataFrame的操作或SQL语句完成以下数据分析要求,并和用RDD操作的实现进行对比: 每个分数+5分。 df_scs. ...
分类:数据库   时间:2021-05-24 16:51:04    阅读次数:0
08 学生课程分数的Spark SQL分析
1.用DataFrame的操作或SQL语句完成以下数据分析要求: 2.总共有多少学生? 3.开设了多少门课程? 4.每个学生选修了多少门课? 5.每门课程有多少个学生选? 6.Tom选修了几门课?每门课多少分? 7.Tom的成绩按分数大小排序。 8.Tom的平均分。 9.每个分数+5分。 10.求每 ...
分类:数据库   时间:2021-05-24 16:49:50    阅读次数:0
08 学生课程分数的Spark SQL分析
用DataFrame的操作或SQL语句完成以下数据分析要求,并和用RDD操作的实现进行对比: 每个分数+5分。 df_scs.select('name', 'course', df_scs.score+5).show() 总共有多少学生? 总共开设了哪些课程? df_scs.select('name ...
分类:数据库   时间:2021-05-24 15:33:34    阅读次数:0
Python 基础教程 —— Pandas 库常用方法实例说明
pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。本章将以实例方式介绍 panads 库的一些常用方法MultiInde... ...
分类:编程语言   时间:2021-05-24 15:19:37    阅读次数:0
(转)Spark与Map-Reduce区别对比
典型架构 很多的场景都是如上的,有web(包括无线、以前CS的模式、现在的BS模式等)、DB、cache、数据分析我就用了Hadoop了(代名词,或者泛指数据仓库了),另外就是一些传感器之类的,数据通道(有的简单如:jdbc等,有的比较复杂,保序不丢等),其中也简单列了一些中间件的软件。这张图组成了 ...
分类:其他好文   时间:2021-05-24 09:02:34    阅读次数:0
数据分析-pandas[行、列、单元格]
//导包import pandas as pd s1=pd.Series([1,2,3],index=[1,2,3],name='A') s2=pd.Series([10,20,30],index=[1,2,3],name='B') s3=pd.Series([100,200,300],index= ...
分类:其他好文   时间:2021-05-24 07:58:49    阅读次数:0
量化投资与Python——NumPy
量化投资与Python——NumPy 为什么选择Python 如何使用Python进行量化投资 NumPy - 数据分析基础包 简介 - NumPy(Numerical Python) 是 Python 语言中做科学计算的基础库。重在于数值计算,也是大部分Python科学计算库的基础,多用于在大型、 ...
分类:编程语言   时间:2021-05-24 04:02:20    阅读次数:0
pandas:数据分析
pandas:数据分析 pandas是一个强大的Python数据分析的工具包。pandas是基于NumPy构建的。 pandas的主要功能具备对其功能的数据结构DataFrame、Series集成时间序列功能提供丰富的数学运算和操作灵活处理缺失数据 安装方法:pip install pandas引用 ...
分类:其他好文   时间:2021-05-24 03:59:52    阅读次数:0
在AWS Glue中使用Apache Hudi
1. Glue与Hudi简介 AWS Glue AWS Glue是Amazon Web Services(AWS)云平台推出的一款无服务器(Serverless)的大数据分析服务。对于不了解该产品的读者来说,可以用一句话概括其实质:Glue是一个无服务器的全托管的Spark运行环境,只需提供Spar ...
分类:Web程序   时间:2021-05-24 03:46:26    阅读次数:0
Pandas-05-数据离散化
1. 为什么要离散化 连续属性离散化的目的是为了简化数据结构,数据结构离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。 2. 什么是数据的离散化 连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数、值代表落在每个子区间中的属性值 ...
分类:其他好文   时间:2021-05-04 16:02:26    阅读次数:0
7783条   上一页 1 ... 6 7 8 9 10 ... 779 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!