import numpy as np import pandas as pd from pandas import Series,DataFrame 一、透视表(pivotTab) 透视表就是将指定原有DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚集函数(默认情况下式mean函数 ...
分类:
其他好文 时间:
2019-12-22 11:10:21
阅读次数:
132
spark 提供了两个机器学习库 MLlib 和 ML,MLlib 是 spark 第一个机器学习库,相比于 ML,它更加成熟 rdd 是 spark core 的数据抽象,dataframe 是 sparkSQL 的数据抽象, 而 MLib 的数据抽象包括 Vector、LabeledPoint、 ...
分类:
其他好文 时间:
2019-12-20 18:26:13
阅读次数:
101
sparksql是spark中的一个模块,主要用于进行结构化数据的处理,他提供的最核心的编程抽象,就是DataFrame。同时,sparksql还可以作为分布式的sql查询引擎。 最最重要的功能就是从hive中查询数据。 Dataframe可以理解为:以列的形式组织的,分布式的数据集合。 Dataf ...
分类:
数据库 时间:
2019-12-17 15:26:10
阅读次数:
121
1、代码 import numpy as np import pandas as pd import matplotlib.pyplot as plt # 生成数据,创建 DataFrame np.random.seed(27) data = np.random.rand(7, 3) index = ...
分类:
其他好文 时间:
2019-12-15 23:47:06
阅读次数:
215
1 import requests 2 from bs4 import BeautifulSoup 3 import bs4 4 import re 5 import csv 6 #import pandas as pd 7 # r = requests.get("https://www.futur ...
分类:
其他好文 时间:
2019-12-15 20:24:40
阅读次数:
93
mydf.dropna(subset=['列名'],inplace=True) subset参数指定列,inplace参数为修改原dataframe,上面的实验成功 这行代码也可以写成酱紫, 1 mydf=mydf.dropna(subset=['列名']) ...
分类:
其他好文 时间:
2019-12-15 18:09:36
阅读次数:
609
一、测试数据集(奥特曼.json) 二、源代码 1 import org.apache.spark.sql.SparkSession 2 3 //在Scala中,样例类在编译时会默认实现Product特质 4 case class Ultraman(name: String, age: BigInt ...
分类:
数据库 时间:
2019-12-14 17:35:20
阅读次数:
144
在运行以下Python代码时,Pandas抛出SettingWithCopyWarning警告: df_pred是一个数据框,根据索引从数据框中获取一行,然后对该行的一个字段进行赋值,警告的详细内容如下: SettingWithCopyWarning:A value is trying to be ...
分类:
其他好文 时间:
2019-12-13 19:42:52
阅读次数:
153
1 pd.to_datetime转成时间格式 2 设置格式 1 df1['付款时间1'] = pd.to_datetime(df1['付款时间']) 2 df1['year_month'] = df1['付款时间1'].apply(lambda x : x.strftime('%Y-%m-%d')) ...
分类:
其他好文 时间:
2019-12-11 19:20:16
阅读次数:
1138
参考文献: 【1】https://www.icourse163.org/learn/XMU-1205811805?tid=1206617233&from=study#/learn/content?type=detail&id=1211383863&cid=1214032044&replay=true ...
分类:
其他好文 时间:
2019-12-10 22:37:32
阅读次数:
94