import numpy as np import pandas as pd 1.创建数据 df = pd.DataFrame({'name':['Jack','Alex','Bob','Nancy','Mary','Alice','Jerry','Wolf'], 'course':['Chines ...
分类:
移动开发 时间:
2020-04-18 18:24:38
阅读次数:
133
def save_data(item, sheet): """ 数据保存 :param item: 数据 :param sheet: sheet名 :return: """ dfscores = pd.DataFrame(item) # 写入数据 encoding="utf-8-sig" 看情况而用 ...
分类:
其他好文 时间:
2020-04-13 18:08:03
阅读次数:
153
一、算术和广播 当对两个Series或者DataFrame对象进行算术运算的时候,返回的结果是两个对象的并集。如果存在某个索引不匹配时,将以缺失值NaN的方式体现,并对以后的操作产生影响。这类似数据库的外连接操作。 In [58]: s1 = pd.Series([4.2,2.6, 5.4, -1. ...
分类:
其他好文 时间:
2020-04-12 10:22:29
阅读次数:
93
Pands模块可以帮助数据分析师轻松地解决数据的预处理问题,如数据类型的转换、缺失值的处理、描述性统计分析、数据的汇总等。Pandas模块的核心操作对象就是序列(Series)和数据框(DataFrame)。序列可以理解为数据集中的一个字段,数据框是指含有至少两个字段(或序列)的数据集。 1. 序列 ...
分类:
编程语言 时间:
2020-04-09 12:20:02
阅读次数:
97
一. apply函数 作用:对 DataFrame 的某行/列应用函数之后,Apply 返回一些值。函数既可以使用默认的,也可以自定义。注意:在第二个输出中应用 head() 函数,因为它包含了很多行。 #创建一个新函数 def num_missing(x): return sum(x.isnull ...
分类:
编程语言 时间:
2020-04-09 11:02:52
阅读次数:
134
对于dataframe格式的数据: 1、data.value_counts():统计数据出现的次数 2、data.query("label==0"):按指定条件查询数据 3、data.plot():可视化dataframe格式的数据 4、pandas.get_dummies(data):将某列数据用 ...
分类:
其他好文 时间:
2020-04-05 18:32:18
阅读次数:
78
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL?如果大家了解Hive的话,应该知道它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRedu ...
分类:
数据库 时间:
2020-04-05 13:33:32
阅读次数:
113
一、在DataFrame中删除某列中含有空值的行: 删除前: df.dropna(subset=['c']) 删除后: 以后会逐渐累积。 ...
分类:
其他好文 时间:
2020-04-04 14:35:16
阅读次数:
43
合并前excel中的数据情况: 合并后的excel中数据情况: 附上代码如下: import pandas as pd year = ['2017','2018']#文件夹的命名 sheet_concat = pd.DataFrame() for i in range(len(year)): she ...
分类:
其他好文 时间:
2020-04-03 21:45:25
阅读次数:
132
package classifierAlg import config.conf.{sc, spark_session} import config.conf.spark_session.implicits._ import org.apache.spark.sql.functions._ impo ...
分类:
其他好文 时间:
2020-04-03 12:32:15
阅读次数:
282