1 两个Dataframe相加时,一定要注意索引是否对应再相加,利用这个特点有时可以先用set_index()将某些列置为索引列,再进行相加. import pandas as pd df1 = pd.DataFrame({'a':np.arange(1,5,1), 'b':np.arange(3, ...
分类:
其他好文 时间:
2019-11-15 14:13:54
阅读次数:
99
pandas模块 "pandas官方文档" pandas基于Numpy,可以看成是处理文本或者表格数据。pandas中有两个主要的数据结构,其中Series数据结构类似于Numpy中的一维数组,DataFrame类似于多维表格数据结构。 pandas是python数据分析的核心模块。它主要提供了五大 ...
分类:
其他好文 时间:
2019-11-13 10:46:19
阅读次数:
74
Spark SQL 增加了DataFrame 即带有Schema信息的RDD DataFrame 创建 启动pyspark(由于内存不够 启动本地,模式) pyspark --master local pyspark 自动生成 sc,sparksession from pyspark import ...
分类:
数据库 时间:
2019-11-09 22:07:07
阅读次数:
95
使用场景:
在一些情况下,我们需要保持一个与数据库连接的connection,在没有写物理表权限或者没有必要写物理表时的现实场景用临时表替代物理表进行操作,临时表很多是基于Session的,Seesion间不能相互访问,断开后临时表自动清空,而spark自带的,read.format("jdbc")... ...
分类:
数据库 时间:
2019-11-06 10:23:44
阅读次数:
277
由于Pandas的索引比较复杂,常常在使用过程中容易搞混,所以整理一份关于索引的查找、排序、去重的总结文档。 a b c one 1 4 7 two 2 5 8 three 3 6 9 1.Series通过索引查找 可用Index ,也可用数字下标 2.DataFrame通过索引查找 (1) 直接通 ...
分类:
编程语言 时间:
2019-11-04 19:35:03
阅读次数:
84
数据丢失(缺失)在现实生活中总是一个问题。 机器学习和数据挖掘等领域由于数据缺失导致的数据质量差,在模型预测的准确性上面临着严重的问题。 在这些领域,缺失值处理是使模型更加准确和有效的重点。 使用重构索引(reindexing),创建了一个缺少值的DataFrame。 在输出中,NaN表示不是数字的 ...
分类:
其他好文 时间:
2019-11-04 09:48:10
阅读次数:
69
今日内容 简介 常用操作 FollowMe 若浏览器无法显示下面视频,可点击此处观看优酷短视频 ...
分类:
其他好文 时间:
2019-11-03 01:03:03
阅读次数:
119
今日内容 简介 常用操作 FollowMe 若浏览器无法显示下面视频,可点击此处观看优酷短视频 ...
分类:
其他好文 时间:
2019-11-02 21:52:55
阅读次数:
120
为了处理数字数据,Pandas提供了几个变体,如滚动,展开和指数移动窗口统计的权重。 其中包括总和,均值,中位数,方差,协方差,相关性等。本章讨论的是在DataFrame对象上应用这些方法。 .rolling()函数 这个函数可以应用于一系列数据。指定window=n参数,并应用适当的统计函数。 i ...
分类:
其他好文 时间:
2019-11-02 19:42:51
阅读次数:
90
今日内容 简介 常用操作 FollowMe 视频如下: ...
分类:
其他好文 时间:
2019-11-02 13:38:18
阅读次数:
71