在进行python数据分析的时候,首先要进行数据预处理。 有时候不得不处理一些非数值类别的数据,嗯, 今天要说的就是面对这些数据该如何处理。 目前了解到的大概有三种方法: 1,通过LabelEncoder来进行快速的转换; 2,通过mapping方式,将类别映射为数值。不过这种方法适用范围有限; 3 ...
分类:
其他好文 时间:
2017-07-05 01:15:12
阅读次数:
1550
DataFrame 的函数 Action 操作 1、 collect() ,返回值是一个数组,返回dataframe集合所有的行 2、 collectAsList() 返回值是一个Java类型的数组,返回dataframe集合所有的行 3、 count() 返回一个number类型的,返回dataf ...
分类:
其他好文 时间:
2017-07-04 00:03:03
阅读次数:
416
Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就 ...
分类:
其他好文 时间:
2017-07-03 23:54:08
阅读次数:
471
Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。 一、DataFrame对象的生成 ...
分类:
数据库 时间:
2017-07-03 23:45:32
阅读次数:
359
在Spark中使用sql时一些功能需要自定义方法实现,这时候就可以使用UDF功能来实现 多参数支持 UDF不支持参数*的方式输入多个参数,例如String*,不过可以使用array来解决这个问题。 定义udf方法,此处功能是将多个字段合并为一个字段 在sql中使用 在DataFrame中使用 ...
分类:
数据库 时间:
2017-07-03 23:44:42
阅读次数:
279
Pandas的使用(3) Pandas的数据结构 1.Series 2.DataFrame ...
分类:
其他好文 时间:
2017-07-03 14:08:35
阅读次数:
179
import pandas as pdimport pymongoclient = pymongo.MongoClient('localhost',27017)excel = client['CMC']sheet1 = excel['CMC1']import jsondata = pd.DataFr ...
分类:
其他好文 时间:
2017-06-30 13:47:15
阅读次数:
220
>>> import pandas as pd >>> i = pd.date_range('20000101',periods=100) >>> df = pd.DataFrame(dict(year = i.year, month = i.month, day = i.day)) >>> pd.... ...
分类:
其他好文 时间:
2017-06-30 11:07:09
阅读次数:
306
查看DataFrame时,列数较多会省略中间列的信息,可以设置最大展示列数,代码如下: ...
分类:
其他好文 时间:
2017-06-29 15:26:27
阅读次数:
151
pandas 是 python 的数据分析处理库import pandas as pd 1、读取CSV、TXT文件 2、查看前N条、后N条信息 3、查看数据框的格式,是DataFrame还是ndarray 4、查看有哪些列 5、查看有几行几列 6、打印某一行、某几行数据 7、打印某一列、某几列数据 ...
分类:
编程语言 时间:
2017-06-28 15:43:20
阅读次数:
344