# hanbb # come on!!! import pandas as pd import numpy as np df = pd.DataFrame(np.arange(12).reshape(4,3),index=['a','b','c','d'],columns=['1st','2nd',... ...
                            
                            
                                分类:
其他好文   时间:
2017-11-19 17:24:03   
                                阅读次数:
123
                             
                         
                    
                        
                            
                            
                                    1:Spark ML与Spark MLLIB区别? Spark MLlib是面向RDD数据抽象的编程工具类库,现在已经逐渐不再被Spark团队支持,逐渐转向Spark ML库,Spark ML是面向DataFrame编程的。 2:Spark ML与Spark MLLIB中矩阵、向量定义区别? 这两个 ...
                            
                            
                                分类:
其他好文   时间:
2017-11-19 12:35:30   
                                阅读次数:
182
                             
                         
                    
                        
                            
                            
                                    以前使用过DS和DF,最近使用Spark ML跑实验,再次用到简单复习一下。 1:DS与DF关系? 2:加载txt数据 这种直接生成DF,df数据结构为(查询语句:df.select("*").show(5)): 只有一列,属性为value。 3: df.printSchema() 4:case c ...
                            
                            
                                分类:
其他好文   时间:
2017-11-18 23:43:54   
                                阅读次数:
1535
                             
                         
                    
                        
                            
                            
                                详细内容见:http://pandas.pydata.org/pandas-docs/stable/timeseries.html 以下是一些可能会用到的代码: 代码1df = pd.DataFrame({'year': [2015, 2016],'month': [2, 3],'day': [4, ...
                            
                            
                                分类:
其他好文   时间:
2017-11-13 00:20:43   
                                阅读次数:
214
                             
                         
                    
                        
                            
                            
                                渐渐从R转向python数据处理 Doc 文档路径 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html iloc和loc以及icol http://blog.csdn.net/chenk ...
                            
                            
                                分类:
编程语言   时间:
2017-11-12 13:29:44   
                                阅读次数:
325
                             
                         
                    
                        
                            
                            
                                    样本示意,为kdd99数据源: 代码: 结果: ...
                            
                            
                                分类:
其他好文   时间:
2017-11-09 14:39:47   
                                阅读次数:
166
                             
                         
                    
                        
                            
                            
                                    注意:仅仅是数值型字段才可以,如果是字符类型字段则不能直接搞定 需要使用pandas get_dummies搞定 例如: Using the get_dummies will create a new column for every unique string in a certain colum ...
                            
                            
                                分类:
Web程序   时间:
2017-11-08 20:49:58   
                                阅读次数:
521
                             
                         
                    
                        
                            
                            
                                    DataFrame类具有很多方法,下面做用法的介绍和举例。 pandas.DataFrame学习系列2——函数方法(1) 1.abs(),返回DataFrame每个数值的绝对值,前提是所有元素均为数值型 2.add(other, axis='columns', level=None, fill_va ...
                            
                            
                                分类:
其他好文   时间:
2017-11-07 18:10:57   
                                阅读次数:
293
                             
                         
                    
                        
                            
                            
                                    更多函数查阅http://pandas.pydata.org/pandas-docs/stable/10min.htmlimport pandas as pd#两种数据结构from pandas import Series,DataFrame#Series由一组数据和一组索引组成# obj=Seri ...
                            
                            
                                分类:
其他好文   时间:
2017-11-06 11:18:04   
                                阅读次数:
229
                             
                         
                    
                        
                            
                            
                                    处理数据要用到Pandas,但是没有学过,不知道是否有直接对某一列归一化的方法调用。自己倒弄了下。感觉还是比较麻烦。 使用Pandas读取到数组之后想把其中的‘MonthlyIncome’一列进行归一化,网上的栗子都是对整个dataframe进行归一化,因为我的数据有些列是类别,不能使用: ...
                            
                            
                                分类:
编程语言   时间:
2017-11-02 17:03:27   
                                阅读次数:
807