最近测试环境基于shc[https://github.com/hortonworks spark/shc]的hbase connector总是异常连接不到zookeeper,看下报错日志: 可以观察到hbase connector莫名其妙连接的是localhost:2181,检查所有的配置文件都没有 ...
分类:
其他好文 时间:
2018-06-20 13:03:35
阅读次数:
463
索引对象 pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。构建series或DataFrame时,所用到的任何数组或其他序列的标签都会转换成一个index: index对象是不可修改的(immutable),因此用户不能对其进行修改 不可修改性非常重要,因为这样才能使Index对象 ...
分类:
其他好文 时间:
2018-06-19 23:23:50
阅读次数:
232
假设你在网上搜索某个项目所需的原始数据,但坏消息是数据存在于网页中,并且没有可用于获取原始数据的API。这时,你可以这样解决—— 就这么简单! Pandas可以在页面上找到所有重要的html表,并将它们作为一个新的DataFrame对象返回。 输入表格0行有列标题,并要求它将基于文本的日期转换为时间 ...
分类:
编程语言 时间:
2018-06-19 22:47:29
阅读次数:
256
Pandas有两种数据结构:Series和DataFrame。 1、Series Series类似于一维数组,和numpy的array接近,由一组数据和数据标签组成。数据标签有索引的作用。数据标签是pandas区分于numpy的重要特征。索引不一定是从0开始的数字,它可以被定义。 Series有自动 ...
分类:
编程语言 时间:
2018-06-19 17:16:26
阅读次数:
177
1.创建 1.1 标准格式创建 DataFrame创建方法有很多,常用基本格式是:DataFrame 构造器参数:DataFrame(data=[],index=[],coloumns=[]) 1.2 用传入等长列表组成的字典来创建 创建完成后'a','c'自动按照字典序排序,并且创建时自定加上索引 ...
分类:
其他好文 时间:
2018-06-19 00:53:56
阅读次数:
260
最常用的一种方法,利用pandas包 1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 同样pandas也提供简单的读csv方法 1 2 会得到一个DataFrame类型的data,不熟悉处理方法可以参考pandas十分钟入门 另一种方法用csv包,一行一行写入 1 2 3 4 5 6 ...
分类:
编程语言 时间:
2018-06-18 19:21:48
阅读次数:
281
SparkSQL数据源:从各种数据源创建DataFrame 因为 spark sql,dataframe,datasets 都是共用 spark sql 这个库的,三者共享同样的代码优化,生成以及执行流程,所以 sql,dataframe,datasets 的入口都是 sqlContext。 可用于 ...
分类:
数据库 时间:
2018-06-15 20:06:26
阅读次数:
189
csv文件在数据分析方面应用非常广泛,但是有的时候我们获取的是xls或者xlsx文件,这时我们需要处理一下。 见下面的程序: 以上程序就可以得到csv文件,并转为DataFrame格式。 如果从网上下载后利用这段程序发现出现“Workbook corruption: seen[3] == 4”这种错 ...
分类:
编程语言 时间:
2018-06-13 11:34:03
阅读次数:
187
一:准备数据源 在项目下新建一个student.txt文件,里面的内容为: 二:实现 Java版: 1.首先新建一个student的Bean对象,实现序列化和toString()方法,具体代码如下: 2.转换,具体代码如下 scala版本: 注:1.上面代码全都已经测试通过,测试的环境为spark2 ...
分类:
编程语言 时间:
2018-06-12 14:49:13
阅读次数:
226
2018年6月11日晚,今天又中午没睡觉,但是还是不觉得困。也不觉得头疼,其实很多事情都是分人的。你不一定非要午睡,午睡是给早上干完活回寝室特别累的人,是视情况而定的,并不是每个人每天都要午睡的,很多事情养成了习惯反而是一种拖累,相反适时而动才是明智之举。比如早起早睡是好习惯,午睡如果下午会觉得头疼 ...
分类:
编程语言 时间:
2018-06-11 22:02:54
阅读次数:
371