1、描述spark中怎么加载lzo压缩格式的文件2、比较lzo格式文件以textFile方式和LzoTextInputFormat方式计算数据,RunningTasks个数的影响a.确保lzo文件所在文件夹中生成lzo.index索引文件b.以LzoTextInputFormat处理,能够正常按分块数分配Tasks查看文件块数量[tech@dx2~]$hdfsf..
分类:
其他好文 时间:
2017-08-09 01:06:20
阅读次数:
2038
首先实现rdd缓存 准备了500M的数据 10份,每份 100万条,存在hdfs 中通过sc.textFile方法读取 val rdd1 = sc.textFile("hdfs://mini1:9000/spark/input/visitlog").cache 在启动spark集群模式时分配内存2g ...
分类:
其他好文 时间:
2017-08-08 12:19:38
阅读次数:
151
package sparkcore.java;import java.util.Arrays;import java.util.Iterator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRD... ...
分类:
编程语言 时间:
2017-07-31 13:31:18
阅读次数:
259
C:\Program Files\WinMerge\MergePlugins 1:jad.exe 2:class diff with jad.sct 下記はファイルの内容 <scriptlet> <!-- Diff Class files with jad plugin for WinMerge . ...
软件大多都要对文件、磁盘进行操作。熟悉掌握这些函数可以帮助你轻松实现创建、删除、保存文件等功能。 1.Append 功能说明:追加内容到文件中。文件必须要存在。 参考实例: var S: String; F: TextFile; begin S := 'This is a book.'; Assig ...
分类:
其他好文 时间:
2017-07-06 20:33:27
阅读次数:
159
拷贝实例: cp 284.py textfile cp testfile testfile1 -r mv也可当做文件重命名命令 ...
分类:
系统相关 时间:
2017-07-02 16:22:39
阅读次数:
247
### create data ## cat /dev/urandom | head -1 | md5sum | head -c 8 ## echo "$(date +%s)"|sha256sum|base64|head -c 16;echo ## cat /dev/urandom | awk 'N... ...
分类:
数据库 时间:
2017-06-22 00:11:54
阅读次数:
276
以下代码用Pyspark+IPython完成统计日志空行的数量:读取日志,创建RDD:myrdd=sc.textFile("access.log")不使用累加器:In[68]:s=0
In[69]:deff(x):
...:globals
...:iflen(x)==0:
...:s+=1
...:
In[70]:myrdd.foreach(f)
In[71]:print(s)得出结果为:0原因是python的变量,即..
分类:
其他好文 时间:
2017-06-21 19:50:47
阅读次数:
150
首先,目标是写个python脚本,跑spark程序来统计hdfs中的一些数据。参考了别人的代码,故用了luigi框架。 至于luigi的原理 底层的一些东西Google就好。本文主要就是聚焦快速使用,知其然不知其所以然。 python写Spark或mapreduce还有其他的方法,google上很多 ...
分类:
编程语言 时间:
2017-06-12 23:50:03
阅读次数:
399
一、统计指定索引的每个值有多少个:vartextFile=sc.textFile("/xxxx_orgn/p1_day=20170609/*.txt");varpairRdd=textFile.filter(x=>x.split("\\|",-1).length>68).map{x=>valdata=x.split("\\|",-1)(67);(data,1)}varresult=pairRdd.reduceByKey((sum,x)=>sum+x)r..
分类:
其他好文 时间:
2017-06-09 10:11:21
阅读次数:
240