spark学习三

时间：2020-02-04 20:10:54 阅读：81 评论：0 收藏：0 [点我收藏+]

标签：scala 内存 new inf ima 文件中 strong hdf pac

1.spark中partition的概念
partition是RDD的最小单元，是盛放文件的盒子，一个文件可能需要多个partition，但是一个partition只能
存放一个文件中的内容，partition是spark计算中，生成的数据在计算空间内最小单元，
2.fileWriter.flush()
flush() 是清空，而不是刷新啊。
一般主要用在IO中，即清空缓冲区数据，就是说你用读写流的时候，其实数据是先被读到了内存中，
然后用数据写到文件中，当你数据读完的时候不代表你的数据已经写完了，因为还有一部分有可能
会留在内存这个缓冲区中。这时候如果你调用了 close()方法关闭了读写流，那么这部分数据就会
丢失，所以应该在关闭读写流之前先flush()，先清空数据。

3.fileWriter.write(System.getProperty("line.separator"))
是换行符,功能和"\n"是一致的,但是此种写法屏蔽了 Windows和Linux的区别，更保险一些.
4.val totalAge = lines.map(line=>line.split(" ")(1)).map(t=>t.trim.toInt).collect().reduce((a,b)=>a+b)
收集每行中的成绩，变成整型，然后求和

实验三：

1.在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test.txt”，然后统计出文件的行数；

技术图片