线程池 程序启动一个新线程成本是比较高的,因为它涉及到与操作系统交互。而使用线程池可以很好的提高性能,尤其是 当程序中要创建大量生存期很短的线程时,更应该考虑使用线程池。 线程池里的每一个线程代码结束后,并不会死亡,而是再次回到线程池中成为空闲状态,等待下一个对象来使用。 在JDK 5之前,我们必须 ...
分类:
编程语言 时间:
2020-06-07 19:08:55
阅读次数:
65
递归调用copyDir方法实现,查询源文件目录使用字节输入流写入字节数组,如果目标文件目录没有就创建目录,如果迭代出是文件夹使用字节输出流对拷文件,直至源文件目录没有内容。 /** * 复制文件夹 * @param srcDir 源文件目录 * @param destDir 目标文件目录 */ pu ...
分类:
编程语言 时间:
2020-05-11 18:31:10
阅读次数:
60
import os"""需求:实现文件内容拷贝思路:源文件:读出来目标文件:写入到"""def fileCopy(srcPath,desPath): if not os.path.exists(srcPath): #判断是否存在 print("哥们,{}文件不存在,别拷贝了".format(srcP ...
分类:
其他好文 时间:
2019-12-18 22:14:42
阅读次数:
121
文件压缩和解压 import java.io.*; import java.util.Enumeration; import java.util.zip.ZipEntry; import java.util.zip.ZipFile; import java.util.zip.ZipOutputStr ...
分类:
其他好文 时间:
2019-12-07 21:29:15
阅读次数:
108
Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile|RCFile|S ...
分类:
其他好文 时间:
2019-11-18 18:42:00
阅读次数:
109
概述Spark SQL 是 Spark 处理结构化数据的模块; 与基础的 Spark RDD API 不同, Spark SQL 提供的接口提供给 Spark 更多的关于数据和执行计算的结; 内在的, Spark SQL 使用这些额外的信息去执行额外的优化; 这里有几种包括 SQL 和 Datase... ...
分类:
数据库 时间:
2019-10-07 17:41:23
阅读次数:
102
【hive中的file_format】 SEQUENCEFILE:生产中绝对不会用,k-v格式,比源文本格式占用磁盘更多 TEXTFILE:生产中用的多,行式存储 RCFILE:生产中用的少,行列混合存储,OCR是他得升级版 ORC:生产中最常用,列式存储 PARQUET:生产中最常用,列式存储 A ...
分类:
其他好文 时间:
2019-04-21 09:17:35
阅读次数:
206
这几天研究hive表的存储方式和压缩模式。在这里做一个简单的总结 hive表的存储 样例 : 我的表:rp_person_house_loan_info 数据总量:1933776 textfile: (1)hive数据表的默认格式,存储方式:行存储 。 (2) 可使用Gzip,Bzip2等压缩算法压 ...
分类:
其他好文 时间:
2019-03-13 12:28:22
阅读次数:
219
1. 使用 Tez 2. 使用 ORCFILE。当有多个表 join 时,使用 ORCFile 进行存储,会显著地提高速度。 3. 使用 VECTORIZATION。会提高 scans, aggregations, filters and joins 等操作的性能。它会把 1024条记录做为一批进行 ...
分类:
其他好文 时间:
2019-02-25 13:34:08
阅读次数:
632
Hive 的存储格式 | textfile | sequencefile | rcfile | orc | parquet | ...
分类:
其他好文 时间:
2019-01-12 17:48:12
阅读次数:
245