背景 早在2013年1月,ORC(Optimized Row Columnar)出现,作为大规模加速Apache Hive和提高存储在Apache Hadoop中的数据的存储效率的计划的一部分。重点是为了提升处理速度和减小文件占用磁盘大小。 目前有很多公司已经大规模使用ORC了,比如Facebook ...
分类:
其他好文 时间:
2020-05-21 16:21:16
阅读次数:
76
虽然现在基本上都用xfs或者btrfs,但是某些情况下,由于某些原因,还是会用到ext3.但是ext3缺有一个坑,就是文件或目录不能太多,究竟是怎么样回事呢,本文就尝试一次讲清。 先说结论: 1、受文件系统inode限制,如果小文件过多,可能由于inode耗尽无法新建 2、某一目录下文件和子目录总计 ...
分类:
其他好文 时间:
2020-05-19 14:40:35
阅读次数:
80
Data URLs Data URLs: 即前缀为data: 协议的URL,其允许内容创建者向文档中嵌入小文件。 例如:可以直接在HTML中的img元素直接使用Data URLs ; data:[<mediatype>][;base64],<data> mediatype: 是个 MIME 类型的字 ...
分类:
Web程序 时间:
2020-05-18 19:06:13
阅读次数:
88
FastDFS 介绍 FastDFS 是一个 C 语言实现的开源轻量级分布式文件系统,作者余庆(happyfish100),支持 Linux、 FreeBSD、 AID 等 Unix 系统,解决了大数据存储和读写负载均衡等问题,适合存储 4KB~500MB 之间的小文件,如图片网站、短视频网站、文档 ...
分类:
其他好文 时间:
2020-05-10 16:43:20
阅读次数:
70
Folder 对象用来返回有关指定文件夹的信息。 Folder 对象 Folder 对象用于返回有关指定文件夹的信息。 如需操作 Folder 对象,我们需要通过 FileSystemObject 对象来创建 Folder 对象的实例。首先,创建一个 FileSystemObject 对象,然后通过 ...
分类:
Web程序 时间:
2020-05-10 15:04:08
阅读次数:
73
1 背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种 ...
分类:
编程语言 时间:
2020-05-06 18:02:50
阅读次数:
116
第一步:高级研发工程师开始 掌握技术基础 技术语言基础和高级知识,常用算法、常用工具、框架原理、代码运行周期、内存回收机制等等,类似这些基础知识。 第二步:技术主管 需要掌握一定的项目管理常识,掌握一定的架构基础: 分布式缓存 小文件存储 熟练掌握数据性能 整体性能评估 怎么做容错 常用的框架底层设 ...
分类:
其他好文 时间:
2020-05-06 01:35:17
阅读次数:
259
前言 有同事问到,Spark读取一张Hive表的数据Task有一万多个,看了Hive表分区下都是3MB~4MB的小文件,每个Task只处理这么小的文件,实在浪费资源浪费时间。而我们都知道Spark的Task数由partitions决定,所以他想通过repartition(num)的方式来改变分区数, ...
分类:
其他好文 时间:
2020-05-03 12:43:20
阅读次数:
54
一 include 当项目越大,tasks越多的时候。如果将多有的task写入一个playbook中,可读性很差,就需要重新组织playbook 可以把一个playbook分成若干份晓得palybook文件,在主配置文件中,把小文件引入进来,就是include include tasks [root ...
分类:
其他好文 时间:
2020-05-02 20:44:25
阅读次数:
68