>>>linux下三种压缩工具主要有bzip,gzip,zip,各自特性分别如下:工具文件扩展名描述bzip2.bz2采用了Burrows-wheeler文本压缩算法和霍夫曼算法gzip.gz一个GUN下发展起来的一个项目,采用Lempel-Ziv编码zip.zipwinsdows上pkzip的压缩格式>>>bzip2详解:命令功能bzip2压缩二进制文件性能较好,不能压缩目录,可以用tar打包后
分类:
系统相关 时间:
2018-07-17 10:42:14
阅读次数:
187
分两部分做. 第一部分是无损文本压缩, 第二部分是sentence level text summarization, 唤作有损文本压缩. 不要对第二部分寄太高期望, 因为大概率完不成, 毕竟我对这一领域之前毫无接触. 无损文本压缩 整体引入. 互联网产生文本太多(?是否是伪命题?)存储和传播如果不 ...
分类:
编程语言 时间:
2018-01-07 14:28:48
阅读次数:
150
PAT 1078. 字符串压缩与解压 文本压缩有很多种方法,这里我们只考虑最简单的一种:把由相同字符组成的一个连续的片段用这个字符和片段中含有这个字符的个数来表示。例如 ccccc 就用 5c 来表示。如果字符没有重复,就原样输出。例如 aba 压缩后仍然是 aba。 解压方法就是反过来,把形如 5 ...
分类:
其他好文 时间:
2017-12-30 14:48:14
阅读次数:
91
文本压缩有很多种方法,这里我们只考虑最简单的一种:把由相同字符组成的一个连续的片段用这个字符和片段中含有这个字符的个数来表示。例如 ccccc 就用 5c 来表示。如果字符没有重复,就原样输出。例如 aba 压缩后仍然是 aba。 解压方法就是反过来,把形如 5c 这样的表示恢复为 ccccc。 本 ...
分类:
其他好文 时间:
2017-12-21 19:37:41
阅读次数:
170
对邮件营销从业人员的一项调查结果表明,他们最担心的问题莫过于自己发出的邮件被收件人列入垃圾箱了。一旦进入垃圾箱,就意味着前功尽弃,哪怕你最精美的设计、最动听的文字,都无济于事。影响一封邮件被判定为“垃圾邮件”的因素有很多,需要营销人员小心从事,针对这个大众最普遍关心的问题,U-Mail小编特意请来了 ...
分类:
其他好文 时间:
2017-09-26 16:12:44
阅读次数:
321
压缩工具compress/uncompress:.Z结尾gzip/gunzip:.gz结尾bzip2/bunzip2:.bz2结尾xz/unxz:.xz后缀压缩及归档工具:zip/unzip归档工具:tar,cpio(特殊场景)gzip/gunzip/zcat命令1、LZ77压缩算法2、压缩比不高:快速、高效3、压缩/解压缩后删除原文件,为了节约空间4、纯文本压缩,..
分类:
系统相关 时间:
2017-08-13 23:32:43
阅读次数:
350
在数据压缩领域里,文本压缩的历史最久,从Morse到Huffman和算术编码(Arithmetic coding),再到基于字典和上下文的压缩算法。各种算法不断改进,从通用算法,到现在更具针对性的算法,结合应用场景的垂直化的趋势越来越明显。所以在选择或者评价压缩算法,一定要结合实际应用场景加以考虑, ...
分类:
编程语言 时间:
2017-07-17 21:53:01
阅读次数:
3557
来看看倒排索引压缩。压缩是拿CPU换IO的最重要手段之一,不论索引是放在硬盘还是内存中。索引压缩的算法有几十种,跟文本压缩不同,索引压缩算法不仅仅需要考虑压缩率,更要考虑压缩和解压性能,否则会解压太慢而起不到CPU换IO的作用。早期的索引设计里,在尝试了几十种编码之后,基本都确定性采用差分编码+可变 ...
分类:
编程语言 时间:
2017-05-19 18:41:29
阅读次数:
657
打包和压缩文件 bunzip2 file1.bz2 解压一个叫做 'file1.bz2'的文件 bzip2 file1 压缩一个叫做 'file1' 的文件 gunzip file1.gz 解压一个叫做 'file1.gz'的文件 gzip file1 压缩一个叫做 'file1'的文件 gzip ...
分类:
系统相关 时间:
2017-01-21 17:20:01
阅读次数:
260