linux shell命令之wc/split及特殊字符

时间：2018-07-31 23:46:28 阅读：445 评论：0 收藏：0 [点我收藏+]

标签：编辑 net ber 匹配分割文件语法目的单位特定

[时间：2018-07] [状态：Open]
[关键词：linux, wc, split, 通配符，转义符，linux命令]

0 引言

整理这篇文章的目的不是为了什么学习，仅仅是为了强化下记忆，以便下次可以直接使用不用重新搜索一次了。

本文将主要整理linux shell下的命令，如果你不是在*nix系统下使用，建议无视本文。

后面内容主要包含三部分：wc、split以及shell中的特殊字符。

1 `wc`字符计数工具

wc命令可输出给定文件或文件列表的行数、字节数、字符数、词数以及最大行宽度（ line > word > char > byte）。具体语法如下：

短选项	长选项	说明及描述
-c	--bytes	输出字节数，和`ll`命令的文件长度一致
-m	--chars	输出字符数，字符值得是可显示字符，比如多字节码中一个字符占用多个字节
-w	--words	输出词数，词是使用空格分隔的，所以这个统计可能不准确，不是传统意义上的词数
-l	--lines	输出行数
-L	--max-line-length	输出最大行宽度，使用字节为单位

1.1 应用举例

wc命令默认的输出如下：

~$ wc text
0 2 17 text -----------依次为行数、词数和字节数

字符数的输出如下:

~$ wc -m text
9 text

我的测试文件text中包含的内容如下：

文件选项, 213 --------注意中间有空格

此文件中只有一个空格，没有换行符，所以输出为上面结果。

1.2 参考资料

2 `split`文件分割命令

我所遇到的问题是这样的：在日志分析时，如果日文件过大，比如说10G文件，通常多数编辑器打不开或者打开很慢，对大文件搜索支持非常弱。比如Notepad++就直接限制文件大小为500MB。为了快速分析日志，提高效率，还是尽量避免直接打开大约1GB的文件。所以，找找有没有可以完成文件分割的工具。

最终找到split。split支持按照行数、字节大小分割文件，也可以指定分片的个数。
split默认行为是将输入文件切分为1000行的分片。（所以文件比较大的时候慎重使用默认参数）
具体用法如下：

短选项	长选项	说明及描述
-l NUM	--lines=NUM	分片文件每个包含NUM行，默认换行符`ASCII LF`
-b size	--bytes=size	分片文件每个长度为size字节
-C size	--line-bytes=size	以行为单元切分，但最终分片总长度不超过size字节
-n chunks	--number=chunks	按照给定chunks数目分片，格式支持如下 n, k/n, l/n, l/k/n, r/n, r/k/n
-t sep	--separator=sep	指定换行符
-u	--unbuffered	无缓冲模式，速度略慢
-a length	--suffix-length=length	分片文件名称的后缀长度，默认为2
-d from	--numeric-suffixes=from	使用数字而非字母编号作为后缀，指定起始数字，默认为0
-x from	--numeric-suffixes=from	使用十六进制作为后缀

2.1 示例

按照行切分，切分之后文件最大1G

split -C 1G input

按照字节切分，限制切分长度为500MB

split -b 500M input sdata

指定分割数目切分，分割为三个文件

split -n 3 input

指定分割数目切分，不切分行的形式切分：

split -n l/3 input

指定分割数目切分，按照均匀分布形式切分：

split -n r/3 input

指定分割数目切分，输出第k(k=2)个分割内容到stdout:

split -n 2/3 input

2.2 参考资料

2.3 延伸

有分割命令，一定有合并命令，split和cat是对应的。有兴趣的可以看看linux-manual。

3 shell中的特殊字符

这里仅整理通配符和转义符，其他的建议查看Linux Shell 通配符、元字符、转义符使用实例介绍。

3.1 通配符

shell中的通配符跟正则表达式有些类似，不过相对简单点。当shell在“参数”中遇到了通配符时，shell会将其当作路径或文件名去在磁盘上搜寻可能的匹配：若符合要求的匹配存在，则进行替换(路径扩展)；否则就将该通配符作为一个普通字符传递给“命令”，然后再由命令进行处理。总之，通配符实际上就是一种shell实现的路径扩展功能。
常见的通配符有：

字符	含义	实例	描述
*	匹配零或多个字符	a*b	a与b之间可以有任意长度的任意字符, 如aabcb, axyzb, a012b, ab
?	匹配任意一个字符	a?b	a与b之间有且仅有一个字符, 如aab, abb, acb, a0b
[list]	匹配`list`中的任意单一字符	a[xyz]b	a与b之间有且仅有一个字符, 但只能是x/y/z, 如: axb, ayb, azb
[!list]	匹配除`list`中的任意单一字符	a[!0-9]b	a与b之间有且仅有一个字符, 但不能是阿拉伯数字, 如axb, aab, a-b
[c1-c2]	匹配c1-c2中的任意单一字符	a[0-9]b	a与b之间有且仅有一个字符，必须是字符0-9之间的，如a0b, a1b... a9b
{s1,s2,...}	匹配s1或s2(或更多)其一字符串	a{abc,xyz,123}b	a与b之间只能是abc或xyz或123这三个字符串之一

3.2 转义符

下面整理下转义字符，具体内容如下：

字符	说明
\(反斜杠)	最常见的转义符，去除其后紧跟的元字符或通配符的特殊意义。
‘ ‘(单引号)	又叫硬转义，其内部所有的shell元字符、通配符都会将失效。注意，硬转义中不允许出现‘(单引号)。
""(双引号)	又叫软转义，其内部只允许出现特定的shell元字符：$用于参数代换 `用于命令代替

4 小结

本文整理了shell命令wc以及split的用法，同时简单整理shell中的通配符和转义字符。仅为加强记忆，作为后续参考。

linux shell命令之wc/split及特殊字符

标签：编辑 net ber 匹配分割文件语法目的单位特定

原文地址：https://www.cnblogs.com/tocy/p/linux-wc-split-special-char.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

linux shell命令之wc/split及特殊字符

0 引言

1 wc字符计数工具

1.1 应用举例

1.2 参考资料

2 split文件分割命令

2.1 示例

2.2 参考资料

2.3 延伸

3 shell中的特殊字符

3.1 通配符

3.2 转义符

4 小结

1 `wc`字符计数工具

2 `split`文件分割命令