Linux命令之文本处理（一）

时间：2015-06-22 06:29:19 阅读：180 评论：0 收藏：0 [点我收藏+]

标签：

wc命令
用来统计文件的字符数、行数、单词数等，很常用的命令（面试的时候竟然没想起来这个命令，我是有多么挫。。。）
使用格式为：wc options file-lists,若file-lists为空或“-”，则表示从标准输入读入数据；options为空的时候，默认输出的数据依次是行数、单词数、字节数，如下：

    m@meng:~$ wc examples.desktop
    240  569 8980 examples.desktop

下面介绍各个选项：

-c：只显示字节数，注意是字节而不是字符，不同语言的一个字符占据的字节数是不同的，一个英文字母一般只占一个字节。

        m@meng:~$ cat new
        a
        m@meng:~$ wc -c new 
        2 new

文件new中只有一个字母a，但是统计结果却是2个字节，这是因为，wc把文件末尾的换行符也统计在内，这个换行符也是挺有趣的，改天我会写一篇文章分析一下。

-m：只显示字符数，用汉语实验一下：

        m@meng:~$ cat new 
        你好
        m@meng:~$ wc -c new 
        7 new
        m@meng:~$ wc -m new 
        3 new

算上换行符，的确只有三个字符；但是占用的字节数却是7，说明一个汉字占用3个字节。

-l：只显示行数
-L：显示最长行的长度，如下：

    m@meng:~$ cat new 
    baa
    m@meng:~$ wc -L new 
    3 new

由此可见，行的长度不包含行尾换行。
- -w：显示单词数，准确的含义是： A word is a non-zero-length sequence of characters delimited by white space.

sort命令
看来排序是计算机的一个刚性需求，无论哪个领域似乎都需要排序。sort用来对文件的行进行排序，输出排好序的结果，不改变源文件。
sort进行排序的单位是行，它会从每行的第一个字母开始比较，按照第一个字母的ASCII值从小到大排列行；若某两行的第一个字母相同，则比较它们的第二个字母，以此类推。但是，这种排序会受到locale环境变量的影响，不一定出现想要的结果，如下：
```
m@meng:~$ cat new 
apple 3
Apple 7
pear 6
pear  4
banana 1
orange 8
m@meng:~$ sort new 
apple 3
Apple 7
banana 1
orange 8
pear  4
pear 6
```
按照ASCII的话，Apple应该排在第一行，但是它却出现在第二行，这是因为当前的locale是zh_CN,修改后如下：
```
m@meng:~$ export LC_ALL=C
m@meng:~$ sort new 
Apple 7
apple 3
banana 1
orange 8
pear  4
pear 6
```
注意，修改成en_US是不管用的，改成C是因为 manual中有句话“The locale specified by the environment affects sort order. Set LC_ALL=C to get the traditional sort order that uses native byte values”，现在按照想要的方式排序了。
- -t与-k选项
  sort命令更强大或更常用的功能是对格式化的行进行排序，格式化是指每行由某个分隔符分成了有规律的几段，这样以来就可以指定按照哪个段来排序，而不是像普通的排序那样从每行的开头逐个字符比较。如果每行的数据是不规律的，那么按字段排序是无效的。
  -t用来指定分隔符，-k用来指定哪个字段，字段从1开始计数。例如：
```
m@meng:~$ sort -t " " -k 2 new 
banana 1
apple 3
pear  4
pear 6
Apple 7
orange 8
```
  默认的分隔符是那些空白字符，如空格，tab等，对这些分隔符可以省略-t，所以上面的-t ” “是多次一举；分隔符只能是单个字符，所以一般不用加引号。
  可以指定多个-k选项，比如-k 2 -k 3，表示先按第二个字段排序，当第二个字段相同时，按第三个字段排序。-k还有一些更复杂的用法，参见man。
- -n选项
  按照数字大小排序。默认情况下，文本中的数字是被当做普通字符串的，而不是真正的数字。我们现在把文本中的orange数量改成11，没有-n时如下：
```
m@meng:~$ sort new -k 2
banana     1
orange     11
apple  3
pear   4
pear   6
Apple  7
```
  orange被排在第二行，这是典型的字符串排序方式。加上-n之后，如下：
```
m@meng:~$ sort new -k 2 -n
banana     1
apple  3
pear   4
pear   6
Apple  7
orange     11
```
- -r选项：反向排序。配合-k选项时，可以直接写在字段数后面。
- -o选项：相当于重定向，指定输出文件，排序结果不再输出到标准输出，而是到指定的文件中。
- -c选项：并不真正排序，只是检查文件是否已经排好序。
- -u选项：除去重复的行。有人认为也可以配合-k除去某字段值相同的行，我试验了一下，似乎不行，如下：
```
m@meng:~$ sort new -k 1 -u
Apple    7
apple    3
banana   1
orange   11
pear     4
pear     6
```
  看来要两行完全相同才能除去。
- -d选项：只考虑字母和空白字符，其他字符自动忽略，如# $ %等。
- -f选项：忽略大小写。
- -i选项：忽略非打印字符。
  主要的就是这几个选项了，以后遇到其他不错的选项再补充。

Linux命令之文本处理（一）

标签：

原文地址：http://blog.csdn.net/u012668018/article/details/46586775

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行