标签:
示例文件
Boys in Company C:HK:192:2192
Alien:HK:119:1982
The Hill:KL:63:2972
Aliens:HK:532:4892
Star Wars:HK:301:4102
A Few Good Men:KL:445:5851
Toy Story:HK:239:3972
sort的命令格式为:sort -cmu -o output_file [other options] +pos1 +pos2 input_files
对整行排序
可以使用-o选项保存,也可以使用重定向保存
sort video.txt > results.out
判断是否排序
sort -c video.txt
如果已经分类,则什么也不返回,状态码为1。
如果为-C,不分类也什么都不输出,状态码为1。
按:分割,对第2域之后的内容排序
sort -t : -k 2 video.txt
使用-t指定分隔符,使用-k指定排序列的开始。
注意:k指定的域其实是从这里开始的之后内容,详细设置见之后的介绍。
反序
sort -r video.txt
默认是使用升序,使用-r可以使用降序的。
去重
sort -u video.txt
按数值排序
sort -n -k 3 -t : video.txt
默认使用字符串ASCII进行比较,使用-n开始使用数值比较。
多键排序
都是降序:sort -n -k 2 -k 3 facebook.txt
有升有降(r表示逆序):sort -n -k 3r -k 2 facebook.txt
非数值排序(n表示数值):sort -k 3nr -k 2n facebook.txt
k的语法
[ FStart [ .CStart ] ] [ Modifier ] [ , [ FEnd [ .CEnd ] ][ Modifier ] ]
其中modifier就是n r类似的选项
End如果不设定,默认为行尾部
FStart是域,CStart是域之后从第几个字符开始。
如对第一个域的第二个字母排序,相同就按照第三个域降序
sort -t ‘ ‘ -k 1.2,1.2 -k 3,3nr facebook.txt
Modirier的其他选项
其他选项:
-f 忽略大小写,将小写转换成大写进行比较
-M 对月份进行排序
head和tail
使用head和tail可以输出标准输入的第一行或者最后一行
sort -t : -r -k 4 video.txt | head -1
多文件合并分类
sort -t : -k 1 video2.txt video1.txt
从输入文件或者标准输入中筛选相邻的匹配行并写入到输出文件或标准输出。去除连续相同的行
用法:uniq [选项]... [文件]
不附加任何选项时匹配行将在首次出现处被合并。
长选项必须使用的参数对于短选项时也是必需使用的。
与SQL的join相似。
示例文件:
cn.txt | en.txt |
1 yi |
1 one |
直接使用
join cn.txt en.txt
通过第一列链接两个文件,输出共有的部分,第一个文件的列放到前边。
左匹配/右匹配
join -a 1 cn.txt en.txt #以第一个文件为主,第二个没有的留空
join -a 2 cn.txt en.txt #以第二个文件为主,第一个没有的留空
忽略大小写:-i
输出指定列
join -o 1.1 -o 1.2 -o 2.1 -o 2.2 -a 1 cn.txt en.txt
填充没有匹配的项目 -e
join -o 1.1 -o 1.2 -o 2.1 -o 2.2 -a 1 -e "eee" cn.txt en.txt
指定输入输出分割符:-t
剪切列或者域,可以用于粘贴到其他文件中。
cut [-bn] [file] 或 cut [-c] [file] 或 cut [-df] [file]
-b :以字节为单位进行分割。这些字节位置将忽略多字节字符边界,除非也指定了 -n 标志。
-c :以字符为单位进行分割。
-d :自定义分隔符,默认为制表符。
-f :与-d一起使用,指定显示哪个区域。
-n :取消分割多字节字符。仅和 -b 标志一起使用。如果字符的最后一个字节落在由 -b 标志的 List 参数指示的范围之内,该字符将被写出;否则,该字符将被排除。
三个定位方法:
第一,字节(bytes),用选项-b
第二,字符(characters),用选项-c
第三,域(fields),用选项-f
使用字节
数量的指定
paste -d -s -file1 file2
-d 指定文件1和文件2之间分割符
-s 文件换成行合并
将大文件分割成小文件。
split [-n] file [name]
-n: 指定截断的每一文件的长度,不指定缺省为1000行
file: 要截断的文件
name: 截断后产生的文件的文件名的开头字母,不指定,缺省为x,即截断后产生的文件的文件名为xaa,xab....直到xzz
将整个输入一起对待进行处理。
tr -c -d -s ["string1_to_translate_from"] ["string2_to_translate_to"] < input-file
-c 用字符串1中字符集的补集替换此字符集,要求字符集为ASCII。
-d 删除字符串1中所有输入字符。
-s 删除所有重复出现字符序列,只保留第一个;即将重复出现字符串压缩为一个字符串。
input-file是转换文件名。虽然可以使用其他格式输入,但这种格式最常用。
字符范围
指定字符串1或字符串2的内容时,只能使用单字符或字符串范围或列表。
[a-z] a-z内的字符组成的字符串。
[A-Z] A-Z内的字符组成的字符串。
[0-9] 数字串。
\octal 一个三位的八进制数,对应有效的ASCII字符。
[O*n] 表示字符O重复出现指定次数n。因此[O*2]匹配OO的字符串。
tr中特定控制字符的不同表达方式
速记符含义八进制方式
\a Ctrl-G 铃声\007
\b Ctrl-H 退格符\010
\f Ctrl-L 走行换页\014
\n Ctrl-J 新行\012
\r Ctrl-M 回车\015
\t Ctrl-I tab键\011
\v Ctrl-X \030
去重
echo ‘ahhjjjkkk;;;;‘ | tr -s "[a-z]"
替换成大写
echo ‘ahhjjjkkk;;;;‘ | tr "[a-z]" "[A-Z]"
替换非指定字符
echo ‘ahhjjjkkk;;;;‘ | tr -c ‘[a-y]‘ ‘#‘
标签:
原文地址:http://www.cnblogs.com/qiusuo/p/5596768.html