码迷,mamicode.com
首页 > 其他好文 > 详细

数据分析文件操作的命令行

时间:2016-03-27 00:07:00      阅读:246      评论:0      收藏:0      [点我收藏+]

标签:文件操作 数据分析 linux命令行

wc -- 统计

sort -- 排序

uniq -- 去重

$ sort file.txt | uniq -c | sort -nr | head -5


select word, count(1) cnt from file group by word order by cnt desc limit 5;


gzip/tar -- 压缩工具

cat/zcat -- 文件查看

less/more -- 文件查看,支持gz压缩格式直接查看

head/tail -- 查看文件头和尾

du -h -c -s -- 查看空间占用


awk -- 数据库操作工具

join/cut/paste -- 关联文件/切分字段/合并文件

fgrep/grep/egrep -- 全局正则表达式查找

find -- 查找文件,并且对查找结果批量化执行任务

sed -- 流编辑器,批量修改、替换文件

split -- 对大文件进行切分处理,按多少行一个文件,或者多少字节一个文件

rename -- 批量重命名


zcat -- 直接查看压缩文件中的文件内容

zgrep/zfgrep/zegrep -- 在压缩文件中直接查找


date -- 时间日期操作

sort/uniq -- 排序、去重统计

comm -- 对两个排序文件进行比较(共同行、只出现在左边文件、只出现在右边文件)

diff -- 逐字符比较文件的异同,配合cdiff,类似于github的显示效果

curl/w3m/httpie -- 命令行下进行网络请求

iconv -- 文件编码转换

seq -- 生成连续的序列,用于for循环


shell判断和循环

if [ ]; then
    pass
fi


while
do
    pass
done


for i in xxxxx
do
    pass
done


执行长时间的任务,使用nohup




命令组合的使用

1  删除0字节文件    find . -type f -size 0 -exec rm -rf {} \;   

            find . type f -size 0 -delete

2  查看进程,按内存从大到小排列  ps -e -o “%C : %p : %z : %a”|sort -k5 -nr

3  按cpu利用率从大到小排列  ps -e -o “%C : %p : %z : %a”|sort -nr

4  打印说cache里的URL  grep -r -a jpg /data/cache/* | strings | grep “http:” | awk -F’http:’ ‘{print “http:”$2;}’

5  查看http的并发请求数及其TCP连接状态  netstat -n | awk ‘/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}’

6  sed在这个文里Root的一行,匹配Root一行,将no替换成yes。  sed -i ‘/Root/s/no/yes/’ /etc/ssh/sshd_config

7  如何杀掉mysql进程  ps aux |grep mysql |grep -v grep  |awk ‘{print $2}’ |xargs kill -9

               killall -TERM mysqld

               kill -9 `cat /usr/local/apache2/logs/httpd.pid`

8  显示运行3级别开启的服务(从中了解到cut的用途,截取数据)  ls /etc/rc3.d/S* |cut -c 15-

9  如何在编写SHELL显示多个信息,用EOFcat << EOF

+————————————————————–+

|   === Welcome to Tunoff services ===                         |

+————————————————————–+

EOF

10  for的用法(如给mysql建软链接)cd /usr/local/mysql/bin

for i in *

do ln /usr/local/mysql/bin/$i /usr/bin/$i

done

11  取IP地址  ifconfig eth0 |grep “inet addr:” |awk ‘{print $2}’|cut -c 6-

        ifconfig | grep ‘inet addr:’| grep -v ’127.0.0.1′ |cut -d: -f2 | awk ‘{ print $1}’

12  内存的大小  free -m |grep “Mem” | awk ‘{print $2}’

13  查看80端口的连接,并排序  netstat -an -t | grep “:80″ | grep ESTABLISHED | awk ‘{printf “%s %s\n”,$5,$6}’ | sort

14  查看Apache的并发请求数及其TCP连接状态  netstat -n | awk ‘/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}’

15  统计一下服务器下面所有的jpg的文件的大小  find / -name *.jpg -exec wc -c {} \;|awk ‘{print $1}’|awk ‘{a+=$1}END{print a}’

16  CPU的数量  cat /proc/cpuinfo |grep -c processor

17  CPU负载  cat /proc/loadavg

18  CPU负载  mpstat 1 1

19  内存空间  free

20  磁盘空间  df -h

21  如发现某个分区空间接近用尽,可以进入该分区的挂载点,用以下命令找出占用空间最多的文件或目录  du -cks * | sort -rn | head -n 10

22  磁盘I/O负载  iostat -x 1 2

23  网络负载  sar -n DEV

24  网络错误  netstat -i

        cat /proc/net/dev

25  网络连接数目  netstat -an | grep -E “^(tcp)” | cut -c 68- | sort | uniq -c | sort -n

26  进程总数  ps aux | wc -l

27  查看进程树  ps aufx

28  可运行进程数目  vmwtat 1 5

29  检查DNS Server工作是否正常,这里以61.139.2.69为例  dig www.baidu.com @61.139.2.69

30  检查当前登录的用户个数  who | wc -l

31  日志查看、搜索   cat /var/log/rflogview/*errors

            grep -i error /var/log/messages

            grep -i fail /var/log/messages

            tail -f -n 2000 /var/log/messages

32  内核日志  dmesg

33  时间  date

34  已经打开的句柄数  lsof | wc -l

35  网络抓包,直接输出摘要信息到文件。  tcpdump -c 10000 -i eth0 -n dst port 80 > /root/pkts

36  然后检查IP的重复数 并从小到大排序 注意 “-t\  +0″ 中间是两个空格,less命令的用法。less pkts | awk {‘printf $3″\n”‘} | cut -d. -f 1-4 | sort | uniq -c | awk {‘printf $1″ “$2″\n”‘} | sort -n -t\  +0

37  kudzu查看网卡型号  kudzu –probe –class=network
























数据分析文件操作的命令行

标签:文件操作 数据分析 linux命令行

原文地址:http://ting2junshui.blog.51cto.com/975290/1755534

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!