简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本:
awk、nawk和gawk,未作特别说明,一般指gawk,g...
分类:
系统相关 时间:
2014-05-23 05:24:57
阅读次数:
435
我们知道awk可以进行类似于cut之类的操作,ru...
分类:
其他好文 时间:
2014-05-23 01:17:28
阅读次数:
280
建议10:必须知道如何实现类比较器所谓的比较器就只是一个接口,也只需要实现一个方法(public int CompareTo(object
obj)).实现了比较器有什么用呢?除了顾名思义的可以比较两个实例的大小.还可以用来排序(比如是List集合,就直接调用.Sort()方法就可以
了.方便至极....
分类:
其他好文 时间:
2014-05-22 14:29:37
阅读次数:
186
AWK程序是由一系列模式--动作对组成的,写做pattern { action
}其中pattern表示AWK在数据中查找的内容,而action是在找到匹配内容时所执行的一系列命令。输入行被分成了一些记录:记录默认由换行符分割,因此输入会按照行进行分割。程序使用给定的条件一个个的测试每条记录,并执行...
分类:
其他好文 时间:
2014-05-22 02:06:54
阅读次数:
281
经典排序算法 - 堆排序Heap
sort堆排序有点小复杂,分成三块第一块,什么是堆,什么是最大堆第二块,怎么将堆调整为最大堆,这部分是重点第三块,堆排序介绍第一块,什么是堆,什么是最大堆什么是堆这里的堆(二叉堆),指得不是堆栈的那个堆,而是一种数据结构。堆可以视为一棵完全的二叉树,完全二叉树的一个...
分类:
其他好文 时间:
2014-05-22 00:05:09
阅读次数:
319
你是否曾经有过要计算一个非常大的数据(几百GB)的需求?或在里面搜索,或其它操作——一些无法并行的操作。数据专家们,我是在对你们说。你可能有一个4核或更多核的CPU,但我们合适的工具,例如
grep, bzip2, wc, awk, sed等等,都是单线程的,只能使用一个CPU内核。借用卡通人物Ca...
分类:
系统相关 时间:
2014-05-21 23:53:33
阅读次数:
618
好久不写,一方面是工作原因,有些东西没发直接发,另外的也是习惯给丢了,内因所致。今天是个好日子,走起!btw,实际上这种格式化输出应该不只限于某一种需求,差不多是通用的。需求:--基本的:当前Hive查询结果存在数据与表头无法对其的情况,不便于监控人员直接查看,或者导出到excel中,需要提供一个脚...
分类:
其他好文 时间:
2014-05-21 23:00:39
阅读次数:
527
计数排序的基本思想是:统计一个数序列中小于某个元素a的个数为n,则直接把该元素a放到第n+1个位置上。当然当过有几个元素相同时要做适当的调整,因为不能把所有的元素放到同一个位置上。计数排序假设输入的元素都是0到k之间的整数
1 #include 2 void sort(int *A, int *B....
分类:
其他好文 时间:
2014-05-21 18:07:55
阅读次数:
294
活动安排问题要求高效地安排一系列争用某一公共资源的活动,贪心算法提供了一个简单的方法,使尽可能多的活动能兼容地使用公共资源。贪心算法并不总能求得问题的整体最优解,但对于活动安排问题,贪心算法却能做到,使得最终所确定的相容活动集合的规模最大,证明不在这里给出。代码如下:
def greedyManage(meeting):
length=len(meeting)
meeting.sort(ke...
分类:
编程语言 时间:
2014-05-21 14:13:42
阅读次数:
232