正则表达式是一种字符模式,在匹配文本文件的内容的时候,使用一组特殊的符号,匹配出我们想要的内容。为什么用正则表达式搜索(匹配)出我们想要的看到的精简的内容。正则表达式的元字符:元字符 功能 样例 匹配样例^ 行首定位符 /^root/ 匹配以root开头的行$ ..
分类:
其他好文 时间:
2014-08-12 13:54:24
阅读次数:
262
sed(StreamEditor)是一个行编辑工具。下面我们介绍sed的实现原理和基本使用方法。一、sed的处理文本的流程基本处理流程如下:处理流程是:每次读入文本文件的一行到内存中的模式空间中,在模式空间中处理后将处理的结果输出,默认会打印到屏幕上。因此,默认情况下,不会改变..
分类:
系统相关 时间:
2014-08-04 08:20:57
阅读次数:
333
由于以前处理数据用Matlab和C,最近要处理大量文本文件,用C写实在是太繁琐,鉴于Python的强大文本处理能力,以及其在Deep Learning上有着很大优势,本人打算从即日起学习Python,谨以此系列博客记录学习点滴。文中如有错误,还望大牛们指出!Section 1:本文是第一篇,当然也是...
分类:
编程语言 时间:
2014-08-01 15:22:52
阅读次数:
233
抓取乐彩网历年排列5数据useLWP::Simple;useFileOperate;my$src=‘http://www.17500.cn/p5/all.php‘;my$FileOperate=FileOperate->new();my$FilePath="C:\\DocumentsandSettings\\Administrator\\桌面\\PrelTest\\保存的模块\\文本处理";#获取文件夹下所有内容#http://www.17..
分类:
Web程序 时间:
2014-08-01 07:01:51
阅读次数:
210
copy fromhttp://blog.chinaunix.net/uid/11172773.html1前言awk是Unix环境下一种非常好的语言,适合于文本处理和报表生成,它还有许多精心设计的特性,允许进行特殊技巧程序设计。对于短消息来说,比如处理话单文件,使用awk就非常方便,鉴于测试组大部分...
分类:
其他好文 时间:
2014-07-30 23:16:05
阅读次数:
419
Hadoop在分布式计算方面很强大,而Python在文本处理也是相当方便,那么有这两者的结合吗?有,答案就是Hadoop-Streaming。Hadoop-Streaming可以将Hadoop与主流语言结合起来,使用方便,效果很好。个人觉得Pig在处理数据集时很不方便,特别是在计算百分比等运算时,而Hadoop-Streaming是可以替代Pig的。
1.Streaming固定的代码,该代码可以...
分类:
其他好文 时间:
2014-07-29 14:39:08
阅读次数:
340
cut -- 将行根据需求分成指定的片段常用参数:-d 以。。。为分割符 -d: 以:分割行(类似于python中的split)-f 得到分割后的某个列 -f1-3 得到分割后的第1个到第3个列 (即1,2,3列,这里面是从1开始的,而不是0)-c 指定位置字符 -c1 得到行的第一个字符grep....
分类:
系统相关 时间:
2014-07-28 15:23:23
阅读次数:
234
转载:http://blog.sina.com.cn/s/blog_5dd2af0901012rmn.html做文本处理的时候经常要判断一个文本有没有以一个子串开始,或者结束。Python为此提供了两个函数:S.startswith(prefix[, start[, end]]) -> bool如果...
分类:
编程语言 时间:
2014-07-23 16:58:31
阅读次数:
289
基本介绍程序开发者常常要分析程序日志,包括自己打印的日志及使用的其他软件打印的日志,如php,nginx日志等,linux环境下分析日志有一些内置命令能够使用,如grep,sort,uniq,awk等,当中最强大的是awk,是作为一门小巧的文本处理语言存在的,但由于它是一门语言,功能强大,但在命令行...
分类:
数据库 时间:
2014-07-22 22:39:55
阅读次数:
374
一些例子。1、显示gopher帐号所在行至最后一行。awk‘/^gopher/{row=NR;while(getline<"passwd"){++i;FS=":";if(i>=row){print$0}}}‘passwdgetline<"filename"若读取成功,则返回非0,当读文件完后,会返回0。awk-F:‘NR==FNR{if($1~/^gopher/){row=NR};next}{if(FNR>..
分类:
其他好文 时间:
2014-07-20 15:31:51
阅读次数:
353