awk是一个强大的文本分析工具,awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk语言的最基本功能是在文件或者字符串中基于指定规则浏览和抽取信息,awk抽取信息后,才能进行其他文本操作。使用方法awk '{pattern+action} {filename...
分类:
其他好文 时间:
2014-08-19 00:46:33
阅读次数:
391
原文:http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默...
分类:
系统相关 时间:
2014-08-15 14:11:38
阅读次数:
300
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,g...
分类:
系统相关 时间:
2014-07-19 00:09:23
阅读次数:
341
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,g...
分类:
系统相关 时间:
2014-07-18 19:32:48
阅读次数:
398
今天的任务是对txt文本进行分词,有幸了解到"结巴"中文分词,其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。jieba支持三种分词模式: *精确模式,试图将句子最精确地切开,适合文本分析; *全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; *...
分类:
编程语言 时间:
2014-07-15 23:14:45
阅读次数:
679
中文分词是做好中文内容检索、文本分析的基础,主要应用于搜索引擎与数据挖掘领域。中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因而中文分词的难点在于如何准确而又快速地进行分词以下介绍4款开源中文分词系统。1、ICTCLAS – 全球最受欢迎的汉语分词系统 中文词法分析是中文信息处理...
分类:
其他好文 时间:
2014-06-26 22:35:29
阅读次数:
298
git
管理个人文档,秉承学以致用、用以促学,应用到文档备份。凡需持续变动的文档皆可作为项目并将会于git进行管理,可详细记录对于项目的各种修改,提供了文本分析工具。基于现有文档建立项目仓库初始化git仓库:$
cd $work$ git init $work 也变成了工作树在$work 目录下创建...
分类:
其他好文 时间:
2014-06-12 22:06:03
阅读次数:
423
每周看一篇论文。论文来自于情报领域的大牛写的关于“文本分析”、“知识演化”、“知识发现”等方面的文章。大牛的选择方法,从USNEWS发布的美国TOP10个情报学院中选择该领域的研究人员,跟踪其最新文章与之前的经典文献。下面是搜集到的大牛,名单不断更新中.....1
印第安纳大学图书与情报学院所有研究...
分类:
其他好文 时间:
2014-06-09 16:21:32
阅读次数:
366
本文转载自:http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空...
分类:
系统相关 时间:
2014-05-31 11:39:49
阅读次数:
543
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本:
awk、nawk和gawk,未作特别说明,一般指gawk,g...
分类:
系统相关 时间:
2014-05-23 05:24:57
阅读次数:
435