1.首先学习基本的知识,文本分析。学习基本的linux命令,使用脚本对文本进行细粒度的切分,并对模型进行调研 2.分析文本文件中的特征, 3.分析文本文件中上下文之间的关系。 4.编写脚本文件,对脚本预处理,数据清洗,并产生格式化的数据 5.建立模型 6.编写map,reduce过程文件,对数据进行 ...
分类:
其他好文 时间:
2016-05-31 00:57:12
阅读次数:
117
一.基本介绍 1.awk: awk是一个强大的文本分析工具,在对文本文件的处理以及生成报表,awk是无可替代的。awk认为文本文件都是结构化的,它将每一个输入行定义为一个记录,行中的每个字符串定义为一个域(段),域和域之间使用分割符分割。 2.功能:流控制、数学运算、进程控制、内置的变量和函数、循环 ...
分类:
系统相关 时间:
2016-05-28 22:59:35
阅读次数:
213
http://blog.csdn.net/pipisorry/article/details/51482120
文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。
参数估计
参数估计中,我们会遇到两个主要问题:(1)如何去估计参数的value。(2)估计出参数的value之后,如何去计算新的observation的概率,即进行回归分析和预测。...
分类:
其他好文 时间:
2016-05-27 12:42:02
阅读次数:
288
中文分词工具:结巴分词
github地址:https://github.com/fxsjy/jieba一、分词功能
精确模式(默认):试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。注意:jieba.cut以及jieba.c...
分类:
编程语言 时间:
2016-05-22 12:32:43
阅读次数:
268
简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk ...
分类:
系统相关 时间:
2016-05-20 13:22:44
阅读次数:
346
简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk ...
分类:
系统相关 时间:
2016-05-16 23:09:51
阅读次数:
248
R语言文本分析(2)# 使用table统计每个单词出现的频数
moby.freqs <- table(moby.words)
# 使用sort将单词按照出现的频数由大到小进行排序
sorted.moby.freqs <- sort(moby.freqs, decreasing = TRUE)
head(sorted.moby.freqs)
# 使用plot绘制图形
plot(sorted.moby....
分类:
编程语言 时间:
2016-05-12 17:26:54
阅读次数:
227
AWK是一种处理文本文件的语言,是一个强大的文本分析工具 简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 使用方法 显示最近登录的5个帐号 details: http://www.cnblogs.com/ggjucheng/archive/2013/ ...
分类:
系统相关 时间:
2016-05-09 18:35:01
阅读次数:
280
源码下载的地址:https://github.com/fxsjy/jieba
演示地址:http://jiebademo.ap01.aws.af.cm/
特点
1,支持三种分词模式:
a,精确模式,试图将句子最精确地切开,适合文本分析;
b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
c,搜索引擎模式,在...
分类:
其他好文 时间:
2016-05-06 12:56:47
阅读次数:
204
Awk使用及网站日志分析
Awk简介
概述
awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk。awk程序的报告生成能力...
分类:
Web程序 时间:
2016-04-21 01:42:36
阅读次数:
209