码迷,mamicode.com
首页 >  
搜索关键字:文本分析    ( 342个结果
思路整理
1.首先学习基本的知识,文本分析。学习基本的linux命令,使用脚本对文本进行细粒度的切分,并对模型进行调研 2.分析文本文件中的特征, 3.分析文本文件中上下文之间的关系。 4.编写脚本文件,对脚本预处理,数据清洗,并产生格式化的数据 5.建立模型 6.编写map,reduce过程文件,对数据进行 ...
分类:其他好文   时间:2016-05-31 00:57:12    阅读次数:117
Shell脚本之awk详解
一.基本介绍 1.awk: awk是一个强大的文本分析工具,在对文本文件的处理以及生成报表,awk是无可替代的。awk认为文本文件都是结构化的,它将每一个输入行定义为一个记录,行中的每个字符串定义为一个域(段),域和域之间使用分割符分割。 2.功能:流控制、数学运算、进程控制、内置的变量和函数、循环 ...
分类:系统相关   时间:2016-05-28 22:59:35    阅读次数:213
文本分析的参数估计方法
http://blog.csdn.net/pipisorry/article/details/51482120 文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。 参数估计 参数估计中,我们会遇到两个主要问题:(1)如何去估计参数的value。(2)估计出参数的value之后,如何去计算新的observation的概率,即进行回归分析和预测。...
分类:其他好文   时间:2016-05-27 12:42:02    阅读次数:288
结巴中文分词使用学习(python)
中文分词工具:结巴分词 github地址:https://github.com/fxsjy/jieba一、分词功能 精确模式(默认):试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。注意:jieba.cut以及jieba.c...
分类:编程语言   时间:2016-05-22 12:32:43    阅读次数:268
linux awk命令详解
简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk ...
分类:系统相关   时间:2016-05-20 13:22:44    阅读次数:346
linux awk用法(主要为命令行)
简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk ...
分类:系统相关   时间:2016-05-16 23:09:51    阅读次数:248
R语言文本分析(2)
R语言文本分析(2)# 使用table统计每个单词出现的频数 moby.freqs <- table(moby.words) # 使用sort将单词按照出现的频数由大到小进行排序 sorted.moby.freqs <- sort(moby.freqs, decreasing = TRUE) head(sorted.moby.freqs) # 使用plot绘制图形 plot(sorted.moby....
分类:编程语言   时间:2016-05-12 17:26:54    阅读次数:227
linux命令之 awk, sed, scp
AWK是一种处理文本文件的语言,是一个强大的文本分析工具 简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 使用方法 显示最近登录的5个帐号 details: http://www.cnblogs.com/ggjucheng/archive/2013/ ...
分类:系统相关   时间:2016-05-09 18:35:01    阅读次数:280
中文分词工具Jieba
源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式:     a,精确模式,试图将句子最精确地切开,适合文本分析;      b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;      c,搜索引擎模式,在...
分类:其他好文   时间:2016-05-06 12:56:47    阅读次数:204
Awk使用及网站日志分析
Awk使用及网站日志分析         Awk简介 概述 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk。awk程序的报告生成能力...
分类:Web程序   时间:2016-04-21 01:42:36    阅读次数:209
342条   上一页 1 ... 22 23 24 25 26 ... 35 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!