TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它...
分类:
其他好文 时间:
2014-09-24 19:29:07
阅读次数:
208
TF-IDF算法是一种简单快捷的文档特征词抽取方法,通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency–inverse document frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件...
分类:
其他好文 时间:
2014-09-24 18:51:57
阅读次数:
252
环境,WinXP/Win7 Perl 5.16默认循环1000次,按ESC提前退出 1 use strict; 2 use Term::ReadKey; 3 use Win32::Console; 4 use Time::HiRes 'sleep'; 5 use IO::Handle; ...
ets全称“erlang term storage” erlang项式存储。 ets打破了erlang“不变数据”的原则,使得进程之间可以共享数据。首先引起的思考是为什么会出现ets?下面是对网络资料的整理和分析: Erlang中可以用List表达集合数据,但是如果数据量特别大的话在List...
分类:
其他好文 时间:
2014-09-22 16:22:22
阅读次数:
293
??
1信号产生原因
2.进程处理信号行为
manpage里信号3中处理方式:
SIG_IGN
SIG_DFL
默认Term动作
a signal handling function
进程处理信号
A默认处理动作
term
中断...
分类:
其他好文 时间:
2014-09-21 02:33:36
阅读次数:
295
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。权重计算方法经常会和余弦相似度(cosine similarity)一同使用于向量空间模型中,用以判断两份文件之间的相似性。应用到余弦定理到新闻分类的算法模拟程序...
分类:
Web程序 时间:
2014-09-20 01:12:26
阅读次数:
370
之前一直想读这篇,今天读了一下,颇有收获:
1.对文档按相似term聚类之后,delta较小,可以提高压缩率(similarity graph)
1.GPU一般可以有几百个核,有shared memory和global memory,shared memory相当于寄存器的速度,global memory速度较慢
2.有序数组上的搜索算法除了binary search还有interplati...
分类:
其他好文 时间:
2014-09-18 00:52:07
阅读次数:
239
在讲述数据类型前先简单的介绍一下Erlang中的变量,Erlang中的变量和其他语言中的变量相比有三点不同: 1.Erlang不对变量的类型进行定义,它可以被赋值成任何类型的值,Erlang中所有类型的值统称为一个Term。这使...
分类:
其他好文 时间:
2014-09-16 20:43:54
阅读次数:
279
init 0;init是所有进程的祖先﹐它的进程号始终为1﹐所以发送TERM信号给init会终止所有的用户进程﹑守护进程等。shutdown 就是使用这种机制。init定义了8个运行级别(runlevel), init 0为关机﹐init 1为重启。shutdown -h now shutdown命...
分类:
系统相关 时间:
2014-09-13 15:54:25
阅读次数:
251
今天使用gitstats分析git repo的活动信息,发现其内部使用gnuplot,结果发现无法生成png图片,进入gnuplot的shell发现无法设置png格式输出。如下gnuplot> set term png ^ unknown or am...
分类:
其他好文 时间:
2014-09-03 22:28:47
阅读次数:
470