一.文本预处理
定义:将文本转化为计算机可处理的形式,将文章分成单个的词语,形成向量形式。
二.降维(特征选取)三.分类器的构建...
分类:
其他好文 时间:
2015-05-03 12:00:38
阅读次数:
90
Text::censor()斱法会字符串中过滤掉特定单词。要过滤的词作为一个数组参数传递。词语可以被整个或
者局部替换成你在配置中设置的字符串。...
分类:
其他好文 时间:
2015-05-02 11:13:51
阅读次数:
141
20150501 调试分析之 修改内核来定位系统僵死问题2015-05-01 Lover雪儿今天还是研究内核调试,死机,这个词语,大家应该不陌生.当我们写程序,如果加入到内核中的程序中有出现死循环的话,启动内核运行程序会直接进入相对死机状态.那么怎么可以解决这个问题呢?我们都知道,我们人的心脏是一直...
分类:
其他好文 时间:
2015-05-01 13:15:26
阅读次数:
277
最近几天,读了俞敏洪的《在不如意的世界里全力以赴》,想写点什么。 读这本书,给我感触最深的是人总在痛苦中学会成长。 希望、信念、坚持、包容,这几个词语可以用来形容俞敏洪。 俞敏洪,经历了很多的挫折,但是自助者天助,在每次困难面前,他变得更加的勇敢和强大。 无论经历什么,都要目光远大,不要...
分类:
其他好文 时间:
2015-05-01 10:34:31
阅读次数:
224
本文来聊聊语言,笔者前后已经接触过近10种编程语言,回过头想想,才慢慢的了解编程语言的本质。 按个人理解,编程语言和自然语言(指人类交流语言,如汉语,英语)本质上并无区别。为什么?用看程序语言的方式看自然语言,那么:自然语言有很多个关键字或者说全局变量(各种词语、单词),这些关键字经过一定...
分类:
编程语言 时间:
2015-04-30 00:43:19
阅读次数:
291
已经研究生二年级下学期了,已经为了这个检索项目写了差不多2年代码了,回想大四下学期就开始接触的这个项目,在研一的时候根本不知道科研如何做,而且项目就自己一个人,也是胡乱写了代码,而且心事太多,简直只能用一个词语形容就是混乱。 但是在大二上学期10月份的时候,随着一位同学加入简直就是可以说这个项...
分类:
其他好文 时间:
2015-04-27 23:21:21
阅读次数:
128
昨天听了同事的一个培训,其中说到个关于“信仰”的词语,心中莫名的就泛起涟漪。你曾经是我的信仰。那时候的我,做什么事情都想着你,是你让我一路的坚持,一路的走来。后来的后来,当我开始模糊了我的信仰的时候,那段日子,我很是颓废,现在的自己,已经戒掉了信仰。生活中..
分类:
其他好文 时间:
2015-04-26 01:50:18
阅读次数:
161
摘要: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出....
分类:
其他好文 时间:
2015-04-25 13:36:03
阅读次数:
323
XHTML文档之短语元素 我们前面已经介绍了用于将内容组织为富有意义的、易读的部分时要用到的大多数主要的结构性元素。标题、段落和列表是结构化文本的基本构建快料。在下面的介绍中,我们将关注这些块元素内部的一些较小的内容片段。 这些行内元素被称为短语元素,因为它们被用于包装一小串、甚至一个词语,以给.....
分类:
Web程序 时间:
2015-04-22 13:17:56
阅读次数:
111
令人迷惑的CAP与ACID用语
CAP和ACID共享相同的词汇表:原子性(Atomic)、一致性(Consistent),诸如此类。但内有玄机:这些词语虽一样,但它们的意思是完全不同的东西。CAP来自分布式系统理论,而ACID属于数据库系统。分布式数据库既使用CAP词汇,也使用ACID词汇,这显然造成许多混淆。当某人讲:“我们不能放弃一致性”,他谈到的一致性是什么?让我们来看一看【Atom...
分类:
其他好文 时间:
2015-04-20 17:08:33
阅读次数:
182