文本特征向量 经典的向量空间模型(VSM: Vector Space
Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量...
分类:
其他好文 时间:
2014-06-07 06:02:47
阅读次数:
248
下面内容摘自互联网并作了整理。名词:BI(Business
Intelligence):商业智能,DW(Data Warehouse):数据仓库,详见正文Q1部分。OLTP(On-Line Transaction
Processing):联机事务处理也称为面向交易的处理系统,其基本特征是顾客的原始数...
分类:
其他好文 时间:
2014-06-07 05:32:53
阅读次数:
263
1.Personalization
Includes:Recommending、Filtering、Predicting。 a)Non-Personalized b)Content-Based
c)Collaborative Filtering: User-Based d)Cold-Start Pr...
分类:
其他好文 时间:
2014-06-07 03:26:49
阅读次数:
338
在数据挖掘中,K-Means是一种用来计算数据聚集的算法。具体来说,K-Means要解决的问题如下图所示
凭肉眼可以看出,大致可以分为4个点群。但是怎么通过计算机找出这几个点群呢?这就是K-Means要解决的问题。
普通的K-Means算法的步骤如下
(1)随机在图中取K个种子点
(2)对图中的每个点求到这K个点的距离,假设点距离种子点最近,那么属于点群...
分类:
其他好文 时间:
2014-06-05 07:39:11
阅读次数:
733
中国气象局公共服务中心与阿里云达成战略合作
5 月 27 日上午消息,中国气象局公共气象服务中心与阿里云达成战略合作,共同挖掘气象大数据的深层价值。海量气象数据将通过阿里云计算平台,变成可实时分析应用的“活数据”,服务国民经济和社会民生。这是国家部委首次采用民营科技公司提供的云计算和大数据服务。
目前,我国每年新增的气象数据达到 PB 量级(1PB=1024TB,1TB=1024GB)...
分类:
其他好文 时间:
2014-06-05 03:07:37
阅读次数:
329
1.模型简介:说起统计中最常用的模型,非回归莫属。在挖掘中,也只有回归能很好的解决因变量为连续型变量的预测问题,这篇文章主要对回归中一种特殊的形式:Logistic回归。Logistic回归解决的是分类问题,特别在二项分布中,Logistic是最重要的模型(没有之一)。Logistic回归根据因变量...
分类:
其他好文 时间:
2014-06-03 14:03:00
阅读次数:
338
真正的数据并不是让用户通过一定佩戴什么设备才能收集,而是用户在日常生活中就能收集数据,这样的数据收集上来才是非常有价值的。
【财经网讯】5月29日消息,2014百度联盟峰会今日在黄山举行。百度CEO李彦宏在峰会上分享了对未来趋势的判断:一是新型企业级软件,解决企业从内部到外部链接的问题;二是挖掘新的...
分类:
其他好文 时间:
2014-06-03 11:15:30
阅读次数:
264
Explorer:menu selection and form filling缺点:when you
open a dataset, it immediately loads it all in. This means that the Explorer can
only be applied t...
分类:
其他好文 时间:
2014-05-29 21:03:09
阅读次数:
385
在过去的几年中,雪崩的数据,包括结构化和非结构化数据,推动组织到了一个突破点,大数据时代俨然已经到了。在大数据时代,CIO和IT主管知道,他们能否取得成功,严重依赖于如何挖掘到大数据,并把它充分利用。然而,目前许多高管并不知道如何最好地利用大数据以提高企业决策能力。据凯捷最近发布的关于“决定因素:大...
分类:
其他好文 时间:
2014-05-29 19:01:33
阅读次数:
216
一、概念:微博中经常会有些词被一起提及,如:郭美美VS红会,表哥VS房叔;超市为提高销售额,会把用户经常买的物品放在一起。
a)Apriori算法: 频繁项集产生强关联规则: b)FP-树进行频繁模式挖掘: *Partition-based Projection: *比较:
分类:
其他好文 时间:
2014-05-29 07:58:22
阅读次数:
370