K-means是一种聚类算法: 这里运用k-means进行31个城市的分类 城市的数据保存在city.txt文件中,内容如下: BJ,2959.19,730.79,749.41,513.34,467.87,1141.82,478.42,457.64TianJin,2459.77,495.47,697 ...
分类:
编程语言 时间:
2017-07-16 18:29:23
阅读次数:
193
1.数据下载地址 http://pan.baidu.com/s/1ge9bJIN 2.这些数据已经分过类别-webkb 20newsGroup R8,预处理 分词 stemming 词频统计 3.这些数据数据下载地址 http://ana.cachopo.org/datasets-for-singl ...
分类:
Web程序 时间:
2017-07-14 10:19:51
阅读次数:
309
Copy from: 一篇文章看懂TPCx-BB(大数据基准测试工具)源码 TPCx-BB是大数据基准测试工具,它通过模拟零售商的30个应用场景,执行30个查询来衡量基于Hadoop的大数据系统的包括硬件和软件的性能。其中一些场景还用到了机器学习算法(聚类、线性回归等)。为了更好地了解被测试的系统的 ...
分类:
其他好文 时间:
2017-07-11 21:16:27
阅读次数:
399
Matlab 代码: 测试主程序: 示意图: 参考自:http://www.voidcn.com/blog/llp1992/article/p-2308490.html ...
分类:
其他好文 时间:
2017-07-06 20:30:13
阅读次数:
205
我接触过的大数据有: 1.美国棱镜计划 2.前几天新闻报道的,苹果公司窃取用户隐私 3.百度的用户搜素习惯统计分析 4.淘宝的用户购物习惯分析,智能推荐宝贝 5.浏览器的智能标签页 ... 最想了解的大数据架构与算法: 1.著名的Google 网页排名算法:PageRank 2.著名的聚类算法:K- ...
分类:
其他好文 时间:
2017-07-05 19:54:03
阅读次数:
114
在从事电商做频道运营时,每到关键时间节点,大促前,季度末等等,我们要做的一件事情就是品牌池打分,更新所有店铺的等级。例如,所以的商户分入SKA,KA,普通店铺,新店铺这4个级别,对于不同级别的商户,会给予不同程度的流量扶持或广告策略。通常来讲,在一定时间段内,评估的维度可以有:UV,收订金额,好评率 ...
分类:
编程语言 时间:
2017-07-05 18:04:06
阅读次数:
369
监督学习:分类和回归 非监督学习:聚类和非聚类 1.分类和聚类的区别: 分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。 聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。 2.回归和 ...
分类:
系统相关 时间:
2017-07-04 20:27:19
阅读次数:
252
Mahout 模糊KMeans 一、算法流程 模糊 C 均值聚类(FCM),即众所周知的模糊 ISODATA,是用隶属度确定每一个数据点属于某个聚类的程度的一种聚类算法。1973 年,Bezdek 提出了该算法,作为早期硬 C 均值聚类(HCM)方法的一种改进。 FCM 把 n 个向量 xi(i=1 ...
分类:
其他好文 时间:
2017-07-02 19:03:13
阅读次数:
199