标签:ack http 聚类 span 平均数 back 影响 nbsp 来源
用最近做的理赔申请人测试数据集做了个在线分析小网站。
数据结构,算法等设置都保存在json文件里。将来对这个小破站扩充算法,只修改一下json文件就行。
当然,结果分析还是要加代码的。页面代码不贴了,搞清楚django的view+model模型后,写程序还是很简单的。
那些不要脸的爬虫网站,敢不敢注明来源?
聚类算法结果,对连续性变量我用的是变异系数(Coefficient of Variation), 离散性变量简单统计记录数组成的矩阵。
最后把原始数据和分类结果合并成csv提供下载,可导入tableau做数据可视化报表。
变异系数是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值来比较。标准差与平均数的比值称为变异系数,记为C·V。变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。
标签:ack http 聚类 span 平均数 back 影响 nbsp 来源
原文地址:http://www.cnblogs.com/okokok/p/6919235.html