算法描述
K-means算法是一种被广泛使用的基于划分的聚类算法,目的是将n个对象会分成k个簇。算法的具体描述如下:随机选取k个对象作为簇中心;Do
计算所有对象到这k个簇中心的距离,将距离最近的归入相应的簇; 重新计算每个簇的中心; 计算准则...
分类:
其他好文 时间:
2014-06-11 10:37:42
阅读次数:
192
PHPTaint-检测xss/sqli/shell注入的php扩展模块web渗透者习惯采用黑盒或灰盒的方面来检测一款web应用是否存在漏洞,这种检测方法可以屏蔽不少漏洞,特别是程序逻辑中的漏洞。但如果能配合白盒的源码审计(也可以叫漏洞挖掘),效果将会更好,当然人力成本也会增加,其中,对于源码审计工作...
分类:
数据库 时间:
2014-06-11 08:46:40
阅读次数:
378
这段时间在从事游戏社区化方向的策划,为某款游戏定制化社区。
针对该款游戏做了一次深入的数据挖掘,其中一项数据特别有意思。对游戏中的好友关系进行统计,其中玩家好友数在1-5个的占了70%,6-10个的11%,平均好有数6个。
这些数据公开之后,大家对社区化价值有了不同的看法。
技术GG很失落地说:好友数这么低,做社区做聊天做关系链没任何价值啊!
我:应该双面看待这项数据。好友数少...
分类:
其他好文 时间:
2014-06-11 06:18:59
阅读次数:
262
输入法,尤其是拼音输入法,解决的就是一些序列标注的问题,针对给定的状态(拼音),获取其概率最高的隐状态(中文)。
这个是一个标准的HMM,针对HMM的解码过程,是一个很成熟也很完备的东西。
local的计算和存储能力都有限,我们选择一般是二阶马尔科夫,也就是所谓的bigram model。 高阶对质量会有帮助,但是涉及到存储和计算,工程上不可行。
同理,利用ME 以及CRFmodel...
分类:
其他好文 时间:
2014-06-10 18:18:23
阅读次数:
208
敏捷开发目前已成为互联网公司的首选方案,为应对市场的快速变化,我们公司也在大力推广敏捷,最近在读《用户故事与敏捷方法》一书,我想边读边做一些分享,传播知识的同时加强记忆。
1.
基于用户建模是一个比较好的起点。
产品团队可以采用头脑风暴等形式,挖掘出产品实际存在或者潜在的用户或客户,给他们一些角色。
多种角色出现重叠时,再将重叠部分成立一个独立角色。
比如“运维角色”和“部署...
分类:
其他好文 时间:
2014-06-10 07:22:31
阅读次数:
240
ECharts,纯Javascript图表库,基于Canvas,底层依赖ZRender,商业产品常用图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。图表类型支持折线图(区域图)、柱状图(条状图)、散点图(气泡图)、K线图、饼图(环形图)、地图、力导向布局图,同时支持任意维度的堆积和多图表混合展现。...
分类:
其他好文 时间:
2014-06-10 07:15:28
阅读次数:
378
最近的一些有趣链接的分享,包括科学,设计,机器学习等多个方面的。
例如:
1.在另一个星球上打印人类
2.偷听到外星人的星际通信
3.Yann LeCun在reddit上的问答
4.卖萌的水果
......
分类:
其他好文 时间:
2014-06-08 15:12:54
阅读次数:
262
决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。
决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中,在每个结点都会遇到一个测试,对每个结点上问题的不同的...
分类:
其他好文 时间:
2014-06-08 14:55:35
阅读次数:
254
之前写过决策树的一篇blog。
这几天看数据挖掘导论发掘一些新的东西,记录下来。
增加了过拟合,剪枝,即其他纯度计算方法等内容。...
分类:
其他好文 时间:
2014-06-08 03:12:07
阅读次数:
269
本文介绍了朴素贝叶斯分类方法,还以文本分类为例,给出了一个具体应用的例子。
分类:
其他好文 时间:
2014-06-07 23:31:16
阅读次数:
469