社会网络分析(Social Network Analysis,SNA)逐步成为数据挖掘领域的又一新宠。SNA的本质是利用各样本间的关系(故也成为关系网络)来分析整体样本的群落现象,并分析出样本点在群落形成的作用以及群落间的关系。利用R语言中的igraph包实现SNA。...
分类:
编程语言 时间:
2015-01-03 15:56:31
阅读次数:
664
引言
我感觉学习机器学习算法还是要从数学角度入门才是唯一正道,机器学习领域大牛Michael I. Jordan给出的机器学习定义是,“A field that bridge computation and statistics,with ties to information theory, signal processing, algorithm, control theory and ...
分类:
其他好文 时间:
2015-01-02 21:10:55
阅读次数:
184
展示如何用R处理稀疏矩阵和利用GLMNET包...
分类:
Web程序 时间:
2014-12-30 17:05:41
阅读次数:
1054
Classification And Regression Tree(CART)是一种很重要的机器学习算法,既可以用于创建分类树(Classification Tree),也可以用于创建回归树(Regression Tree),本文介绍了CART用于离散标签分类决策和连续特征回归时的原理。决策树创建过程分析了信息混乱度度量Gini指数、连续和离散特征的特殊处理、连续和离散特征共存时函数的特殊处理和后剪枝;用于回归时则介绍了回归树和模型树的原理、适用场景和创建过程。个人认为,回归树和模型树可以被看做“群落分类...
分类:
编程语言 时间:
2014-12-30 13:40:48
阅读次数:
767
R语言:利用相关性分析对复杂数据进行数据探索...
分类:
编程语言 时间:
2014-12-30 13:38:13
阅读次数:
300
分类:将实例数据划分到合适的分类中。目标变量是离散型。回归:预测数值型数据。目标变量是连续型的数值。监督学习:必须知道预测什么,即目标变量的分类信息。目标变量是机器学习算法的预测结果。开发机器学习应用程序的步骤:1)收集数据;2)准备输入数据;3)分析输入数据;4)训练算法;5)测试算法;6)使用算...
分类:
其他好文 时间:
2014-12-28 20:46:50
阅读次数:
109
StanfordSegmenter是Stanford大学的一个开源分词工具,目前已支持汉语和阿拉伯语,只是比较耗费内存,但貌似比中科院的分词工具快(具体没测)。StanfordSegmenter是基于CRF(ConditionalRandomField,条件随机场),CRF是一个机器学习算法,其原理是字构成词,利用此原理把分..
分类:
其他好文 时间:
2014-12-28 18:21:00
阅读次数:
322
转自InfoQ,作者张天雷机器学习是目前数据分析领域的一个热点内容,在平时的学习和生活中经常会用到各种各样的机器学习算法。实际上,基于Python、Java等的很多机器学习算法基本都被前人实现过很多次了。这些算法在网上可以找到很多,然而往往存在很多“脏”或者“乱”的开源代码。在这样的背景下,Info...
分类:
其他好文 时间:
2014-12-27 21:43:05
阅读次数:
185