代码及数据:https://github.com/zle1992/MachineLearningInAction 决策树 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。 缺点:可能会产生过度匹配问题。 适用数据类型:数值型和标称型。 创建分支的伪代码函数cre ...
分类:
编程语言 时间:
2017-06-15 19:34:09
阅读次数:
193
《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包括对当中算法的理解和算法的Python代码实现 另外博主这里有机器学习实战这本书的全部算法源码和算法所用到的源文件,有须要的留言 附:之所以成为朴素贝叶斯是由于其如果了各个特征之间是独立的 关于朴素贝叶斯分类算法的理解请參考:http ...
分类:
编程语言 时间:
2017-06-13 14:15:35
阅读次数:
149
一,引言 尽管线性回归包含了一些强大的方法,但这些方法创建的模型需要拟合所有的样本数据。当数据拥有众多特征并且特征之间的关系比较复杂时,构建全局线性模型就会非常困难。并且,在实际生活中很多问题都是非线性的,很难通过全局线性模型来拟合所有数据。 解决上述非线性数据的拟合问题的一个可行的方法是,将数据集 ...
分类:
其他好文 时间:
2017-06-11 19:17:53
阅读次数:
439
机器学习基础 什么是机器学习 机器学习能让我们从数据集中受到启示。换句话说。我们会利用计算机来彰显数据背后的真实含义。简单的说机器学习就是把无序数据转换成实用的信息。 关键术语 特征(属性):对一类物体我们关心的性质,比方鸟的体重、翼展、脚蹼、后背颜色等 训练集:已经有分类的大量数据。是用来训练机器 ...
分类:
其他好文 时间:
2017-06-03 17:37:38
阅读次数:
232
机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。 《机器学习实战》主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多 ...
分类:
其他好文 时间:
2017-05-26 20:38:46
阅读次数:
168
代码及数据:https://github.com/zle1992/MachineLearningInAction logistic regression 优点:计算代价不高,易于理解实现,线性模型的一种。 缺点:容易欠拟合,分类精度不高。但是可以用于预测概率。 适用数据范围:数值型和标称型。 准备数 ...
分类:
编程语言 时间:
2017-05-25 17:17:39
阅读次数:
378
机器学习实战这本书是基于python的,如果我们想要完成python开发,那么python的开发环境必不可少: (1)python3.52,64位,这是我用的python版本 (2)numpy 1.11.3,64位,这是python的科学计算包,是python的一个矩阵类型,包含数组和矩阵,提供了大 ...
分类:
编程语言 时间:
2017-04-28 12:08:41
阅读次数:
242
1、聚类是一种无监督学习,他讲相似的对象放到同一簇下,有点像自动分类。聚类方法几乎可以用到任何对象上,簇内的对象越相似,聚类结果就越好。 2、K均值聚类的优点 算法简单容易实现 缺点: 可能收敛到局部最小值,在大规模数据上收敛速度较慢 3、K-均值算法算法流程以及伪代码 首先随机选择k个初始点作为质 ...
分类:
其他好文 时间:
2017-03-17 00:27:01
阅读次数:
194
李航的《统计学习方法》 这本书开篇第一章写得特别好,各个模型的算法推导也比较全,基本涵盖了比较经典的判别模型和生成模型。 《机器学习实战》 这本书代码和应用特别多,了解python用法和机器学习算法的代码实现非常方便。 项亮的《推荐系统实践》 这本书个人感觉偏理论一点,伪代码看着都实现不了,不过关于 ...
分类:
其他好文 时间:
2017-03-05 21:12:32
阅读次数:
403