由于需要学习机器学习的内容,了解到python在机器学习中使用很方便,开始学习之,机器学习目前主要在学《机器学习实战》这本书。python是在MOOC中学习《用python玩转数据》这门公开课。以后可以将课程的作业解答的答案放上来。 用python获取网页数据,题目要求如下: 我使用的是spyder ...
分类:
编程语言 时间:
2016-05-08 13:29:44
阅读次数:
197
决策树就是在已知各种情况发生概率的情况下,通过构造决策树,评价项目风险,判断其可行性的决策分析方法,它是运用概率分析的一种图解法。
优缺点分析:
优点:计算复杂度不高,输出结果较直观,易于理解,对中间值的缺失不敏感,可以处理不相关特征数据
缺点:可能产生过度匹配
创建数据集并计算其熵值:
from math import log
import opera...
分类:
编程语言 时间:
2016-05-06 15:35:46
阅读次数:
191
决策树概述
决策树利用分层的概念将一个复杂的决策问题分解为多个简单的判断问题,最后逐级得到最大支持度的决策结果。
决策树 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据
缺点:可能产生过度匹配问题
适用数据类型:数值型和标称型
决策树算法原理
决策树概念比较简单,用一个男女相亲的例子来描述决策树原理如下: 示例:使用决策树实现分类器
1...
分类:
其他好文 时间:
2016-05-04 12:04:01
阅读次数:
400
一、 K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征(向量的每个元素)与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的的 ...
分类:
编程语言 时间:
2016-05-02 19:47:28
阅读次数:
322
============================================================================================
《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Python代码实现
另外博主这里有机器学习实战这本书的所有算法源代码和算法所用到的源文件,有需要的留言
=...
分类:
编程语言 时间:
2016-04-29 18:23:21
阅读次数:
276
决策树是通过一系列规则对数据进行分类的过程,他提供一种在什么条件下会得到什么值的类似规则方法,决策树分为分类树和回归树,分类树对离散变量最决策树,回归树对连续变量做决策树如果不考虑效率等,那么样本所有特征的判断级联起来终会将某一个样本分到一个类终止块上。实际上,样本所有特征中有一些特征在分类时起到决定性作用,决策树的构造过程就是找到这些具有决定性作用的特征,根据其决定性程度来构造一个倒立的树–决定性作用最大的那个特征作为根节点,然后递归找到各分支下子数据集中次大的决定性特征,直至子数据集中所有数据都属于同一...
分类:
编程语言 时间:
2016-04-29 17:45:15
阅读次数:
259
决策树是通过一系列规则对数据进行分类的过程,他提供一种在什么条件下会得到什么值的类似规则方法,决策树分为分类树和回归树,分类树对离散变量最决策树,回归树对连续变量做决策树如果不考虑效率等,那么样本所有特征的判断级联起来终会将某一个样本分到一个类终止块上。实际上,样本所有特征中有一些特征在分类时起到决定性作用,决策树的构造过程就是找到这些具有决定性作用的特征,根据其决定性程度来构造一个倒立的树–决定性作用最大的那个特征作为根节点,然后递归找到各分支下子数据集中次大的决定性特征,直至子数据集中所有数据都属于同一...
分类:
编程语言 时间:
2016-04-26 19:51:35
阅读次数:
271
============================================================================================
《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Python代码实现
另外博主这里有机器学习实战这本书的所有算法源代码和算法所用到的源文件,有需要的留言
=...
分类:
编程语言 时间:
2016-04-25 06:53:24
阅读次数:
287
k-近邻算法改进约会网站配对效果 一、理论学习 1. 阅读内容 请务必仔细阅读《机器学习实战》书籍第1章及第2章,本节实验通过解决约会网站配对效果问题来实战 k-近邻算法(k-Nearest Neighbour,KNN) 2. 扩展阅读 本节推荐内容可以辅助书中理论知识,比书中内容更容易理解,可以加 ...
分类:
编程语言 时间:
2016-04-25 06:44:42
阅读次数:
646
1. 奇异值分解 SVD(singular value decomposition)
1.1 SVD评价
优点: 简化数据, 去除噪声和冗余信息, 提高算法的结果
缺点: 数据的转换可能难以理解
1.2 SVD应用
(1) 隐性语义索引(latent semantic indexing, LSI)/隐性语义分析(latent semantic analysis, LSA)...
分类:
其他好文 时间:
2016-04-22 20:49:13
阅读次数:
324