标签:start 挖掘 根据 自学 normal 处理 评价 white weight
一、什么是机器学习? 机器学习,就是让计算机具有像人一样的学习能力,是从堆积如山的数据(也就是大数据)中寻找出有用知识的数据挖掘技术。
1.1 学习的种类
根据所处理的数据类型种类,将学习分为:监督学习,无监督学习和强化学习等。为了更好的理解,我们用学生和老师的关系来进行概念说明:学生对应于计算机,老师对应于周围的环境。
监督学习
指有求知欲的学生从老师那里获取知识和信息,老师提供对错指示并告知最终答案的学习过程。监督学习的最终目标是:根据在学习过程中所获得的经验和技能,对没有学习过的问题也可以做出正确的解答,并使计算机具有这种泛化的能力。
此类学习可以应用于手写文字识别、声音图像处理、垃圾邮件的分类与拦截、网页检索和基因诊断等。其典型的任务有:预测数值型数据的回归、预测分类标签的分类、预测顺序的排序等。
无监督学习
指在没有老师的情况下,学生自学的过程,在机器学习中计算机在互联网中自动收集信息,获取有用的知识。无监督学习在人造卫星故障诊断、视频分析、社交网站解析和声音解析等方面有广泛运用。典型的任务有:聚类、异常检测等。
强化学习
指在没有老师提示的情况下,自己对预测的结果进行评估的方法,通过这样的自我评估,机器会为了更好更准确判断而不断的进行学习。强化学习在人的自动控制、计算机游戏中的人工智能、市场战略的最优化等方面具有广泛的应用。典型的任务有:回归、聚类和降维等。
1.2 机器学习任务
上一部分中我提到了一些典型的任务,那么这些任务其实可以理解为机器学习的典型算法。
回归:回归方法是一种对数值型连续随机变量进行预测和建模的监督学习算法,其任务的特点是标注的数据集具有数值型的目标变量。也就是说,每一个观察样本都有一个数值型的标注真值以监督算法。包括:线性回归(正则化)、回归树(集成方法)、深度学习、最近邻算法等。
分类:分类方法是一种对离散型随机变量建模或预测的监督学习算法,许多回归算法都有与其相对应的分类算法,分类算法通常适用于预测一个类别(或类别的概率)而不是连续的数值。包括:Logistic回归(正则化)、分类树(集成方法)、深度学习、支持向量机、朴素贝叶斯等。
聚类:聚类是一种无监督学习任务,该算法基于数据的内部结构寻找观察样本的自然族群(即集群),因为聚类是一种无监督学习(即数据没有标注),并且通常使用数据可视化评价结果。包括:K均值聚类、AP聚类、层次聚类、DBScan等。
以上三种典型的机器学习算法的解析及优缺点分析可以看知乎专栏:
https://zhuanlan.zhihu.com/p/27013861
异常检测:指寻找输入样本中所包含的异常数据的问题。在无监督的异常检测问题中,一般采用密度估计的方法,把靠近密度中心的数据作为正常数据,把偏离密度中心的数据作为异常数据。
降维:是指从高维度数据中提取关键信息,将其转换为易于计算的低维度问题进而求解的方法。
先大概了解一下,算法详解和实现慢慢做吧。又是新的一年,每天学点新的知识,你好啊,2018!
标签:start 挖掘 根据 自学 normal 处理 评价 white weight
原文地址:http://blog.51cto.com/acevi/2057138