啤酒尿布
沃尔玛根据它每天记录的大量的客户消费数据进行分析,发现了,购买了啤酒的顾客更可能同时购买尿布。所以他们把尿布和啤酒放到一块,结果大幅度的提高了这两者的销售额。
购买尿布和购买啤酒看上去毫无关系,但是通过用户购物数据作为样本发现了其中的关联和规律,对于沃尔玛而言无需知道规律背后的本质,只需要发现这个规律就可以大幅度的提升销售额,这就足够了。
其实机器学习的核心思想也大概如此,就是让计算机程序随着数据样本的积累,可以自动获取精确的判断和归纳能力。
可以把我们要进行分析的数据叫做训练集,把现象归纳的过程叫训练
在啤酒尿布的故事中,沃尔玛使用的是一种叫Apriori的算法,可以用来挖掘关联数据中的频繁项集,也就是找寻数据集合的内在联系
另外我们还知道瑞雪兆丰年的故事,也就是劳动人民通过大量的现象进行分析,如果下了雪,很大程度上明年就是一个丰年。
瑞雪兆丰年和啤酒尿布有本质的区别,
瑞雪兆丰年是对一个新现象进行结果预测
啤酒尿布是对相关性的挖掘。
下图是对两个故事的流程进行归纳。
对于瑞雪兆丰年来说,可以根据多年的降雪与来年的丰收情况进行分析,通过某种算法进行训练,然后得到规律也即假设模型。
根据降雪情况推断出下一年的收成情况,这就是回归
对于啤酒尿布属于完全不一样的机器学习类型,只需要找出关联关系,并不需要回归。
所以这两种其实是完全不同的机器学习方法。
我们可以按照方式不同分为三类:
- 有监督学习(supervised learning)
也就是已经有了一部分输入数据和数据数据之间的对应关系,可以生成一个函数,可以通过输入获得输出。
比如瑞雪兆丰年,头年的降雪量就是输入,来年产量就是输出。 - 无监督学习:直接对输入进行建模,寻找关联。
比如啤酒尿布只需要寻找相关性,不需要目标输出。 - 半监督学习:
就是上面两种方法综合起来。我们可以对有输入输出的数据+只有输入的数据进行综合分析
参考
本文为什么是机器学习的笔记