一.初识机器学习
- 何为机器学习?
A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
理解:通过实验E,完成某一项任务T,利用评价标准P对实验结果进行迭代优化! - 机器学习主要包括监督学习(supervised)和无监督学习(unsupervised),其他的还有增强学习,推荐系统(recommender systems)等。
- 监督学习是指实验数据当中有可参考的正确输出,通常包括回归问题和分类问题。
- 回归问题(regression problem)是指预测的值,也就是实验结果是连续的,有准确的数值。
分类问题(classification problem)是指实验结果是离散的,不是一个准确的数值。 - 无监督学习指聚类问题,不同于分类。如鸡尾酒会算法,在鸡尾酒会中分辨出人的声音和会场的音乐。
二.单变量线性回归问题(Linear regression with one variable)
- 符号标记:m(训练集中样本的数量),X`s(输入变量/特征),Y`s(输出变量/目标变量),(x,y)表示一个训练样本。
- 问题背景:使用房屋面积预测房价!问题描述如下图:
上图从上向下看,表示将训练集带入到学习算法当中,进过训练得到预测函数h;再从左向右看,将房屋面积带入预测函数,输出预测的房价。 - 单变量线性回归问题的预测函数可以表示为:hθ(x)=θ0+θ1*x(其实就是y=ax+b),其中的θi为模型参数。所以我们的任务就变成了,使用训练集进行训练,最后得到最佳的θi值,使得我们得到的预测函数hθ(x)最接近真正的预测函数。完成此任务的方法就叫做学习算法。