标签:估计 ESS 矩阵 梯度 tin 特征选择 oid regress 分类算法
特征选择问题:underfitting,overfitting
parametric learing algorithm:有固定数目的参数以用来数据拟合的算法;
Non-parametric learing algorithm:参数随着训练集大小线性增长;
LWR:fit \(\theta\) to minimize \(\sum_iw^{(i)}(y^{(i)}-\theta^Tx^{(i)})^2\) where \(w^{(i)}=exp(-\frac{{(x^{(i)}-x)^2}}{2\tau^2 })\)
解得\(\theta=(X^TWX)^{-1}X^TWy\)
备注:每次预测一个,都需要重新建立模型;
assume \(y^{(i)}=\theta^Tx^{(i)}+\varepsilon ^{(i)}\)
\(P(\varepsilon ^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}exp{(-\frac{(\varepsilon ^{(i)})^2}{2\sigma})}\) 假设为高斯分布的原因:一个合理准确的假设(中心极限定理);数学计算的便利;
so $y^{(i)}|x^{(i)};\theta $ ~ \(N (\theta^Tx^{(i)},\sigma^2)\) 其中\(\theta\)不是随机变量,所以用的是分号;
$\varepsilon ^{(i)}s $ are IID independently identically distributed
\(L(\theta)=P(\vec y|X;\theta))=\Pi_{i=1}^mP(y^{(i)}|x^{(i)};\theta)\)
极大似然估计:choose \(\theta\) to maximize \(L(\theta)\)
\(LL(\theta)=log L(\theta)=\sum_{(i=1)}^mlog[\frac{1}{\sqrt{2\pi}\sigma}exp{(-\frac{(\varepsilon ^{(i)})^2}{2\sigma})}]=mlog\frac{1}{\sqrt{2\pi}\sigma}+\sum_{i=1}^m-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma}\)
to minimizie \(J(\theta)=\sum_{i=1}^{m}\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2}\)
逻辑回归(Logistic Regression)与线性回归(Linear Regression)都是一种广义线性模型(generalized linear model)。逻辑回归假设因变量 y 服从伯努利分布,而线性回归假设因变量 y 服从 高斯分布。
\(y\epsilon \{0,1\}h_\theta(x)\epsilon[0,1]\)
choose假设函数: \(h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}\) g(z)为logistic或者sigmoid函数
\(P(y=1|x;\theta)=h_\theta(x)\) \(P(y=0|x;\theta)=1-h_\theta(x)\) ->\(P(y|x;\theta)=(1-h_\theta(x))^{1-y}h_\theta(x)^y\)
决策边界:一个方程,分开两个部分
在逻辑回归中,假设函数(h=g(z))用于计算样本属于某类别的可能性;决策函数(h=1(g(z)>0.5))用于计算(给出)样本的类别;决策边界(θ^Tx=0)是一个方程,用于标识出分类函数(模型)的分类边界。
代价函数:
\(L(\theta)=P(\vec y|X;\theta))=\Pi_{i=1}^m(1-h_\theta(x^{(i)}))^{1-y^{(i)}}h_\theta(x^{(i)})^{y^{(i)}}\)
\(LL(\theta)=logL(\theta)\) 可以用梯度上升法做,其中\(\frac{\partial }{\partial \theta_j}LL(\theta)=\sum_{i=1}^m(y^{(i)}-h_\theta(x^{(i)}))x_j^{(i)}\)
矩阵法更新公式: W=W+(Y-W\(X^{(i)^T}\) )\(X^{(i)}\)
标签:估计 ESS 矩阵 梯度 tin 特征选择 oid regress 分类算法
原文地址:https://www.cnblogs.com/daizigege/p/12240799.html