机器学习工程师 - Udacity 非监督学习 Part Two

时间：2018-11-22 14:39:01 阅读：196 评论：0 收藏：0 [点我收藏+]

标签：transform document 相同 com 评估 k-均值聚类包含工程师 min

四、特征缩放
1.特征缩放的优点：Andrew在他的机器学习课程里强调，在进行学习之前要进行特征缩放，目的是保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。
python里常用的是preprocessing.StandardScaler()，公式为：(X-mean)/std，得到的结果是，对于每个属性来说所有数据都聚集在0附近，方差为1。
缺点：如果特征中有异常数值，那么缩放的结果会很不理想。

2.sklearn中的最小值/最大值缩放器
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
y = scaler.fit_transform(x)

3.哪些机器学习算法会受到特征缩放的影响？
□ 决策树
□ 使用 RBF 核函数的 SVM
□ 线性回归
□ K-均值聚类
答案是SVM和K-means。SVM和K-means需要根据不同维度的特征计算距离，而决策树和线性回归只需在不同维度的特征间找到一个切割点。

五、PCA
1.PCA从旧坐标系统仅通过转化和轮换获得新坐标系统，它将坐标系的中心移至数据的中心，将x轴移至方差最大的位置。

2.最大主成分数量是训练点数量和特征数量这两者中的最小值。

PCA 迷你项目

六、随机投影与ICA
1.随机投影是一个很有效的降维方法，在计算上比主成分分析更有效率。它通常应用于当一个数据集里有太多维度，PCA无法直接计算的情境下。PCA选择方差最大的方向，随机投影随机选择一个方向，它在某些情境下没有太大意义。但它其实是有作用的，在更高维度的效果更好，且工作效能更高。
图01

2.sklearn中的随机投影
from sklearn import random_projection
rp = random_projection.SparseRandomProjection()
new_x = rp.fit_transform(x)
稀疏随机投影比高斯随机投影更快速，效果更好。

3.独立成分分析(ICA)
PCA最大化方差，ICA假定这些特征是独力源的混合，并尝试分离这些混合在数据集里的独力源。
盲源分离问题
图02
参考文献: "独立成分分析：算法与应用" (pdf)（https://s3.cn-north-1.amazonaws.com.cn/static-documents/nd101/MLND+documents/10.1.1.322.679.pdf）
图03
ICA假设各成分是分别统计的，各成分须为非高斯分布。
sklearn中的Fast ICA算法：
1)居中、白化数据集x；
2)选择一个初始的随机权重矩阵W；
3)预估W，W是包含多个向量的矩阵，每个向量都是权值向量；
4)对W进行去相关操作。即防止W1和W2转化为相同的值；
5)重复第三步，直到找到满意的W值。

4. ICA 需要与我们试图分离的原始信号一样多的观测值。

5.sklearn中的ICA
图03

独立成分分析 Lab

6.ICA应用
ICA广泛应用于医学扫描仪；有人尝试在财务数据中运用ICA

当你在评估 PCA 中有包含多少组件时，基于你的实际经验，已保留的组件可以捕获的总变化量是多少比较好？80%

机器学习工程师 - Udacity 非监督学习 Part Two

标签：transform document 相同 com 评估 k-均值聚类包含工程师 min

原文地址：https://www.cnblogs.com/paulonetwo/p/10000463.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行