介绍 1.什么时候需要进行迁移学习 目前大多数机器学习算法均是假设训练数据以及测试数据的特征分布相同。然而这在现实世界中却时常不可行。例如我们我们要对一个任务进行分类,但是此任务中数据不充足(在迁移学习中也被称为目标域),然而却有大量的相关的训练数据(在迁移学习中也被称为源域),但是此训练数据与所需 ...
分类:
其他好文 时间:
2018-01-20 22:44:52
阅读次数:
279
MLlib中众多机器学习算法API在单一管道或工作流中更容易相互结合起来使用。管道的思想主要是受到scikit-learn库的启发。 ML API使用Spark SQL中的DataFrame作为机器学习的数据集。DataFrame不同的列可以分别存储文本,特征向量,真实的Lables,和预测值。 T ...
分类:
其他好文 时间:
2018-01-19 14:03:29
阅读次数:
172
Spark中的CrossValidation Spark中采用是k折交叉验证 (k-fold cross validation)。举个例子,例如10折交叉验证(10-fold cross validation),将数据集分成10份,轮流将其中9份做训练1份做验证,10次的结果的均值作为对算法精度的估 ...
分类:
其他好文 时间:
2018-01-18 17:12:27
阅读次数:
206
numpy,sklearn提供随机数据生成功能,我们可以自己生成适合某一种模型的数据,用随机数据来清洗,归一化,转换,然后选择模型与算法做拟合和预测。 1.numpy随机数据生成API numpy比较适合用来生产一些简单的抽样数据。API都在random类中,常见的API有: (1).rand(d0 ...
分类:
编程语言 时间:
2018-01-09 21:14:26
阅读次数:
222
AI工程师职业规划和学习路线完整版 AI工程师职业规划和学习路线完整版 如何成为一名机器学习算法工程师 成为一名合格的开发工程师不是一件简单的事情,需要掌握从开发到调试到优化等一系列能 力,这些能力中的每一项掌握起来都需要足够的努力和经验。而要成为一名合格的机器学习算法工程师(以下简称算法工程师)更 ...
分类:
其他好文 时间:
2018-01-07 23:32:50
阅读次数:
266
Spark2.0的机器学习算法比之前的改变最大的是2.0基本采用了dataframe来实现的,但之前的都是用的RDD,看官网说貌似在3.0的时候RDD就不用了!还有一个就是hiveContext和sqlContext进行了合并,统一是sessioncontext。 在spark.ml中,实现了加速失 ...
分类:
编程语言 时间:
2018-01-07 20:19:22
阅读次数:
1014
算法分类一: 有监督学习 无监督学习 半监督学习 算法分类二 分类与回归 聚类 标注 算法分类三 生成模型 (属于某类的概率) 识别模型 (直接告诉属于某类) ...
分类:
编程语言 时间:
2018-01-06 11:59:02
阅读次数:
153
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 如:绿色圆要被决定赋予哪个类,是红色三角形还 ...
分类:
编程语言 时间:
2018-01-03 13:51:07
阅读次数:
112
Apriori is an algorithm for frequent item set mining and association rule learning over transactional databases. It proceeds by identifying the freque ...
分类:
编程语言 时间:
2017-12-30 22:37:29
阅读次数:
178
持续更新中... 1.k-近邻算法 优势:精度高、对异常值不敏感、无数据输入设定 缺点:计算复杂度高、空间复杂度高 适用数据范围:数值型和标称型 适用场景: 2.ID3决策树算法 优势:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据 劣势:可能会产生过度匹配问题 适用 ...
分类:
编程语言 时间:
2017-12-30 13:21:40
阅读次数:
147