1.项目介绍 数据集包含某年9月份欧洲用户在两天时间里发生的284807宗交易,其中包括492宗诈骗。项目通过描述性分析探索诈骗案的相关特点和模式,再通过机器学习算法创建预测模型、调参,并通过混淆矩阵等方法选择模型。 2.数据清理 2.1导入数据 2.2 数据概览 查看数据总体情况、变量类型、缺失值 ...
分类:
其他好文 时间:
2019-08-04 12:01:01
阅读次数:
113
1、机器学习算法的整体使用步骤如下: (1)从scikitlearn库中调用相应的机器学习算法模块;(2)输入相应的算法参数定义一个新的算法;(3)输入基础训练数据集利用scaler对其进行数据归一化处理 (4)对于归一化的数据集进行机器学习算法的训练fit过程;(5)输入测试数据集对其结果进行预测 ...
分类:
编程语言 时间:
2019-08-03 21:27:27
阅读次数:
305
//2019.08.02下午#机器学习算法中的超参数与模型参数1、超参数:是指机器学习算法运行之前需要指定的参数,是指对于不同机器学习算法属性的决定参数。通常来说,人们所说的调参就是指调节超参数。2、模型参数:是指算法在使用过程中需要学习得到的参数,即输入与输出之间映射函数中的参数,它需要通过对于训 ...
分类:
编程语言 时间:
2019-08-03 15:05:21
阅读次数:
622
1、k近邻算法可以说是唯一一个没有训练过程的机器学习算法,它含有训练基础数据集,但是是一种没有模型的算法,为了将其和其他算法进行统一,我们把它的训练数据集当做它的模型本身。2、在scikitlearn中调用KNN算法的操作步骤如下(利用实际例子举例如下):#1导入相应的数据可视化模块import n ...
分类:
编程语言 时间:
2019-08-03 14:41:23
阅读次数:
102
博主接触机器学习算法不久,借此记录一下学习过程。 朴素贝叶斯是贝叶斯决策的一部分,先让我们了解一下贝叶斯理论。假设我们有一个数据集,它由两类数据组成,数据分布如图所示: 我们现在用p1(x,y)表示点(x,y)属于类别1(图中用圆点表示的类别)的概率,用p2(x,y)表示点(x,y)属于类别2(图中 ...
分类:
其他好文 时间:
2019-07-27 17:07:13
阅读次数:
89
在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。 举个例子来说,你不能说神经网络永远比决策树好,反之亦然。模型运行被许多因素左右,例如数据集的大小和结构。 因此,你应该根据你的问题尝试许多不同的 ...
分类:
编程语言 时间:
2019-07-25 00:41:03
阅读次数:
119
无论什么事,如果不断收集材料,积之十年,总可成一学者
分类:
编程语言 时间:
2019-07-24 13:34:16
阅读次数:
183
在学习机器学习算法的过程中,我们经常需要数据来验证算法,调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。还好numpy, scikit-learn都提供了随机数据生成的功能,我们可以自己生成适合某一种模型的数据,用随机数据来做清洗,归一化,转换,然后选择模型与算法做拟合和预测。... ...
分类:
编程语言 时间:
2019-07-19 19:04:43
阅读次数:
90
奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SV... ...
分类:
其他好文 时间:
2019-07-19 19:01:10
阅读次数:
106
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。# 一、梯度 在微积分里面,对多元函数的参数求?偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数... ...
分类:
其他好文 时间:
2019-07-19 18:28:57
阅读次数:
87