2.1 数据集 目标 知道数据集的分为训练集和测试集 会使用sklearn的数据集 2.1.1 可用数据集 Kaggle网址:https://www.kaggle.com/datasets UCI数据集网址: http://archive.ics.uci.edu/ml/ scikit-learn网址 ...
分类:
其他好文 时间:
2021-07-19 16:53:01
阅读次数:
0
PCA对手写数字数据集的降维 还记得我们上一周在讲特征工程时,使用的手写数字的数据集吗?数据集结构为(42000, 784),用KNN跑一次半小时,得到准确率在96.6%上下,用随机森林跑一次12秒,准确率在93.8%,虽然KNN效果好,但由于数据量太大,KNN计算太缓慢,所以我们不得不选用随机森林 ...
分类:
编程语言 时间:
2021-06-28 18:03:47
阅读次数:
0
1 PCA参数列表 2 PCA属性列表 3 PCA接口列表 ...
分类:
编程语言 时间:
2021-06-28 18:03:27
阅读次数:
0
1. 准确的PCA和概率解释(Exact PCA and probabilistic interpretation) PCA 用于对具有一组连续正交分量(Orthogonal component 译注: 或译为正交成分,下出现 成分 和 分量 是同意词)的多变量数据集进行方差最大化的分解。 在 sc ...
分类:
其他好文 时间:
2021-06-20 17:35:34
阅读次数:
0
Java 类名:com.alibaba.alink.operator.batch.feature.VectorChiSqSelectorBatchOp Python 类名:VectorChiSqSelectorBatchOp 功能介绍 针对vector数据,进行特征筛选 参数说明 名称 中文名称 描 ...
分类:
其他好文 时间:
2021-06-19 18:55:45
阅读次数:
0
Java 类名:com.alibaba.alink.operator.batch.feature.FeatureHasherBatchOp Python 类名:FeatureHasherBatchOp 功能介绍 将多个特征组合成一个特征向量。 参数说明 名称 中文名称 描述 类型 是否必须? 默认值 ...
分类:
其他好文 时间:
2021-06-19 18:55:12
阅读次数:
0
Java 类名:com.alibaba.alink.operator.batch.feature.EqualWidthDiscretizerPredictBatchOp Python 类名:EqualWidthDiscretizerPredictBatchOp 功能介绍 等宽离散可以计算选定数值列的 ...
分类:
其他好文 时间:
2021-06-18 19:34:39
阅读次数:
0
导入本次任务所用到的包: import pandas as pd import numpy as np from scipy import stats import matplotlib.pyplot as plt from sklearn.model_selection import train_ ...
分类:
编程语言 时间:
2021-03-06 14:31:47
阅读次数:
0
特征工程 特征工程可以有效地改善模型效果,减少训练时间。 简单的方法包括: 1. 进行特征转换 2. 增加语义特征 A Guiding Principle of Feature Engineering For a feature to be useful, it must have a relati ...
分类:
其他好文 时间:
2021-03-04 13:24:43
阅读次数:
0
一个重要的闭环: 机器学习-数据挖掘的流程(CRISP-DM):围绕数据进行如下6个活动进行闭环式地探索活动 商业理解 数据理解 数据准备 建立模型 模型评估 方案实施 一个重要的概念: 特征工程:最大限度地从原始数据中提取特征以供算法和模型使用,包括如下几个主要部分: 数据预处理:标准化、缩放、缺 ...
分类:
其他好文 时间:
2021-01-06 11:47:45
阅读次数:
0