机器学习 编程环境 Anaconda3 导入库 定义 机器学习是人工智能的分支,设计一个系统,使其通过训练数据进行学习,并且不断优化性能,能够预测相关结果。 内涵 应用 1. 数据清洗、特征选择 2. 算法模型、特征选择 3. 结果预测 不能解决 1. 大数据储存/并行计算 2. 机器人 机器学习的 ...
分类:
其他好文 时间:
2020-04-02 18:24:07
阅读次数:
70
本文参考原文 http://bjbsair.com/2020 03 25/tech info/6304/ 传统文本分类 之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢? 传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器 ...
分类:
其他好文 时间:
2020-03-26 09:26:12
阅读次数:
65
来源地址:https://www.cnblogs.com/bjwu/p/9103002.html Filter-移除低均方差的特征 代码: from sklearn.feature_selection import VarianceThreshold X = [[0, 0, 1], [0, 1, 0 ...
分类:
其他好文 时间:
2020-03-20 13:11:21
阅读次数:
74
大数据分析处理基本流程 数据准备 数据获取(爬虫,统计) 数据清洗(获得想要的数据,去除无用的相关数据) 特征工程 特征提取 比如我爬下网页,网页中有图片,视频,文本信息,url等等之类的特征消息 特征选择 网页保存这学生的信息,我想要计算每个学生的BMI(身体质量指数),而这类信息是在网页中的文本 ...
分类:
其他好文 时间:
2020-03-07 09:34:06
阅读次数:
186
卡方验证(ChiSqSelector): 卡方检验 假设检验 首先假设特征和标签列是相关的,如果计算出来的结果差距很大,拒绝原假设,说明特征和标签列是独立的,这列特征不去选择。 变量进行 独立性检验 , 如果独立性高,那么表示两者没太大关系,特征可以舍弃 ; 如果独立性小,两者相关性高,则说 明该特 ...
分类:
其他好文 时间:
2020-03-01 12:36:30
阅读次数:
65
本节我们将继续介绍粗糙集有关的概念。 上节我们介绍了知识粒度的矩阵表示形式,本节将介绍基于知识粒度属性约简定义和算法。 基于粗糙特征选择算法亦称为属性约简,其旨在保持数据集分类能力不变的前提下,通过约简冗余属性,最后得到问题的决策或分类规则。 相关定义 设决策信息系统$S=(U,A=C \bigcu ...
分类:
其他好文 时间:
2020-02-25 00:08:20
阅读次数:
105
Abstract ? 使用自表示模型提取特征间的关系,结构保留约束来保持数据的局部流形结构; 1 Introduction ? Contributions: (1)提出基于自表示模型的特征选择; (2)一个结构保留约束添加到目标函数来保留数据的局部流形结构,所以模型同时局部结构学习和特征选择; (3 ...
分类:
其他好文 时间:
2020-02-22 13:59:15
阅读次数:
62
Abstract ? 从图正则数据重构方面处理无监督特征选择; ? 模型的思想是所选特征不仅通过图正则保留了原始数据的局部结构,也通过线性组合重构了每个数据点; ? 所以重构误差成为判断所选特征质量的自然标准。 ? 通过最小化重构误差,选择最好保留相似性和判别信息的特征; 1 Introductio ...
分类:
其他好文 时间:
2020-02-21 18:23:01
阅读次数:
66
局部加权回归( locally weighted regression ) 特征选择问题:underfitting,overfitting parametric learing algorithm:有固定数目的参数以用来数据拟合的算法; Non parametric learing algorith ...
分类:
其他好文 时间:
2020-01-29 18:23:37
阅读次数:
97
1.过拟合 然能完美的拟合模型,但是拟合出来的模型会含有大量的参数,将会是一个含有大量参数的非常庞大的模型,因此不利于实现 1.1解决过拟合的方法 1.1.1 特征选择,通过选取特征变量来减少模型参数等 1.1.2 正则化 欠拟合 对于模型拟合的不太到位,导致误差很大。 泛化能力 一个模型用到新样本 ...
分类:
其他好文 时间:
2020-01-26 16:01:29
阅读次数:
77