数据挖掘是从大量的数据中发现隐含的信息或者知识的过程,属于主动性分析方法,不需要先进行假设,可以发现未知知识。 数据挖掘常用的分析方法包括:分类、聚类、关联分析、数值预测、序列分析、社会网络分析等。 1、分类: ...
分类:
其他好文 时间:
2020-05-24 23:44:10
阅读次数:
65
监督学习的数据就是有标签数据,无监督学习的数据就是无标签数据。 有标签的数据应该就是采用有监督学习方式,像线性分类器,神经网络等;无标签的数据采用非监督学习方式,比如聚类等方法。 半监督式学习问题介于监督式和非监督式学习之间。这里有一个好例子如:照片分类,但是只有部分照片带有标签(如,狗、猫和人), ...
分类:
其他好文 时间:
2020-05-21 09:38:17
阅读次数:
275
googleNet是2014年的ILSVRC的冠军模型,GoogleNet做了更大胆的网络上的尝试,而不是像vgg继承了lenet以及alexnet的一切框架。GoogleNet虽然有22层,但是参数量只有AlexNet的1/12 GoogleNet论文指出 获得高质量模型最保险的做法就是增加模型的 ...
分类:
Web程序 时间:
2020-05-20 20:29:30
阅读次数:
169
聚类的定义 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。聚类算法是无监督的算法。 常见的相似度计算方法 闵可夫斯基距离Minkowski/欧式距离 在上述的计算中,当p=1时,则是计算绝对值距离,通常叫做曼哈顿距离,当p ...
分类:
数据库 时间:
2020-05-20 20:12:09
阅读次数:
427
4、面向对象三大特性 封装: 该露的露,该藏的藏 我们程序设计要追求 " 高内聚,低耦合 "。 高内聚:类的内部数据操作细节自己完成,不允许外部干涉; 低耦合:仅暴露少量的方法给外部使用 封装(数据的隐藏) 通常,应禁止直接访问一个对象中数据的实际表示,而应该通过操作接口来访问,这称为信息隐藏 记住 ...
分类:
编程语言 时间:
2020-05-18 19:06:26
阅读次数:
68
背景 文本分类属于文本挖掘。文本挖掘从已知文本提取未知的知识,即从非结构的文本中提取知识。文本挖掘主要领域:搜索和信息检索;文本聚类;文本分类;Web挖掘;信息抽取;自然语言处理;概念提取。[1] 搜索和信息检索:存储和文本文档的检索,包括搜索引擎和关键字搜索。 文本聚类:使用聚类方法,对词汇,片段 ...
分类:
其他好文 时间:
2020-05-14 23:50:55
阅读次数:
113
k-means应该是原来级别的聚类方法了,这整理下一个使用后验概率准确评测其精度的方法—高斯混合模型。 我们谈到了用 k-means 进行聚类的方法,这次我们来说一下另一个很流行的算法:Gaussian Mixture Model (GMM)。事实上,GMM 和 k-means 很像,不过 GMM ...
分类:
其他好文 时间:
2020-05-14 19:24:26
阅读次数:
64
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 对于分类来说,在对数据集分类时,我们是知道这个数据集是有多少种类的;而对于聚类来说,在对数据集操作时,我们是不知道该数据集包含多少类,我们要做的,是将数据集中相似的数据归纳在一起。他们都是对数 ...
分类:
编程语言 时间:
2020-05-13 20:34:52
阅读次数:
65
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 2.朴素贝叶斯分类算法 实例 利用关于心脏病患者的临床历史数据集,建立朴素贝叶斯心脏病分类模型。 有六个分类变量(分类因子):性别,年龄、KILLP评分、饮酒、吸烟、住院天数 目标分类变量疾病 ...
分类:
编程语言 时间:
2020-05-13 20:32:49
阅读次数:
79
em,是一种含有隐含变量的概率模型参数的极大似然估计法。主要应用在机器学习以及计算机视觉的数据聚类领域。 lr,逻辑回归,本质也是线性回归,通过拟合拟合样本的某个曲线,然后使用逻辑函数进行区间缩放,但是一般用来分类,主要用在点击率预估、推荐系统等; svm,支撑向量机,通过找到样本空间中的一个超平面 ...
分类:
编程语言 时间:
2020-05-13 19:44:45
阅读次数:
114