分类:根据文本的特征或属性,划分到已有的类别中。也就是说,这些类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。 聚类:不知道数据会分为几类,通过聚类分析将数据或者说用户聚合成几个群体。聚类不需要对数据进行训练和学习。 分类属于监督学习,聚类属于无监督 ...
分类:
其他好文 时间:
2020-06-29 13:36:46
阅读次数:
50
最近一直在实现一篇注释轨迹的文章,里面要用到kmeans聚类方法,先在网上随便找了一个kmeans程序进行聚类,结果发现时间太长,最后问了作者,作者采用的是vlfeat的系列程序,里面的kmens++程序速度较一般的来说比较快,网址如下: http://www.vlfeat.org/index.ht ...
分类:
其他好文 时间:
2020-06-28 13:15:49
阅读次数:
68
1. 数据挖掘需要哪些基本的技术 统计学知识和技术(Statistical Techniques) 可视化的画图展示技术(Visualization Tchniques):比如可以利用相关软件来画出柱状图、散点图等等 一些常用的数据挖掘技术. KNN K紧邻算法 常用数据挖掘建模技术 2.常用数据挖 ...
分类:
其他好文 时间:
2020-06-27 17:30:38
阅读次数:
77
SmartbiMining通过深度数据建模,为企业提供预测能力支持文本分析、五大类算法和数据预处理,并为用户提供一站式的流程式建模、拖拽式操作和可视化配置体验。SmartbiMining算法丰富,而且可扩展SmartbiMining数据挖掘平台支持多种高效实用的机器学习算法,包含了分类、回归、聚类、预测、关联,5大类机器学习的成熟算法。其中包含了多种可训练的模型:逻辑回归、决策树、随机森林、朴素贝
分类:
其他好文 时间:
2020-06-19 16:04:38
阅读次数:
182
什么是监督学习?什么是无监督学习? 监督学习:有目标y值,如线性回归,分类算法 无监督学习:无目标y值,如聚类 逻辑回归是分类算法,不要被名字误导,得到的是离散值 引入逻辑回归 逻辑回归主要用于二分类 在线性回归中:Y=W1X1+W2X2+W3X3 +...+b=WT*X 在逻辑回归中,习惯用Z表示 ...
分类:
其他好文 时间:
2020-06-17 01:18:52
阅读次数:
55
面向对象的特征一:封装与隐藏 1.为什么要引入封装性? 我们程序设计追求“高内聚,低耦合”。高内聚 :类的内部数据操作细节自己完成,不允许外部干涉;低耦合 :仅对外暴露少量的方法用于使用。 隐藏对象内部的复杂性,只对外公开简单的接口。便于外界调用,从而提高系统的可扩展性、可维护性。通俗的说,把该隐藏 ...
分类:
其他好文 时间:
2020-06-16 15:18:14
阅读次数:
63
一、定义问题,收集数据集 首先要清楚面对问题的输入数据是什么?要预测什么? 收集这些数据,有需要的话用标签来标注数据。 其次要清楚面对的是什么类型的问题?是二分类问题、多分类问题、标量回归问题、向量回归问题,还是多分类、多标签问题?或者是其他问题,比如聚类、生成或强化学习?确定问题类型有助于你选择模 ...
分类:
其他好文 时间:
2020-06-15 12:16:26
阅读次数:
47
1. 应用K-means算法进行图片压缩 读取一张图片 观察图片文件大小,占内存大小,图片数据结构,线性化 用kmeans对图片像素颜色进行聚类 获取每个像素的颜色类别,每个类别的颜色 压缩图片生成:以聚类中收替代原像素颜色,还原为二维 观察压缩图片的文件大小,占内存大小 2. 观察学习与生活中可以 ...
分类:
编程语言 时间:
2020-06-14 20:44:28
阅读次数:
55
1. 应用K-means算法进行图片压缩 读取一张图片 观察图片文件大小,占内存大小,图片数据结构,线性化 用kmeans对图片像素颜色进行聚类 获取每个像素的颜色类别,每个类别的颜色 压缩图片生成:以聚类中收替代原像素颜色,还原为二维 观察压缩图片的文件大小,占内存大小 源代码: import m ...
分类:
编程语言 时间:
2020-06-14 11:15:45
阅读次数:
61
问题定义 在这个项目中会采用20 Newgroups的数据(http://qwone.com/~jason/20Newsgroups/),这时网上非常流行的对文本进行分类和聚类的数据集。 数据集中的数据分为两部分,一部分是用来训练算法模型的数据,一部分是用来评估算法的新数据。 网上提供了3个数据集, ...
分类:
系统相关 时间:
2020-06-13 10:32:48
阅读次数:
56