"1 逻辑回归" 2 决策树 3 支持向量机 4 提升方法 5 聚类 准备在近期复习巩固一下基本机器学期算法的原理和实现,写一些笔记,方便以后自己回顾。 1 逻辑回归 (1) "理论推导" (2) python实现 ...
分类:
系统相关 时间:
2018-04-29 21:15:16
阅读次数:
234
join: Map端join //大表+小表,只需要map Reduce端join //大表+大表,需要Map和Reduce //设计组合key和flag //分组对比器 Json: fastJson技术 JSON.parseObject(str) //将string转成jsonObject ... ...
分类:
Web程序 时间:
2018-04-25 16:59:09
阅读次数:
222
分析要求: 1. 对所给463条评语进行分词聚类,分析其所反映的活动类型 以下是人工分析得出的主要活动类型的参考举例: 2. 按年份统计各种活动类型每年所提及的频次 比如:亲子阅览,这一活动在13年-17年每年分别有多少条评语提到过。对所有活动进行分析,提供结果列表。 3.提供过程源码 "十月一去的 ...
分类:
编程语言 时间:
2018-04-24 21:53:37
阅读次数:
352
四、算法选择 这一步骤让我很兴奋,终于谈到算法了,虽然没代码、没公式。因为教程君表示并不想过深的去探讨算法细节,于是着重于从算法的应用场景、算法的缺点、如何选择算法来纵向展开。 我们的训练模型一般分为监督学习、无监督学习以及强化学习三种。 教程中只提到了前两种,而训练算法分为回归、分类以及聚类。其中 ...
分类:
系统相关 时间:
2018-04-22 20:00:18
阅读次数:
199
在当我们获得的数据没有标签时,我们依然希望通过算法学习找到这些数据的特点,这时就用到了KMeans (k均值聚类)把数据点聚类成K个簇 文档地址: http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html ...
分类:
其他好文 时间:
2018-04-22 10:41:41
阅读次数:
165
1.不同输出空间上的学习 二分类问题 多分类问题 回归问题 结构化的问题(有趣且复杂,可从多分类的问题衍生而来) ... 2.不同数据标签上的学习 有监督的学习 无监督的学习 无监督的多分类 聚类 (比监督式的困难,但是更实用) 无监督的应用: 聚类 文章 = 主题 用户画像 = 用户群 密度分析 ...
分类:
其他好文 时间:
2018-04-21 19:41:03
阅读次数:
145
无监督学习:着重于发现数据本身的分布特点 (不需要对数据进行标记)节省大量人力 数据规模不可限量 1 发现数据群落 数据聚类 也可以寻找 离群样本 2 特征降维 保留数据具有区分性的低维特征 这些都是在海量数据处理中非常实用的技术 数据聚类 K均值算法(预设聚类的个数 不断更新聚类中心 迭代 ,是所 ...
分类:
编程语言 时间:
2018-04-20 13:29:41
阅读次数:
321
1. 生成随机的二维数据: 2.生成聚类标签: 3.显示聚类效果: 参考: https://blog.csdn.net/qq_34264472/article/details/53217748 (此为python2代码) ...
分类:
其他好文 时间:
2018-04-18 23:33:10
阅读次数:
219
简介 查看百度搜索中文文本聚类我失望的发现,网上竟然没有一个完整的关于Python实现的中文文本聚类(乃至搜索关键词python 中文文本聚类也是如此),网上大部分是关于文本聚类的Kmeans聚类的原理,Java实现,R语言实现,甚至都有一个C++的实现。 正好我写的一些文章,我没能很好的分类,我想 ...
分类:
编程语言 时间:
2018-04-18 23:32:17
阅读次数:
323
scipy cluster库简介 scipy.cluster是scipy下的一个做聚类的package, 共包含了两类聚类方法: 1. 矢量量化(scipy.cluster.vq):支持vector quantization 和 k-means 聚类方法 2. 层次聚类(scipy.cluster. ...
分类:
其他好文 时间:
2018-04-18 19:09:18
阅读次数:
259