1.训练词向量代码如下:#训练词语为向量表示def w2v_train(self): ques = self.cu.execute('select question from activity')#将所有问题内容作为预料训练一个w2v模型 da_all = [] for d in ques: da_ ...
分类:
其他好文 时间:
2018-10-10 21:52:36
阅读次数:
177
1. 用于执行分类,回归,聚类和密度估计的机器学习方法: a. 监督学习的用途: b. 无监督学习的用途: 2. 选择合适的算法: 如果是想要预测目标变量的值,则可以选择监督学习算法,否则选择无监督学习算法。 确定监督学习算法之后,进一步确定目标变量类型,如果目标变量是离散型,如1/2/3,A/B/ ...
分类:
其他好文 时间:
2018-10-01 22:35:31
阅读次数:
174
Python,聚类分析算法介绍,层次聚类算法、Kmeans聚类算法,sklearn模块中聚类方法、scipy模块中聚类方法介绍 ...
分类:
编程语言 时间:
2018-10-01 10:34:40
阅读次数:
473
为了分析用户在不同时间段的关注行为是否有变化,先对用户的行为时间点进行分段,也就是time series segmention问题,分成几段呢? 有两种想法:1.按时间间隔距离划分,也就是转化为基于密度的聚类; 2.按照现有的文章对时间序列的划分方式,识别曲线上升、下降、稳定等状态,再对不同状态分割 ...
分类:
其他好文 时间:
2018-09-30 18:07:55
阅读次数:
259
(一)深入浅出理解索引结构 实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集 ...
分类:
数据库 时间:
2018-09-30 18:05:59
阅读次数:
178
数据预处理-异常值识别 from:http://shataowei.com/2017/08/09/%E6%95%B0%E6%8D%AE%E9%A2%84%E5%A4%84%E7%90%86-%E5%BC%82%E5%B8%B8%E5%80%BC%E8%AF%86%E5%88%AB/ 系统总结了常用的 ...
分类:
其他好文 时间:
2018-09-30 12:42:17
阅读次数:
272
刘建平:DBSCAN密度聚类算法 https://www.cnblogs.com/pinard/p/6208966.html API 的说明: https://www.jianshu.com/p/b004861105f4 ...
分类:
数据库 时间:
2018-09-27 16:58:30
阅读次数:
109
机器学习的定义: 让机器代替人,实现人的工作。 现有的机器学习分类: (1)监督学习 > 分类问题 (2)半监督学习 > 聚类问题 (3)非监督学习 > 聚类问题 (4)强化学习 > 降维 归纳: 主要可分为:分类、回归/预测、聚类和维度下降。 机器学习“六步走”: a.收集数据; b.准备数据 c ...
分类:
其他好文 时间:
2018-09-25 17:26:11
阅读次数:
175
下面给大家一起分享使用KMeans自动聚类,压缩图片像素点。每种图片可能他们的维度都不同,比如jpg一共有(w,h,3)三维,但是灰度图只有一维(w,h,1),也有四维的图片(w,h,4)等等。我们可以将这些不同维度的图片映射到一维的空间中。拿三维图片来做解释吧,三维图有rgb三种颜色,首先把每个点 ...
分类:
其他好文 时间:
2018-09-23 22:32:38
阅读次数:
248
词向量作为文本的基本结构——词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文将详细介绍如何使用word2vec构建中文词向量。 一、中文语料库 本文采用的是搜狗实验室的搜狗新闻 ...
分类:
其他好文 时间:
2018-09-23 16:22:44
阅读次数:
338