1. 多值无序类数据的特征提取: 多值无序类问题(One-hot 编码)把“耐克”编码为[0,1,0],其中“1”代表了“耐克”的中 间位置,而且是唯一标识。同理我们可以把“中国”标识为[1,0],把“蓝色”标识为[0,1]。 然后把所有的数据编码拼接起来,[“耐克”,“中国”,“蓝色”]的最终编码 ...
分类:
其他好文 时间:
2017-12-06 19:53:53
阅读次数:
178
TF-IDF算法是一种用于信息检索与数据挖掘的常用加权技术。TF的意思是词频(Term - frequency),IDF的意思是逆向文件频率(inverse Document frequency). TF-IDF是传统的统计算法,用于评估一个词在一个文档集中对于某一个文档的重要程度。它与这个词在当前 ...
分类:
编程语言 时间:
2017-11-12 12:25:00
阅读次数:
272
简介一 切词二 去除停用词三 构建词袋空间VSMvector space model四 将单词出现的次数转化为权值TF-IDF五 用K-means算法进行聚类六 总结简介查看百度搜索中文文本聚类我失望的发现,网上竟然没有一个完整的关于python实现的中文文本聚类(乃至搜索关键词python 中文文... ...
分类:
其他好文 时间:
2017-11-11 11:44:06
阅读次数:
237
结果: + + +|label|features |+ + +|0 |(1000,[105,107,181,330,333],[2.5541281188299534,0.5108256237659907,0.9162907318741551,1.0216512475319814,0.91629073 ...
分类:
其他好文 时间:
2017-10-24 20:55:30
阅读次数:
153
如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。 冷启动问题主要分为三类: (1) 用户冷启动:如何给新用户做个性化推荐的问题,新用户刚使用网站的时候,系统并没有他的行为数据; (2) 物品冷启动:解决如何将新的物品推荐给可能对它感兴趣的 ...
分类:
其他好文 时间:
2017-10-13 10:11:57
阅读次数:
146
问题 使用 ElasticSearch 做搜索 时,比如用户输入 --> 柠檬,搜出来的结果 --> 柠檬汽水,柠檬味牙膏等在前面,真正想要的水果那个 柠檬 在后面。已经在中文分词中加了 柠檬,还是不管用,正常来说 tf、idf 都一样,影响排序的只有 field norms。按道理 “柠檬” 的 ...
分类:
其他好文 时间:
2017-10-09 19:47:26
阅读次数:
279
Tf-idf, or term frequency-inverse document frequency, is a statistic that indicates how important a word is to the entire document. This lesson will e ...
分类:
编程语言 时间:
2017-10-03 21:11:33
阅读次数:
134
-1. TF-IDF的误区TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。1)它没有考虑特征词在类间的分布。也就是说该选择的特征应该在某类出现 ...
分类:
其他好文 时间:
2017-09-27 13:32:39
阅读次数:
192
上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结: (一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这 ...
分类:
其他好文 时间:
2017-09-27 13:31:03
阅读次数:
158
TF-IDF及其算法 概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次 ...
分类:
编程语言 时间:
2017-09-27 13:11:32
阅读次数:
197