感知哈希算法(perceptual hash algorithm),它的作用是对每张图像生成一个“指纹”(fingerprint)字符串,然后比较不同图像的指纹。结果越接近,就说明图像越相似。 实现步骤: 1. 缩小尺寸:将图像缩小到8*8的尺寸,总共64个像素。这一步的作用是去除图像的细节,只保留 ...
分类:
其他好文 时间:
2019-01-24 20:06:57
阅读次数:
340
推荐未尝过的菜肴 推荐系统的工作过程:给定一个用户,系统会为此用户返回N个最好的推荐菜 1. 寻找用户没有评级的菜肴,即在用户-物品矩阵中的0值 2. 在用户没有评级的所有物品中,对每个物品预计一个可能的评级分数(利用相似度计算)。这就是说,我们预测用户对每个物品的打分 3. 对这些物品的评分从高到 ...
分类:
其他好文 时间:
2019-01-01 17:22:30
阅读次数:
239
Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。 1、实现类 2、方法: ...
分类:
其他好文 时间:
2018-12-31 00:03:30
阅读次数:
340
(一)软件功能 实现两个功能:根据主题生成歌词和辅助写歌词 根据用户给定的主题生成一段歌词,歌词表达要流畅,语句通顺,押韵 提供相关的词语和句子供用户选择,使用户在帮助下完成歌词创作 核心模型 主题生成首句模型 相似度计算 + 基于SIF加权的word2vec模型 首句生成整段歌词模型 基本的Seq ...
分类:
其他好文 时间:
2018-11-13 02:56:19
阅读次数:
311
摘要: 主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。主题模型在自然语言和基于文本的搜索上都起到非常大的作用。 引言: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关 ...
分类:
其他好文 时间:
2018-11-10 17:54:24
阅读次数:
330
1.前言 在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性。 有了文本之间相似性的度量方式,我们便可以利用划分法的K means、基于密度的DBSCAN或者是基于模型的概率方法进行文本之间的聚 ...
分类:
其他好文 时间:
2018-10-14 13:55:19
阅读次数:
270
余弦相似度计算字符串相似率 功能需求:最近在做通过爬虫技术去爬取各大相关网站的新闻,储存到公司数据中。这里面就有一个技术点,就是如何保证你已爬取的新闻,再有相似的新闻 或者一样的新闻,那就不存储到数据库中。(因为有网站会去引用其它网站新闻,或者把其它网站新闻拿过来稍微改下内容就发布到自己网站中)。 ...
分类:
编程语言 时间:
2018-08-16 00:42:08
阅读次数:
162
最近天气有点热,三伏天得了空调病,最后发现是颈椎引起的问题,期间还拔了颗顽固的智齿,也算是一波三折了。 这次介绍 Item(User)相似度 的计算方法,其广泛运用于基于邻域的协同过滤算法的推荐系统。简而言之,基于邻域,就是基于相邻的元素进行推荐,而相邻元素的得到过程就是相似度的计算过程。 对于空间 ...
分类:
其他好文 时间:
2018-08-09 13:48:05
阅读次数:
1726
TfidfVectorizer可以把原始文本转化为tf-idf的特征矩阵,从而为后续的文本相似度计算,主题模型,文本搜索排序等一系列应用奠定基础。基本应用如: https://blog.csdn.net/blmoistawinde/article/details/80816179 ...
分类:
其他好文 时间:
2018-07-22 23:28:38
阅读次数:
458