码迷,mamicode.com
首页 >  
搜索关键字:文本相似度    ( 52个结果
【Pyhton 数据分析】通过gensim进行文本相似度分析
环境描述 Python环境:Python 3.6.1 系统版本:windows7 64bit 文件描述 一共有三个文件,分别是:file_01.txt、file_02.txt、file_03.txt file_01.txt文件内容: 我吃过糖之后,发现我的牙齿真的很疼 file_02.txt文件内容... ...
分类:其他好文   时间:2018-05-06 00:19:47    阅读次数:412
NLP文本相似度(TF-IDF)
本篇博文是数据挖掘部分的首篇,思路主要是先聊聊相似度的理论部分,下一篇是代码实战。 我们在比较事物时,往往会用到“不同”,“一样”,“相似”等词语,这些词语背后都涉及到一个动作——双方的比较。只有通过比较才能得出结论,究竟是相同还是不同。但是万物真的有这么极端的区分吗?在我看来不是的,生活中通过“相 ...
分类:其他好文   时间:2018-01-14 16:42:35    阅读次数:1523
java实现 比较两个文本相似度-- java 中文版 simHash 实现 ,
比较两个文本的相似度 这里采用 simHash 算法 ; 分词是 基于 http://hanlp.linrunsoft.com/ 的开源 中文分词包 来实现分词 ; 实现效果图: 直接上源码: https://pan.baidu.com/s/1hr4ymKs kbih ...
分类:编程语言   时间:2017-12-03 16:29:48    阅读次数:889
simhash和minhash实现理解
> 文本相似度算法## minhash```1. 把文档A分词形成分词向量L2. 使用K个hash函数,然后每个hash将L里面的分词分别进行hash,然后得到K个被hash过的集合3. 分别得到K个集合中的最小hash,然后组成一个长度为K的hash集合4. 最后用Jaccard index求出两... ...
分类:其他好文   时间:2017-11-30 23:35:09    阅读次数:411
LSF-SCNN:一种基于 CNN 的短文本表达模型及相似度计算的全新优化模型
本篇文章是我在读期间,对自然语言处理中的文本相似度问题研究取得的一点小成果。有任何问题,欢迎交流。 ...
分类:其他好文   时间:2017-11-29 19:40:47    阅读次数:235
谷歌PageRank算法
1. 从Google网页排序到PageRank算法 (1)谷歌网页怎么排序? 先对搜索关键词进行分词,如“技术社区”分词为“技术”和“社区”; 根据建立的倒排索引返回同时包含分词后结果的网页; 将返回的网页相关性(类似上篇文章所讲的文本相似度)网页,相关性越高排名越靠前 (2)怎么处理垃圾网页?那么 ...
分类:编程语言   时间:2017-09-25 21:53:16    阅读次数:242
word2vec中文类似词计算和聚类的使用说明及c语言源代码
word2vec相关基础知识、下载安装參考前文:word2vec词向量中文文本相似度计算 文件夹: word2vec使用说明及源代码介绍 1.下载地址2.中文语料3.參数介绍4.计算相似词语5.三个词预測语义语法关系6.关键词聚类 1、下载地址 官网C语言下载地址:http://word2vec.g ...
分类:编程语言   时间:2017-08-13 15:19:15    阅读次数:258
python 用gensim进行文本相似度分析
http://blog.csdn.net/chencheng126/article/details/50070021 参考于这个博主的博文。 原理 1、文本相似度计算的需求始于搜索引擎。 搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度,从而把最相似的排在最前返回给用户。 2、主要使用 ...
分类:编程语言   时间:2017-05-21 19:40:52    阅读次数:370
【NLP】Python实例:基于文本相似度对申报项目进行查重设计
关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起到一定纠正作用。单位主要针对科技项目申报审核,传统的方式人力物力比较大,且伴随季度性的繁重工作,效率不高。基于此,单位觉得开发一款可以达到实用的智能查重系统。遍及网络文献,终未得到有价值的参考资料,这个也... ...
分类:编程语言   时间:2017-05-18 18:50:48    阅读次数:1052
Python 文本相似度分析
环境 Anaconda3 Python 3.6, Window 64bit 目的 利用 jieba 进行分词,关键词提取 利用gensim下面的corpora,models,similarities 进行语料库建立,模型tfidf算法,稀疏矩阵相似度分析 代码 # -*- coding: utf-8 ...
分类:编程语言   时间:2017-03-29 21:02:54    阅读次数:411
52条   上一页 1 2 3 4 5 6 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!