环境描述 Python环境:Python 3.6.1 系统版本:windows7 64bit 文件描述 一共有三个文件,分别是:file_01.txt、file_02.txt、file_03.txt file_01.txt文件内容: 我吃过糖之后,发现我的牙齿真的很疼 file_02.txt文件内容... ...
分类:
其他好文 时间:
2018-05-06 00:19:47
阅读次数:
412
本篇博文是数据挖掘部分的首篇,思路主要是先聊聊相似度的理论部分,下一篇是代码实战。 我们在比较事物时,往往会用到“不同”,“一样”,“相似”等词语,这些词语背后都涉及到一个动作——双方的比较。只有通过比较才能得出结论,究竟是相同还是不同。但是万物真的有这么极端的区分吗?在我看来不是的,生活中通过“相 ...
分类:
其他好文 时间:
2018-01-14 16:42:35
阅读次数:
1523
比较两个文本的相似度 这里采用 simHash 算法 ; 分词是 基于 http://hanlp.linrunsoft.com/ 的开源 中文分词包 来实现分词 ; 实现效果图: 直接上源码: https://pan.baidu.com/s/1hr4ymKs kbih ...
分类:
编程语言 时间:
2017-12-03 16:29:48
阅读次数:
889
> 文本相似度算法## minhash```1. 把文档A分词形成分词向量L2. 使用K个hash函数,然后每个hash将L里面的分词分别进行hash,然后得到K个被hash过的集合3. 分别得到K个集合中的最小hash,然后组成一个长度为K的hash集合4. 最后用Jaccard index求出两... ...
分类:
其他好文 时间:
2017-11-30 23:35:09
阅读次数:
411
本篇文章是我在读期间,对自然语言处理中的文本相似度问题研究取得的一点小成果。有任何问题,欢迎交流。 ...
分类:
其他好文 时间:
2017-11-29 19:40:47
阅读次数:
235
1. 从Google网页排序到PageRank算法 (1)谷歌网页怎么排序? 先对搜索关键词进行分词,如“技术社区”分词为“技术”和“社区”; 根据建立的倒排索引返回同时包含分词后结果的网页; 将返回的网页相关性(类似上篇文章所讲的文本相似度)网页,相关性越高排名越靠前 (2)怎么处理垃圾网页?那么 ...
分类:
编程语言 时间:
2017-09-25 21:53:16
阅读次数:
242
word2vec相关基础知识、下载安装參考前文:word2vec词向量中文文本相似度计算 文件夹: word2vec使用说明及源代码介绍 1.下载地址2.中文语料3.參数介绍4.计算相似词语5.三个词预測语义语法关系6.关键词聚类 1、下载地址 官网C语言下载地址:http://word2vec.g ...
分类:
编程语言 时间:
2017-08-13 15:19:15
阅读次数:
258
http://blog.csdn.net/chencheng126/article/details/50070021 参考于这个博主的博文。 原理 1、文本相似度计算的需求始于搜索引擎。 搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度,从而把最相似的排在最前返回给用户。 2、主要使用 ...
分类:
编程语言 时间:
2017-05-21 19:40:52
阅读次数:
370
关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起到一定纠正作用。单位主要针对科技项目申报审核,传统的方式人力物力比较大,且伴随季度性的繁重工作,效率不高。基于此,单位觉得开发一款可以达到实用的智能查重系统。遍及网络文献,终未得到有价值的参考资料,这个也... ...
分类:
编程语言 时间:
2017-05-18 18:50:48
阅读次数:
1052
环境 Anaconda3 Python 3.6, Window 64bit 目的 利用 jieba 进行分词,关键词提取 利用gensim下面的corpora,models,similarities 进行语料库建立,模型tfidf算法,稀疏矩阵相似度分析 代码 # -*- coding: utf-8 ...
分类:
编程语言 时间:
2017-03-29 21:02:54
阅读次数:
411