这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一...
分类:
其他好文 时间:
2016-03-10 12:34:47
阅读次数:
304
上一次,我用TF-IDF算法自动提取关键词。 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,...
分类:
其他好文 时间:
2016-03-10 12:24:36
阅读次数:
175
利用sklearn计算文本相似性,并将文本之间的相似度矩阵保存到文件当中。这里提取文本TF-IDF特征值进行文本的相似性计算。 #!/usr/bin/python # -*- coding: utf-8 -*- import numpy import os import sys from sklea
分类:
其他好文 时间:
2016-03-08 00:01:24
阅读次数:
2085
本篇blog是利用Python进行文章特征提取的续篇,主要介绍构建带TF-IDF权重的文章特征向量。 In [1]: # 带TF-IDF权重的扩展词库 # 在第一篇文档里 主要是利用词库模型简单判断单词是否在文档中出现。然而与单词的顺序、频率无关。然后词的频率对文档更有意义。因此本文将词频加入特征向
分类:
编程语言 时间:
2016-02-27 19:22:40
阅读次数:
252
阅读目录 题目 分析 题目 回到顶部 分析 这种编码你们见过吗?反正我见过 这其实是JavaScript代码 参考: 原理 -- 原理 实例 将题目的编码复制,打开google浏览器F12召唤出开发模式,在控制台粘贴复制的编码 -->回车... ... 不行,话说google浏览器不是屌的吗! 果断
分类:
其他好文 时间:
2016-02-23 13:06:15
阅读次数:
169
阅读目录题目分析总结题目回到顶部分析打开题目所给链接,页面内容是一串看不懂且非常长的字符串。看似像md5值(没见过这么长的md5)观察url地址栏的链接,多了两个参数 "line" 和 "file" 。都知道 url参数的传递都是base64编码"line" 值为空"file" 值为 ZmxhZy5...
分类:
其他好文 时间:
2016-01-23 18:03:51
阅读次数:
257
1.说几种距离测度Mahout:欧式距离测度;平方欧式距离测度;曼哈顿距离测度;余弦距离测度;加权距离测度2.K-means算法参数:3.TF-IDF加权公式:4.聚类是什么?聚类是一种无监督的机器学习任务,可以自动将数据划分成类cluster。并不需要提前告知所划分的组是什么样的,因为我们可能都不...
分类:
其他好文 时间:
2016-01-18 22:20:54
阅读次数:
339
原文链接:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请...
分类:
其他好文 时间:
2016-01-13 19:24:23
阅读次数:
156
阅读目录题目分析题目 回到顶部分析右击将图片另存为到了我的Kail linux的一个project根目录下。现在进行分析!根据题意,图片估计是隐匿技术(隐匿技术可以将其他信息藏在图片里),我先使用cat命令进行查看,结果如下 网上搜索了一下这个隐匿技术,如果要想查看必须用到Binwalk后门...
分类:
其他好文 时间:
2016-01-07 13:21:01
阅读次数:
180
阅读目录题目开始分析寻找附件数据还原附件数据处理还原的数据附件再次寻找附件数据题目题目给出的网盘链接,点击进入将文件下载到本地,文件名 "misc_fly.pcapng",这是一个抓包软件抓取的数据包回到顶部开始分析使用wireshark分析数据包打开数据包,发现基本上都是TCP的包和HTTP。其他...
分类:
其他好文 时间:
2016-01-06 23:20:03
阅读次数:
501