整理笔记时,某人在看老九门,so 选它作例子。分析文本内容基本的步骤:提取文本中的词语 -> 统计词语频率 -> 词频属性可视化。词频:能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词云:让词语的频率属性可视化,更加直观清晰。文本下载地址(http://www.yuand ...
分类:
其他好文 时间:
2016-08-19 00:39:24
阅读次数:
288
使用正则表达式提取文本数据到内存是很方便的技术,下面通过一个例子介绍一下如何使用正则表达式提取文本文本中内容格式1,2,3,4,52,2,2,2,23,3,3,3,3C#代码如下publicList<List<string>>GetDataCSV(stringpath)
{
stringpattern=@"\d+";
List<List<string&g..
曾经为了实现pdf的转化测试了太多的文件,导致现在我自己都有点晕了。 再者就是从cnki下载的pdf文件不知道为什么用pdf2htmlEX无法转化。 xpdf xpdf的使用:参考链接 http://blog.csdn.net/jiang1984j/article/details/5757427 和 ...
分类:
Web程序 时间:
2016-05-10 12:50:59
阅读次数:
1117
使用Jsoup来对html进行处理比较方便,你可能会用它来提取文本或清理html标签。如果你想提取文本时保留标签,可以使用Jsoup.clean方法,参数为html及标签白名单: 但是使用时发现对于html片段,上面返回的结果可能令人意想不到。 另外的方式为将标签进行urlencode转换: 之后再 ...
分类:
Web程序 时间:
2016-04-10 21:18:07
阅读次数:
1764
利用sklearn计算文本相似性,并将文本之间的相似度矩阵保存到文件当中。这里提取文本TF-IDF特征值进行文本的相似性计算。 #!/usr/bin/python # -*- coding: utf-8 -*- import numpy import os import sys from sklea
分类:
其他好文 时间:
2016-03-08 00:01:24
阅读次数:
2085
http://tool.chinaz.com/regex/ [\u4e00-\u9fa5]+\s*[,!?:]*[\u4e00-\u9fa5]+[,!?:]* tool.chinaz>切额地方地,方!<.com|ddd//大声夺地d在在地 方!:88 [\u4e00-\u9fa5] : 表示一下汉字...
分类:
其他好文 时间:
2016-02-04 11:38:20
阅读次数:
157
以下代码在 python 3.5 + jupyter notebook 中运行测试无误!# 我们爬取网页的目的,无非是先定位到DOM树的节点,然后取其文本或属性值myPage = ''' TITLE 我的博客 我的文章 ...
分类:
其他好文 时间:
2015-12-27 08:27:45
阅读次数:
189
KNN算法实现:提取文本:importnumpyasnp
//提取文本
defloadDataSet(fileName):
numFeat=len(open(fileName).readline().split(‘,‘))
dataMat=[];labelMat=[]
fr=open(fileName)
forlineinfr.readlines():
lineArr=[]
line=line.strip()
curline=line.split(‘,‘)
foriinrange..
分类:
编程语言 时间:
2015-09-14 16:53:03
阅读次数:
331
1.PDFBox的IKVM版本:据我所知,目前只有PDFBox的IKVM版本能比较好地从PDF中提取文本,PDFBOX更多信息请访问http://www.pdbox.org,关于其应用实例,可以参考CodeProject上的:http://www.codeproject.com/csharp/pdf...
分类:
Web程序 时间:
2015-05-29 09:53:04
阅读次数:
147
分词的目的是将测试文本按一定的根据一定的规则进行分词处理[2];便于提取文本的特征值,为文本提供特征值对比的词组。英文词组是以单词为单位,以空格为分隔,在分词上具有巨大的便利性,相对而言中文因为自身常以词语、短语、俗语等表现形式,因此中文分词具有很大的不确定性。我国经过多年的发展已经取得巨大的成就,...
分类:
其他好文 时间:
2015-05-19 20:45:56
阅读次数:
172