摘自https://www.jianshu.com/p/fdde9fc03f94 你在工作、学习中是否曾因信息过载叫苦不迭?有一种方法能够替你读海量文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间观其大略。本文使用Python对超过1000条文本做主题抽取,一步步带你体会非监督机器学习LDA方 ...
分类:
编程语言 时间:
2019-04-07 09:18:35
阅读次数:
233
基于TextCNN汽车行业评论文本的情感分析 使用卷积神经网络对汽车行业评论文本进行情感分析。 数据集 爬取汽车之家车主口碑评论文本,抽取口碑中最满意以及最不满意评论文本,分别作为正向情感语料库和负向情感语料库。 语料库基本信息如下: 预处理 utils.py为数据的预处理代码。 经过数据预处理,数 ...
分类:
其他好文 时间:
2018-11-24 14:11:55
阅读次数:
726
文本抽取工具,包括cat,tac,rev,less,head,tail,cut,paste,grep;文本分析工具,包括wc,sort,uniq,diff,patch
分类:
系统相关 时间:
2018-04-16 10:19:56
阅读次数:
174
本章内容: 1.创建Excel以及单元格的不同类型 2.读取Excel 3.文本抽取 1. 2. 3. ...
分类:
编程语言 时间:
2017-05-01 00:20:30
阅读次数:
228
首先准备一个Excle文件,有以下内容: 然后用输入流找到文件在磁盘的位置: InputStream is=new FileInputStream("f:\\学历学位数据字典.xls"); 然后依次按照取Sheet页,取行Row,取列Cell的顺序遍历Excel表 此时需要注意,对应三个判断,She ...
分类:
其他好文 时间:
2017-04-03 14:49:00
阅读次数:
179
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI,Pdfbox并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。在当前的0.2-SNAPSHOT版本中, Tika提供了对如下...
分类:
Web程序 时间:
2016-01-05 18:41:24
阅读次数:
330
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.beans.StringBean;
import org.htmlparser.filters.CssSelectorNodeFilter;
import org.htmlparser.util.NodeList;
publi...
分类:
编程语言 时间:
2015-06-25 10:27:59
阅读次数:
204
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI,Pdfbox并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。在当前的0.2-SNAPSHOT版本中, Tika提供了对如下...
分类:
Web程序 时间:
2015-05-09 23:36:09
阅读次数:
232
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。
Tika提供了对如下文件格式的支持:
PDF - 通过Pdfbox
MS-* - 通过POI
HTML - 使用nekohtml将不规范的html整...
分类:
其他好文 时间:
2015-03-30 18:54:22
阅读次数:
1111
DMCTextFilterV4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。本产..
分类:
其他好文 时间:
2014-07-24 23:48:54
阅读次数:
360