读取文件 获取摘要ID 大小写转换 将标点符号与单词进行分离 除去停用词 除去标点符号 单词词干化 去除低频词 ...
分类:
其他好文 时间:
2017-10-29 15:53:58
阅读次数:
210
windows服务器上,如何迁移tomcat目录1、假设tomcat目录在C:盘的D:\ApacheSoftwareFoundation\tomcat8.0,需要迁移到D盘的D:\ApacheSoftwareFoundation\tomcat8.02、停用服务里的tomcat8;找到系统里面的服务,停掉tomcat的服务。3、复制C盘的tomcat到新增的D盘(100G),删除..
一、EL(Expression Language)表达式 语法结构:${var} 若要停用对EL表达式的评估的话,需要使用page指令将isELIgnored属性值设为true: EL表达式的应用: 获取数据:用于替换Jsp中的脚本表达式,从web域中检索java对象、获取数据。 执行运算:执行一些 ...
分类:
Web程序 时间:
2017-10-22 21:51:04
阅读次数:
228
1 中文自然语言预处理 实验数据预处理(本文采用python版结巴分词) 1.对于爬取的评论做分词和词性标注处理(mac-result.txt) 2.对于结果只用公版的停用词表去停用词,不进行人工筛选(mac-result1.txt) 3.对词性进行选择,自定义保留词性,如下例子: 保留:名词,名词 ...
分类:
编程语言 时间:
2017-10-16 12:15:18
阅读次数:
278
Lucene简介 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员 ...
分类:
Web程序 时间:
2017-10-12 23:02:23
阅读次数:
264
1、firewalld的启用和关闭:开启:#systemctlstartfirewalld.service系统默认状态下防火墙是开启的,如果需要在windows上使用SSH协议、使用Xshell远程控制虚拟机上的Lcentos7,那么应该先停用、关闭防火墙。禁止开机启动防火墙:#systemctldisablefirewalld.service停止启动中的..
分类:
其他好文 时间:
2017-10-03 15:26:59
阅读次数:
125
特征处理 在文本挖掘中做了很大的努力,比如提取关键词、情感分析、word embedding聚类之类都尝试过,但效果都不是很好, 对于文本的特征的建议还是去找出一些除了停用词以外的高频词汇,寻找与这个房屋分类问题的具体联系。 到了头疼的部分了,数据有了,我们得想办法从数据里面拿到有区分度的特征。 比 ...
分类:
其他好文 时间:
2017-10-02 09:31:33
阅读次数:
160
白首相知犹按剑 前两天看到有朋友分享说,WordPress停用了react。今天,在逛知乎时看到了另一个问题别细看这图,我赌你看不懂。。。 嗯。。。用人话来说就是百度内部要求他们的程序猿不要再使用一个叫 React的开源产品的代码了。而且,现有的已经使用过这些代码的产品要改写!(其实几乎有很多要重写 ...
分类:
其他好文 时间:
2017-09-23 15:21:30
阅读次数:
209
具体实现如下,使用python+结巴分词+scikit-learn实现一个简单的文本聚类得到会议室数据,直接从DBA线上数据库得到预约数据,如下所示,共有3列,分别是会议ID,会议标题和会议时间 停用词文件stopwords.txt ...
分类:
编程语言 时间:
2017-09-15 13:57:04
阅读次数:
1778
方法1:通过组策略的扩展白名单。要下载一个组策略管理模板 1.开始 -> 运行 -> 输入gpedit.msc -> 回车确定打开计算机本地组策略编辑器(通过Win + R快捷键可以快速打开运行),如图所示: 2.在打开的本地组策略编辑器中,在左侧的树形菜单中,依次展开:计算机配置->管理模版,并右... ...
分类:
其他好文 时间:
2017-09-12 12:12:11
阅读次数:
157