jiebaR 中文分词详解 一、 分词 实现来看一下jiebaR 里面最重要的一个函数worker,通过它,我们可以设置一些分词类型,用户字典,停用词等等,函数语法为: 参数注释: ...
分类:
其他好文 时间:
2018-08-09 12:16:40
阅读次数:
177
针对类加载器的分类与说明 一.类加载器的分类: 1.系统提供的类加载器 1.BootStarp(引导类加载器):负责加载java核心类库,不继承自ClassLoader加载器; 2.Extension(扩展类加载器):负责加载java扩展库(例如sun公司专门为连接数据库设计的JDBC的一组API) ...
分类:
其他好文 时间:
2018-08-04 11:35:49
阅读次数:
147
启动一个down状态的网卡并设置临时IP: 删除网卡的临时IP地址: 停用网卡: ...
分类:
其他好文 时间:
2018-07-27 21:09:37
阅读次数:
260
文本 文本预处理 1. 中文分词:分词工具: "jieba" / "snownlp" /...,是否需要去除停用词? 2. word embedding:工具:word2vec/ doc2vec/ TF IDF/ CountVectorizer/ HashVectorizer/ ....作为模型输入 ...
分类:
其他好文 时间:
2018-07-23 19:57:03
阅读次数:
182
选择最有效率的表名顺序 WHERE子句中的连接顺序 SELECT子句中避免使用'*' 字符型字段必须加单引号 减少访问数据库的次数 ARRAYSIZE参数设置 使用DECODE函数可以避免重复扫描相同记录或重复连接相同的表 你可以用decode函数高效地得到相同结果 'x'表示任何一个字段。类似的, ...
分类:
数据库 时间:
2018-07-18 00:37:41
阅读次数:
225
1、去除网页的标签,如<br/> 2、将标点符号等去掉,用正则表达式。 3、将文本中的单词小写化,并将data用空格分开 4、去掉停用词 5、将所有的词连接成一个句子 ...
分类:
编程语言 时间:
2018-07-17 21:46:08
阅读次数:
233
10.19 iptables规则备份和恢复 [root@hyc-01-01 ~]# service iptables save 保存iptables规则该命令会将规则保存在/etc/sysconfig/iptables 将iptables规则备份到一个文件中[root@hyc-01-01 ~]# iptables-save>/tmp/ipt.txt将iptables规则备
分类:
其他好文 时间:
2018-07-16 23:15:10
阅读次数:
238
$('a.tooltip').live('click', function(event) { 2 alert("抱歉,已停用!"); 3 event.preventDefault(); ...
分类:
Web程序 时间:
2018-07-11 15:06:45
阅读次数:
3447
NLTK是python环境中的一个非常流行的NLP库,这篇记录主要记录NLTK的一些常见操作 1.去除网页html标记 我们常常通过爬虫获取网页信息,然后需要去除网页的html标签。为此我们可以这么做: 2.统计词频 这里使用的tokens就是上面图中的tokens 3.去除停用词 停用词就是类似t ...
分类:
Web程序 时间:
2018-07-09 11:18:34
阅读次数:
254