1、拷贝IKAnalyzer.cfg.xml到WEB-INF/classes下,IKAnalyzer.cfg.xml内容如下: <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> ? <propertie...
分类:
其他好文 时间:
2015-09-06 13:13:34
阅读次数:
352
我们知道,在 Shell 中,一个变量在被展开后,如果它没有被双引号包围起来,那么它展开后的值还会进行一次分词(word splitting,或者叫拆词,分词这个术语已经被搜索引擎相关技术占用了)操作,分成几个词,传给命令的就是几个单独的参数。举个例子,比如:$ foo="1 2 3"$how_ma...
分类:
其他好文 时间:
2015-09-04 14:00:36
阅读次数:
195
由于ik没有歧义分词的功能,打算用anjs 对前端传递过来的数据用anjs进行分词anjs 操作文档官网地址:http://nlpchina.github.io/ansj_seg/刚刚开始由于jar包问题折腾了一会,所以将jar 共享出来jar 包下载地址:http://yunpan.cn/cmuT...
分类:
Web程序 时间:
2015-09-01 19:53:00
阅读次数:
189
TF-IDF(termfrequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著.....
分类:
其他好文 时间:
2015-09-01 16:36:39
阅读次数:
305
IK分词源码下载地址:https://code.google.com/p/ik-analyzer/downloads/listlucene源码下载地址:http://www.eu.apache.org/dist/lucene/java/下载IK分词源码后,运行出现错误提示:Analyzer cann...
分类:
其他好文 时间:
2015-08-31 16:38:31
阅读次数:
554
一、结巴中文分词采用的算法
基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法
二、结巴中文分词支持的分词模式
目前结巴分词支持三种分词模式:
精确模式,试图将句子最精确地切开,适...
分类:
编程语言 时间:
2015-08-29 18:50:49
阅读次数:
483
最近在做一个有关文本挖掘的项目,需要用到Ngram模型已经相对应的向量匹配相似度的技术
Ngram分词的程序
有位网友在问我,想了想写在这里吧,至于那些jar包也很好找,lucene jar ,在百度搜索都能找到
package edu.fjnu.huanghong;
import java.io.IOException;
import java.io.StringReader;
impo...
分类:
Web程序 时间:
2015-08-29 17:07:35
阅读次数:
231
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自...
分类:
编程语言 时间:
2015-08-29 11:19:29
阅读次数:
247
工作上,有需要对纯数字的字符串做分词,好像CJK二元分词器对这样的数字不会做分词,所以自己写了个分词器,分词器达到以下效果:对字符串"哈哈1234呵呵456",分词后为:1 12 123 1234 4 45 456 Analyzer: pack...
分类:
其他好文 时间:
2015-08-27 15:32:41
阅读次数:
303
文本处理基础1.正则表达式(Regular Expressions)正则表达式是重要的文本预处理工具。
以下截取了部分正则写法:
2.分词(Word tokenization)
我们在进行每一次文本处理时都要对文本进行统一标准化(text normalization)处理。文本规模 How many words?
我们引入变量Type和Token
分别代表词典中的元素(an...
分类:
编程语言 时间:
2015-08-26 20:14:22
阅读次数:
196