在利用张乐博士的最大熵模型工具包(Maximum Entropy Modeling Toolkit for Python and C++)和条件随机场的经典工具包CRF++(CRF++: Yet Another CRF toolkit)进行分词的时候,发现工具包不能正常安装,从报出的错误推测是gcc的版本较低,上述工具包发布于2011年,推测使用了较新的C++11标准。我们知道C++11标准开始支...
分类:
其他好文 时间:
2014-08-06 01:59:30
阅读次数:
151
使用NLPIR-ICTCLAS2014分词系统...
分类:
其他好文 时间:
2014-08-04 14:18:57
阅读次数:
258
花了一段时间学习lucene今天有时间把所学的写下来,网上有很多文章但大部分都是2.X和3.X版本的(不前最新版本4.9),希望这篇文章对自己和初学者有所帮助。
学习目录
(1)什么是lucene
(2)lucene常用类详解
(3)lucene简单实例
(4)lucene常用分词器
(5)lucene多条件查询
(6)修改删除索引
(7)lucene优化、排序
(8)lu...
分类:
其他好文 时间:
2014-08-03 18:07:35
阅读次数:
352
首先将下载解压后的solr-4.9.0的目录里面找到lucene-analyzers-smartcn-4.9.0.jar文件,将它复制到solr的应用程序里面D:\apache-tomcat-7.0.54\webapps\solr\WEB-INF\lib,备注:网上很多文章使用IK中文分词器(IK_...
import java.io.EOFException;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.RandomAccessFile;
import java.util.ArrayLis...
分类:
编程语言 时间:
2014-08-01 23:14:42
阅读次数:
309
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.RandomAccessFile;
import java.io.Serial...
分类:
编程语言 时间:
2014-08-01 23:14:32
阅读次数:
271
第一部分 引言
关于隐马尔柯夫模型的详细内容在此就不详细介绍了,介绍HMM模型的文章很多,请读者自行去学习。二阶隐马尔柯夫模型解决问题有两个假设:其一是当前的状态仅与它前面相邻的状态有关;其二是状态转换和从某个状态发射某个观察符号的概率与时间t无关(即不动性假设)。HMM是在这两个假设的前提下解决各种各样的问题的。
对于第二个假设,我们不去讨论它。现在来看第一...
分类:
其他好文 时间:
2014-08-01 20:02:22
阅读次数:
372
第一部分 模型简介
隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程 ----具有一定状态数的隐马尔可夫链和显示随机函数集。自20 世纪80年代以来,HMM被应用于语音识别,取得重大成功。到了90...
分类:
其他好文 时间:
2014-07-29 14:38:48
阅读次数:
386
syntaxsyntax 英 ['s?ntæks] 美 ['s?ntæks] n. 语法;句法;有秩序的排列specified 英 ['spesifaid] 美adj. 规定的;详细说明的v. 指定;详细说明(specify的过去分词)characters 英 美 ['kær?k...
分类:
其他好文 时间:
2014-07-29 12:18:56
阅读次数:
183
/*最短摘要问题,给一定字符串序列 wo,w1,w2,w3,op1,w4,op2,w5,op1,w6,w7,op1,op2,指定关键字符串为op1,op2,求包含关键字的最小字符串序列。常见于搜索引擎的分词,op1,op2这里没有顺序,否则就更复杂了,最短序列为op1,op2。思路:(1)第一次扫描...
分类:
其他好文 时间:
2014-07-25 02:21:34
阅读次数:
351