码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
升级ubuntu中的gcc和g++版本
在利用张乐博士的最大熵模型工具包(Maximum Entropy Modeling Toolkit for Python and C++)和条件随机场的经典工具包CRF++(CRF++: Yet Another CRF toolkit)进行分词的时候,发现工具包不能正常安装,从报出的错误推测是gcc的版本较低,上述工具包发布于2011年,推测使用了较新的C++11标准。我们知道C++11标准开始支...
分类:其他好文   时间:2014-08-06 01:59:30    阅读次数:151
使用NLPIR-ICTCLAS2014分词系统
使用NLPIR-ICTCLAS2014分词系统...
分类:其他好文   时间:2014-08-04 14:18:57    阅读次数:258
lucene4.7学习总结
花了一段时间学习lucene今天有时间把所学的写下来,网上有很多文章但大部分都是2.X和3.X版本的(不前最新版本4.9),希望这篇文章对自己和初学者有所帮助。    学习目录 (1)什么是lucene (2)lucene常用类详解 (3)lucene简单实例 (4)lucene常用分词器 (5)lucene多条件查询 (6)修改删除索引 (7)lucene优化、排序 (8)lu...
分类:其他好文   时间:2014-08-03 18:07:35    阅读次数:352
Windows下面安装和配置Solr 4.9(三)支持中文分词器
首先将下载解压后的solr-4.9.0的目录里面找到lucene-analyzers-smartcn-4.9.0.jar文件,将它复制到solr的应用程序里面D:\apache-tomcat-7.0.54\webapps\solr\WEB-INF\lib,备注:网上很多文章使用IK中文分词器(IK_...
分类:Windows程序   时间:2014-08-03 12:39:15    阅读次数:386
java读取中文分词工具(三)
import java.io.EOFException; import java.io.File; import java.io.FileNotFoundException; import java.io.IOException; import java.io.RandomAccessFile; import java.util.ArrayLis...
分类:编程语言   时间:2014-08-01 23:14:42    阅读次数:309
java读取中文分词工具(四)
import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.io.RandomAccessFile; import java.io.Serial...
分类:编程语言   时间:2014-08-01 23:14:32    阅读次数:271
二阶和三阶隐马尔柯夫过程(HMM)进行中文分词的效果对比
第一部分 引言         关于隐马尔柯夫模型的详细内容在此就不详细介绍了,介绍HMM模型的文章很多,请读者自行去学习。二阶隐马尔柯夫模型解决问题有两个假设:其一是当前的状态仅与它前面相邻的状态有关;其二是状态转换和从某个状态发射某个观察符号的概率与时间t无关(即不动性假设)。HMM是在这两个假设的前提下解决各种各样的问题的。        对于第二个假设,我们不去讨论它。现在来看第一...
分类:其他好文   时间:2014-08-01 20:02:22    阅读次数:372
隐马尔科夫模型(HMM)分词研究
第一部分 模型简介         隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程 ----具有一定状态数的隐马尔可夫链和显示随机函数集。自20 世纪80年代以来,HMM被应用于语音识别,取得重大成功。到了90...
分类:其他好文   时间:2014-07-29 14:38:48    阅读次数:386
danci
syntaxsyntax 英 ['s?ntæks] 美 ['s?ntæks] n. 语法;句法;有秩序的排列specified 英 ['spesifaid] 美adj. 规定的;详细说明的v. 指定;详细说明(specify的过去分词)characters 英 美 ['kær?k...
分类:其他好文   时间:2014-07-29 12:18:56    阅读次数:183
最短摘要问题
/*最短摘要问题,给一定字符串序列 wo,w1,w2,w3,op1,w4,op2,w5,op1,w6,w7,op1,op2,指定关键字符串为op1,op2,求包含关键字的最小字符串序列。常见于搜索引擎的分词,op1,op2这里没有顺序,否则就更复杂了,最短序列为op1,op2。思路:(1)第一次扫描...
分类:其他好文   时间:2014-07-25 02:21:34    阅读次数:351
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!