搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

IK分词器使用自定义词库

1、拷贝IKAnalyzer.cfg.xml到WEB-INF/classes下，IKAnalyzer.cfg.xml内容如下： <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> ? <propertie...

分类：其他好文时间：2015-09-06 13:13:34 阅读次数：352

Here String 中不该进行分词

我们知道，在 Shell 中，一个变量在被展开后，如果它没有被双引号包围起来，那么它展开后的值还会进行一次分词（word splitting，或者叫拆词，分词这个术语已经被搜索引擎相关技术占用了）操作，分成几个词，传给命令的就是几个单独的参数。举个例子，比如：$ foo="1 2 3"$how_ma...

分类：其他好文时间：2015-09-04 14:00:36 阅读次数：195

anjs 分词器初步使用

由于ik没有歧义分词的功能，打算用anjs 对前端传递过来的数据用anjs进行分词anjs 操作文档官网地址：http://nlpchina.github.io/ansj_seg/刚刚开始由于jar包问题折腾了一会，所以将jar 共享出来jar 包下载地址：http://yunpan.cn/cmuT...

分类：Web程序时间：2015-09-01 19:53:00 阅读次数：189

计算分词的Tf-idf值

TF-IDF（termfrequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加，但同时会随著.....

分类：其他好文时间：2015-09-01 16:36:39 阅读次数：305

利用IK分词器，自定义分词规则

IK分词源码下载地址：https://code.google.com/p/ik-analyzer/downloads/listlucene源码下载地址：http://www.eu.apache.org/dist/lucene/java/下载IK分词源码后，运行出现错误提示：Analyzer cann...

分类：其他好文时间：2015-08-31 16:38:31 阅读次数：554

Python分词模块推荐：jieba中文分词

一、结巴中文分词采用的算法基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法二、结巴中文分词支持的分词模式目前结巴分词支持三种分词模式：精确模式，试图将句子最精确地切开，适...

分类：编程语言时间：2015-08-29 18:50:49 阅读次数：483

lucene Ngram 划分词语

最近在做一个有关文本挖掘的项目，需要用到Ngram模型已经相对应的向量匹配相似度的技术 Ngram分词的程序有位网友在问我，想了想写在这里吧，至于那些jar包也很好找，lucene jar ，在百度搜索都能找到 package edu.fjnu.huanghong; import java.io.IOException; import java.io.StringReader; impo...

分类：Web程序时间：2015-08-29 17:07:35 阅读次数：231

word v1.3 发布，Java 分布式中文分词组件

word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。能通过自...

分类：编程语言时间：2015-08-29 11:19:29 阅读次数：247

solr自定义分词

工作上，有需要对纯数字的字符串做分词，好像CJK二元分词器对这样的数字不会做分词，所以自己写了个分词器，分词器达到以下效果：对字符串"哈哈1234呵呵456"，分词后为：1 12 123 1234 4 45 456 Analyzer： pack...

分类：其他好文时间：2015-08-27 15:32:41 阅读次数：303

斯坦福大学自然语言处理第二课“文本处理基础（Basic Text Processing）”

文本处理基础1.正则表达式(Regular Expressions)正则表达式是重要的文本预处理工具。以下截取了部分正则写法： 2.分词（Word tokenization）我们在进行每一次文本处理时都要对文本进行统一标准化（text normalization）处理。文本规模 How many words? 我们引入变量Type和Token 分别代表词典中的元素（an...

分类：编程语言时间：2015-08-26 20:14:22 阅读次数：196

共2158条上一页 1 ... 162 163 164 165 166 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)