码迷,mamicode.com
首页 >  
搜索关键字:ansj    ( 44个结果
Spark 使用ansj进行中文分词
在Spark中使用ansj分词先要将ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程 ansj源码github:https://github.com/NLPchina/ansj_seg ansj下载链接:https://oss.sonatype.org/conten ...
分类:其他好文   时间:2017-12-08 19:17:12    阅读次数:917
ES搜索社区
好问题 1、比如我要索引的条目为“33分钟侦探”,我想在用户输入“3”、“33”、“三三”、“三十三”、“三十三分钟”等的情况下都命中该条目,请问有没有什么好的方式实现? PS:使用的是ansj分词器 https://elasticsearch.cn/question/1812 2、elastics ...
分类:其他好文   时间:2017-09-06 12:47:46    阅读次数:183
java对文本数据按行用冒泡法进行排序
package org.ansj.test;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStream;import java.io.Fi ...
分类:编程语言   时间:2017-07-07 22:40:49    阅读次数:199
java实现归一数据化程序
package org.ansj.test; import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWr ...
分类:编程语言   时间:2017-06-29 11:59:36    阅读次数:193
图解隐马尔科夫模型【会其意】
作为基于概率分词ansj的基础,或者是作为自然语言处理的入门理论学习资料 ...
分类:其他好文   时间:2017-06-18 20:48:59    阅读次数:212
利用中文数据跑Google开源项目word2vec
word2vec注释 1、多线程并行处理: 1、分配内存空间,创建多线程,执行多线程。malloc,pthread_create,pthread_join 2、每个多线程处理的训练文档根据线程id,分配不同的文档内容,由fseek定位 2、vocab相关: 1、每个vocab对象都含以下内容:词(c ...
分类:其他好文   时间:2017-05-11 16:54:46    阅读次数:617
ansj构造最短路径
一、前言 上节介绍了ansj的原子切分和全切分。切分完成之后,就要构建最短路径,得到分词结果。 以“商品和服务”为例,调用ansj的标准分词: String str = "商品和服务" ; Result result = ToAnalysis.parse(str); System.out.print ...
分类:其他好文   时间:2017-03-31 21:31:24    阅读次数:321
ansj中文分词说明
Ansj分词 这是一个基于n-Gram+条件随机场模型的中文分词的java实现. 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上 目前实现了.中文分词. 中文姓名识别 . 用户自定义词典 可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目. 源码:https://github.com/NLPchina/ansj_seg...
分类:其他好文   时间:2016-06-21 07:34:12    阅读次数:897
java分词工具-ANSJ与IKAnalyzer比较分析
最近做情感分析,想研究下具体哪个java分词工具好,于是测试了ANSJ和IKAnalyzer的比较: 都是用了默认值,没有进行添加词库和停用词。 ANSJ的代码:scala调用。 /** * 中文分词 * example : println("segment分词测试") val stopWords ...
分类:编程语言   时间:2016-06-01 18:13:12    阅读次数:3104
商品搜索引擎---分词(插件介绍与入门实例)
最近刚好在学习搜索引擎分词,有了解一些分词插件,在这里给各位猿友分享一下。本文主要介绍四个分词插件(ICTCLAS、IKAnalyzer、Ansj、Jcseg)和一种自己写算法实现的方式,以及一些词库的推荐。一、ICTCLAS1.1、介绍中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Com...
分类:其他好文   时间:2016-04-19 06:32:52    阅读次数:496
44条   上一页 1 2 3 4 5 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!