码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
基于信息熵的无字典分词算法
这几天在研究如何用统计方法来发现新词,扩充自己的词典。看到了几篇很有想法的文章,作者阐述了一下思路。文章里面的数据,我计算了一下,发现文有很多数据不够严谨,最主要的问题,并没有给出很详细的理论方面的说明。结合作者的思路,我进行了如下数学模型的构建和算法的实现。一、概念介绍1、词语分片设一个文档集.....
分类:编程语言   时间:2015-12-03 00:15:40    阅读次数:463
FAQ Robot
FAQ Robot智能问答机器人的后台可以直接将业务问答知识导入,从而构建一个基于业务知识库的智能问答机器人。换句话说,机器人除了正常的聊天,主要是“我的产品”的智能服务人员。FAQ RobotFAQ Robot系统的关键技术涉及三个主要方面:基于自然语言理解的语义检索技术(包括分词、句法分析、容错...
分类:其他好文   时间:2015-12-02 14:40:08    阅读次数:164
lucene教程
1234AnalyzerTool分词工具.非常实用!可以查看某串字符最终被分割成什么样子,这样便于查询时深刻明白为什么有的查不到有的却能查到.package com.isoftstone.www.tool;import java.io.IOException;import java.io.Strin...
分类:Web程序   时间:2015-12-01 09:36:44    阅读次数:226
R语言:用简单的文本处理方法优化我们的读书体验
延续之前的用R语言读琅琊榜小说,继续讲一下利用R语言做一些简单的文本处理、分词的事情。其实就是继续讲一下用R语言读书的事情啦,讲讲怎么用它里面简单的文本处理方法,来优化我们的读书体验,如果读邮件和读代码也算阅读的话。。用的代码超级简单,不涉及其他包
分类:编程语言   时间:2015-11-29 23:03:29    阅读次数:666
垂直搜索引擎中的分词系统
分词系统的框架与实现介绍---本文适合对搜索引擎有良好概念的读者(原创)关键字:搜索引擎,分词,Lucene国内垂直领域的电商或者信息分享类应用都处于高速发展期,其对内容快速搜索的需求越来越强烈,对于能适应自己业务应用的搜索引擎解决方案也越来越重视。同时,通用的可选开源搜索引擎框架或解决方案也越来越...
分类:其他好文   时间:2015-11-26 15:17:08    阅读次数:254
ElasticSearch中分词器组件配置详解
首先要明确一点,ElasticSearch是基于Lucene的,它的很多基础性组件,都是由ApacheLucene提供的,而es则提供了更高层次的封装以及分布式方面的增强与扩展。所以要想熟练的掌握的关于es中分词方面的知识,一定得先从Lucene抓起,否则只会是丈二和尚摸不着头脑,当然我们大多数开..
分类:其他好文   时间:2015-11-24 06:30:38    阅读次数:163
ICTCLA中科院分词工具用法(java)
摘要:为解决中文搜索的问题,最开始使用PHP版开源的SCWS,但是处理人名和地名时,会出现截断人名地名出现错误。开始使用NLPIR分词,在分词准确性上效果要比SCWS好。本文介绍如何在windows系统下编译JAVA,生成可以执行的jar文件。NLPIR的下载地址:http://ictclas.nl...
分类:编程语言   时间:2015-11-18 12:02:30    阅读次数:301
11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个:1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也...
分类:编程语言   时间:2015-11-15 06:20:48    阅读次数:422
elasticsearch安装中文插件ik
好久没写博文了,最近一直加班做项目,正在做搜索方面的工作,因此测试了一下es,经过无数次失败,终于成功安装了es+ik从网上找了无数的安装方法都是一样,安装不成功es2.0安装es官方网站下载es2,解压后即可执行,可暂时不配置,本人只修改了数据和日志的路径下载ikhttps://gi..
分类:其他好文   时间:2015-11-14 07:39:34    阅读次数:234
通过lucene的StandardAnalyzer分析器来了解分词
本文转载http://blog.csdn.net/jspamd/article/details/8194919 不同的Lucene分析器Analyzer,它对TokenStream进行分词的方法是不同的,这需要根据具体的语言来选择。比如英文,一般是通过空格来分割词条,而中文汉字则不能通过这种方式,....
分类:Web程序   时间:2015-11-12 19:43:09    阅读次数:373
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!