码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
HanLP自然语言处理包开源(包含源码)
支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)。提供Lucene插件,兼容L...
分类:编程语言   时间:2016-01-06 18:03:58    阅读次数:4341
PHP中文分词的简单实现
对于中文搜索引擎来说, 中文分词是整个系统最基础的部分之一, 因为目前基于单字的中文搜索算法并不是太好。 当然, 本文不是要对中文搜索引擎做研究, 而是分享如果用 PHP 做一个站内搜索引擎。 本文是这个系统中的一篇。我使用的分词工具是中科院计算所的开源版本的 ICTCLAS。 另外还有开源的 Ba...
分类:Web程序   时间:2016-01-05 22:16:24    阅读次数:217
中文分词——正向最大匹配法
中文分词应用非常广泛,网上也有非常多开源项目。我在这里主要讲一下中文分词里面算法的简单实现,废话不多说了,如今先上代码package com;import java.util.ArrayList;import java.util.List;public class Segmentation1 { p...
分类:其他好文   时间:2016-01-03 12:49:01    阅读次数:185
Sphinx+MySQL5.1x+SphinxSE+mmseg中文分词
什么是SphinxSphinx 是一个全文检索引擎,一般而言,Sphinx是一个独立的搜索引擎,意图为其它应用提供快速、低空间占用、高结果相关度的全文搜索功能。Sphinx能够很easy的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持。也支持从标准输入...
分类:数据库   时间:2016-01-01 16:59:14    阅读次数:304
Lucene的数值索引以及范围查询
对文本搜索引擎的倒排索引(数据结构和算法)、评分系统、分词系统都清楚掌握之后,本人对数值索引和搜索一直有很大的兴趣,最近对Lucene对数值索引和范围搜索做了些学习,并将主要内容整理如下:1. Lucene不直接支持数值(以及范围)的搜索,数值必须转换为字符(串);2. Lucene搜索数值的初步....
分类:Web程序   时间:2015-12-30 13:33:31    阅读次数:1434
python 语料处理(从文件夹中读取文件夹中文件,分词,去停用词,去单个字)
# -*- coding:utf8 -*-import osimport jiebadef splitSentence(inputFile): fin = open(inputFile, 'r') #以读的方式打开文件 g...
分类:编程语言   时间:2015-12-28 11:46:41    阅读次数:582
javaEE之---------过滤敏感词(filter)
我们在聊天的时候的或者留言的时候,有部分词是不允许发表出来。我们可以采用过滤器实现这个功能。 我们只是简单利用过滤器实现这个过滤的功能,有些地方没写的很全 前台代码: " method="post"> 姓名: 留言内容: Servlet里面的代码: 仅仅只是把从前台收的数据读取出来。看里面的敏感词是都过...
分类:编程语言   时间:2015-12-24 10:44:41    阅读次数:205
中文分词技术一:概念
分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。当然,我们在进行数据挖掘、精准推荐和自然语言处理工作中也会经常用到中文分词技术。一、为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉...
分类:其他好文   时间:2015-12-24 02:07:07    阅读次数:327
在Hadoop上运行基于RMM中文分词算法的MapReduce程序
原文:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/在Hadoop上运行基于RMM中文分词算法的MapReduce程序23条回复我知道这个文章标题很“学术”化,很俗,让人看起来是一篇很牛B或者...
分类:编程语言   时间:2015-12-19 23:04:58    阅读次数:426
Solr:文本分析
文本分析时搜索引擎的核心工作之一,对文本包含许多处理步骤,比如:分词、大写转小写、词干化、同义词转化等。简单的说,文本分析就说将一个文本字段的值转为一个一个的token,然后被保存到Lucene的索引结构中被将来搜索用。当然,文本分析不仅在建立索引时有用,在查询时对对所输入的查询串也一样可以进行文本...
分类:其他好文   时间:2015-12-18 16:38:59    阅读次数:246
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!