搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

ECSHOP模糊分词搜索和商品列表关键字飘红功能

ECSHOP联想下拉框1、修改page_header.lbi模版文件，将搜索文本框修改为：ecshop" class="search-input" onfocus="if(this.value=='ecshop'){this.value='';this.style.color='#000';}" ....

分类：其他好文时间：2015-05-22 00:15:03 阅读次数：399

利用word分词通过计算词的语境来获得相关词

我们如何通过计算词的语境来获得相关词呢？语境的定义是：在一段文本中，任意一个词的语境由它的前N个词和后N个词组成。相关词的定义是：如果两个词的语境越相似，那么这两个词就越相似，也就越相关。算法由两...

分类：其他好文时间：2015-05-21 20:01:33 阅读次数：170

利用word分词来对文本进行词频统计

word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能命令行脚本的调用方法如下：将需要统计词频的文本写入文件：text.txt chmod?+x?wfs.sh?&?wfs.sh?-textFile=text.txt?-st...

分类：其他好文时间：2015-05-21 15:44:47 阅读次数：664

利用word分词来计算文本相似度

word分词提供了两种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String?text1?=?"我爱学...

分类：其他好文时间：2015-05-20 08:20:25 阅读次数：109

文本分词

分词的目的是将测试文本按一定的根据一定的规则进行分词处理[2]；便于提取文本的特征值，为文本提供特征值对比的词组。英文词组是以单词为单位，以空格为分隔，在分词上具有巨大的便利性，相对而言中文因为自身常以词语、短语、俗语等表现形式，因此中文分词具有很大的不确定性。我国经过多年的发展已经取得巨大的成就，...

分类：其他好文时间：2015-05-19 20:45:56 阅读次数：172

编程算法 - 字典分词代码(C)

字典分词代码(C)本文地址:http://blog.csdn.net/caroline_wendy给定字典, 给定一句话, 进行分词.使用深度遍历(DFS)的方法.使用一个參数string, 保存当前分支的分词后的句子; 使用一个參数vector, 保存全部可能的组合.使用一个验证函数, 推断句子...

分类：编程语言时间：2015-05-18 12:32:33 阅读次数：143

IKAnalyzer中文分词法

package my.IKAnalyzer;import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.io.StringReader;import java.util.Vector;import org.wltea.analyz...

分类：其他好文时间：2015-05-18 09:09:43 阅读次数：135

lucene 查询的使用

各种查询方式一：使用QueryParser与查询语法。（会使用分词器）MultiFieldQueryParser查询字符串 ------------------------> Query对象例如：上海 AND 天气上海 OR 天气上海新闻 AND site:news.163.com...方式二：直接...

分类：Web程序时间：2015-05-17 18:37:26 阅读次数：120

lucene+盘古分词

一般的网站都会有都会有搜索的功能，一般实现搜索主要有三种方案第一种是最差的，也是最不推荐的，使用数据库的模糊查询例如select * form table where 字段 like XXX,这种查询的缺点很明显：（1）无法查找几个关键词不连在一起的情况（2）全表扫描效率低下第二种：使用Sql...

分类：Web程序时间：2015-05-14 21:58:13 阅读次数：264

spark + ansj 对大数据量中文进行分词

目前的分词器大部分都是单机服务器进行分词，或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢，相对spark来说代码书写较繁琐。本文使用spark + ansj对存储在hdfs中的中文文本数据进行分词。...

分类：其他好文时间：2015-05-14 16:43:27 阅读次数：350

共2158条上一页 1 ... 173 174 175 176 177 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)