搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

[python] 使用Jieba工具中文分词及文本聚类概念

这篇文章主要是爬取百度5A景区摘要信息，再利用Jieba分词工具进行中文分词，最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要二. Jieba中文分词 1.安装及入门介绍 2.添加自定义词典 3.关键词提取 4.对百度百科获取摘要分词 5.去除停用词三. 基于VSM的文...

分类：编程语言时间：2015-12-18 06:49:30 阅读次数：8948

Solr 5.x集成中文分词word，mmseg4j

使用标准分词器，如图：使用word分词器下载word-1.3.jar，注意solr的版本和word分词的版本将文件word-1.3.jar拷贝至文件夹C:\workspace\Tomcat7.0\webapps\solr\WEB-INF\lib\下修改如下文件C:\workspace\sol...

分类：其他好文时间：2015-12-16 00:13:24 阅读次数：1565

Solr 5.x集成中文分词word，mmseg4j

使用标准分词器，如图：使用word分词器下载word-1.3.jar，注意solr的版本和word分词的版本将文件word-1.3.jar拷贝至文件夹C:\workspace\Tomcat7.0\webapps\solr\WEB-INF\lib\下修改如下文件C:\workspace\sol...

分类：其他好文时间：2015-12-16 00:09:18 阅读次数：322

Solr5.3.1整合IKAnalyzer

由于solr5.3.1本身不支持中文分词，而msseg4j的分词效果不明显。因而采用IK进行分词，然而参考http://www.superwu.cn/2015/05/08/2134/在google上下载的jar包放到solr目录下直接报如下异常。严重: Servlet.service() for.....

分类：其他好文时间：2015-12-15 20:55:46 阅读次数：2494

微博推荐算法学习(Weibo Recommend Algolrithm)

原文：http://hijiangtao.github.io/2014/10/06/WeiboRecommendAlgorithm/基础及关联算法作用：为微博推荐挖掘必要的基础资源、解决推荐时的通用技术问题、完成必要的数据分析、为推荐业务提供指导。分词技术与核心词提取：是微博内容推荐的基础，用于将微...

分类：编程语言时间：2015-12-13 21:51:32 阅读次数：219

Lucene5学习之使用MMSeg4j分词器

分类：程序语言|标签：C|日期： 2015-05-01 02:00:24 MMSeg4j是一款中文分词器，详细介绍如下： 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器，并实...

分类：Web程序时间：2015-12-08 01:59:11 阅读次数：1234

词法分析器Antlr

一、我们都知道编程语言在执行之前需要先进行编译，这样就可以把代码转换成机器识别的语言，这个过程就是编译。那么它是怎么编译的呢？ Java在JVM虚拟机中进行编译，javascript在Js引擎中编译。编译的过程一般是三个步骤： 1.分词/词法分析(Tokenizing/Lexi...

分类：其他好文时间：2015-12-05 12:37:06 阅读次数：125

文本特征词提取算法

在文本分类中，需要先对文本分词，原始的文本中可能由几十万个中文词条组成，维度非常高。另外，为了提高文本分类的准确性和效率，一般先剔除决策意义不大的词语，这就是特征词提取的目的。本文将简单介绍几种文本特征词提取算法。信息增益（IG）对于一个系统，其信息熵为\(H(S)=-\sum_{i}^{C}P_i...

分类：编程语言时间：2015-12-04 06:27:53 阅读次数：214

mapreduce导出MSSQL的数据到HDFS

今天想通过一些数据，来测试一下我的《基于信息熵的无字典分词算法》这篇文章的正确性。就写了一下MapReduce程序从MSSQLSERVER2008数据库里取数据分析。程序发布到hadoop机器上运行报SQLEXCEPTION错误奇怪了，我的SQL语句中没有LIMIT，这LIMIT哪来的。我翻...

分类：数据库时间：2015-12-04 01:01:56 阅读次数：284

Solr整合Ansj中文分词器

Ansj的使用和相关资料下载参考：http://iamyida.iteye.com/blog/2220833 参考http://www.cnblogs.com/luxh/p/5016894.html 配置和solr和tomcat的1、从http://iamyida.iteye.com/...

分类：其他好文时间：2015-12-03 21:14:38 阅读次数：286