这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要 二. Jieba中文分词 1.安装及入门介绍 2.添加自定义词典 3.关键词提取 4.对百度百科获取摘要分词 5.去除停用词 三. 基于VSM的文...
分类:
编程语言 时间:
2015-12-18 06:49:30
阅读次数:
8948
使用标准分词器,如图: 使用word分词器 下载word-1.3.jar,注意solr的版本和word分词的版本 将文件word-1.3.jar拷贝至文件夹C:\workspace\Tomcat7.0\webapps\solr\WEB-INF\lib\下 修改如下文件C:\workspace\sol...
分类:
其他好文 时间:
2015-12-16 00:13:24
阅读次数:
1565
使用标准分词器,如图: 使用word分词器 下载word-1.3.jar,注意solr的版本和word分词的版本 将文件word-1.3.jar拷贝至文件夹C:\workspace\Tomcat7.0\webapps\solr\WEB-INF\lib\下 修改如下文件C:\workspace\sol...
分类:
其他好文 时间:
2015-12-16 00:09:18
阅读次数:
322
由于solr5.3.1本身不支持中文分词,而msseg4j的分词效果不明显。因而采用IK进行分词,然而参考http://www.superwu.cn/2015/05/08/2134/在google上下载的jar包放到solr目录下直接报如下异常。严重: Servlet.service() for.....
分类:
其他好文 时间:
2015-12-15 20:55:46
阅读次数:
2494
原文:http://hijiangtao.github.io/2014/10/06/WeiboRecommendAlgorithm/基础及关联算法作用:为微博推荐挖掘必要的基础资源、解决推荐时的通用技术问题、完成必要的数据分析、为推荐业务提供指导。分词技术与核心词提取:是微博内容推荐的基础,用于将微...
分类:
编程语言 时间:
2015-12-13 21:51:32
阅读次数:
219
分类:程序语言|标签:C|日期: 2015-05-01 02:00:24 MMSeg4j是一款中文分词器,详细介绍如下: 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实...
分类:
Web程序 时间:
2015-12-08 01:59:11
阅读次数:
1234
一、我们都知道编程语言在执行之前需要先进行编译,这样就可以把代码转换成机器识别的语言,这个过程就是编译。 那么它是怎么编译的呢? Java在JVM虚拟机中进行编译,javascript在Js引擎中编译。 编译的过程一般是三个步骤: 1.分词/词法分析(Tokenizing/Lexi...
分类:
其他好文 时间:
2015-12-05 12:37:06
阅读次数:
125
在文本分类中,需要先对文本分词,原始的文本中可能由几十万个中文词条组成,维度非常高。另外,为了提高文本分类的准确性和效率,一般先剔除决策意义不大的词语,这就是特征词提取的目的。本文将简单介绍几种文本特征词提取算法。信息增益(IG)对于一个系统,其信息熵为\(H(S)=-\sum_{i}^{C}P_i...
分类:
编程语言 时间:
2015-12-04 06:27:53
阅读次数:
214
今天想通过一些数据,来测试一下我的《基于信息熵的无字典分词算法》这篇文章的正确性。就写了一下MapReduce程序从MSSQLSERVER2008数据库里取数据分析。程序发布到hadoop机器上运行报SQLEXCEPTION错误 奇怪了,我的SQL语句中没有LIMIT,这LIMIT哪来的。我翻...
分类:
数据库 时间:
2015-12-04 01:01:56
阅读次数:
284
Ansj的使用和相关资料下载参考:http://iamyida.iteye.com/blog/2220833 参考http://www.cnblogs.com/luxh/p/5016894.html 配置和solr和tomcat的1、从http://iamyida.iteye.com/...
分类:
其他好文 时间:
2015-12-03 21:14:38
阅读次数:
286