主要内容: 1、文本表示与特征提取; 2、隐语义分析LSA和Latent Dirichlet
Allocation(LDA) 3、检索模型:Boolean模型、向量模型、概率模型 1、文本表示与特征提取 文本中抽取出的特征词进行量化来表示文本信息;
利用分词工具:极易中文分词:je-analysis...
分类:
其他好文 时间:
2014-05-21 18:03:26
阅读次数:
486
原文:http://www.ibm.com/developerworks/cn/java/j-lo-optmizestring/Java 性能优化之
String 篇String 方法用于文本分析及大量字符串处理时会对内存性能造成不可低估的影响。我们在一个大文本数据分析的项目中(我们统计一个约 30...
分类:
编程语言 时间:
2014-05-08 09:37:15
阅读次数:
438