http://blog.csdn.net/abcjennifer/article/details/23615947文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无...
分类:
其他好文 时间:
2015-01-06 21:27:47
阅读次数:
221
使用小括号指定一个子表达式后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下,每个分组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。后向引用用于重复搜索前面某个分组匹配的文本。分类代码...
分类:
其他好文 时间:
2015-01-04 22:39:24
阅读次数:
263
基于信息检索课程,完成实现了一个文本分类系统,现记录一下整个实现过程。
文本分类以文本数据为分类对象,本质上是机器学习方法在信息检索领域的一种应用,可以继承机器学习领域的很多概念和方法,但同时也需要结合信息检索领域的特点进行处理。主要研究的方向是:文本分词方法、文本特征提取方法、分类算法。
本人主要使用了5种常用的分类算法,分别是kNN、Rocchio、NBC、SVM和ANN,对每种算法的结果...
分类:
其他好文 时间:
2014-12-29 16:49:34
阅读次数:
185
推荐系统植根于不同的研究领域,比如信息检索、信息过滤和文本分类,采用了不同领域的方法,比如机器学习、数据挖掘和基于知识的系统。
《推荐系统》这本书,是一本导读,向读者提供有关这个领域的概述和简介。
在“最新进展”这一部分,介绍了攻击和应对攻击的对策、在线消费决策的理论、新一代互联网技术发展带来的更多可用信息、移动等普适环境的推荐应用等。...
分类:
其他好文 时间:
2014-12-24 16:22:57
阅读次数:
202
TXT文本格式一级分类二级分类三级分类一级分类二级分类一级分类.....(注意:一级分类前不能有TAB键,每层分类前面加一TAB键)以下是PHP处理代码publicfunctiontxt_category_to_mysql(){
$ceng=0;
$arr=file(‘Public/fenlei.txt‘);
foreach($arras$k=>$v){
if(strrpos($v,""..
分类:
数据库 时间:
2014-12-15 22:06:44
阅读次数:
405
朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计算出其后验概率(即该对象属于某一类的概率),然后选择具有最大后验概率的类作为该对象所属的类。总的来说:当样本特征个数较多或者特征之间相关性较大时,朴素贝叶斯分类效率比不上决策树模型;当各特征相关性较小时,朴素贝叶斯分类性能最为良好。另外朴素贝叶斯的计算过程类条件概率等计算彼此是独立的,因此特别适于分布式计算。本文详述了朴素贝叶斯分类的统计学原理,并在文本分类中...
分类:
编程语言 时间:
2014-12-12 20:56:48
阅读次数:
1004
考虑典型的文本分类,一个经典的方法就是 分词,扫描所有特征,建立特征词典
重新扫描所有特征,利用特征词典将特征映射到特征空间编号 得到特征向量
学习参数 w
存储学习参数 w , 存储特征映射词典
预测截断装载学习参数w,装载特征映射词典
扫描数据,将所有特征利用特征映射词典映射到特征空间编号 得到...
分类:
其他好文 时间:
2014-12-04 17:47:41
阅读次数:
327
两个重量级博客: 1.洞庭散人http://www.cnblogs.com/phinecos/archive/2008/10/21/1316044.html,包含实验demo 2.dongxicheng http://dongxicheng.org/data-mining/naive...
分类:
其他好文 时间:
2014-11-24 00:47:08
阅读次数:
286
还是同前一篇作为学习入门。1. KNN算法描述:step1: 文本向量化表示,计算特征词的TF-IDF值step2: 新文本到达后,根据特征词确定文本的向量step3 : 在训练文本集中选出与新文本向量最相近的k个文本向量,相似度度量采用“余弦相似度”,根据实验测试的结果调整k值,此次选择20ste...
分类:
编程语言 时间:
2014-10-23 12:14:28
阅读次数:
403