这周学习了机器学习算法与编程实践第二章——中文文本分类的部分内容。该章以文本挖掘为大背景,以文本分类算法为中心,详细介绍了中文文本分类项目的相关知识点。 一、文本挖掘与文本分类的概念 被普遍认可的文本挖掘的定义如下:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用 ...
分类:
编程语言 时间:
2017-09-24 23:35:56
阅读次数:
278
建立文本数据数学描写叙述的过程分为三个步骤:文本预处理、建立向量空间模型和优化文本向量。文本预处理主要採用分词、停用词过滤等技术将原始的文本字符串转化为词条串或者特点的符号串。文本预处理之后,每个文本的词条串被进一步转换为一个文本向量,向量的每一维相应一个词条,其值反映的是这个词条与这个文本之间的类 ...
分类:
其他好文 时间:
2017-07-15 15:57:24
阅读次数:
182
http://blog.csdn.net/a_step_further/article/details/51176959 LDA是文本挖掘中常用的主题模型,用来从大量文档中提取出最能表达各个主题的一些关键词,具体算法原理可参阅KM上相关文章。笔者因业务需求,需对腾讯微博上若干账号的消息进行主题提取, ...
分类:
编程语言 时间:
2017-07-07 13:13:39
阅读次数:
642
Spherical K-Means 法によるクラスタ分析の実験検証 1.1研究背景、目的: インターネットの普及などにより、膨大なデータの中からデータ間の関係を見つけ出したり、有用な情報をを取り出すためにクラスタリングを行われている。 { 本研究では、データマイニングの手法の一つであるクラスタリング ...
分类:
其他好文 时间:
2017-06-30 23:51:27
阅读次数:
138
文本特征提取方法研究 引言:转载大神的文章(http://blog.csdn.net/tvetve/article/details/2292111),存一下用于日后查找 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息 ...
分类:
其他好文 时间:
2017-06-03 15:10:39
阅读次数:
229
背景:分析用户在世界杯期间讨论最多的话题。 思路:把用户关于世界杯的帖子拉下来。然后做中文分词+词频统计,最后将统计结果简单做个标签云。效果例如以下: 兴许:中文分词是中文信息处理的基础。分词之后。事实上还有特别多有趣的文本挖掘工作能够做。也是个知识发现的过程,以后有机会再学习下。 * 中文分词经常 ...
分类:
编程语言 时间:
2017-05-20 00:04:56
阅读次数:
193
在进行文本挖掘时,TSQL中的通配符(Wildchar)显得功能不足,这时,使用“CLR+正则表达式”是非常不错的选择,正则表达式看似非常复杂,但,万变不离其宗,熟练掌握正则表达式的元数据,就能熟练和灵活使用正则表达式完成复杂的TextMining工作。一,正则表达式的特殊字符1,常..
分类:
其他好文 时间:
2017-04-25 14:57:03
阅读次数:
208
本文介绍文本挖掘与文本分类的一些基本概念和流程,为后续学习分类算法做好铺垫。 一. 文本挖掘的概念 文本挖掘(Text Mining)是从非结构化文本信息中获取用户感兴趣或者有用的模式 的过程。其中被普遍认可的文本挖掘定义如下:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过 ...
分类:
其他好文 时间:
2017-04-24 10:10:06
阅读次数:
193
tm包是R语言中为文本挖掘提供综合性处理的package,进行操作前载入tm包,vignette命令可以让你得到相关的文档说明。使用默认安装的R平台是不带tm package的,在安装的过程中,它会依赖于NLP’,‘BH’ ,‘slam’包,所以最简单的方式就是采用在线安装。 在tm 中主要的管理文 ...
分类:
其他好文 时间:
2017-04-09 12:33:30
阅读次数:
239