背景 文本分类属于文本挖掘。文本挖掘从已知文本提取未知的知识,即从非结构的文本中提取知识。文本挖掘主要领域:搜索和信息检索;文本聚类;文本分类;Web挖掘;信息抽取;自然语言处理;概念提取。[1] 搜索和信息检索:存储和文本文档的检索,包括搜索引擎和关键字搜索。 文本聚类:使用聚类方法,对词汇,片段 ...
分类:
其他好文 时间:
2020-05-14 23:50:55
阅读次数:
113
介绍 为训练营课程 《Python 数据分析入门与进阶》的第八节,在该章节中我们将利用提供的课程数据来进行一次实战性质的时间序列和聚类分析。 知识点 数据处理 数据可视化 中文分词 文本聚类 数据概览 本次课程的数据来源于运行过程中产生的真实数据,我们对部分数据进行了脱敏处理。 首先,我们需要下载课 ...
分类:
编程语言 时间:
2020-02-07 15:14:00
阅读次数:
128
聚类Agglomerative Clustering 及其三种方法Single-linkage、Complete-linkage,Group average 词干提取(stemming)和词形还原(lemmatization) 凝聚法层次聚类之ward linkage method ...
分类:
其他好文 时间:
2020-01-30 19:27:04
阅读次数:
83
前言 关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告和论文中,我们依然可以看到关键词这一项。因此,关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要 ...
分类:
其他好文 时间:
2019-12-02 17:25:30
阅读次数:
103
文本是非结构化的数据,我们无法直接对文本进行聚类处理。在此之前,应该对文本进行一些预处理操作,将文本信息转化成统一的结构化的形式。再对这些结构化的数据进行聚类。文本预处理对于聚类的效果有着重要的作用,预处理的质量高低影响着聚类结果的好坏。对于英文文本的预处理一般包含以下几个步骤:分词去除非英文文本拼... ...
分类:
其他好文 时间:
2019-09-30 12:44:47
阅读次数:
439
我要把人生变成科学的梦,然后再把梦变成现实。——居里夫人 概述 关键词是代表文章重要内容的一组词,在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。现实中大量的文本不包含关键词,这使得便捷得获取文本信息更困难,所以自动提取关键词技术具有重要的价值和意义。 关键词提取分类 有监督 无监督 有监 ...
分类:
其他好文 时间:
2019-09-01 23:26:56
阅读次数:
136
关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。 除了这些,关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的 ...
分类:
其他好文 时间:
2018-12-15 18:47:29
阅读次数:
201
Spark UDF Java 示例 在 "这篇文章" 中提到了用Spark做用户昵称文本聚类分析,聚类需要选定K个中心点,然后迭代计算其他样本点到中心点的距离。由于中文文字分词之后(n gram)再加上昵称允许各个特殊字符(数字、字母、各种符号……),如果直接在原来的文本数据上进行聚类,由于文本的“ ...
分类:
编程语言 时间:
2018-12-01 00:11:20
阅读次数:
592
spark JAVA 开发环境搭建及远程调试 以后要在项目中使用Spark 用户昵称文本做一下聚类分析,找出一些违规的昵称信息。以前折腾过Hadoop,于是看了下Spark官网的文档以及 github 上 官方提供的examples,看完了之后决定动手跑一个文本聚类的demo,于是有了下文。 1. ...
分类:
编程语言 时间:
2018-11-03 02:08:21
阅读次数:
1124
词向量作为文本的基本结构——词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文将详细介绍如何使用word2vec构建中文词向量。 一、中文语料库 本文采用的是搜狗实验室的搜狗新闻 ...
分类:
其他好文 时间:
2018-09-23 16:22:44
阅读次数:
338