如何用KNIME进行情感分析

时间：2017-03-26 11:47:08 阅读：2985 评论：0 收藏：0 [点我收藏+]

标签：active 讲解 soc lang 选择 format oss nan car

SPSS、RapidMiner、KNIME以及Kettle四款工具都可以用来进行数据分析，只是彼此有各自的侧重点和有劣势。它们都可以逐步的定义数据分析过程，也同样都可以对数据进行ETL处理。笔者从自己关心的角度简单对比以上四款数据分析工具。

SPSS不用多说，一款成功的商业数据分析软件，涵盖了统计分析、数据挖掘分析等各种数据分析方法。界面简单易用，分析过程定义时非常直观方便。因为，没有源码，无从知道其过程的调度机制。

RapidMiner一款出色的开源数据分析工具。有非常丰富的数据分析算法。过程定义界面也简单易用，帮助文档也很全面。过程定义时的每一步操作都有端口的概念，不同的端口可以接入和输出不同意义的数据，但数据的结构是一样的，这意味着可以将任意两个端口进行连接，只是有时无法得到正确的结论。粗看了下RapidMiner的源码，发现其整个过程是单线程调用的。这样的调用方式，在处理较大数据集时可能会有一定的影响。其过程定义文件是用xml语言进行描述的，格式很工整，体现了前期良好的设计，唯一不足的是，将调试用的断点也设计进了过程定义文件当中。

KNIME也是一款出色的开源数据分析工具，但其使用起来不是很好上手。其每一步操作与RapidMiner一样，也带有端口的概念。但是其端口间的连接关系有严格的约定。就是一个操作的输出端口只能连其它固定几种操作的输入端口，否则你是无法将这两个操作建立前后执行顺序的。从一定意义上讲，这样的约束可以帮助人们减少定义过程中的错误。单就程序实现讲，其复杂度也是提升了的。但对于笔者这样的使用者来说，怎么都创建不了一个分析过程，（主要是用的不熟，总违反端口连接约束）顿时失去大半兴趣，没有对其进行再进一步的研究了。

Kettle最早的定位是一个ETL工具，它有非常丰富的数据处理操作，后面的版本中也加入了部分数据分析功能。其过程定义界面也非常简单直观，与SPSS一样，操作都没有端口的概念。操作间的关系是建立在操作与操作之上的。但其设计中，正因为没有端口概念的出现，当其进行错误信息的处理流程时，我们看其过程定义生成的xml文件会发现，错误流定义在XML文件中加入的很不规整，是以补丁的方式加入的，影响了系统整体设计的完整性与美观度。不过，其可以对错误流进行处理的概念是这几款产品中独有的，还是要特别表扬一下。另外，通过Kettle的源代码我们可以知道，其调度是多线程并发进行的。即读数据操作每读到一定的数据就传给后面的处理操作，然后继续读数据。在数据很大的情况下，有可能是读操作还在继续读数据，而早期读出的数据在处理完后，都在向外写出数据了。Kettle的调用机制更利于对较大数据的分析处理，占用的内存相对会较少，多线程并发的处理速度相对也会比较高。

以上四款工具都是单机版工具，都不太适用于对海量数据的分析处理。

如何用KNIME进行情感分析

文 | 数据挖掘小组邵海涵周亚楠

如何能够让机器“读懂”人的情感?情感分析提供了解决的一个思路。这也使得它成为自然语言分析(Natural Language Processing)中最令人神往的山对面的“风景”。

什么是情感分类(sentiment classification)

简单说，就是对于一句或一段话，判断说话者的情感，是正向(积极)的，还是负向(消极)的。这种情感分类任务可以看作一个二分类问题。

完成情感分类的核心问题

决定分类准确率的关键在于特征的选取与语料的质量。其中特征问题解决的是：用什么样的特征来抽取，得到的文本才足够原始呢?每个词看似已经是文本的足够底层的特征，但其实也是经过高度抽象的。这也会给深度学习在自然语言领域的应用带来一些困难。同样，这也是提高模型准确度的一个有效的方法。

在上一篇情感分析的讲解中，我们已经知道如何使用KNIME构造一个情感分析模型。这一篇中，我们将使用N元语法(N-gram)，借助KNIME来探究如何选取词语特征，获得的模型能够实现更准确地分类。

N元语法

在计算语言学中，n-gram指的是文本中连续的n个item。n-gram中如果n=1则为unigram，n=2则为bigram，n=3则为trigram。n>4后，则直接用数字指称，如4-gram，5gram。(Wikipedia)

以 I would like to go to Beijing. 这句话为例。

bigram为：

I would

would like

like to

to go

go to

to Beijing

结点概览

1.读取CSV格式文件

使用CSV reader结点读取一个CSV格式文件，该文件写入了1500条载于IMBD上的影评，并且给出了情感向量即POS(positive)和NEG(negative)。

技术分享

2.字符串转化为文档格式

接下来将字符串转化为文档格式，继而使用“过滤”节点删除无关列，使文件只留下储存文档对象的一列。

技术分享

以上结点内属于Document creation元结点

3.数据预处理

首先计算特征词语需要在文档中出现最小次数N。利用java语句计算：out_MinDF = (Number_Rows / 100) * Min_Percentage

技术分享

继而进行删除标点，删除数字，删除文档中出现次数小于N的词汇，将大写转化为小写，提取词语主干(stemmed)和删除停用词(stop word)。至此我们可以完成预处理。但是由于我们想探索的是双词分类与单词分类的效果差异，所以这里花开两朵各表一枝，双词分类的这一支不需要做主干提取和停用词删除的工作。

技术分享

(stemmed意指将词的变形归类，使得机器在处理文本时减少需要跟踪的独特词汇，这会加快“标签化”处理的过程。停用词是人类语言中没有实际意义或功用的词语，如助词，限定词等)

4.通过单词或双词建立文本特征向量

想象在一个巨大的文档集合，里面一共有M个文档，而文档里面的所有单词提取出来后，一起构成一个包含N个单词的词典，利用词袋(Bag-of-words)模型，每个文档都可以被表示成为一个N维向量(将每篇文档表示为一个向量，每一维度代表一个词语，其数值代表词语在该文档中的出现次数)。这样，就可以利用计算机来完成海量文档的分类过程。

一般来说，太多的特征会降低分类的准确度，所以需要使用一定的方法，来“选择”出信息量最丰富的特征，再使用这些特征来分类。

特征选择遵循如下步骤：

1. 计算出整个语料里面每个词的信息量

2. 根据信息量进行倒序排序，选择排名靠前的信息量的词

3. 把这些词作为特征

技术分享

5.构建模型

通过决策树算法构建模型在上一篇已经讲过，需要注意的是本篇需要对1-gram特征和1-gram 2-gram集合特征分别构建模型，以进行比较。这里不再赘述。

技术分享

6.ROC曲线对比

在文档向量集创建后，词汇的情感分类已经被提取出来，系统自动创建了两种预测模型并打分。一个模型基于一个单独词汇的特征建立，第二个模型基于1-gram和2gram集合的特征。接着通过ROC接收器操作特性曲线(receiver operating characteristic curve)对这两个进行比较。

技术分享

可以看出，在分析影评这一文本的情感态度时，使用N元语法构建出来的情感分类模型，诊断准确度更高，为85.05%。这样有助于我们针对“何种情感分类模型对NLP分析更为有效”这一问题时做出决策。

如何用KNIME进行情感分析

标签：active 讲解 soc lang 选择 format oss nan car

原文地址：http://www.cnblogs.com/stevendes1/p/6621777.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行