标签:upload 预处理 and 列表 关于 序列 取值 大致 流行
1、准备文本数据
2、基于文本文档来构建特征向量
3、训练机器学习模型来区分电影评论的正面评论和负面评论(对你的女神同样适用哦~~)
4、使用外存学习和在线学习算法来处理大数据
在本篇文章中,主要介绍对于电影评论数据的准备工作。
情感分析也称观点挖掘(opinion mining),是机器学习中自然语言处理(NLP)领域一个非常流行的分支,它主要是分析文档的情感倾向。
请自行准备一个电影信息(或者直接使用你和女神的聊天信息)
该电影评论是来自IMDb中的电影评论,数据集一共包含了50000个关于电影的正面评论和负面评论,正面评论代表对于影片的评分超过了6颗星,而负面评论则表示评分低于5颗星。50000条评论被分成了四个文件夹train的neg和pos和test的neg和pos,其中每个文件夹中包含了12500个txt电影评论文件,其中pos代表正面评论,neg代表负面评论。所以,我们需要将这50000个txt文件整合成一个表格,表格分为两列,第一列表示评论的内容,第二列表示评论是属于正面(用1表示)还是负面(用0表示)。
将50000个txt文件整合成一个表格文件的时候,需要十分钟左右。我们可以通过Python的pyprind库将整个处理过程可视化,同时它还能根据当前计算机的运行状态来估计剩余处理时间,处理完成之后,还能查看消耗的总时间。通过python的数据分析库pandas将电影评论保存成一个csv文件。
1、预计处理总时间
2、统计处理总时间
3、python实现代码
1、清洗文本数据
2、标记文档
3、词袋模型
清洗文本需要将文本中所包含的一些不必要的字符删除。
1、删除不必要的字符
print(data["review"][0][-50:])
is seven.
Title (Brazil): Not Available
发现评论中含有一些HTML标记符、标点符号、以及其他的非字母符号。HTML标记符在对于我们对评论做情感分析的时候没有影响,至于标点符号可能会影响句子的语义,为了简化处理我们将标点符号进行删除,保留表情符号(如":)"),因为表情符号对于电影评论情感的分析很有帮助。下面,我们通过python的正则表达式来删除这些不必要的字符。
python的正则表达式提供了一种字符串搜索特定字符串的方便有效方法,正则表达式也要很多的技巧和方法,如果对正则表达式有兴趣的话可以自己去了解一下。在这里我们只是简单的使用一下,所以对正则表达式不会有太过详细的介绍。
2、标记文档
对于英文文档我们可以利用其天然的空格作为单词的分隔符,如果是中文的时候,可以利用一些分词库如jieba分词。在句子中,我们可能会遇见先"runners"、"run"、"running"单词不同的形式,所以我们需要通过词干提取(word
stemming)来提取单词原形。最初的词干提取算法是由Martin F. Porter在1979年提出的,被称为porter
stemming算法。我们可以通过安装python的自然语言工具包NLTK,官网安装链接:http://www.nltk.org/install.html,在NLTK中已经是实现了Porter
Stemming算法,还有实现了比它更高级的Snowball stemmer和Lancaster stemmer与porter
stemming相比,它们更加的提取速度更快。可以通过pip命令进行安装
pip install nltk
3、停用词的移除
停用词大致可以分为两类,一类是功能词,这些功能词非常普遍,与其他的词相比,功能词没有什么实际的含义,比如"the"、"is"、"at"、"which"等。还有一类是词汇词,比如"want"等。停用词对于电影评论的情绪分类没有任何意义,所以我们需要将一些停用词进行删除。通过nltk.download函数获取NLTK提供的停用词,并使用这些停用词来移除电影评论中的停用词。NLTK库提供的停用词,一共有179个,下面给出部分的停用词
1、将单词转换为特征向量
2、TF-IDF计算单词关联度
在之前,我们已经知道一些文本的预处理和分词。这篇文章中,主要介绍如何将单词等分类数据转成为数值格式,以方便我们后面使用机器学习来训练模型。
词袋模型(bag-of-words model):将文本以数值特征向量的形式来表示。主要通过两个步骤来实现词袋模型:
1、为整个文档集(包含了许多的文档)上的每个单词创建一个唯一的标记。
2、为每个文档构建一个特征向量,主要包含每个单词在文档上的出现次数。
注意:由于每个文档中出现的单词数量只是整个文档集中很少的一部分,因此会有很多的单词没有出现过,就会被标记为0。所以,特征向量中大多数的元素就会为0,就会产生稀疏矩阵。
下面通过sklearn的CountVectorizer来实现一个词袋模型,将文档转换成为特征向量
通过count.vocabulary_我们可以看出每个单词所对应的索引位置,每一个句子都是由一个6维的特征向量所组成。其中,第一列的索引为0,对应单词"and","and"在第一和二条句子中没有出现过,所以为0,在第三条句子中出现过一些,所以为1。特征向量中的值也被称为原始词频(raw
term frequency)简写为tf(t,d),表示在文档d中词汇t的出现次数。
注意:在上面词袋模型中,我们是使用单个的单词来构建词向量,这样的序列被称为1元组(1-gram)或单元组(unigram)模型。除了一元组以外,我们还可以构建n元组(n-gram)。n元组模型中的n取值与特定的应用场景有关,如在反垃圾邮件中,n的值为3或4的n元组可以获得比较好的效果。下面举例说明一下n元组,如在"the weather is sweet"这句话中,1元组:"the"、"weather"、"is"、"sweet"。2元组:"the weather"、"weather is"、"is sweet"。在sklearn中,可以设置CountVecorizer中的ngram_range参数来构建不同的n元组模型,默认ngram_range=(1,1)。sklearn通过CountVecorizer构建2元组
在使用上面的方法来构建词向量的时候可能会遇到一个问题:一个单词在不同类型的文档中都出现,这种类型的单词其实是不具备文档类型的区分能力。我们通过TF-IDF算法来构建词向量,从而来克服这个问题。
词频-逆文档频率(TF-IDF,term frequency-inverse document frequency):tf-idf可以定义为词频×逆文档频率
其中tf(t,d)表示单词t在文档d中的出现次数,idf(t,d)为逆文档频率,计算公式如下
其中,nd表示文档的总数,df(t,d)表示包含单词t的文档d的数量。分母中加入常数1,是为了防止df(t,d)=0的情况,导致分母为0。取log的目的是保证当df(t,d)很小的时候,不会导致idf(t,d)过大。
通过sklearn的TfidfTransformer和CountVectorizer来计算tf-idf
可以发现"is"(第二列)和"the"(第六列),它们在三个句子中都出现过,它们对于文档的分类所提供的信息并不会很多,所以它们的tf-idf的值相对来说都是比较小的。
注意:sklearn中的TfidfTransformer的TF-IDF的计算与我们上面所定义TF-IDF的公式有所不同,sklearn的TF-IDF计算公式
通常在计算TF-IDF之前,会对原始词频tf(t,d)做归一化处理,TfidfTransformer是直接对tf-idf做归一化。TfidfTransformer默认使用L2归一化,它通过与一个未归一化特征向量L2范数的比值,使得返回向量的长度为1,计算公式如下:
下面通过一个例子来说明sklearn中的TfidfTransformer的tf-idf的计算过程,以上面的第一句话"The sun is shining"为例子
1、计算原始词频
a、单词所对应的下标
b、计算第三句话的原始词频tf(t,d)
c、计算逆文档频率idf(t,d)
注意:其他的词在计算tf-idf都是0,因为原始词频为0,所以就不需要计算idf了,log是以自然数e为底。
d、计算tf-idf
所以,第一个句子的tf-idf特征向量为[0,1,1.29,1.29,0,1,0]
e、tf-idf的L2归一化
在下一篇文章中将介绍如何使用这些句子的特征向量来构建一个模型进行情感分类。虽然在实际演示的是电影影评,但是训练好了可是可以用来处理你的聊天信息的哦~~~
想不想用来测试一下你的女神和你聊天时候的情绪呢?保你牵手成功!!!
另外,小编有自己的学习交流群大家如果想要来学习的话,可以一起来交流:719+139+688,不管你是小白还是大牛,小编都欢迎,而且小编会在群里面不定期分享干货,包括小编自己整理的一份2018年最新学习资料和大神分享直播,欢迎初学和进阶中的小伙伴
标签:upload 预处理 and 列表 关于 序列 取值 大致 流行
原文地址:https://www.cnblogs.com/xiaomu-/p/8965130.html