标签:reads long ado 部分 计算 处理 对象 orb home
在当今这个互联网时代,人们对于各种事情的舆论观点都散布在各种社交网络平台或新闻提要中。我们可以在移动设备或是个人PC上轻松地发布自己的观点。对于这种网上海量分布地数据,我们可以利用文本分析来挖掘各种观点。如下图中,CognoviLabs
利用Twitter上人们发布对于美国大选两个候选人的推特,进行情感分析的结果。从这张图我们也可以直观地感受到民意所向(此图发表日期为10月10日,早于今年美国大选的日子)。
图片来源:CognoviLabs / Twitris
本次课程,我们将利用推特上的数据结合Spark MLlib实现人们对美国这两位总统的情感分析,查看在美国不同地方的网民们对于他们的看法如何。
Twitter Streaming API为开发者提供了可用于获得推特上数据的开发者接口。大家可根据Twitter Scrape中的操作获取Twitter中有关Trump和Hillary的推特数据。
由于对Twitter的操作需要FQ,为方便大家进行后续实验操作,我们已将数据保存至
tweets.json
,donald.json
及hillary.json
中,json 文件地址将在后续实验操作时给出。tweets.json包括和川普及希拉里有关的推特,而donald.json和hillary.json仅包括其文件名代表的候选人有关推特。
使用Tweepy
接口获得的推特中包含很多数据,但由于我们只关心其发表内容的情感属性值,因此我们仅保存了其中的推特内容,及发表推特用户所在地。 我们所使用的Twitter数据内容:
数据名 | 数据描述 |
---|---|
polarity | 该twitter的情感属性值(0:积极,1:无感,2:消极) |
text | 推特内容 |
user_localtion | 用户所在地区 |
其中polarity的内容由python自然语言处理包 TextBlob获得,这里我们对textblob返回的polarity进行了特殊处理,设置polarity>0时为积极情感(polarity=0),polarity=0时为无感(polarity=1),polarity<0时为消极情绪(polarity=2)
Apach Spark
的Python接口pyspark
安装:
#安装pyspark
$ wget http://labfile.oss.aliyuncs.com/courses/722/spark-2.0.2-bin-hadoop2.7.tgz
$ tar zxvf spark-2.0.2-bin-hadoop2.7.tgz
$ sudo mv spark-2.0.2-bin-hadoop2.7 /usr/bin/spark-2.0.2
进入目录/usr/bin/spark-2.0.2/conf
中设置配置文件spark-env.sh
。
$ cd /usr/bin/spark-2.0.2/conf
# 使用模板文件复制一份配置文件进行设置
$ sudo cp spark-env.sh.template spark-env.sh
$ vim spark-env.sh #编辑spark-env.sh,所使用的编辑器可根据个人爱好
# 使用vim或gedit编辑文件spark-env.sh
# 添加以下内容设置spark的环境变量
export SPARK_HOME=/usr/bin/spark-2.0.2
安装python相关的包:
wget http://labfile.oss.aliyuncs.com/courses/722/numpy-1.11.3-cp27-cp27mu-manylinux1_x86_64.whl
wget http://labfile.oss.aliyuncs.com/courses/722/pyparsing-2.1.10-py2.py3-none-any.whl
wget http://labfile.oss.aliyuncs.com/courses/722/pytz-2016.10-py2.py3-none-any.whl
wget http://labfile.oss.aliyuncs.com/courses/722/cycler-0.10.0-py2.py3-none-any.whl
wget http://labfile.oss.aliyuncs.com/courses/722/python_dateutil-2.6.0-py2.py3-none-any.whl
wget http://labfile.oss.aliyuncs.com/courses/722/matplotlib-1.5.3-cp27-cp27mu-manylinux1_x86_64.whl
sudo pip install numpy-1.11.3-cp27-cp27mu-manylinux1_x86_64.whl
sudo pip install pyparsing-2.1.10-py2.py3-none-any.whl
sudo pip install pytz-2016.10-py2.py3-none-any.whl
sudo pip install cycler-0.10.0-py2.py3-none-any.whl
sudo pip install python_dateutil-2.6.0-py2.py3-none-any.whl
sudo pip install matplotlib-1.5.3-cp27-cp27mu-manylinux1_x86_64.whl
可视化分析结果使用的是python的地图可视化第三方包Basemap
,basemap是Python中一个可用于地理信息可视化的包,安装basemap过程如下:
$ wget http://labfile.oss.aliyuncs.com/courses/722/basemap-1.0.7.tar.gz
$ tar zxvf basemap-1.0.7.tar.gz
$ cd basemap-1.0.7
$ cd geos-3.3.3
$ ./configure
$ make
$ sudo make install
上述过程需等待一段比较漫长的时间,这期间可以先浏览后续实验步骤。当执行完毕后返回目录basemap-1.0.7
并安装basemap
$ cd ..
# 先更新依赖包,再进行安装
$ sudo apt-get build-dep python-lxml
$ sudo python setup.py install
# 安装后更新,并安装python-tk
$ sudo apt-get update
$ sudo apt-get install python-tk
进入examples
目录运行程序simplestest.py
查看是否安装成功
$ cd examples
$ python simpletest.py
进入Code目录中并创建 shiyanlou_cs722 目录,通过以下命令获得tweets.json
, donald.json
及hillary.json
文件。
$ wget http://labfile.oss.aliyuncs.com/courses/722/tweets.json
$ wget http://labfile.oss.aliyuncs.com/courses/722/donald.json
$ wget http://labfile.oss.aliyuncs.com/courses/722/hillary.json
创建sparkSA.py
文件开始我们的实验。
注意: 本次实验操作的所有文件及代码都应存放在同一个目录——
shiyanlou_cs722
下。
导入相关模块
# -*- coding=utf8 -*-
from __future__ import print_function
import json
import re
import string
import numpy as np
from pyspark import SparkContext, SparkConf
from pyspark import SQLContext
from pyspark.mllib.classification import NaiveBayes
from pyspark.mllib.tree import RandomForest
from pyspark.mllib.feature import Normalizer
from pyspark.mllib.regression import LabeledPoint
使用Spark前的准备,因为实验楼有spark相关课程,这里就不做过多介绍
conf = SparkConf().setAppName("sentiment_analysis")
sc = SparkContext(conf=conf)
sc.setLogLevel("WARN")
sqlContext = SQLContext(sc)
进行情感分析的处理步骤如下图所示:
实验中我们利用获得的 tweets.json 作为
情感分析
分类器模型的训练集,这里测试集是用hillary.json,想要分析川普的,只需将测试集对应换成donald.json即可
据图可知,我们首先将每一条的推特数据分词,由于这里分析的是英文的tweet推特内容,因此只需将每个单词分开即可(与中文情感分析的不同),并定义stop_words 停用词
一些无关情感分析的词
#寻找推文的协调性
#符号化推文的文本
#删除停用词,标点符号,url等
remove_spl_char_regex = re.compile(‘[%s]‘ % re.escape(string.punctuation)) # regex to remove special characters
stopwords = [u‘rt‘, u‘re‘, u‘i‘, u‘me‘, u‘my‘, u‘myself‘, u‘we‘, u‘our‘, u‘ours‘, u‘ourselves‘, u‘you‘, u‘your‘,
u‘yours‘, u‘yourself‘, u‘yourselves‘, u‘he‘, u‘him‘, u‘his‘, u‘himself‘, u‘she‘, u‘her‘, u‘hers‘,
u‘herself‘, u‘it‘, u‘its‘, u‘itself‘, u‘they‘, u‘them‘, u‘their‘, u‘theirs‘, u‘themselves‘, u‘what‘,
u‘which‘, u‘who‘, u‘whom‘, u‘this‘, u‘that‘, u‘these‘, u‘those‘, u‘am‘, u‘is‘, u‘are‘, u‘was‘, u‘were‘,
u‘be‘, u‘been‘, u‘being‘, u‘have‘, u‘has‘, u‘had‘, u‘having‘, u‘do‘, u‘does‘, u‘did‘, u‘doing‘, u‘a‘,
u‘an‘, u‘the‘, u‘and‘, u‘but‘, u‘if‘, u‘or‘, u‘because‘, u‘as‘, u‘until‘, u‘while‘, u‘of‘, u‘at‘, u‘by‘,
u‘for‘, u‘with‘, u‘about‘, u‘against‘, u‘between‘, u‘into‘, u‘through‘, u‘during‘, u‘before‘, u‘after‘,
u‘above‘, u‘below‘, u‘to‘, u‘from‘, u‘up‘, u‘down‘, u‘in‘, u‘out‘, u‘on‘, u‘off‘, u‘over‘, u‘under‘,
u‘again‘, u‘further‘, u‘then‘, u‘once‘, u‘here‘, u‘there‘, u‘when‘, u‘where‘, u‘why‘, u‘how‘, u‘all‘,
u‘any‘, u‘both‘, u‘each‘, u‘few‘, u‘more‘, u‘most‘, u‘other‘, u‘some‘, u‘such‘, u‘no‘, u‘nor‘, u‘not‘,
u‘only‘, u‘own‘, u‘same‘, u‘so‘, u‘than‘, u‘too‘, u‘very‘, u‘s‘, u‘t‘, u‘can‘, u‘will‘, u‘just‘, u‘don‘,
u‘should‘, u‘now‘]
# tokenize函数对tweets内容进行分词
def tokenize(text):
tokens = []
text = text.encode(‘ascii‘, ‘ignore‘) # to decode
text = re.sub(‘http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*(),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+‘, ‘‘,
text) # to replace url with ‘‘
text = remove_spl_char_regex.sub(" ", text) # Remove special characters
text = text.lower()
for word in text.split():
if word not in stopwords and word not in string.punctuation and len(word) > 1 and word != ‘``‘:
tokens.append(word)
return tokens
Spark MLlib中提供的机器学习模型处理的是向量形式的数据,因此我们需将文本转换为向量形式,为了节省时间,这里我们利用Spark提供的Word2Vec
功能结合其提供的text8
文件中的一部分单词进行了word2vec
模型的预训练,并将模型保存至word2vecM_simple
文件夹中,因此本次实验中将tweets
转换为向量时直接调用此模型即可,从以下地址中获得此离线模型并解压:
cd ~
wget http://labfile.oss.aliyuncs.com/courses/722/word2vecM_simple.zip
unzip word2vecM_simple.zip
由于实验楼的在线环境限制,同学们可线下使用
text8
自行训练词向量转换模型,或线上搜索利用tweets进行分词训练的word2vec
模型
定义分词文本转换为向量的函数
def doc2vec(document):
# 100维的向量
doc_vec = np.zeros(100)
tot_words = 0
for word in document:
try:
# 查找该词在预训练的word2vec模型中的特征值
vec = np.array(lookup_bd.value.get(word)) + 1
# print(vec)
# 若该特征词在预先训练好的模型中,则添加到向量中
if vec != None:
doc_vec += vec
tot_words += 1
except:
continue
vec = doc_vec / float(tot_words)
return vec
读入预先训练好的文本向量化模型word2vecM
lookup = sqlContext.read.parquet("/home/shiyanlou/word2vecM_simple/data").alias("lookup")
lookup.printSchema()
lookup_bd = sc.broadcast(lookup.rdd.collectAsMap())
情感分析相关的函数定义好后,我们便可从json文件中读入数据,创建RDD对象,利用spark mllib
的分类器进行情感分析:
# 读入tweets.json作为分类器训练数据集
with open(‘tweets.json‘, ‘r‘) as f:
rawTrn_data = json.load(f)
f.close()
trn_data = []
for obj in rawTrn_data[‘results‘]:
token_text = tokenize(obj[‘text‘]) # 规范化推特文本,进行分词
tweet_text = doc2vec(token_text) # 将文本转换为向量
# 使用LabeledPoint 将文本对应的情感属性polariy:该条训练数据的标记label,tweet_text:训练分类器的features特征,结合成可作为spark mllib分类训练的数据类型
trn_data.append(LabeledPoint(obj[‘polarity‘], tweet_text))
trnData = sc.parallelize(trn_data)
#print(trnData)
print("------------------------------------------------------")
# 读入hillary.json作为分类器测试数据集
with open(‘hillary.json‘, ‘r‘) as f:
rawTst_data = json.load(f)
f.close()
tst_data = []
for obj in rawTst_data[‘results‘]:
token_text = tokenize(obj[‘text‘])
tweet_text = doc2vec(token_text)
tst_data.append(LabeledPoint(obj[‘polarity‘], tweet_text))
tst_dataRDD = sc.parallelize(tst_data)
# 训练随机森林分类器模型
model = RandomForest.trainClassifier(trnData, numClasses=3, categoricalFeaturesInfo={},
numTrees=3, featureSubsetStrategy="auto",
impurity=‘gini‘, maxDepth=4, maxBins=32)
# 利用训练好的模型进行模型性能测试
predictions = model.predict(tst_dataRDD.map(lambda x: x.features))
labelsAndPredictions = tst_dataRDD.map(lambda lp: lp.label).zip(predictions)
# 计算分类错误率
testErr = labelsAndPredictions.filter(lambda (v, p): v != p).count() / float(tst_dataRDD.count())
print(‘Test Error = ‘ + str(testErr))
print(‘Learned classification tree model:‘)
# 输出训练好的随机森林的分类决策模型
print(model.toDebugString())
在编写完代码后,在shiyanlou_cs722
目录下,通过spark-submit
命令提交程序运行:
$ /usr/bin/spark-2.0.2/bin/spark-submit --master=local sparkSA.py
--master=local sparkSA.py
在下一节的可视化的函数编写后,也是通过此命令提交运行程序。
训练得到的随机森林
模型:
基于上一小节的RandomForest随机森林
的训练结果,我们利用该分类器对推特上关于hillary的情感分析结果,结合basemap
将其展示到美国的48个州(除去阿拉斯加及夏威夷)上,观察这48个州对于 hillary 的看法。
我们将在函数res_visulization
中绘制可视化结果,首先我们需要定义该函数。
导入作图相关模块。
from mpl_toolkits.basemap import Basemap
from mpl_toolkits.basemap import cm
import matplotlib.pyplot as plt
import matplotlib as mpl
from matplotlib.colors import rgb2hex
from matplotlib.patches import Polygon
我们本次通过美国的shapefile
结合basemap进行绘图,因此需要以下三个文件(这个三个文件需放置在目录shiyanlou_cs722
下):
wget http://labfile.oss.aliyuncs.com/courses/722/st99_d00.shp
wget http://labfile.oss.aliyuncs.com/courses/722/st99_d00.dbf
wget http://labfile.oss.aliyuncs.com/courses/722/st99_d00.shx
函数res_visulization
可视化情感分析结果
# pred_result:利用spark mllib 情感分析结果
def res_visulization(pred_result):
# popdensity_ori 用于保存基于我们事先给定的推特情感极性,不同州的情感属性
popdensity_ori = {‘New Jersey‘: 0., ‘Rhode Island‘: 0., ‘Massachusetts‘: 0., ‘Connecticut‘: 0.,
‘Maryland‘: 0.,‘New York‘: 0., ‘Delaware‘: 0., ‘Florida‘: 0., ‘Ohio‘: 0., ‘Pennsylvania‘: 0.,
‘Illinois‘: 0., ‘California‘: 0., ‘Hawaii‘: 0., ‘Virginia‘: 0., ‘Michigan‘: 0.,
‘Indiana‘: 0., ‘North Carolina‘: 0., ‘Georgia‘: 0., ‘Tennessee‘: 0., ‘New Hampshire‘: 0.,
‘South Carolina‘: 0., ‘Louisiana‘: 0., ‘Kentucky‘: 0., ‘Wisconsin‘: 0., ‘Washington‘: 0.,
‘Alabama‘: 0., ‘Missouri‘: 0., ‘Texas‘: 0., ‘West Virginia‘: 0., ‘Vermont‘: 0.,
‘Minnesota‘: 0., ‘Mississippi‘: 0., ‘Iowa‘: 0., ‘Arkansas‘: 0., ‘Oklahoma‘: 0.,
‘Arizona‘: 0., ‘Colorado‘: 0., ‘Maine‘: 0., ‘Oregon‘: 0., ‘Kansas‘: 0., ‘Utah‘: 0.,
‘Nebraska‘: 0., ‘Nevada‘: 0., ‘Idaho‘: 0., ‘New Mexico‘: 0., ‘South Dakota‘: 0.,
‘North Dakota‘: 0., ‘Montana‘: 0., ‘Wyoming‘: 0., ‘Alaska‘: 0.}
# popdensity 用于保存基于随机森林分析的推特情感极性,不同州的情感属性
popdensity = {‘New Jersey‘: 0., ‘Rhode Island‘: 0., ‘Massachusetts‘: 0., ‘Connecticut‘: 0.,
‘Maryland‘: 0.,‘New York‘: 0., ‘Delaware‘: 0., ‘Florida‘: 0., ‘Ohio‘: 0., ‘Pennsylvania‘: 0.,
‘Illinois‘: 0., ‘California‘: 0., ‘Hawaii‘: 0., ‘Virginia‘: 0., ‘Michigan‘: 0.,
‘Indiana‘: 0., ‘North Carolina‘: 0., ‘Georgia‘: 0., ‘Tennessee‘: 0., ‘New Hampshire‘: 0.,
‘South Carolina‘: 0., ‘Louisiana‘: 0., ‘Kentucky‘: 0., ‘Wisconsin‘: 0., ‘Washington‘: 0.,
‘Alabama‘: 0., ‘Missouri‘: 0., ‘Texas‘: 0., ‘West Virginia‘: 0., ‘Vermont‘: 0.,
‘Minnesota‘: 0., ‘Mississippi‘: 0., ‘Iowa‘: 0., ‘Arkansas‘: 0., ‘Oklahoma‘: 0.,
‘Arizona‘: 0., ‘Colorado‘: 0., ‘Maine‘: 0., ‘Oregon‘: 0., ‘Kansas‘: 0., ‘Utah‘: 0.,
‘Nebraska‘: 0., ‘Nevada‘: 0., ‘Idaho‘: 0., ‘New Mexico‘: 0., ‘South Dakota‘: 0.,
‘North Dakota‘: 0., ‘Montana‘: 0., ‘Wyoming‘: 0., ‘Alaska‘: 0.}
idx = 0
for obj in rawTst_data[‘results‘]:
user_location = obj[‘user_location‘]
popdensity_ori[user_location] += (obj[‘polarity‘] - 1)
popdensity[user_location] += (pred_result[idx] - 1)
idx += 1
# 在终端上输出不同的州的情感属性
# 由于我们设置的 polarity 积极:0 正常:1 消极:2
# 因此对应的不同的州对于新总统的情感值越大则越消极,越小则越积极
print(‘popdensity_ori‘)
print(popdensity_ori)
print("---------------------------------------------------------")
print(‘popdensity‘)
print(popdensity)
print("---------------------------------------------------------")
# Lambert Conformal map of lower 48 states.
fig = plt.figure(figsize=(14, 6))
# 使用ax1, ax3 分别展示测试数据的原本情感属性值,及基于模型情感分析的结果
ax1 = fig.add_axes([0.05, 0.20, 0.40, 0.75])
ax3 = fig.add_axes([0.50, 0.20, 0.40, 0.75])
# 初始化Basemap对象,获得在美国范围的地图m1
m1 = Basemap(llcrnrlon=-119,llcrnrlat=22,urcrnrlon=-64,urcrnrlat=49,
projection=‘lcc‘,lat_1=33,lat_2=45,lon_0=-95, ax = ax1)
# draw state boundaries.
# data from U.S Census Bureau