码迷,mamicode.com
首页 > 其他好文 > 详细

用例建模Use Case Modeling

时间:2019-11-02 00:29:15      阅读:117      评论:0      收藏:0      [点我收藏+]

标签:词典   修饰词   京东   exp   语言   处理   info   准确率   针对   

---恢复内容开始---

  我的工程实践项目为《基于情感词典的文本情感分析》,情感分析是指通过机器学习或者自然语言处理技术,从文本中分析出人们对实体或属性所表达的观点、情感、评价、态度和情绪,情感分析也被称为情感挖掘、意见挖掘、观点抽取等。文本情感分析的主要任务是判断文本的情感倾向性,即对作者表达的情感是积极的还是消极的,正面的还是负面的,褒义的还是贬义的判断,因此也被情感分类。基于情感词典的文本情感分类,是对人的记忆和判断思维的最简单的模拟。其原理通过考察并分析文本中所有的具有情感色彩的词语,并对这些词语以及修饰词的情感强度进行量化加权来计算整个文本情感倾向的方法。其具体的实现方法为:首先对输入文本进行分词和去除停用词,然后将每个处理过的分词与构建的情感词典进行匹配,最后根据匹配结果得到文本的情感极性。主要的用例有:

  • 获取数据集:本项目所针对的目标是京东电子商品评论,获取数据集的主要方式有网络爬虫,下载公开数据集、利用公开API获取。
  • 数据预处理:主要的工作是对原始数据进行去重、缺失值处理、分词和去除停用词。
  • 构建领域情感词典:领域情感词典的构建是本项目的主要工作,实现的方式为在公开的情感词典基础上利用语义的相识度来进行扩充,计算相识度的主要方法有word2vec、PMI算法
  • 情感分析:主要的任务是利用文本分词与领域情感词典的匹配情况,得到情感值,并且运用LDA模型提取出感词所对应的主题,输出文本的情感词-情感值-主题词 

技术图片

High level use case:

  • 获取数据集
  • 数据预处理
  • 构建领域情感词典
  • 情感分析

Expanded use case:

  • 自定义词典。将分词结果、网络词汇、专业词汇和情感词典去重整合为自定义词典,并利用jieba分词来进行切分,提高分词的准确率。
  • 构建领域停用词表。将分词结果进行词频统计,并按从大到小排列,将一些不相关的词加入到停用词表,以便之后进行情感分析。
  • 构建领域情感词典。公共的情感词典并不适用电商领域,为提高情感分析的准确率,在公开公用情感词典的基础上,利用语义的相识度来扩展得到电商领域的情感词典。
  • 构建LDA主题模型。传统的情感分析是针对整个文本,而实际上用户更关心评论的某些主题特征,通过构建LDA主题模型挖掘文本的主题词,以此来优化系统。

用例建模Use Case Modeling

标签:词典   修饰词   京东   exp   语言   处理   info   准确率   针对   

原文地址:https://www.cnblogs.com/L-xuan/p/11780051.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!