码迷,mamicode.com
首页 > 其他好文 > 详细

人物关系挖掘方案设计

时间:2018-05-28 11:32:37      阅读:212      评论:0      收藏:0      [点我收藏+]

标签:beta   语义   src   提高   weight   部分   提升   inf   body   

 

 
背景
 
拓展知识图谱-人物关系模块,激发用户兴趣点击,提升流量。
 
 
要解决的问题
 
1、识别人名:ner 命名实体识别。
2、识别两个人是有关系的;
  人名共现来说明两个人之间有关系;
  词向量计算词与词之间的相似度来说明两个人之间关系。
3、人物关系挖掘。
  两个人名满足某种依存模式,则将两个人名和关系抽取出来。
  用到的相关nlp算子:分词、词性标注、命名实体识别(NER)、依存语法分析、语义角色标注
  依存句法中我们所用到的主要关系有:主谓关系(SBV)、动宾关系(VOB)、定中关系(ATT)、并列关系(COO)、介宾关系(POB);
 
技术方案、基于依存句法的人物关系抽取
 
 
 技术分享图片
 
 技术分享图片
 
核心工程
 
技术分享图片
 
模式_实例1
 
两人名实体同时位于主语,并列关系
例如:1914年,孔祥熙与宋霭龄于日本结婚。
 
利用哈工大语言云进行句法分析得到结果如下:
 
技术分享图片
 
 
模式_实例2
 
  两人名实体同时位于主语,修饰关系。特征词分别采用角色词或者人物词进行不同策略的挖掘。
  例如:邓超的妻子孙俪也是著名演员。
 
  使用句法分析得到结果如下:
 
 技术分享图片
 
 
 
模式_实例3
 
  两人名实体位于宾语,修饰关系
  例如:他的妻子以往被认为是洪秀全的妹妹洪宣娇。
 
技术分享图片

 

 
 
模式_实例4
 
  两人名实体分别为主语和宾语,这种情况时,选取谓语动词作为特征词
 
  例如“子路师从孔子”
 
技术分享图片
 
 
 
模式_实例5
 
  关系名为主语、人名2为宾语,这种情况时,选取谓语动词“是”作为特征词。
  例如“禹智皓的哥哥是韩国男歌手禹泰云”
 
技术分享图片
 
训练数据
 

部分训练样本

金城武在经济公司的安排下师从歌手陈升
子路师从孔子
禹智皓的哥哥是韩国男歌手禹泰云
贾巴里·帕克的父亲桑尼·帕克是前NBA球员   APP
邓超的妻子孙俪也是著名演员  APP两人名实体同时位于主语,修饰关系
1914年,孔祥熙与宋霭龄于日本结婚    两人名实体同时位于主语,并列关系
他的妻子以往被认为是洪秀全的妹妹洪宣娇  两人名实体位于宾语,修饰关系
韩雪在年代武侠剧《叶问》中饰演叶问的妻子张永成
刘涛共同出演古装爱情剧《大理公主》饰演贫苦寡妇杨玉姣的女儿杨阿细

  

 

 

 

优化方案
 
  指代消解。针对那些语句中有代词情况,考虑采用指代消解方案进行优化!
    提高精准度特殊处理方式:
    1、特定关系,必须满足姓氏相同。如:妹妹、弟弟、哥哥、父亲、女儿、儿子、爷爷
    2、...
 
数据评估——衡量方法的优劣
 
1、大多采用准确率和召回率和F1值来衡量方法的优劣。
2、F1值为准确率和召回率的加权几何平均值,具体定义如下。
  β是准确率和召回率的相对权重,β= 1,认为两个指标重要性是相同的;β>1,召回率权更重要一些;β<1时,准确率更重要一些。
 
技术分享图片

 

 
数据评估方式
 
  数据标注:
      1) 先跑出一版数据,然后再数据上做正确的标注;
  评估方式:
      1) 关系挖掘数据评估;
      2) 内链数据评估;
   新闻数据评估:
      1) 近似认为与原语料相同,进行数据类挖掘;
 
推荐
 
 
 
技术分享图片

人物关系挖掘方案设计

标签:beta   语义   src   提高   weight   部分   提升   inf   body   

原文地址:https://www.cnblogs.com/baochuan/p/9089515.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!