码迷,mamicode.com
首页 > 其他好文 > 详细

Name Disambiguation in Author Citations using a Kway Spectral Clustering Method 论文之摘要

时间:2016-07-20 09:11:24      阅读:371      评论:0      收藏:0      [点我收藏+]

标签:

研究背景

要解决的问题

名字歧义问题会带来文献检索、网络搜索以及数据库整合上带来效率问题还可能对作者带来名誉上的问题。解决的两种名字歧义问题:1、一个作者实体却有多个相似(被简写)的或者被误拼的名字。2、多个不同的作者实体共享同一个名字(被简写或名字一样)。

前人研究现状

前人采用的方法

  • 记录连接(record linkage)
  • 重复记录检测和消除(duplicate record detection and elimination)
  • 合并/清除(merge/purge)
  • 数据关联(data association)
  • 数据库硬化(database hardening)
  • 引文匹配(citation matching)
  • 姓名匹配(name matching)
  • 姓名等价识别(name equivalenceidentification)
  • 地址匹配(address matching)
  • 库归档规范化(name authority control in library cataloging practice)

以上的这些方法在概念上属于词义排岐(word sense disambiguation)

本文采用与 Name authority control、name matching 和 name equivalence identification 相似的方法,主要介绍了这三种方法目前的使用和研究现状

所借鉴的方法

1、Name authority control

其目的在于指定名字的权威格式。Getty’s ULAN (Union List of Artist’s Names) 和 the Library of Congress 采用了这种方法。名字标准格式方法会为名字提供一组既定的标准和规则。但目前这种方法很多采用人工的方式,自动化的方式则是监管学习方法,需要提供排岐的先验知识。

2、Name matching

用于标识来自于不同 name label 的类似于“Bart Selman” and “B. Selman”的名字

3、Name equivalence identification

这种方法解决了上述两个方法的不足,从单纯的字符串上认定是否是同一个人。本文的方法不仅局限于名字,还用到了合作者、文章名字、出版社信息。

4、聚类算法

K-means 聚类算法使用 贝叶斯和高斯混合模型虽然广泛的被使用到。然而,这些方法很容易出现局部最小值,还有局部分区会影响最终的结果。谱聚类算法使用特征分解的技术并且根据条件函数找到一个近似的全局最优解。而且谱聚类算法经常被指出结果由于K-means方法。

本文所采用的研究思路和方法

文章结构

一、介绍:所存在的问题以及对问题解决方法的概述
二、前人所做的工作:介绍了前人都使用了何种方法

作者的思路

考虑两种方法,一种是监管学习,一种是非监管学习。监管学习需要学习资料,即已经作出区分的数据,但并不是经常会有已经区分好的数据,这是一个难题。故采用了非监管的学习方式。名字排岐问题可以形式化的形容为把引文集合划分为更小的簇,最终每一簇的引文就是一个作者实体所作。这里使用一种成功应用于数据挖掘和聚类分析的 K-way 谱聚类算法。

本文采用的方法

提出一种使用 K-way 谱聚类的非监管式的学习方法来对文献引用中的作者进行排岐。这种方法采用引文的三种属性分别是:合作者的名字、论文标题以及出版社。本方法使用了从DBLP数据库的参考目录和作者主页收集到的16个带引用文献的名字集合。

本文的创新之处和贡献

采用了更多的信息进行排岐和K-way谱聚类算法的新应用。通过大量的实验观察到了影响排岐效率的因素并且提出和适当的排岐效率改进。

文章中采用的具体方法

使用QR分解的K-way谱聚类算法

QR分解:QR分解法是目前求一般矩阵全部特征值的最有效并广泛应用的方法

谱聚类算法:谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。

谱聚类方法计算给定图的拉普拉斯矩阵的特征值和特征向量并且根据光谱信息构造数据集(data cluster)

有科研发现,最小化平方和可以用另一种方式表示为数据向量 的格莱姆矩阵的迹最大化问题。格莱姆矩阵的部分特征分解可以得到迹最大化问题的一个宽松版本的全局最优解。

因此每个数据向量的簇分配可以通过QR分解计算特征向量矩阵。使用QR分解的K-way 谱聚类算法比K-means更佳。

接下来构造 K-way谱聚类算法所使用的结构。令每个引用作为无向图中的一个节点,每条边的权重为两篇引文 i 和 j 的相似度。

引用矩阵和特征(合作者/文章标题/出版社)设计(Citation Matrix and Feature Design)

为每个名字集合构建引文向量,其中每个引文可以表述成一个 m 维的向量,对应引文的 m 个特征(属性)。即 M = (a1, …, am) ,其中 ai 代表引文特征(属性)的第 i 个属性的权值。而此处权值的赋予采用了 NTF 方法,其中

ntf(i,d)=freq(i,d)/max(freq(i,d))

其中,freq(i,d) 表示特征(属性) i 在引文 d 中的词频。

引文向量的格莱姆矩阵代表了成对引文的相似性。

光谱松弛(Spectral Relaxation)

有一组 m 维的引文向量 ai,i = 1, …, n。将之整理为一个 m * n 的引文矩阵 A[a1, a2, …, an]

引文向量的一个划分可以被表示为:

AE=[A1,...,Ak],Ai=[α(i)1,...,α(i)si]

其中 E 是一个转置矩阵,Ai 是 m * si 大小的矩阵。第 i 簇 包含 Ai 中的引文向量。对于上述的划分,相关的平方和 cost function 定义如下:

ss(Π)=i=1ks=1si||α(i)s?mi||2,mi=s=1siα(i)s/si

mi 是 i 簇的引文向量的平均向量。平方和 cost function 的最小化可以被形式化的表达为宽松的最大化问题

max[trace(XTATAX)]

其中 XTX=Ik 并且 X 是一个任意正交矩阵

先要介绍一个理论(樊幾提出): H 是一个对称矩阵,特征值为 λ1λ2...λn,响应的特征向量 U=[u1,...,un]

λ1+...+λk=maxXTX=Iktrace(XTHX)

根据上面的理论计算出格莱姆矩阵A^TA 的 k 个最大特征向量。令 Xk 为一个 n * k 的包含A^TA的最大特征向量的矩阵。X_k的每列对应一个引文向量,并且上面的过程可以看作是将原始的引文向量从 m 维转换为 k 维。(m-dimensional space to new citation vectors in the k-dimensional space.)

Cluster Assignment Using Pivoted QR Decomposition

假设 A 中的引文向量的最佳划分最小函数 ss(Π) 来自于 A=[A1,...,Ak]。每个子矩阵 Ai 对应于一个聚类。A 的格莱姆矩阵可以表示为:

ATA=B+E

具体的实验和实验结果

所使用的实验数据集

收集了两种不同格式的引文集合用来实验。1、从DBLP Computer Science bibliography 下载到的包含超过 400,000 解析过属性的 XML格式的 引文记录。将引文条目中的三个属性组成字符串然后将姓相同且名字缩写相同的条目归类到同一个聚类下面。如果引文中出现了一个名字,那么这个名字就与该引文有关联。根据与名字有关联的数量来对聚类簇进行排序。最高数量的簇即为存在歧义最多的。
另外还有来自于 DBLP 的其他10个名字集合如下:

技术分享

2、另外的一种数据是从作者主页人工提取出的数据。这部分的歧义来自于一个名字对应了许多的作者。

评价方法的准备是首先人工地对名字和作者的对应关系作出准确的识别和判断,然后用这个数据集对实验结果进行比对。

实验设计

通过两种方法改变数据集的大小,第一种是在上表中选择一个最小限度的引文数量;第二种是在作者对应名字的集合里选择一个百分数(从10%到100%,以10%步进),且至少10个。对比最终的排岐率。

对每一个不同大小的数据集使用 K-way 谱聚类算法并且对比特性赋权方法 “TF-IDF” 和 “NTF” 方法的优劣,还对比了不同信息分别对排岐效果的贡献(合作者、文章名、出版社)

DBLP 引文集上的名字排岐

数据集大小对排岐结果的影响

对于每一个数据集进行十次实验取平均值,并且对于每个作者随机选择一个引文集合的百分比。结果表明引文集合的扩大对于排岐的效果产生积极的影响。

技术分享

TF-IDF v.s. NTF

技术分享

TF-IDF 不是仅仅考虑了一个特性在引文中的频次,也考虑了一个特征在整个引文集合中的贡献。而NTF仅仅考虑了一个特性在一个引文中的频次。所以 TF-IDF 在表现中好于 NTF。

名字信息数量对排岐的影响

技术分享

由于从网络收集的数据名字不规范,所以只使用从DBLP得到的数据进行实验。结果表明当有更多附加条件时结果会更加的精确。

何种信息(特性)对于排岐效果的贡献最大

技术分享

上图显示单独使用合作者信息比单独使用论文标题或出版社信息效果更好。我们假定是由于出版社名字的信息过于稳定,而标题信息可能也仅仅包含很少的信息。而单独使用出版社信息要劣于单独使用标题信息,可能是由于单独的出版社名字未必能很好的显示出作者的研究领域或者多个出版社会共享同一个缩写。而且所使用的数据大多是来自于计算机类目,其出版社信息并不能很好的引入更多的排岐信息。

结论

我们使用 QR分解为 K-way 谱聚类算法应用于作者引文名字排岐做聚类分配,并且也研究了一些因素对排岐效果的影响,例如权重分配方法、数据集大小、名字信息的多少以及作者的研究领域等。结果都显示在名字排岐领域里 K-way谱聚类算法要优于 K-means 聚类方法。

证明了如预期一样,越多的特征使用会带来更好的排岐效果。

而进一步的效果提高将会通过标题和出版物名称的语义关键字来。我们观察到一个研究者经常会在一个领域继续研究一定的时间而且他所发表的论文会经常的出现在哪些与他研究领域相关的出版物上。
在人工对数据集进行标注的时候,我们使用了更多的信息比如电邮地址、作者简历、主页以及我们的判断。因此我们会倾向于引入更多的引文特征去改善排岐效果,从摘要中提取一些有用的信息可能会更加的改善排岐效果。

Name Disambiguation in Author Citations using a Kway Spectral Clustering Method 论文之摘要

标签:

原文地址:http://blog.csdn.net/u013040821/article/details/51945255

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!