DBpedia Introduction

时间：2016-09-25 22:24:21 阅读：373 评论：0 收藏：0 [点我收藏+]

标签：

最近对Freebase和DBpedia有点兴趣，但是不知道他的明确概念，具体用法，所以通过网上信息做一下介绍。

直接将信息框数据存入RDF（Resource Description Framework）数据。

由于单纯的使用自然语言对文档等预料进行提取的时候，得到的结实体、概念或者谓词都是相互独立的，所以从语意角度而言，不给予对得到的结果进一步使用。总结而言，

一个是资源无法关联到相关类别；二是对于一个实体的各种属性，例如汽车的engine，production这样的属性，可能语义并不明确。这也是为什么需要一个基于映射的信息框抽取。

基于映射的信息框抽取

由于信息框的多样性以及上文所讨论的，“生”数据质量有待提高，基于映射的信息框抽取被提出。

它完成了将一个Infobox对应到一个DBpedia的本体(ontology)中。其中Infobox的属性对应了为此，常常采用另外的结构对其进行抽取和存储，这样就可以更加准确、具有语义的将Infobox的信息映射出来。

DBpedia的基于映射抽取器为了实现映射的准确性和实时性，允许用户新建和编辑，和Wikipedia的开发性相“映射”。 DBpedia同时提供了三个工具，分别是映射检验器、抽取测试器、映射工具，供用户使用。 http://mappings.dbpedia.org

URI模式

对于每一个Wikipedia中的文章，将会有一些URI与之对应。

自然语言处理抽取

DBpedia提供了关于自然语言处理的数据集，目前有四个：话题标签(topic signatures)，文法类别(grammatical gender)，词汇(lexicalization)，和主题概念(thematic concept)。

Lexicalization:

这是为了给出DBpedia中的别名统计信息而生成的数据集。它的作用是，给定一个词语，可以判断它可能表示的所有概念，包括以这个词为名字或别名的所有概念。同时会给出一个“分数”，这个分数表示了利用这个词表示这个概念的概率。

Topic signatures:

也就是给DBpedia中的每个resource（就是与Wikipedia中的网页对应的资源）制作一个话题标签，以概括这个资源所围绕的话题。这个数据集的产生过程是：

Wikipeida中出现的每个词都是一个维度，每个DBpedia中的resource被表达成一个空间向量（VSM），对应这个多维空间中的一个点。对于每个与某resource

相关的词，计算其的tf-idf的权重，然后选择出与这个resource关联最近的一些词，作为这个resource的话题标签。

Thematic:

这个抽取器旨在对DBpedia中的概念确定其主题，在Wikipedia中，许多类别下都有一篇文章来交待这个类别的主题，DBpedia利用这个，标注了概念或实体的主题。

Grammatical gender:

这个部分可以针对Person这个本体，进行性别分析。在从Wikipedia到DBpedia的映射中，如果出现了Person这种实体，则统计这篇文章中出现的表征性别的形容词、代词等，然后以统计的方法确定这个人的性别。

DBpedia本体

DBpedia本体目前包括了320个类别，类别之间包含层次关系，深度可以达到5，深度控制在5以内是为了便于数据的使用，比如可视化或者导航。同时有1650个不同的属性来描述这些类别。

标签：

原文地址：http://www.cnblogs.com/Mr-Leen/p/5907002.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行