标签:
系统运行:文件夹system下,可执行文件ontoEnrichment
概念学习
--------------------------------------------------------1、简单概念学习
语料库配置文件:corpusDir(可自行配置,第一行为领域语料文件所在目录,其他为背景语料文件所在目录,每个目录占一行)
------------程序执行:
请输入语料库配置文件(第一行为领域语料):./corpusDir
请输入经过分词预处理的领域文档存放目录:./语料/domainSegment
请输入输出文件名:./shuchu/simple_concept
请输入简单概念筛选阈值(默认x=0.5,y=1.0),如果未输入则选择默认值:
0.5
1.0
--------程序执行结果:./shuchu/simple_concept
-------------------------------------------------------2、复合概念学习
------------程序执行:
请输入构成复合概念词根文件:./Data/root.txt (可以包含多个,每个词一行)
请输入构成复合概念模板文件(按R学习模板文件):./Data/rule (复合概念词性构成规则)
若要重新学习复合概念规则
规则获取文件:./Data/ruleTrainData.txt (每行为一个记录,其格式为:句子 该句中包含的复合概念)
请输入领域文档集合所在目录名:./语料/domainWeapon
是否进行复合概念词频统计进行筛选(Y/N):Y
是否进行上下文依赖筛选(Y/N):Y
请输入上下文依赖筛选阈值(未输入则使用默认值0.5):0.5
通过上下文依赖筛选的复合概念存储在(输入文件名):./shuchu/compoundConcept.txt
--------程序执行结果:
终端输出的结果:【复合概念 信息熵】
./shuchu/compoundConcept.txt 文件中的内容:【与终端输出的结果差别是:信息熵大于上下文依赖筛选阈值才存入输出文件中】
关系学习
1、使用维基百科信息盒进行关系学习
2、使用维基百科分类名进行关系学习
3、使用维基百科链接进行关系学习
4、使用广义后缀树识别概念分类关系
5、使用层次聚类学习概念间分类关系
6、模板匹配法学习特定概念间关系(方法一)
7、模板匹配法学习特定概念间关系(方法二)
1、输入:概念名(关系三元组中的第一个概念)
***********************************************
****维基百科信息盒(infobox)抽取概念间关系****
***********************************************
请输入概念名:航空器 #并不是wiki文件里面所有的概念都有其对应的infobox这一条目,故不是输入任何东西都可以得到信息盒抽取的概念间的关系
请输入配置文件名(包含维基百科dump文件和抽取出的词条文档存放文件):./wikiConfig
请输入输出文件名:./shuchu/infoboxhkq
infobox关系抽取完成!
是否继续(Y/N)?
----------------程序运行结果
./shuchu/infoboxhkq里面的内容:
2、输入:概念名(关系三元组中的第一个概念)
3、 程序运行前预处理:
运行./wikiData/wikiGraph程序【该程序是对wiki的xml文件进行预处理,得到维基百科连接图文件】,改程序的输入是:./wikiData/wikiNet.txt【wiki百科文件中每个概念的链接关系】和./wikiData/wikiNetRedict.txt【wiki百科文件中概念的重定向关系】两个文件,最终输出wikiNetGraph文件(名字可以任意自定)【得到的维基百科连接图文件】,该输出文件作为“维基百科链接抽取相关概念”的相关输入之一。
程序运行:
*******************************
****维基百科链接抽取相关概念****
*******************************
请输入维基百科重定向文件,维基百科链接图文件:./wikiData/wikiNetRedirect.txt
./wikiData/wikiNetGraph (包含两行记录)
运行结果:
输出:根据用户输入的概念,将该概念中有链接关系的相关概念以追加的方式输出到./wikiVerctor/conceptWikiFile中。
4、输入:./Data/concept(待建立层次关系的概念集合,该文件中每行数据为一个领域概念)
程序输入:system/concept
5、输入:./wordVector/conceptKeyFile(从自然文本中得到的概念集合的上下文词向量) ./wordVector/conceptWikiFile (通过
模块2从维基百科链接图得到的概念相关概念向量,其具体格式见相应的文件)
-----程序运行时,实际是没有输入选项的
6、训练文件: ./6/train
模板个数:根据训练文件可以自己调整
测试文件:./Data/test(格式跟训练文件一样)
7、训练文件: ./7/train
测试文件:./7/test
---------------程序运行结果
(64位)本体学习程序(ontoEnrich)系统使用说明文档
标签:
原文地址:http://www.cnblogs.com/CherishFX/p/4556930.html