招投标文件知识抽取具体包含:
1、格式抽取:字体、字号、行间距、章节表格序号、目录等
2、字段抽取:主体信息、金额、标的、地址、日期等
3、章节段落抽取:章节标题(目录)与内容(要求、规定、条款等)。
KGB(Knowledge Graph Builder)知识图谱引擎基于汉语词法分析的基础,采用KGB语法实现了实时高效的知识生成,可以从非结构化文本中抽取各类知识,并实现了从表格中抽取指定的内容等。KGB同时可以定义不同的动作,如抽取动作,并能自定义各类后处理程序。利用KGB知识图谱引擎可以抽取到产品的详细报价信息,方便进行下一步的数据挖掘与图谱构建。
KGB知识图谱?能够实现跨领域可扩展。知识图谱加工厂具有通用的图谱构建引擎。知识抽取、知识关联与质量核查过程不依赖特定业务知识,结合知识图谱构建的需求,可以快速构建用户领域知识图谱。
KGB知识图谱能够实现对知识质量智能核查。知识图谱加工厂实现对多种知识错误与冲突的智能核查与校验,并对知识库进行实时自动更新,保证知识图谱准确性。
KGB知识图谱采用人机结合的服务。知识图谱加工场人机构成:90%机器+10%的人工,只需要提供语料,就可以快速得到对应的知识图谱构建成果。
原文地址:https://blog.51cto.com/10327013/2461942