标签:类型 探讨 关联规则 其他 pos 资料 因此 关联规则挖掘 感染
近年来医疗数据挖掘发展迅速, 然而目前医 疗数据结构化处于起步阶段, 更多的医疗数据仍然 以自然语言文本形式出现, 这些医学文本资料中的 知识是不同地域、 不同时代人们智慧的结晶, 展现 的是大量、 未整理的文献资料以及诊疗记录, 而这一点在中医学中尤为突出。
自然人的学习能力有限, 因此学者们尝试通过自然语言处理 (Natural Language Processing,NLP) 辅助完成汇总中医知识的过程, 将知识提炼出来, 提取其中有用的诊疗信息, 最终形成知识本体或者 知识网络, 从而为后续的各种文本挖掘任务提供标 准和便利。NLP属于人工智能的子领域, 其核心目 的是使得计算机能够理解和生成人类的自然语言, 任务主要包括信息抽取、 机器翻译、 情感分析、 摘要提取等, 所用到的技术包括命名体识别、 语义消 歧、 指代消解、 词性标注、 结构分析等。 大量医学 文本资料中含有的病史、 诊断、 治疗方法、 药物等 名词, 给NLP的应用提供了可能性。 利用 NLP技术 将隐藏在文本中的知识挖掘出来, 对医学的发展具有重要意义, 目前已有医学和生物学领域的相关研 究[1] 。 同时 20世纪80~90年代, 一些医学本体数据库逐渐建立起来, 如一体化医学信息系统、 临床医学系统术语等, 使得利用NLP 挖掘医学知识的资料和工具更为充足。
1 关联规则挖掘
2.1.1 概述 关联规则是数据挖掘的常用方法,
核心在于分析类似 “某些事情的发生引出另外一些 事件的发生” 的规则, 包括简单关联、 时序关联、 数量关联、 因果关联等, 核心算法是以支持度和置 信度作为判断标准, 确定是否存在关联关系。 著名 的关联算法有Apriori算法及其改进算法FP-growth , 通过计算出频繁项集来表示规则前件和后 件中的事项明显同时出现。
2.1.2 关联规则在中医学中的应用 主要是方剂
的关联性挖掘, 如任廷革等[2] 尝试构建了中药方剂 数据库, 收集了近 2000年来约 10万个方剂数据, 共 100万余条数据记录, 而且给出了从中挖掘关联规则的方法[3] 。 王大阜[4]使用 Apriori算法对所收集 的方剂数据库进行关联分析, 挖掘出了当归 ==> 生地 (支持度 7.86%, 置信度 78.57%)、 白藓皮
==>土茯苓 (支持度7.14%, 置信度83.33%) 等关联规则, 将方剂中常用的搭配药物分析出来, 对中药 的 配 方循 证 起到 指 导 作用。 朱 立 成[5] 对445例名医医案进行关联分析, 挖掘出哮喘医案的 病因、 病位、 证候与四诊信息的关联关系, 病因、 病位、 证候、 四诊信息与用药的关联关系, 以及 中药之间的关联关系。
2.1.3 局限性
关联分析挖掘出来的知识有限,仅仅考虑到了并发的情况, 一般局限于某个术语 与其他某个或某些术语共现频次较高类似的结果。 大部分的应用建立在获取结构化数据的前提条件下, 更多展现的是对结构化数据分析的能力。
2.2 聚类分析
2.2.1 概述 中医有阴阳五行学说, 人体有五脏 六腑之分, 均彰显出可分类的特点, 聚类分析应用 于中医学中应当与中医自身的性质相契合。 学者们 利用聚类分析方法对中医文本挖掘进行研究, 具体 为症状分类和药物评价。
2.2.2 对症状的聚类 症状分类的语料多来自中 医的诊断手稿, 常见于从某一种特殊的疾病入手, 利用诊断手稿对症状聚类, 得出该疾病的表型特 点。 麻晓慧[6] 利用有关胆道感染、 胆石症病案共 739 例, 将 92 项临床表型聚类, 得到胆病症状的表 现分类特点, 归纳总结了胆病的症状群。 袁世宏 等[7] 使用聚类分析方法寻找肾虚症状的自然类群, 聚类的结果与中医理论的描述基本一致, 为中医的 科学性提供了很好的佐证。 除症状之外, 何裕民 等[8] 使用模糊聚类, 得出体质的类型分类 (强壮 质、 虚弱质、 失调质) 及若干亚型。
2.2.3 药物评价聚类 药物评价方向主要是利用 聚类方法将类似性状或相同功效的药物聚在一起, 应用中医药理论总结知识。 何前锋等[9] 对中药按照 功效聚类, 定义药物之间的相似性, 对中药分类整 理做出一定的贡献。
2.2.4 局限性 相比于信息抽取, 聚类分析偏向 整体性质, 从宏观的角度对疾病、 症状、 药物做出 分类整理, 只能得到概括性的评价, 无法挖掘出具 体的诊疗方法信息。
2.3 信息抽取
2.3.1 概述 中医文献大都是以自然语言的方式 描述的, 而且纷繁复杂, 医疗记录中蕴含着症状、 诊断信息, 医书中蕴含方剂、 病理信息, 药物典籍 中蕴含组分、 制作方法信息等, 如果采用人工方法 提取这些信息, 耗费的人力、 物力是难以估量的。 然而, 由于中医术语名词都包含在描述语言中, 而 且文献描述语言简练、 逻辑简单, 因此可以考虑使 用信息抽取算法来自动获取结构化信息。
2.3.2 隐弥科夫模型为主的信息抽取 近年来, 隐马 尔 科 夫 模 型 (Hidden Markov Model, HMM) 在信息抽取领域中被广泛应用。 顾铮等[10] 利用 HMM 对中医古籍进行了信息抽取, 将症状、 病 因、 脉象和方剂看作模型的 4 种状态, 然后利用 命名实体识别结合人工标注的方法来从文献中提 取相应的名词, 最终计算出 HMM 相关参数, 达到 了信息抽取的目的。 庄力[11] 以中医临床诊疗数据 面向普通公众便捷信息服务为目标, 设计并实现 了中医临床诊疗垂直搜索系统 TCMVSE, 可以完 成 Web 信息搜集、 信息抽取、 信息索引与检索等 功能。
2.3.3 不足 信息抽取需要人工定义抽取的模 板, 而且经常面临数据缺失的情况, 得到的结构化 数据也属于缺失数据, 给进一步分析带来一定的困 难。 但是作为将非结构化信息转化为结构化信息的 最小损失手段之一, 信息抽取在中医 NLP 研究中具 有非常重要的地位。
2.4 机器学习
医学中机器学习应用比较广泛的是针对结构 化数据的分类方法, 基于自然语言处理的方向相 对较少, 机器学习方法应用于文献的分类较为广 泛, 与文本知识挖掘为不同的研究方向, 故不做 赘述。 中医方面, 一些学者尝试使用机器学习技 术就某个具体问题提出解决思路, 取得一定的成 效。 孙燕[12] 尝试利用支持向量机及相关改进算法 对 《伤寒论》 进行方证分析和量化研究, 针对特 定药材量化分析并且应用支持向量机对 《伤寒论》 按照八 法 训 练 分 类, 给 出 了 一 些 结 果。 晏 峻 峰 等[13] 利用粗糙集理论对中医诊断证素推理规则的 获取、 症状辨证素的量表制定等证素辨证研究的 关键问题进行了研究, 主要对症状的诊断和互相 之间的关系做出一些系统性探讨。 徐蕾[14] 提出将决策树方法应用于中医证候学研究的思路, 说明 决策树方法在中医诊断辨证中的应用前景。 卢延 鑫等[15] 通过词性标注规则提取名词并应用支持向 量机对其分类, 判定是否为致病因素并与流行病 学专家给出的评测结果对比, 得到了最高 80%的 准确率。
2.5 命名实体识别
生物命名实体识别,就是从生物医学文本中识别出指定类型的名称,比如基因、蛋白质、核糖核酸、脱氧核糖核酸、疾病、细胞、药物的名称等。目前,使用比较多的生物命名实体识别的研究方法主要有以下几种:基于规则的方法[16]、词典匹配的方法[17]以及机器学习的方法,如支持向量机(SVM)[18]、最大熵[19]、条件随机场 (CRF)[20]以及隐马尔科夫(HMM)[21]等。
[1]王浩畅,赵铁军 生物医学文本挖掘技术的研究与进展[期刊论文]-中文信息学报 2008(03)
[2]任廷革,刘晓峰,高剑波,杨斌,孔广黔,张帆,王欣 "中医药基础数据库系统"介绍[期刊论文]-中国中医药信息杂志
2001(11)
[3]任廷革,刘晓峰,张帆,孙燕,汤尔群 计算技术对中医方剂知识的挖掘[期刊论文]-科技导报 2010(15)
[4]王大阜 关联规则在中医方剂数据集市中的应用[期刊论文]-贵州大学学报(自然科学版) 2006(03)
5.朱立成,林色奇,薛汉荣,查青林,张启明,吕爱平 名中医哮喘医案445例关联规则分析[期刊论文]-江西中医学院学报
2007(05)
6.麻晓慧,王泓午,何裕民 胆病症状学聚类研究[期刊论文]-中国中医基础医学杂志 2000(12)
7.袁世宏,王米渠,王天芳,严石林,毕焕英,师建梅,赵燕 聚类分析对肾虚症状的探索性研究[期刊论文]-北京中医药大
学学报 2006(04)
8.何裕民,楚更武 体质的聚类研究[期刊论文]-中国中医基础医学杂志 1996(05)
9.何前锋,周雪忠,周忠眉,崔蒙,吴朝晖 基于中药功效的聚类分析[期刊论文]-中国中医药信息杂志 2004(06)
10.顾铮,顾平 信息抽取技术在中医研究中的应用[期刊论文]-医学信息 2007(01)
11.庄力 中医临床诊疗垂直搜索系统研究[学位论文] 2009
12.孙燕.基于机器学习技术的 《伤寒论》 方证分析方法研
13.晏峻峰,朱文锋 粗糙集理论在中医证素辨证研究中的应用[期刊论文]-中国中医基础医学杂志 2006(02)
14.徐蕾,贺佳,孟虹,贺宪民,范思昌 决策树技术及其在医学中的应用[期刊论文]-数理医药学杂志 2004(02)
15.卢延鑫,姚旭峰,王松旺 利用自然语言处理技术提取致病因素信息研究[期刊论文]-医学信息学杂志 2013(03)
16.Fukuda K, Tamura A, Tsunoda T, et al. Toward information extraction: identifying protein names from biological papers.[C]// Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing. Pac Symp Biocomput, 1998:707-718.
17.Tuason O, Chen L, Liu H, et al. Biological nomenclatures: a source of lexical knowledge and ambiguity.[J]. Pacific Symposium on Biocomputing Pacific Symposium on Biocomputing, 2004:238.
18.Bakir G, Hofmann T, Sch?lkopf B, et al. Support Vector Machine Learning for Interdependent and Structured Output Spaces[C]// International Conference on Machine Learning. ACM, 2004:104.
19.Lin Y F, Tsai T H, Chou W C, et al. A maximum entropy approach to biomedical named entity recognition[C]// International Conference on Data Mining in Bioinformatics. Springer-Verlag, 2004:56-61.
20.Su J, Su J. Named entity recognition using an HMM-based chunk tagger[C]// Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2002:473-480.
21.Li Y, Lin H, Yang Z. Incorporating rich background knowledge for gene named entity classification and recognition[J]. Bmc Bioinformatics, 2009, 10(1):1-15.
柴华, 路海明, 刘清晨. 中医自然语言处理研究方法综述[J]. 医学信息学杂志, 2015, 36(10):58-63.
标签:类型 探讨 关联规则 其他 pos 资料 因此 关联规则挖掘 感染
原文地址:http://www.cnblogs.com/flippedkiki/p/7684729.html