信息的基本单位是句子,一个句子可以较表达完整连贯的易于理解的语义。句子中起主要作用的往往是关键词、词组或短语,而句子中的其他成分只是起到进一步修饰连接的作用,它们只是对基本信息的细化和补充。一旦获取了这些有意义的关键信息,便能获取句子的基本信息。因此,新特征语言和有意义串发现对中文自然语言理解是很有意义的。发现频繁使用的新词和短语等有意义串不仅能改进分词准确率,也有着其他广泛的应用前景。其应用领域主要如下几个方面:
首先,是对信息检索索引词的分析。例如,“计算技术研究所”是一个完整的查询词,而“计算”或者“技术”几乎不会有人去查询。当用户想搜索大众汽车时,输入“大众”得到的搜索结果可能不太准确,包含很多类似“人民大众”、“劳苦大众”这样非大众汽车的信息,而作为有意义串的“上海大众”具有语义完整性,能够排除歧义,一般能更准确地描述用户的需求。所以,有意义串能够应用到信息检索的查询词修正以及相关搜索分析。
其次,在社会热点挖掘与跟踪方面有应用价值。一个有意义串就是一个线索,就是一个很有价值的社会现象,它们往往包含了网民对当前社会各种现象的立场和观点。因此,对新特征语言和有意义串的挖掘,对社会热点挖掘与舆情监控的意义重大。
第三,能用于信息分析与特征提取。除字和词外,常用的文本特征项主要有短语、语义概念、有意义串等。有意义串的提取对于改善文本分类和聚类性能具有重要指导意义。
第四,对词典扩充与语料库建设意义重大。由于新词出现的速度不断加快,新词出现的领域不断增多,使用传统的人工方法搜集新词语,既耗时又耗力且时效性差。如果利用电脑的计算能力和自动检测方法,可以快速输出新词候选供人工进行筛选,这将大大减轻了人的负担。若能将新词属于有意义串的一部分被自动提取出来,必将促进语料库的自动化建设。此外,有意义串挖掘进一步深化可以进行关键频繁模式挖掘,对更高层次的文本自动内容抽取、话题检测和机器翻译等应用都有比较重要的意义。
新特征词和有意义串是指具备统计意义的串,新特征词和有意义串主要分为以下几个类别(其中前两类全部是词语,后三类中既包括词语又包括短语和词组):
(1). 命名实体,如 “民进党”、 “巴西队”等;
(2). 新造词,指狭义新词,如“博客”、“户型”、“撞衫”等;
(3). 领域术语,指领域相关的常用术语,如“计算语言学”、“未登录词”、“股骨头坏死”等;
(4). 固定搭配,主要指通用语料中经常使用的常用搭配,如“住房需求”等;
(5). 成语、歇后语等惯用语,如“智者千虑,必有一失”,“仁者见仁,智者见智”等。
有很多学者用统计的方法提取有意义串,即根据一个字符串的频率、互信息(Mutual Information,MI)、邻接类别(Accessor Variety, AV)等统计量来判断该串是否为有意义串。这种方法对高频与意义串处理结果较好,但对很难有效的提取低频的有意义串。
而NLPIR文本搜索与挖掘系统是针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。
NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。