码迷,mamicode.com
首页 > 编程语言 > 详细

灵玖软件:大数据语言新特征发现

时间:2017-12-21 17:22:03      阅读:232      评论:0      收藏:0      [点我收藏+]

标签:扩展   挖掘   gpo   价值   img   网民   固定   词频统计   检测   

  信息的基本单位是句子,一个句子可以较表达完整连贯的易于理解的语义。句子中起主要作用的往往是关键词、词组或短语,而句子中的其他成分只是起到进一步修饰连接的作用,它们只是对基本信息的细化和补充。一旦获取了这些有意义的关键信息,便能获取句子的基本信息。因此,新特征语言和有意义串发现对中文自然语言理解是很有意义的。发现频繁使用的新词和短语等有意义串不仅能改进分词准确率,也有着其他广泛的应用前景。其应用领域主要如下几个方面:

技术分享图片

  首先,是对信息检索索引词的分析。例如,“计算技术研究所”是一个完整的查询词,而“计算”或者“技术”几乎不会有人去查询。当用户想搜索大众汽车时,输入“大众”得到的搜索结果可能不太准确,包含很多类似“人民大众”、“劳苦大众”这样非大众汽车的信息,而作为有意义串的“上海大众”具有语义完整性,能够排除歧义,一般能更准确地描述用户的需求。所以,有意义串能够应用到信息检索的查询词修正以及相关搜索分析。

  其次,在社会热点挖掘与跟踪方面有应用价值。一个有意义串就是一个线索,就是一个很有价值的社会现象,它们往往包含了网民对当前社会各种现象的立场和观点。因此,对新特征语言和有意义串的挖掘,对社会热点挖掘与舆情监控的意义重大。

  第三,能用于信息分析与特征提取。除字和词外,常用的文本特征项主要有短语、语义概念、有意义串等。有意义串的提取对于改善文本分类和聚类性能具有重要指导意义。

  第四,对词典扩充与语料库建设意义重大。由于新词出现的速度不断加快,新词出现的领域不断增多,使用传统的人工方法搜集新词语,既耗时又耗力且时效性差。如果利用电脑的计算能力和自动检测方法,可以快速输出新词候选供人工进行筛选,这将大大减轻了人的负担。若能将新词属于有意义串的一部分被自动提取出来,必将促进语料库的自动化建设。此外,有意义串挖掘进一步深化可以进行关键频繁模式挖掘,对更高层次的文本自动内容抽取、话题检测和机器翻译等应用都有比较重要的意义。

  新特征词和有意义串是指具备统计意义的串,新特征词和有意义串主要分为以下几个类别(其中前两类全部是词语,后三类中既包括词语又包括短语和词组):

  (1). 命名实体,如 “民进党”、 “巴西队”等;

  (2). 新造词,指狭义新词,如“博客”、“户型”、“撞衫”等;

  (3). 领域术语,指领域相关的常用术语,如“计算语言学”、“未登录词”、“股骨头坏死”等;

  (4). 固定搭配,主要指通用语料中经常使用的常用搭配,如“住房需求”等;

(5). 成语、歇后语等惯用语,如“智者千虑,必有一失”,“仁者见仁,智者见智”等。

有很多学者用统计的方法提取有意义串,即根据一个字符串的频率、互信息(Mutual Information,MI)、邻接类别(Accessor Variety, AV)等统计量来判断该串是否为有意义串。这种方法对高频与意义串处理结果较好,但对很难有效的提取低频的有意义串。

  而NLPIR文本搜索与挖掘系统是针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。

  NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。

灵玖软件:大数据语言新特征发现

标签:扩展   挖掘   gpo   价值   img   网民   固定   词频统计   检测   

原文地址:http://www.cnblogs.com/ljrj/p/8081090.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!