码迷,mamicode.com
首页 > 其他好文 > 详细

泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器

时间:2015-07-29 21:06:59      阅读:110      评论:0      收藏:0      [点我收藏+]

标签:

泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器

白:parsing准确率,如果把所有未尽事宜都丢给语义语用,有点自说自话的味道,最终用户无感。

 

Wei:用户感不感没大关系,关键是它节省了语用层面的开发。

没有parsing,抽取是在表层进行,存在的困境是 sparse data 和 长尾问题。

表层的东西学不胜学,而有了 deep parsing  的支持,抽取规则可以以一当百,至少从规则量上看,这绝不是夸张。这是其一。

 

其二,deep parsing 使得领域移植性增强太多。

没有 parsing 抽取任务变了,一切须推到重来。

对于规则体系,有了 deep parsing,抽取任务随领域变了就不需要那么大的返工。parsing 吃掉了约 90% 的重复劳动(语言知识和结构本质上是跨领域的),返工的部分不到 10%。

parsing 意义之重大 正在于此。

 

对于机器学习,NLP应用的知识瓶颈在 (1)sparse data;(2) 任务变,训练库必须重新标注:前一个任务的标注对后续任务基本没有可重复使用的可能,因为标注是在语用层进行的。

如果有 parsing support,理论上讲,机器学习可以更好地克服 sparse data,但实践上,到目前为止,结合 structure features 和 keywords 在机器学习中一锅煮,目前还处于探索研究阶段,没有多少成熟的案例。我们以前尝试过这种探索,似乎parsing的参与有推进系统质量的潜力,但是还是很难缠,模型复杂了,features 混杂了,协调好不是一件容易的事儿。

 

事实上,规则体系做抽取,没有 parsing 差不多有寸步难行的感觉。因为人的大脑要在语言表层写规则,数量太大,写不过来。只有机器学习,才可以绕开parsing去学那数量巨大的抽取规则或模型,但前提是有海量标注的训练集。否则仍然不免 sparse data 的困扰。

 

sparse data 远远不是单指表层的出现频率低的 ngrams (习惯用法、成语等)的累积,那种 sparse data 相对单纯,可以当做专家词典一样一条一条编写,愚公终可移山。如果培训数据量巨大,譬如机器翻译,那么这类 sparse data 对于机器学习也不是难题。当然大多数场景,培训数据量始终大不起来,这个知识瓶颈 is killing ML。

 

更重要的 sparse data 是由于缺乏结构造成的,这种 sparse data 没有parsing就几乎无计可施。表层的千变万化,一般遵循一个正态分布,长尾问题在结构化之前是没有办法有效捕捉的。而表层的变化被 parsing 规整了以后,表层的 sparse 现象就不再 sparse,在结构层面,sparse patterns 被 normalize 了。这是 parsing 之所以可以称为NLP应用之核武器的根本。

 

没有 parsing,结构性 sparse data 就玩不转。

 

乔姆斯基纵有一万个不是,一千个误导,但他老人家提出的表层结构和深层结构的思想是不朽的。parsing 就是吃掉各种表层结构,生成一个逻辑化的深层结构。在这种深层结构上做抽取或其他语义语用方面的应用型工作,事半功倍。

 

Deep parsing consumes variations of surface patterns, that‘s why it is as powerful as nuclear bombs in NLP。

 

别说自然语言的语句的表层多样化,咱们就是看一些简单的语言子任务,譬如 data entity 的自动标注任务,就可以知道表层的 sparse data 会多么麻烦:如 “时间”的表达法,再如“邮件地址”的表达法,等等。这些可以用正则表达式 parse 涵盖的现象,如果在表层去用 ngram 学习,那个长尾问题就是灾难。

 

自然语言文句之需要 parsing,与标注 data entity,正则表达式优于 ngram 学习, 其道理是相通的。

 

 

【相关】

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

 



http://blog.sciencenet.cn/blog-362400-908894.html  此文来自科学网李维博客,转载请注明出处。 

泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器

标签:

原文地址:http://www.cnblogs.com/yymn/p/4687187.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!