码迷,mamicode.com
首页 > 其他好文 > 详细

第1章 NLP基础

时间:2020-06-23 01:13:11      阅读:89      评论:0      收藏:0      [点我收藏+]

标签:质量   应该   nlp   基础   问题   句法分析   语音识别   利用   mamicode   

一、NLP的研究任务

  • 机器翻译;
  • 情感分析;
  • 智能问答;
  • 文摘生成;
  • 文本分类:采集各种文章,进行主题分析,从而进行自动分类;
  • 舆论分析;
  • 知识图谱:知识点相互连接而成的语义网络。

二、基本术语

  1. 分词;
  2. 词性标注:对动词、名词、形容词等进行词性标注。eg:我/r 爱/v 北京/ns 天安门/ns;
  3. 命名实体识别:从文本中识别具有特定类别的实体(通常是名词),eg:人名、地名、机构名、专有名词(针对技术知识图谱的话,应该实体术语专有名词吧);
  4. 句法分析:是一种基于规则的专家系统。目的是分析句子中各个成分的依赖关系。往往结果是一棵句法分析树,eg:“小李是小杨的班长”,“小杨是小李的班长”,这两句话词袋模型完全相同,的那句法分析可以分析出两个句子中的主从关系;
  5. 指代消解:中文中代词出现频率高,通过指代消解,将指向同一实体的代词进行合并到所属的名词中,将代词消解掉;
  6. 情感识别:本质上是分类问题,经常用于舆情分析。情感一般分为三类,正面、负面和中性。通常可以基于词袋模型+分类器,或词向量模型+RNN,后者准确率略高;
  7. 纠错:自动纠错在搜索技术以及输入法中利用较多。纠错方法:N-Gram、字典树、有限状态机等方法;(注:什么是有限状态机?有限状态机是一种用来进行对象行为建模的工具,其作用主要是描述对象在它的生命周期内所经历的状态序列,以及如何响应来自外界的各种事件。在各种行为或条件下从某一状态转换到另一状态,见下图,有空进行扩充学习技术图片
  8. 问答系统:类似机器人的人工智能系统。往往需要辅助工具:语音识别、合成,自然语言理解、知识图谱等多项技术配合。

三、知识结构

技术图片

其中和专利分析比较相关的包括:句法语义分析、关键词抽取和文本挖掘。

四、NLP的几个层面

  1. 词法分析:包括分词和词性标注;
  2. 句法分析:分析句法结构。三种主流方法:短语结构句法体系,识别出句子中的短语结构以及短语之间的层次句法关系(应该可以适用于挖掘文本中的名词间的总分关系);依存结构句法分析,识别句子中词与词之间的相互依赖关系,术语浅层句法分析,过程简单,但提供的信息少;深层文法句法分析,太复杂,不适合大规模数据。
  3. 语义分析:目的是理解句子表达的真实语义。语义角色标注是目前较成熟的浅层语义分析技术。语义角色标注一般在句法分析的基础上完成。出于机器学习模型复杂度、效率考虑,NLP系统通常采用级联的方式,即分词、词性标注、句法分析、语义分析分别训练模型。通过两个以上的联合模型结果,得到高质量的分析结果。

五、参考书籍

《Python自然语言处理实战》

第1章 NLP基础

标签:质量   应该   nlp   基础   问题   句法分析   语音识别   利用   mamicode   

原文地址:https://www.cnblogs.com/yefan19/p/13179871.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!