标签:整理 机器 处理机 段落 ati 结构 识别 理解 acl
这篇文章是阅读AMiner《2018自然语言处理研究报告》前几篇内容整理所得。
自然语言处理就是要计算机理解自然语言,计算机要理解自然语言文本的意义,最后能以自然文本形式来表达意图。处理过程主要是理解、转化、生成。
自然语言的理解和分析是一个层次化的过程,许多语言学家把这一过程分为五个层次, 可以更好地体现语言本身的构成,五个层次分别是
语音分析、词法分析、句法分析、语义分析和语用分析。
自然语言处理的研究可以分为基础性研究和应用性研究两部分,语音和文本是两类 研究的重点。
ACL、EMNLP、NAACL、COLING 4个会议是自然语言处理最重要的4个会议。
1950年“图灵测试”到70年代前,这时的自然语言处理停留在理性主义思潮阶段,以基于规则的方法为代表。
70年代后互联网高速发展,自然语言处理思潮由经验主义向理性主义过渡,基于统计的方法逐渐代替了基于规则的方 法。
从 2008 年到现在,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究。
自然语言处理的基础研究方面,自然语言的基础技术包括词汇、短语、 句子和篇章级别的表示,分词、句法分析和语义分析以及语言认知模型和知识图谱等。
词法分析
主要任务是词性标注和词义标注。
句法分析
主要任务是判断句子的句法结构和组成句子的各成分,明确它们之间的相互关系。
语义分析
主要任务是根据句子的句法结构和句子中每个实词的词义推导出能够反映这个句子意义的形式化表示。
篇章分析
将研究扩展到句子的界限之外,主要任务是对段落和整篇文章进行理解和分析。
知识图谱
表示知识,描述客观世界的概念、实体、事件等之间关系的一种表示形式。知识图谱在表现形式上与语义网络比较类似,不同的是,语义网络侧重于表示概念与概念之间的关系,而知识图谱更侧重于表述实体之间的关系。现在的知识网络被用来泛指大规模的知识库。
除此之外,自然语言的基础研究还涉及词义消歧、指代消解、命名实体识别等方面的研究。
机器翻译
指运用机器,通过特定的计算机程序将一种书写形式或声音形式的自然语言,翻译成另一种书写形式或声音形式的自然语言。按照媒介可以将机器翻译分为文本翻译、语音翻译、图像翻译以及视频和 VR 翻译等。
信息检索
从相关文档集合中查找用户所需信息的过程。先将信息按一定的方式组织和存储起来,然后根据用户的需求从已经存储的文档集合当中找出相关的信息,这是广义的信息检索。信息检索包括“存”与“取”两个方面,对信息进行收集、标引、描述、组织,进行有 14 序的存放是“存”。按照某种查询机制从有序存放的信息集合(数据库)中找出用户所需信息或获取其线索的过程是“取”。搜索引擎可以看成是一种特殊且重要的信息检索系统。
情感分析
又称意见挖掘,是指通过计算技术对文本的主客观性、观点、情绪、极性的挖掘和分析,对文本的情感倾向做出分类判断。情感分析是自然语言理解领域的重要分支,涉及统计学、语言学、心理学、人工智能等领域的理论与方法。情感分析在电商评价、互联网舆情分析、选举预测等地方发挥重要作用。
信息抽取
主要是指从文本中抽取出特定的事实信息。与之关系密切的是信息检索,信息检索主要是要从大量的文档中找到用户所需要的文档,而信息抽取是获取用户感兴趣或所需要的事实信息,这就需要对文本有深入的理解和分析。信息检索的结果可以作为信息抽取的范围,提高效率,信息抽取用于信息检索可以提高检索质量,更好地满足用户的需求。
下面列举的是自然语言处理方向研究较好的一些机构。
国外: google、微软亚洲研究院、Facebook
国内:百度、阿里、腾讯、京东、科大讯飞
从国家来看,美国是自然语言处理研究学者聚集 最多的国家,英国、德国、加拿大和意大利紧随其后;从地区来看,美国东部是自然语言处理人才的集中地,而西欧、美国西部等其他先进地区也吸引了大量自然语言处理的研究者。
标签:整理 机器 处理机 段落 ati 结构 识别 理解 acl
原文地址:https://www.cnblogs.com/z1xiang/p/12181556.html