文本情感分类 文本分类是自然语言处理的一个常见任务,它把一段不定长的文本序列变换为文本的类别。本节关注它的一个子问题:使用文本情感分类来分析文本作者的情绪。这个问题也叫情感分析,并有着广泛的应用。 同搜索近义词和类比词一样,文本分类也属于词嵌入的下游应用。在本节中,我们将应用预训练的词向量和含多个隐 ...
分类:
其他好文 时间:
2020-02-24 00:27:32
阅读次数:
81
讲授自然语言处理简介、RNN解决NLP问题的一般思路、中文分词、词性标注、命名实体识别、文本分类、机器翻译等具体问题。 大纲 自然语言处理简介RNN在NLP中的应用简介中文分词词性标注命名实体识别文本分类机器翻译 本集内容简介 这节课 ...
分类:
其他好文 时间:
2020-02-22 11:42:07
阅读次数:
53
1. 比赛信息 比赛地址: "阿里云恶意程序检测新人赛" 比赛介绍:使用自然语言处理的方法对恶意程序的行为(API调用序列)进行分析,实现对恶意程序鉴别及分类。 2. 我的主要工作 1)数据预处理:格式转换csv txt pkl,根据fileid分组数据,排序后生成api序列,用于训练; 2)数据分 ...
分类:
其他好文 时间:
2020-02-20 13:37:04
阅读次数:
76
深度学习(Deep Leaming, DL )属于表示学习( Representation Learning )的范畴,指的是利用具有一定“深度”的模型来自动学习事物的向量表示(vectorial rpresenation)的一种学习范式。目前,深度学习所采用的模型主要是层数在一层以上的神经网络。
... ...
分类:
编程语言 时间:
2020-02-19 23:44:40
阅读次数:
73
编码器—解码器(seq2seq) 在自然语言处理的很多应用中,输入和输出都可以是不定长序列。以机器翻译为例,输入可以是一段不定长的英语文本序列,输出可以是一段不定长的法语文本序列,例如 英语输入:“They”、“are”、“watching”、“.” 法语输出:“Ils”、“regardent”、“ ...
分类:
其他好文 时间:
2020-02-17 12:08:41
阅读次数:
228
在做自然语言处理的过程中,现在智能对话比较火,例如智能客服,智能家电,智能音箱等,我们需要获取用户说话的意图,方便做出正确的回答,这里面就涉及到句子相似度计算的问题,那么本节就来了解一下怎么样来用 Python 实现句子相似度的计算。 句子相似度常用的几种方法: 1、编辑距离 2、杰卡德系数计算 3 ...
分类:
编程语言 时间:
2020-02-15 11:38:38
阅读次数:
97
文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤: 读入文本 分词 建立字典,将每个词映射到一个唯一的索引(index) 将文本从词的序列转换为索引的序列,方便输入模型 现有的工具可以很好地进行分词,spaCy和NLTK。 使用示例: ...
分类:
编程语言 时间:
2020-02-14 16:22:18
阅读次数:
81
语言模型 一段自然语言文本可以看作是一个离散时间序列,给定一个长度为𝑇的词的序列𝑤1,𝑤2,…,𝑤𝑇,语言模型的目标就是评估该序列是否合理,即计算该序列的概率: 本节我们介绍基于统计的语言模型,主要是𝑛元语法(𝑛-gram)。 语言模型 假设序列𝑤1,𝑤2,…,𝑤𝑇中的每个词是 ...
分类:
编程语言 时间:
2020-02-14 10:30:47
阅读次数:
106
BIM 人才三角聚焦六个关键技能和一个中心。 1. 基础能力 基础能力分三块: 语言能力 实践能力 数学能力 1.1 语言能力 语言是指自然语言,如汉语和英语。获取其他知识的能力以及学习、理解、沟通能力都与该能力密切相关。 1.2 数学能力 有关数学的一切,如计算、数学思维、逻辑、抽象、分析等能力。 ...
分类:
其他好文 时间:
2020-02-10 13:54:12
阅读次数:
62
概述 自然语言是非常复杂多变的,计算机也不认识咱们的语言,那么咱们如何让咱们的计算机学习咱们的语言呢?首先肯定得对咱们的所有文字进行编码吧,那咱们很多小伙伴肯定立马就想出了这还不简单嘛,咱们的计算机不都是ASCII编码的嘛,咱直接拿来用不就好啦?我只能说too young too simple。咱们 ...
分类:
其他好文 时间:
2020-02-09 20:47:29
阅读次数:
70