标签:上下文 -o tag learn 深度学习 文本分类 网络 sof 复杂度
本文参考原文-http://bjbsair.com/2020-03-25/tech-info/6304/
**传统文本分类
**
之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?
传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器学习算法。
对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words、tf-idf等。此外,还可以设计一些更复杂的特征,比如词性标签、名词短语以及tree kernels等。
特征选择旨在删除噪声特征,提高分类性能。最常见的特征选择方法比如去停词(例如,“The”)、信息增益、互信息或L1正则化等以选择有用的特性。
机器学习算法常用分类器,如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM)。然而,这些方法都存在数据稀疏问题。
论文来自Recurrent Convolutional Neural Networks for Text Classification[1]
作者在论文中首先对比了传统文本分类算法与深度学习算法。
传统的特征表示方法往往忽略文本中的上下文信息或词序,对于捕捉词的语义仍然不满意。例如,在句子,A sunset stroll along the South Bank affords an array of stunning vantage points中,当我们分析“Bank”(unigram)这个词时,我们可能不知道它是指金融机构还是河旁。此外,“South Bank”(bigram),尤其是考虑到两个大写字母,可能会误导那些对伦敦不太了解的人,把它当作金融机构。当我们获得更大的上下文“stroll along the South Bank”(5-gram),我们就能很容易地辨别出它的意思。虽然高阶n-grams和更复杂的特性(如树内核)被设计用于捕获更多的上下文信息和单词序列,但它们仍然存在数据稀疏问题,这严重影响了分类的准确性。近年来,经过预先训练的word embedding和深层神经网络的快速发展,给各种NLP任务带来了新的启发。word embedding是单词的一种分布式表示,极大地缓解了数据稀疏问题(Bengio et al. 2003)。预先训练的词嵌入可以捕捉有意义的句法和语义规律性。
接着对目前应用较为广泛的深度学习框架算法进行了综述:
为了解决上述模型的局限性,作者们提出了一个循环卷积神经网络(RCNN),并将其应用于文本分类的任务。首先,我们应用一个双向的循环结构,与传统的基于窗口的神经网络相比,它可以大大减少噪声,从而最大程度地捕捉上下文信息。此外,该模型在学习文本表示时可以保留更大范围的词序。其次,使用了一个可以自动判断哪些特性在文本分类中扮演关键角色的池化层(max-pooling),以捕获文本中的关键组件。模型结合了RNN的结构和最大池化层,利用了循环神经模型和卷积神经模型的优点。此外,模型的时间复杂度为O(n),它与文本长度的长度是线性相关的。
如下图是作者提出的模型框架,输入是一个文本D,它可以看成是由一系列单词(W1,W2,,,Wn)组成的。输出是一个概率分布,最大的那个位置对应文章属于的类别K。
接下来我们来仔细分析一下框架训练的过程。
为了更准确地表达单词的意思,作者使用了单词本身和其上下文来表示这个词。在论文中,使用双向循环结构来实现。使用来定义词左边的文本,来定义词右边文本。这里和是长度为|c|的稠密向量。计算公式如下:
以“A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析,结合上图,Cl(W7)表示了“Bank”这个词左侧的上下文语义信息(即“stroll along the South ”),同理,Cr(W7)表示了“Bank”这个词右侧的上下文语义信息(即“ affords an array ...”)。据此,我们就可以定义单词Wi的向量表示:
循环结构可以在文本的向前扫描时获取所有的Cl,在反向扫描时获取所有的Cr。时间复杂度为O(n)。当我们获得了单词Wi的表示Xi后,我们将一个线性变换与tanh激活函数一起应用到Xi,并将结果传递到下一层。
y是一个潜在的语义向量,每一个语义因素都将被分析,以确定代表文本的最有用的因素。
上面部分是单词的表示,那么怎么来提取文本的特征表示呢?作者在这里使用了CNN,当前面所有的单词表示y都计算出来以后,接上一个max-pooling层
这里的max函数是一个按元素max的函数,也就是说,前一步单词表达得到的y是一个n维向量,这一步y的第k个元素是上一步y的所有向量的第k个元素的最大值。池化层将不同长度的文本转换为固定长度的向量。通过使用池化层,我们可以在整个文本中捕获信息。还有其他类型的池层,比如平均池层(Collobert et al. 2011)。这里不使用平均池,因为这里只有几个单词和它们的组合对于捕获文档的含义非常有用。在文档中,最大池化层试图找到最重要的潜在语义因素。
模型的最后一部分是输出层:
最后对y应用softmax得到概率:
[1]
Recurrent Convolutional Neural Networks for Text Classification: https://dl.acm.org/doi/10.5555/2886521.2886636
本文参考原文-http://bjbsair.com/2020-03-25/tech-info/6304/
**传统文本分类
**
之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?
传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器学习算法。
对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words、tf-idf等。此外,还可以设计一些更复杂的特征,比如词性标签、名词短语以及tree kernels等。
特征选择旨在删除噪声特征,提高分类性能。最常见的特征选择方法比如去停词(例如,“The”)、信息增益、互信息或L1正则化等以选择有用的特性。
机器学习算法常用分类器,如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM)。然而,这些方法都存在数据稀疏问题。
论文来自Recurrent Convolutional Neural Networks for Text Classification[1]
作者在论文中首先对比了传统文本分类算法与深度学习算法。
传统的特征表示方法往往忽略文本中的上下文信息或词序,对于捕捉词的语义仍然不满意。例如,在句子,A sunset stroll along the South Bank affords an array of stunning vantage points中,当我们分析“Bank”(unigram)这个词时,我们可能不知道它是指金融机构还是河旁。此外,“South Bank”(bigram),尤其是考虑到两个大写字母,可能会误导那些对伦敦不太了解的人,把它当作金融机构。当我们获得更大的上下文“stroll along the South Bank”(5-gram),我们就能很容易地辨别出它的意思。虽然高阶n-grams和更复杂的特性(如树内核)被设计用于捕获更多的上下文信息和单词序列,但它们仍然存在数据稀疏问题,这严重影响了分类的准确性。近年来,经过预先训练的word embedding和深层神经网络的快速发展,给各种NLP任务带来了新的启发。word embedding是单词的一种分布式表示,极大地缓解了数据稀疏问题(Bengio et al. 2003)。预先训练的词嵌入可以捕捉有意义的句法和语义规律性。
接着对目前应用较为广泛的深度学习框架算法进行了综述:
为了解决上述模型的局限性,作者们提出了一个循环卷积神经网络(RCNN),并将其应用于文本分类的任务。首先,我们应用一个双向的循环结构,与传统的基于窗口的神经网络相比,它可以大大减少噪声,从而最大程度地捕捉上下文信息。此外,该模型在学习文本表示时可以保留更大范围的词序。其次,使用了一个可以自动判断哪些特性在文本分类中扮演关键角色的池化层(max-pooling),以捕获文本中的关键组件。模型结合了RNN的结构和最大池化层,利用了循环神经模型和卷积神经模型的优点。此外,模型的时间复杂度为O(n),它与文本长度的长度是线性相关的。
如下图是作者提出的模型框架,输入是一个文本D,它可以看成是由一系列单词(W1,W2,,,Wn)组成的。输出是一个概率分布,最大的那个位置对应文章属于的类别K。
接下来我们来仔细分析一下框架训练的过程。
为了更准确地表达单词的意思,作者使用了单词本身和其上下文来表示这个词。在论文中,使用双向循环结构来实现。使用来定义词左边的文本,来定义词右边文本。这里和是长度为|c|的稠密向量。计算公式如下:
以“A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析,结合上图,Cl(W7)表示了“Bank”这个词左侧的上下文语义信息(即“stroll along the South ”),同理,Cr(W7)表示了“Bank”这个词右侧的上下文语义信息(即“ affords an array ...”)。据此,我们就可以定义单词Wi的向量表示:
循环结构可以在文本的向前扫描时获取所有的Cl,在反向扫描时获取所有的Cr。时间复杂度为O(n)。当我们获得了单词Wi的表示Xi后,我们将一个线性变换与tanh激活函数一起应用到Xi,并将结果传递到下一层。
y是一个潜在的语义向量,每一个语义因素都将被分析,以确定代表文本的最有用的因素。
上面部分是单词的表示,那么怎么来提取文本的特征表示呢?作者在这里使用了CNN,当前面所有的单词表示y都计算出来以后,接上一个max-pooling层
这里的max函数是一个按元素max的函数,也就是说,前一步单词表达得到的y是一个n维向量,这一步y的第k个元素是上一步y的所有向量的第k个元素的最大值。池化层将不同长度的文本转换为固定长度的向量。通过使用池化层,我们可以在整个文本中捕获信息。还有其他类型的池层,比如平均池层(Collobert et al. 2011)。这里不使用平均池,因为这里只有几个单词和它们的组合对于捕获文档的含义非常有用。在文档中,最大池化层试图找到最重要的潜在语义因素。
模型的最后一部分是输出层:
最后对y应用softmax得到概率:
[1]
Recurrent Convolutional Neural Networks for Text Classification: https://dl.acm.org/doi/10.5555/2886521.2886636
本文参考原文-http://bjbsair.com/2020-03-25/tech-info/6304/
**传统文本分类
**
之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?
传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器学习算法。
对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words、tf-idf等。此外,还可以设计一些更复杂的特征,比如词性标签、名词短语以及tree kernels等。
特征选择旨在删除噪声特征,提高分类性能。最常见的特征选择方法比如去停词(例如,“The”)、信息增益、互信息或L1正则化等以选择有用的特性。
机器学习算法常用分类器,如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM)。然而,这些方法都存在数据稀疏问题。
论文来自Recurrent Convolutional Neural Networks for Text Classification[1]
作者在论文中首先对比了传统文本分类算法与深度学习算法。
传统的特征表示方法往往忽略文本中的上下文信息或词序,对于捕捉词的语义仍然不满意。例如,在句子,A sunset stroll along the South Bank affords an array of stunning vantage points中,当我们分析“Bank”(unigram)这个词时,我们可能不知道它是指金融机构还是河旁。此外,“South Bank”(bigram),尤其是考虑到两个大写字母,可能会误导那些对伦敦不太了解的人,把它当作金融机构。当我们获得更大的上下文“stroll along the South Bank”(5-gram),我们就能很容易地辨别出它的意思。虽然高阶n-grams和更复杂的特性(如树内核)被设计用于捕获更多的上下文信息和单词序列,但它们仍然存在数据稀疏问题,这严重影响了分类的准确性。近年来,经过预先训练的word embedding和深层神经网络的快速发展,给各种NLP任务带来了新的启发。word embedding是单词的一种分布式表示,极大地缓解了数据稀疏问题(Bengio et al. 2003)。预先训练的词嵌入可以捕捉有意义的句法和语义规律性。
接着对目前应用较为广泛的深度学习框架算法进行了综述:
为了解决上述模型的局限性,作者们提出了一个循环卷积神经网络(RCNN),并将其应用于文本分类的任务。首先,我们应用一个双向的循环结构,与传统的基于窗口的神经网络相比,它可以大大减少噪声,从而最大程度地捕捉上下文信息。此外,该模型在学习文本表示时可以保留更大范围的词序。其次,使用了一个可以自动判断哪些特性在文本分类中扮演关键角色的池化层(max-pooling),以捕获文本中的关键组件。模型结合了RNN的结构和最大池化层,利用了循环神经模型和卷积神经模型的优点。此外,模型的时间复杂度为O(n),它与文本长度的长度是线性相关的。
如下图是作者提出的模型框架,输入是一个文本D,它可以看成是由一系列单词(W1,W2,,,Wn)组成的。输出是一个概率分布,最大的那个位置对应文章属于的类别K。
接下来我们来仔细分析一下框架训练的过程。
为了更准确地表达单词的意思,作者使用了单词本身和其上下文来表示这个词。在论文中,使用双向循环结构来实现。使用来定义词左边的文本,来定义词右边文本。这里和是长度为|c|的稠密向量。计算公式如下:
以“A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析,结合上图,Cl(W7)表示了“Bank”这个词左侧的上下文语义信息(即“stroll along the South ”),同理,Cr(W7)表示了“Bank”这个词右侧的上下文语义信息(即“ affords an array ...”)。据此,我们就可以定义单词Wi的向量表示:
循环结构可以在文本的向前扫描时获取所有的Cl,在反向扫描时获取所有的Cr。时间复杂度为O(n)。当我们获得了单词Wi的表示Xi后,我们将一个线性变换与tanh激活函数一起应用到Xi,并将结果传递到下一层。
y是一个潜在的语义向量,每一个语义因素都将被分析,以确定代表文本的最有用的因素。
上面部分是单词的表示,那么怎么来提取文本的特征表示呢?作者在这里使用了CNN,当前面所有的单词表示y都计算出来以后,接上一个max-pooling层
这里的max函数是一个按元素max的函数,也就是说,前一步单词表达得到的y是一个n维向量,这一步y的第k个元素是上一步y的所有向量的第k个元素的最大值。池化层将不同长度的文本转换为固定长度的向量。通过使用池化层,我们可以在整个文本中捕获信息。还有其他类型的池层,比如平均池层(Collobert et al. 2011)。这里不使用平均池,因为这里只有几个单词和它们的组合对于捕获文档的含义非常有用。在文档中,最大池化层试图找到最重要的潜在语义因素。
模型的最后一部分是输出层:
最后对y应用softmax得到概率:
[1]
Recurrent Convolutional Neural Networks for Text Classification: https://dl.acm.org/doi/10.5555/2886521.2886636
本文参考原文-http://bjbsair.com/2020-03-25/tech-info/6304/
**传统文本分类
**
之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?
传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器学习算法。
对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words、tf-idf等。此外,还可以设计一些更复杂的特征,比如词性标签、名词短语以及tree kernels等。
特征选择旨在删除噪声特征,提高分类性能。最常见的特征选择方法比如去停词(例如,“The”)、信息增益、互信息或L1正则化等以选择有用的特性。
机器学习算法常用分类器,如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM)。然而,这些方法都存在数据稀疏问题。
论文来自Recurrent Convolutional Neural Networks for Text Classification[1]
作者在论文中首先对比了传统文本分类算法与深度学习算法。
传统的特征表示方法往往忽略文本中的上下文信息或词序,对于捕捉词的语义仍然不满意。例如,在句子,A sunset stroll along the South Bank affords an array of stunning vantage points中,当我们分析“Bank”(unigram)这个词时,我们可能不知道它是指金融机构还是河旁。此外,“South Bank”(bigram),尤其是考虑到两个大写字母,可能会误导那些对伦敦不太了解的人,把它当作金融机构。当我们获得更大的上下文“stroll along the South Bank”(5-gram),我们就能很容易地辨别出它的意思。虽然高阶n-grams和更复杂的特性(如树内核)被设计用于捕获更多的上下文信息和单词序列,但它们仍然存在数据稀疏问题,这严重影响了分类的准确性。近年来,经过预先训练的word embedding和深层神经网络的快速发展,给各种NLP任务带来了新的启发。word embedding是单词的一种分布式表示,极大地缓解了数据稀疏问题(Bengio et al. 2003)。预先训练的词嵌入可以捕捉有意义的句法和语义规律性。
接着对目前应用较为广泛的深度学习框架算法进行了综述:
为了解决上述模型的局限性,作者们提出了一个循环卷积神经网络(RCNN),并将其应用于文本分类的任务。首先,我们应用一个双向的循环结构,与传统的基于窗口的神经网络相比,它可以大大减少噪声,从而最大程度地捕捉上下文信息。此外,该模型在学习文本表示时可以保留更大范围的词序。其次,使用了一个可以自动判断哪些特性在文本分类中扮演关键角色的池化层(max-pooling),以捕获文本中的关键组件。模型结合了RNN的结构和最大池化层,利用了循环神经模型和卷积神经模型的优点。此外,模型的时间复杂度为O(n),它与文本长度的长度是线性相关的。
如下图是作者提出的模型框架,输入是一个文本D,它可以看成是由一系列单词(W1,W2,,,Wn)组成的。输出是一个概率分布,最大的那个位置对应文章属于的类别K。
接下来我们来仔细分析一下框架训练的过程。
为了更准确地表达单词的意思,作者使用了单词本身和其上下文来表示这个词。在论文中,使用双向循环结构来实现。使用来定义词左边的文本,来定义词右边文本。这里和是长度为|c|的稠密向量。计算公式如下:
以“A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析,结合上图,Cl(W7)表示了“Bank”这个词左侧的上下文语义信息(即“stroll along the South ”),同理,Cr(W7)表示了“Bank”这个词右侧的上下文语义信息(即“ affords an array ...”)。据此,我们就可以定义单词Wi的向量表示:
循环结构可以在文本的向前扫描时获取所有的Cl,在反向扫描时获取所有的Cr。时间复杂度为O(n)。当我们获得了单词Wi的表示Xi后,我们将一个线性变换与tanh激活函数一起应用到Xi,并将结果传递到下一层。
y是一个潜在的语义向量,每一个语义因素都将被分析,以确定代表文本的最有用的因素。
上面部分是单词的表示,那么怎么来提取文本的特征表示呢?作者在这里使用了CNN,当前面所有的单词表示y都计算出来以后,接上一个max-pooling层
这里的max函数是一个按元素max的函数,也就是说,前一步单词表达得到的y是一个n维向量,这一步y的第k个元素是上一步y的所有向量的第k个元素的最大值。池化层将不同长度的文本转换为固定长度的向量。通过使用池化层,我们可以在整个文本中捕获信息。还有其他类型的池层,比如平均池层(Collobert et al. 2011)。这里不使用平均池,因为这里只有几个单词和它们的组合对于捕获文档的含义非常有用。在文档中,最大池化层试图找到最重要的潜在语义因素。
模型的最后一部分是输出层:
最后对y应用softmax得到概率:
[1]
Recurrent Convolutional Neural Networks for Text Classification: https://dl.acm.org/doi/10.5555/2886521.2886636
本文参考原文-http://bjbsair.com/2020-03-25/tech-info/6304/
**传统文本分类
**
之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?
传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器学习算法。
对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words、tf-idf等。此外,还可以设计一些更复杂的特征,比如词性标签、名词短语以及tree kernels等。
特征选择旨在删除噪声特征,提高分类性能。最常见的特征选择方法比如去停词(例如,“The”)、信息增益、互信息或L1正则化等以选择有用的特性。
机器学习算法常用分类器,如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM)。然而,这些方法都存在数据稀疏问题。
论文来自Recurrent Convolutional Neural Networks for Text Classification[1]
作者在论文中首先对比了传统文本分类算法与深度学习算法。
传统的特征表示方法往往忽略文本中的上下文信息或词序,对于捕捉词的语义仍然不满意。例如,在句子,A sunset stroll along the South Bank affords an array of stunning vantage points中,当我们分析“Bank”(unigram)这个词时,我们可能不知道它是指金融机构还是河旁。此外,“South Bank”(bigram),尤其是考虑到两个大写字母,可能会误导那些对伦敦不太了解的人,把它当作金融机构。当我们获得更大的上下文“stroll along the South Bank”(5-gram),我们就能很容易地辨别出它的意思。虽然高阶n-grams和更复杂的特性(如树内核)被设计用于捕获更多的上下文信息和单词序列,但它们仍然存在数据稀疏问题,这严重影响了分类的准确性。近年来,经过预先训练的word embedding和深层神经网络的快速发展,给各种NLP任务带来了新的启发。word embedding是单词的一种分布式表示,极大地缓解了数据稀疏问题(Bengio et al. 2003)。预先训练的词嵌入可以捕捉有意义的句法和语义规律性。
接着对目前应用较为广泛的深度学习框架算法进行了综述:
为了解决上述模型的局限性,作者们提出了一个循环卷积神经网络(RCNN),并将其应用于文本分类的任务。首先,我们应用一个双向的循环结构,与传统的基于窗口的神经网络相比,它可以大大减少噪声,从而最大程度地捕捉上下文信息。此外,该模型在学习文本表示时可以保留更大范围的词序。其次,使用了一个可以自动判断哪些特性在文本分类中扮演关键角色的池化层(max-pooling),以捕获文本中的关键组件。模型结合了RNN的结构和最大池化层,利用了循环神经模型和卷积神经模型的优点。此外,模型的时间复杂度为O(n),它与文本长度的长度是线性相关的。
如下图是作者提出的模型框架,输入是一个文本D,它可以看成是由一系列单词(W1,W2,,,Wn)组成的。输出是一个概率分布,最大的那个位置对应文章属于的类别K。
接下来我们来仔细分析一下框架训练的过程。
为了更准确地表达单词的意思,作者使用了单词本身和其上下文来表示这个词。在论文中,使用双向循环结构来实现。使用来定义词左边的文本,来定义词右边文本。这里和是长度为|c|的稠密向量。计算公式如下:
以“A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析,结合上图,Cl(W7)表示了“Bank”这个词左侧的上下文语义信息(即“stroll along the South ”),同理,Cr(W7)表示了“Bank”这个词右侧的上下文语义信息(即“ affords an array ...”)。据此,我们就可以定义单词Wi的向量表示:
循环结构可以在文本的向前扫描时获取所有的Cl,在反向扫描时获取所有的Cr。时间复杂度为O(n)。当我们获得了单词Wi的表示Xi后,我们将一个线性变换与tanh激活函数一起应用到Xi,并将结果传递到下一层。
y是一个潜在的语义向量,每一个语义因素都将被分析,以确定代表文本的最有用的因素。
上面部分是单词的表示,那么怎么来提取文本的特征表示呢?作者在这里使用了CNN,当前面所有的单词表示y都计算出来以后,接上一个max-pooling层
这里的max函数是一个按元素max的函数,也就是说,前一步单词表达得到的y是一个n维向量,这一步y的第k个元素是上一步y的所有向量的第k个元素的最大值。池化层将不同长度的文本转换为固定长度的向量。通过使用池化层,我们可以在整个文本中捕获信息。还有其他类型的池层,比如平均池层(Collobert et al. 2011)。这里不使用平均池,因为这里只有几个单词和它们的组合对于捕获文档的含义非常有用。在文档中,最大池化层试图找到最重要的潜在语义因素。
模型的最后一部分是输出层:
最后对y应用softmax得到概率:
[1]
Recurrent Convolutional Neural Networks for Text Classification: https://dl.acm.org/doi/10.5555/2886521.2886636
本文参考原文-http://bjbsair.com/2020-03-25/tech-info/6304/
**传统文本分类
**
之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?
传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器学习算法。
对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words、tf-idf等。此外,还可以设计一些更复杂的特征,比如词性标签、名词短语以及tree kernels等。
特征选择旨在删除噪声特征,提高分类性能。最常见的特征选择方法比如去停词(例如,“The”)、信息增益、互信息或L1正则化等以选择有用的特性。
机器学习算法常用分类器,如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM)。然而,这些方法都存在数据稀疏问题。
论文来自Recurrent Convolutional Neural Networks for Text Classification[1]
作者在论文中首先对比了传统文本分类算法与深度学习算法。
传统的特征表示方法往往忽略文本中的上下文信息或词序,对于捕捉词的语义仍然不满意。例如,在句子,A sunset stroll along the South Bank affords an array of stunning vantage points中,当我们分析“Bank”(unigram)这个词时,我们可能不知道它是指金融机构还是河旁。此外,“South Bank”(bigram),尤其是考虑到两个大写字母,可能会误导那些对伦敦不太了解的人,把它当作金融机构。当我们获得更大的上下文“stroll along the South Bank”(5-gram),我们就能很容易地辨别出它的意思。虽然高阶n-grams和更复杂的特性(如树内核)被设计用于捕获更多的上下文信息和单词序列,但它们仍然存在数据稀疏问题,这严重影响了分类的准确性。近年来,经过预先训练的word embedding和深层神经网络的快速发展,给各种NLP任务带来了新的启发。word embedding是单词的一种分布式表示,极大地缓解了数据稀疏问题(Bengio et al. 2003)。预先训练的词嵌入可以捕捉有意义的句法和语义规律性。
接着对目前应用较为广泛的深度学习框架算法进行了综述:
为了解决上述模型的局限性,作者们提出了一个循环卷积神经网络(RCNN),并将其应用于文本分类的任务。首先,我们应用一个双向的循环结构,与传统的基于窗口的神经网络相比,它可以大大减少噪声,从而最大程度地捕捉上下文信息。此外,该模型在学习文本表示时可以保留更大范围的词序。其次,使用了一个可以自动判断哪些特性在文本分类中扮演关键角色的池化层(max-pooling),以捕获文本中的关键组件。模型结合了RNN的结构和最大池化层,利用了循环神经模型和卷积神经模型的优点。此外,模型的时间复杂度为O(n),它与文本长度的长度是线性相关的。
如下图是作者提出的模型框架,输入是一个文本D,它可以看成是由一系列单词(W1,W2,,,Wn)组成的。输出是一个概率分布,最大的那个位置对应文章属于的类别K。
接下来我们来仔细分析一下框架训练的过程。
为了更准确地表达单词的意思,作者使用了单词本身和其上下文来表示这个词。在论文中,使用双向循环结构来实现。使用来定义词左边的文本,来定义词右边文本。这里和是长度为|c|的稠密向量。计算公式如下:
以“A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析,结合上图,Cl(W7)表示了“Bank”这个词左侧的上下文语义信息(即“stroll along the South ”),同理,Cr(W7)表示了“Bank”这个词右侧的上下文语义信息(即“ affords an array ...”)。据此,我们就可以定义单词Wi的向量表示:
循环结构可以在文本的向前扫描时获取所有的Cl,在反向扫描时获取所有的Cr。时间复杂度为O(n)。当我们获得了单词Wi的表示Xi后,我们将一个线性变换与tanh激活函数一起应用到Xi,并将结果传递到下一层。
y是一个潜在的语义向量,每一个语义因素都将被分析,以确定代表文本的最有用的因素。
上面部分是单词的表示,那么怎么来提取文本的特征表示呢?作者在这里使用了CNN,当前面所有的单词表示y都计算出来以后,接上一个max-pooling层
这里的max函数是一个按元素max的函数,也就是说,前一步单词表达得到的y是一个n维向量,这一步y的第k个元素是上一步y的所有向量的第k个元素的最大值。池化层将不同长度的文本转换为固定长度的向量。通过使用池化层,我们可以在整个文本中捕获信息。还有其他类型的池层,比如平均池层(Collobert et al. 2011)。这里不使用平均池,因为这里只有几个单词和它们的组合对于捕获文档的含义非常有用。在文档中,最大池化层试图找到最重要的潜在语义因素。
模型的最后一部分是输出层:
最后对y应用softmax得到概率:
[1]
Recurrent Convolutional Neural Networks for Text Classification: https://dl.acm.org/doi/10.5555/2886521.2886636
本文参考原文-http://bjbsair.com/2020-03-25/tech-info/6304/
**传统文本分类
**
之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?
传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器学习算法。
对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words、tf-idf等。此外,还可以设计一些更复杂的特征,比如词性标签、名词短语以及tree kernels等。
特征选择旨在删除噪声特征,提高分类性能。最常见的特征选择方法比如去停词(例如,“The”)、信息增益、互信息或L1正则化等以选择有用的特性。
机器学习算法常用分类器,如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM)。然而,这些方法都存在数据稀疏问题。
论文来自Recurrent Convolutional Neural Networks for Text Classification[1]
作者在论文中首先对比了传统文本分类算法与深度学习算法。
传统的特征表示方法往往忽略文本中的上下文信息或词序,对于捕捉词的语义仍然不满意。例如,在句子,A sunset stroll along the South Bank affords an array of stunning vantage points中,当我们分析“Bank”(unigram)这个词时,我们可能不知道它是指金融机构还是河旁。此外,“South Bank”(bigram),尤其是考虑到两个大写字母,可能会误导那些对伦敦不太了解的人,把它当作金融机构。当我们获得更大的上下文“stroll along the South Bank”(5-gram),我们就能很容易地辨别出它的意思。虽然高阶n-grams和更复杂的特性(如树内核)被设计用于捕获更多的上下文信息和单词序列,但它们仍然存在数据稀疏问题,这严重影响了分类的准确性。近年来,经过预先训练的word embedding和深层神经网络的快速发展,给各种NLP任务带来了新的启发。word embedding是单词的一种分布式表示,极大地缓解了数据稀疏问题(Bengio et al. 2003)。预先训练的词嵌入可以捕捉有意义的句法和语义规律性。
接着对目前应用较为广泛的深度学习框架算法进行了综述:
为了解决上述模型的局限性,作者们提出了一个循环卷积神经网络(RCNN),并将其应用于文本分类的任务。首先,我们应用一个双向的循环结构,与传统的基于窗口的神经网络相比,它可以大大减少噪声,从而最大程度地捕捉上下文信息。此外,该模型在学习文本表示时可以保留更大范围的词序。其次,使用了一个可以自动判断哪些特性在文本分类中扮演关键角色的池化层(max-pooling),以捕获文本中的关键组件。模型结合了RNN的结构和最大池化层,利用了循环神经模型和卷积神经模型的优点。此外,模型的时间复杂度为O(n),它与文本长度的长度是线性相关的。
如下图是作者提出的模型框架,输入是一个文本D,它可以看成是由一系列单词(W1,W2,,,Wn)组成的。输出是一个概率分布,最大的那个位置对应文章属于的类别K。
接下来我们来仔细分析一下框架训练的过程。
为了更准确地表达单词的意思,作者使用了单词本身和其上下文来表示这个词。在论文中,使用双向循环结构来实现。使用来定义词左边的文本,来定义词右边文本。这里和是长度为|c|的稠密向量。计算公式如下:
以“A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析,结合上图,Cl(W7)表示了“Bank”这个词左侧的上下文语义信息(即“stroll along the South ”),同理,Cr(W7)表示了“Bank”这个词右侧的上下文语义信息(即“ affords an array ...”)。据此,我们就可以定义单词Wi的向量表示:
循环结构可以在文本的向前扫描时获取所有的Cl,在反向扫描时获取所有的Cr。时间复杂度为O(n)。当我们获得了单词Wi的表示Xi后,我们将一个线性变换与tanh激活函数一起应用到Xi,并将结果传递到下一层。
y是一个潜在的语义向量,每一个语义因素都将被分析,以确定代表文本的最有用的因素。
上面部分是单词的表示,那么怎么来提取文本的特征表示呢?作者在这里使用了CNN,当前面所有的单词表示y都计算出来以后,接上一个max-pooling层
这里的max函数是一个按元素max的函数,也就是说,前一步单词表达得到的y是一个n维向量,这一步y的第k个元素是上一步y的所有向量的第k个元素的最大值。池化层将不同长度的文本转换为固定长度的向量。通过使用池化层,我们可以在整个文本中捕获信息。还有其他类型的池层,比如平均池层(Collobert et al. 2011)。这里不使用平均池,因为这里只有几个单词和它们的组合对于捕获文档的含义非常有用。在文档中,最大池化层试图找到最重要的潜在语义因素。
模型的最后一部分是输出层:
最后对y应用softmax得到概率:
[1]
Recurrent Convolutional Neural Networks for Text Classification: https://dl.acm.org/doi/10.5555/2886521.2886636
本文参考原文-http://bjbsair.com/2020-03-25/tech-info/6304/
**传统文本分类
**
之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?
传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器学习算法。
对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words、tf-idf等。此外,还可以设计一些更复杂的特征,比如词性标签、名词短语以及tree kernels等。
特征选择旨在删除噪声特征,提高分类性能。最常见的特征选择方法比如去停词(例如,“The”)、信息增益、互信息或L1正则化等以选择有用的特性。
机器学习算法常用分类器,如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM)。然而,这些方法都存在数据稀疏问题。
论文来自Recurrent Convolutional Neural Networks for Text Classification[1]
作者在论文中首先对比了传统文本分类算法与深度学习算法。
传统的特征表示方法往往忽略文本中的上下文信息或词序,对于捕捉词的语义仍然不满意。例如,在句子,A sunset stroll along the South Bank affords an array of stunning vantage points中,当我们分析“Bank”(unigram)这个词时,我们可能不知道它是指金融机构还是河旁。此外,“South Bank”(bigram),尤其是考虑到两个大写字母,可能会误导那些对伦敦不太了解的人,把它当作金融机构。当我们获得更大的上下文“stroll along the South Bank”(5-gram),我们就能很容易地辨别出它的意思。虽然高阶n-grams和更复杂的特性(如树内核)被设计用于捕获更多的上下文信息和单词序列,但它们仍然存在数据稀疏问题,这严重影响了分类的准确性。近年来,经过预先训练的word embedding和深层神经网络的快速发展,给各种NLP任务带来了新的启发。word embedding是单词的一种分布式表示,极大地缓解了数据稀疏问题(Bengio et al. 2003)。预先训练的词嵌入可以捕捉有意义的句法和语义规律性。
接着对目前应用较为广泛的深度学习框架算法进行了综述:
为了解决上述模型的局限性,作者们提出了一个循环卷积神经网络(RCNN),并将其应用于文本分类的任务。首先,我们应用一个双向的循环结构,与传统的基于窗口的神经网络相比,它可以大大减少噪声,从而最大程度地捕捉上下文信息。此外,该模型在学习文本表示时可以保留更大范围的词序。其次,使用了一个可以自动判断哪些特性在文本分类中扮演关键角色的池化层(max-pooling),以捕获文本中的关键组件。模型结合了RNN的结构和最大池化层,利用了循环神经模型和卷积神经模型的优点。此外,模型的时间复杂度为O(n),它与文本长度的长度是线性相关的。
如下图是作者提出的模型框架,输入是一个文本D,它可以看成是由一系列单词(W1,W2,,,Wn)组成的。输出是一个概率分布,最大的那个位置对应文章属于的类别K。
接下来我们来仔细分析一下框架训练的过程。
为了更准确地表达单词的意思,作者使用了单词本身和其上下文来表示这个词。在论文中,使用双向循环结构来实现。使用来定义词左边的文本,来定义词右边文本。这里和是长度为|c|的稠密向量。计算公式如下:
以“A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析,结合上图,Cl(W7)表示了“Bank”这个词左侧的上下文语义信息(即“stroll along the South ”),同理,Cr(W7)表示了“Bank”这个词右侧的上下文语义信息(即“ affords an array ...”)。据此,我们就可以定义单词Wi的向量表示:
循环结构可以在文本的向前扫描时获取所有的Cl,在反向扫描时获取所有的Cr。时间复杂度为O(n)。当我们获得了单词Wi的表示Xi后,我们将一个线性变换与tanh激活函数一起应用到Xi,并将结果传递到下一层。
y是一个潜在的语义向量,每一个语义因素都将被分析,以确定代表文本的最有用的因素。
上面部分是单词的表示,那么怎么来提取文本的特征表示呢?作者在这里使用了CNN,当前面所有的单词表示y都计算出来以后,接上一个max-pooling层
这里的max函数是一个按元素max的函数,也就是说,前一步单词表达得到的y是一个n维向量,这一步y的第k个元素是上一步y的所有向量的第k个元素的最大值。池化层将不同长度的文本转换为固定长度的向量。通过使用池化层,我们可以在整个文本中捕获信息。还有其他类型的池层,比如平均池层(Collobert et al. 2011)。这里不使用平均池,因为这里只有几个单词和它们的组合对于捕获文档的含义非常有用。在文档中,最大池化层试图找到最重要的潜在语义因素。
模型的最后一部分是输出层:
最后对y应用softmax得到概率:
[1]
Recurrent Convolutional Neural Networks for Text Classification: https://dl.acm.org/doi/10.5555/2886521.2886636
本文参考原文-http://bjbsair.com/2020-03-25/tech-info/6304/
**传统文本分类
**
之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?
传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器学习算法。
对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words、tf-idf等。此外,还可以设计一些更复杂的特征,比如词性标签、名词短语以及tree kernels等。
特征选择旨在删除噪声特征,提高分类性能。最常见的特征选择方法比如去停词(例如,“The”)、信息增益、互信息或L1正则化等以选择有用的特性。
机器学习算法常用分类器,如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM)。然而,这些方法都存在数据稀疏问题。
论文来自Recurrent Convolutional Neural Networks for Text Classification[1]
作者在论文中首先对比了传统文本分类算法与深度学习算法。
传统的特征表示方法往往忽略文本中的上下文信息或词序,对于捕捉词的语义仍然不满意。例如,在句子,A sunset stroll along the South Bank affords an array of stunning vantage points中,当我们分析“Bank”(unigram)这个词时,我们可能不知道它是指金融机构还是河旁。此外,“South Bank”(bigram),尤其是考虑到两个大写字母,可能会误导那些对伦敦不太了解的人,把它当作金融机构。当我们获得更大的上下文“stroll along the South Bank”(5-gram),我们就能很容易地辨别出它的意思。虽然高阶n-grams和更复杂的特性(如树内核)被设计用于捕获更多的上下文信息和单词序列,但它们仍然存在数据稀疏问题,这严重影响了分类的准确性。近年来,经过预先训练的word embedding和深层神经网络的快速发展,给各种NLP任务带来了新的启发。word embedding是单词的一种分布式表示,极大地缓解了数据稀疏问题(Bengio et al. 2003)。预先训练的词嵌入可以捕捉有意义的句法和语义规律性。
接着对目前应用较为广泛的深度学习框架算法进行了综述:
为了解决上述模型的局限性,作者们提出了一个循环卷积神经网络(RCNN),并将其应用于文本分类的任务。首先,我们应用一个双向的循环结构,与传统的基于窗口的神经网络相比,它可以大大减少噪声,从而最大程度地捕捉上下文信息。此外,该模型在学习文本表示时可以保留更大范围的词序。其次,使用了一个可以自动判断哪些特性在文本分类中扮演关键角色的池化层(max-pooling),以捕获文本中的关键组件。模型结合了RNN的结构和最大池化层,利用了循环神经模型和卷积神经模型的优点。此外,模型的时间复杂度为O(n),它与文本长度的长度是线性相关的。
如下图是作者提出的模型框架,输入是一个文本D,它可以看成是由一系列单词(W1,W2,,,Wn)组成的。输出是一个概率分布,最大的那个位置对应文章属于的类别K。
接下来我们来仔细分析一下框架训练的过程。
为了更准确地表达单词的意思,作者使用了单词本身和其上下文来表示这个词。在论文中,使用双向循环结构来实现。使用来定义词左边的文本,来定义词右边文本。这里和是长度为|c|的稠密向量。计算公式如下:
以“A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析,结合上图,Cl(W7)表示了“Bank”这个词左侧的上下文语义信息(即“stroll along the South ”),同理,Cr(W7)表示了“Bank”这个词右侧的上下文语义信息(即“ affords an array ...”)。据此,我们就可以定义单词Wi的向量表示:
循环结构可以在文本的向前扫描时获取所有的Cl,在反向扫描时获取所有的Cr。时间复杂度为O(n)。当我们获得了单词Wi的表示Xi后,我们将一个线性变换与tanh激活函数一起应用到Xi,并将结果传递到下一层。
y是一个潜在的语义向量,每一个语义因素都将被分析,以确定代表文本的最有用的因素。
上面部分是单词的表示,那么怎么来提取文本的特征表示呢?作者在这里使用了CNN,当前面所有的单词表示y都计算出来以后,接上一个max-pooling层
这里的max函数是一个按元素max的函数,也就是说,前一步单词表达得到的y是一个n维向量,这一步y的第k个元素是上一步y的所有向量的第k个元素的最大值。池化层将不同长度的文本转换为固定长度的向量。通过使用池化层,我们可以在整个文本中捕获信息。还有其他类型的池层,比如平均池层(Collobert et al. 2011)。这里不使用平均池,因为这里只有几个单词和它们的组合对于捕获文档的含义非常有用。在文档中,最大池化层试图找到最重要的潜在语义因素。
模型的最后一部分是输出层:
最后对y应用softmax得到概率:
[1]
Recurrent Convolutional Neural Networks for Text Classification: https://dl.acm.org/doi/10.5555/2886521.2886636
本文参考原文-http://bjbsair.com/2020-03-25/tech-info/6304/
**传统文本分类
**
之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?
传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器学习算法。
对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words、tf-idf等。此外,还可以设计一些更复杂的特征,比如词性标签、名词短语以及tree kernels等。
特征选择旨在删除噪声特征,提高分类性能。最常见的特征选择方法比如去停词(例如,“The”)、信息增益、互信息或L1正则化等以选择有用的特性。
机器学习算法常用分类器,如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM)。然而,这些方法都存在数据稀疏问题。
论文来自Recurrent Convolutional Neural Networks for Text Classification[1]
作者在论文中首先对比了传统文本分类算法与深度学习算法。
传统的特征表示方法往往忽略文本中的上下文信息或词序,对于捕捉词的语义仍然不满意。例如,在句子,A sunset stroll along the South Bank affords an array of stunning vantage points中,当我们分析“Bank”(unigram)这个词时,我们可能不知道它是指金融机构还是河旁。此外,“South Bank”(bigram),尤其是考虑到两个大写字母,可能会误导那些对伦敦不太了解的人,把它当作金融机构。当我们获得更大的上下文“stroll along the South Bank”(5-gram),我们就能很容易地辨别出它的意思。虽然高阶n-grams和更复杂的特性(如树内核)被设计用于捕获更多的上下文信息和单词序列,但它们仍然存在数据稀疏问题,这严重影响了分类的准确性。近年来,经过预先训练的word embedding和深层神经网络的快速发展,给各种NLP任务带来了新的启发。word embedding是单词的一种分布式表示,极大地缓解了数据稀疏问题(Bengio et al. 2003)。预先训练的词嵌入可以捕捉有意义的句法和语义规律性。
接着对目前应用较为广泛的深度学习框架算法进行了综述:
为了解决上述模型的局限性,作者们提出了一个循环卷积神经网络(RCNN),并将其应用于文本分类的任务。首先,我们应用一个双向的循环结构,与传统的基于窗口的神经网络相比,它可以大大减少噪声,从而最大程度地捕捉上下文信息。此外,该模型在学习文本表示时可以保留更大范围的词序。其次,使用了一个可以自动判断哪些特性在文本分类中扮演关键角色的池化层(max-pooling),以捕获文本中的关键组件。模型结合了RNN的结构和最大池化层,利用了循环神经模型和卷积神经模型的优点。此外,模型的时间复杂度为O(n),它与文本长度的长度是线性相关的。
如下图是作者提出的模型框架,输入是一个文本D,它可以看成是由一系列单词(W1,W2,,,Wn)组成的。输出是一个概率分布,最大的那个位置对应文章属于的类别K。
接下来我们来仔细分析一下框架训练的过程。
为了更准确地表达单词的意思,作者使用了单词本身和其上下文来表示这个词。在论文中,使用双向循环结构来实现。使用来定义词左边的文本,来定义词右边文本。这里和是长度为|c|的稠密向量。计算公式如下:
以“A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析,结合上图,Cl(W7)表示了“Bank”这个词左侧的上下文语义信息(即“stroll along the South ”),同理,Cr(W7)表示了“Bank”这个词右侧的上下文语义信息(即“ affords an array ...”)。据此,我们就可以定义单词Wi的向量表示:
循环结构可以在文本的向前扫描时获取所有的Cl,在反向扫描时获取所有的Cr。时间复杂度为O(n)。当我们获得了单词Wi的表示Xi后,我们将一个线性变换与tanh激活函数一起应用到Xi,并将结果传递到下一层。
y是一个潜在的语义向量,每一个语义因素都将被分析,以确定代表文本的最有用的因素。
上面部分是单词的表示,那么怎么来提取文本的特征表示呢?作者在这里使用了CNN,当前面所有的单词表示y都计算出来以后,接上一个max-pooling层
这里的max函数是一个按元素max的函数,也就是说,前一步单词表达得到的y是一个n维向量,这一步y的第k个元素是上一步y的所有向量的第k个元素的最大值。池化层将不同长度的文本转换为固定长度的向量。通过使用池化层,我们可以在整个文本中捕获信息。还有其他类型的池层,比如平均池层(Collobert et al. 2011)。这里不使用平均池,因为这里只有几个单词和它们的组合对于捕获文档的含义非常有用。在文档中,最大池化层试图找到最重要的潜在语义因素。
模型的最后一部分是输出层:
最后对y应用softmax得到概率:
[1]
Recurrent Convolutional Neural Networks for Text Classification: https://dl.acm.org/doi/10.5555/2886521.2886636
本文参考原文-http://bjbsair.com/2020-03-25/tech-info/6304/
**传统文本分类
**
之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?
传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器学习算法。
对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words、tf-idf等。此外,还可以设计一些更复杂的特征,比如词性标签、名词短语以及tree kernels等。
特征选择旨在删除噪声特征,提高分类性能。最常见的特征选择方法比如去停词(例如,“The”)、信息增益、互信息或L1正则化等以选择有用的特性。
机器学习算法常用分类器,如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM)。然而,这些方法都存在数据稀疏问题。
论文来自Recurrent Convolutional Neural Networks for Text Classification[1]
作者在论文中首先对比了传统文本分类算法与深度学习算法。
传统的特征表示方法往往忽略文本中的上下文信息或词序,对于捕捉词的语义仍然不满意。例如,在句子,A sunset stroll along the South Bank affords an array of stunning vantage points中,当我们分析“Bank”(unigram)这个词时,我们可能不知道它是指金融机构还是河旁。此外,“South Bank”(bigram),尤其是考虑到两个大写字母,可能会误导那些对伦敦不太了解的人,把它当作金融机构。当我们获得更大的上下文“stroll along the South Bank”(5-gram),我们就能很容易地辨别出它的意思。虽然高阶n-grams和更复杂的特性(如树内核)被设计用于捕获更多的上下文信息和单词序列,但它们仍然存在数据稀疏问题,这严重影响了分类的准确性。近年来,经过预先训练的word embedding和深层神经网络的快速发展,给各种NLP任务带来了新的启发。word embedding是单词的一种分布式表示,极大地缓解了数据稀疏问题(Bengio et al. 2003)。预先训练的词嵌入可以捕捉有意义的句法和语义规律性。
接着对目前应用较为广泛的深度学习框架算法进行了综述:
为了解决上述模型的局限性,作者们提出了一个循环卷积神经网络(RCNN),并将其应用于文本分类的任务。首先,我们应用一个双向的循环结构,与传统的基于窗口的神经网络相比,它可以大大减少噪声,从而最大程度地捕捉上下文信息。此外,该模型在学习文本表示时可以保留更大范围的词序。其次,使用了一个可以自动判断哪些特性在文本分类中扮演关键角色的池化层(max-pooling),以捕获文本中的关键组件。模型结合了RNN的结构和最大池化层,利用了循环神经模型和卷积神经模型的优点。此外,模型的时间复杂度为O(n),它与文本长度的长度是线性相关的。
如下图是作者提出的模型框架,输入是一个文本D,它可以看成是由一系列单词(W1,W2,,,Wn)组成的。输出是一个概率分布,最大的那个位置对应文章属于的类别K。
接下来我们来仔细分析一下框架训练的过程。
为了更准确地表达单词的意思,作者使用了单词本身和其上下文来表示这个词。在论文中,使用双向循环结构来实现。使用来定义词左边的文本,来定义词右边文本。这里和是长度为|c|的稠密向量。计算公式如下:
以“A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析,结合上图,Cl(W7)表示了“Bank”这个词左侧的上下文语义信息(即“stroll along the South ”),同理,Cr(W7)表示了“Bank”这个词右侧的上下文语义信息(即“ affords an array ...”)。据此,我们就可以定义单词Wi的向量表示:
循环结构可以在文本的向前扫描时获取所有的Cl,在反向扫描时获取所有的Cr。时间复杂度为O(n)。当我们获得了单词Wi的表示Xi后,我们将一个线性变换与tanh激活函数一起应用到Xi,并将结果传递到下一层。
y是一个潜在的语义向量,每一个语义因素都将被分析,以确定代表文本的最有用的因素。
上面部分是单词的表示,那么怎么来提取文本的特征表示呢?作者在这里使用了CNN,当前面所有的单词表示y都计算出来以后,接上一个max-pooling层
这里的max函数是一个按元素max的函数,也就是说,前一步单词表达得到的y是一个n维向量,这一步y的第k个元素是上一步y的所有向量的第k个元素的最大值。池化层将不同长度的文本转换为固定长度的向量。通过使用池化层,我们可以在整个文本中捕获信息。还有其他类型的池层,比如平均池层(Collobert et al. 2011)。这里不使用平均池,因为这里只有几个单词和它们的组合对于捕获文档的含义非常有用。在文档中,最大池化层试图找到最重要的潜在语义因素。
模型的最后一部分是输出层:
最后对y应用softmax得到概率:
[1]
Recurrent Convolutional Neural Networks for Text Classification: https://dl.acm.org/doi/10.5555/2886521.2886636
本文参考原文-http://bjbsair.com/2020-03-25/tech-info/6304/
**传统文本分类
**
之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?
传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器学习算法。
对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words、tf-idf等。此外,还可以设计一些更复杂的特征,比如词性标签、名词短语以及tree kernels等。
特征选择旨在删除噪声特征,提高分类性能。最常见的特征选择方法比如去停词(例如,“The”)、信息增益、互信息或L1正则化等以选择有用的特性。
机器学习算法常用分类器,如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM)。然而,这些方法都存在数据稀疏问题。
论文来自Recurrent Convolutional Neural Networks for Text Classification[1]
作者在论文中首先对比了传统文本分类算法与深度学习算法。
传统的特征表示方法往往忽略文本中的上下文信息或词序,对于捕捉词的语义仍然不满意。例如,在句子,A sunset stroll along the South Bank affords an array of stunning vantage points中,当我们分析“Bank”(unigram)这个词时,我们可能不知道它是指金融机构还是河旁。此外,“South Bank”(bigram),尤其是考虑到两个大写字母,可能会误导那些对伦敦不太了解的人,把它当作金融机构。当我们获得更大的上下文“stroll along the South Bank”(5-gram),我们就能很容易地辨别出它的意思。虽然高阶n-grams和更复杂的特性(如树内核)被设计用于捕获更多的上下文信息和单词序列,但它们仍然存在数据稀疏问题,这严重影响了分类的准确性。近年来,经过预先训练的word embedding和深层神经网络的快速发展,给各种NLP任务带来了新的启发。word embedding是单词的一种分布式表示,极大地缓解了数据稀疏问题(Bengio et al. 2003)。预先训练的词嵌入可以捕捉有意义的句法和语义规律性。
接着对目前应用较为广泛的深度学习框架算法进行了综述:
为了解决上述模型的局限性,作者们提出了一个循环卷积神经网络(RCNN),并将其应用于文本分类的任务。首先,我们应用一个双向的循环结构,与传统的基于窗口的神经网络相比,它可以大大减少噪声,从而最大程度地捕捉上下文信息。此外,该模型在学习文本表示时可以保留更大范围的词序。其次,使用了一个可以自动判断哪些特性在文本分类中扮演关键角色的池化层(max-pooling),以捕获文本中的关键组件。模型结合了RNN的结构和最大池化层,利用了循环神经模型和卷积神经模型的优点。此外,模型的时间复杂度为O(n),它与文本长度的长度是线性相关的。
如下图是作者提出的模型框架,输入是一个文本D,它可以看成是由一系列单词(W1,W2,,,Wn)组成的。输出是一个概率分布,最大的那个位置对应文章属于的类别K。
接下来我们来仔细分析一下框架训练的过程。
为了更准确地表达单词的意思,作者使用了单词本身和其上下文来表示这个词。在论文中,使用双向循环结构来实现。使用来定义词左边的文本,来定义词右边文本。这里和是长度为|c|的稠密向量。计算公式如下:
以“A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析,结合上图,Cl(W7)表示了“Bank”这个词左侧的上下文语义信息(即“stroll along the South ”),同理,Cr(W7)表示了“Bank”这个词右侧的上下文语义信息(即“ affords an array ...”)。据此,我们就可以定义单词Wi的向量表示:
循环结构可以在文本的向前扫描时获取所有的Cl,在反向扫描时获取所有的Cr。时间复杂度为O(n)。当我们获得了单词Wi的表示Xi后,我们将一个线性变换与tanh激活函数一起应用到Xi,并将结果传递到下一层。
y是一个潜在的语义向量,每一个语义因素都将被分析,以确定代表文本的最有用的因素。
上面部分是单词的表示,那么怎么来提取文本的特征表示呢?作者在这里使用了CNN,当前面所有的单词表示y都计算出来以后,接上一个max-pooling层
这里的max函数是一个按元素max的函数,也就是说,前一步单词表达得到的y是一个n维向量,这一步y的第k个元素是上一步y的所有向量的第k个元素的最大值。池化层将不同长度的文本转换为固定长度的向量。通过使用池化层,我们可以在整个文本中捕获信息。还有其他类型的池层,比如平均池层(Collobert et al. 2011)。这里不使用平均池,因为这里只有几个单词和它们的组合对于捕获文档的含义非常有用。在文档中,最大池化层试图找到最重要的潜在语义因素。
模型的最后一部分是输出层:
最后对y应用softmax得到概率:
[1]
Recurrent Convolutional Neural Networks for Text Classification: https://dl.acm.org/doi/10.5555/2886521.2886636
本文参考原文-http://bjbsair.com/2020-03-25/tech-info/6304/
**传统文本分类
**
之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?
传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器学习算法。
对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words、tf-idf等。此外,还可以设计一些更复杂的特征,比如词性标签、名词短语以及tree kernels等。
特征选择旨在删除噪声特征,提高分类性能。最常见的特征选择方法比如去停词(例如,“The”)、信息增益、互信息或L1正则化等以选择有用的特性。
机器学习算法常用分类器,如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM)。然而,这些方法都存在数据稀疏问题。
论文来自Recurrent Convolutional Neural Networks for Text Classification[1]
作者在论文中首先对比了传统文本分类算法与深度学习算法。
传统的特征表示方法往往忽略文本中的上下文信息或词序,对于捕捉词的语义仍然不满意。例如,在句子,A sunset stroll along the South Bank affords an array of stunning vantage points中,当我们分析“Bank”(unigram)这个词时,我们可能不知道它是指金融机构还是河旁。此外,“South Bank”(bigram),尤其是考虑到两个大写字母,可能会误导那些对伦敦不太了解的人,把它当作金融机构。当我们获得更大的上下文“stroll along the South Bank”(5-gram),我们就能很容易地辨别出它的意思。虽然高阶n-grams和更复杂的特性(如树内核)被设计用于捕获更多的上下文信息和单词序列,但它们仍然存在数据稀疏问题,这严重影响了分类的准确性。近年来,经过预先训练的word embedding和深层神经网络的快速发展,给各种NLP任务带来了新的启发。word embedding是单词的一种分布式表示,极大地缓解了数据稀疏问题(Bengio et al. 2003)。预先训练的词嵌入可以捕捉有意义的句法和语义规律性。
接着对目前应用较为广泛的深度学习框架算法进行了综述:
为了解决上述模型的局限性,作者们提出了一个循环卷积神经网络(RCNN),并将其应用于文本分类的任务。首先,我们应用一个双向的循环结构,与传统的基于窗口的神经网络相比,它可以大大减少噪声,从而最大程度地捕捉上下文信息。此外,该模型在学习文本表示时可以保留更大范围的词序。其次,使用了一个可以自动判断哪些特性在文本分类中扮演关键角色的池化层(max-pooling),以捕获文本中的关键组件。模型结合了RNN的结构和最大池化层,利用了循环神经模型和卷积神经模型的优点。此外,模型的时间复杂度为O(n),它与文本长度的长度是线性相关的。
如下图是作者提出的模型框架,输入是一个文本D,它可以看成是由一系列单词(W1,W2,,,Wn)组成的。输出是一个概率分布,最大的那个位置对应文章属于的类别K。
接下来我们来仔细分析一下框架训练的过程。
为了更准确地表达单词的意思,作者使用了单词本身和其上下文来表示这个词。在论文中,使用双向循环结构来实现。使用来定义词左边的文本,来定义词右边文本。这里和是长度为|c|的稠密向量。计算公式如下:
以“A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析,结合上图,Cl(W7)表示了“Bank”这个词左侧的上下文语义信息(即“stroll along the South ”),同理,Cr(W7)表示了“Bank”这个词右侧的上下文语义信息(即“ affords an array ...”)。据此,我们就可以定义单词Wi的向量表示:
循环结构可以在文本的向前扫描时获取所有的Cl,在反向扫描时获取所有的Cr。时间复杂度为O(n)。当我们获得了单词Wi的表示Xi后,我们将一个线性变换与tanh激活函数一起应用到Xi,并将结果传递到下一层。
y是一个潜在的语义向量,每一个语义因素都将被分析,以确定代表文本的最有用的因素。
上面部分是单词的表示,那么怎么来提取文本的特征表示呢?作者在这里使用了CNN,当前面所有的单词表示y都计算出来以后,接上一个max-pooling层
这里的max函数是一个按元素max的函数,也就是说,前一步单词表达得到的y是一个n维向量,这一步y的第k个元素是上一步y的所有向量的第k个元素的最大值。池化层将不同长度的文本转换为固定长度的向量。通过使用池化层,我们可以在整个文本中捕获信息。还有其他类型的池层,比如平均池层(Collobert et al. 2011)。这里不使用平均池,因为这里只有几个单词和它们的组合对于捕获文档的含义非常有用。在文档中,最大池化层试图找到最重要的潜在语义因素。
模型的最后一部分是输出层:
最后对y应用softmax得到概率:
[1]
Recurrent Convolutional Neural Networks for Text Classification: https://dl.acm.org/doi/10.5555/2886521.2886636
标签:上下文 -o tag learn 深度学习 文本分类 网络 sof 复杂度
原文地址:https://www.cnblogs.com/lihanlin/p/12571870.html