将迁移学习用于文本分类 《 Universal Language Model Fine-tuning for Text Classification》 2018-07-27 20:07:43 ttv56 阅读数 4552更多 分类专栏: 自然语言处理 将迁移学习用于文本分类 《 Universal ...
分类:
其他好文 时间:
2019-10-08 16:12:12
阅读次数:
108
一、项目概要 这里分析的源码来自于GitHub,是一份关于使用卷积神经网络以及循环神经网络进行中文文本分类的开源项目代码。 在分析源码之前我们首先来看这份代码的目录结构(如下图所示) 从上面可以看到,该项目由于结构简单,所以并没有以较多的文件夹将.py文件分开保存,而是集中到了一起,把所有的源代码都 ...
分类:
其他好文 时间:
2019-10-06 13:04:12
阅读次数:
83
机器学习—朴素贝叶斯 本文代码均来自《机器学习实战》 朴素贝叶斯的两个基本假设: 1. 独立:一个特征出现的可能性和与它和其他特征相邻没有关系 2. 每个特征同等重要 这段代码是以文本分类为例介绍朴素贝叶斯算法的 要从文本中获取特征,需要先拆分文本。这里的特征是来自文本的词条(token),一个词条 ...
分类:
其他好文 时间:
2019-10-05 14:06:36
阅读次数:
96
短文本匹配&自然语言推理模型 ESIM "参考博客" 论文链接:http://tongtianta.site/paper/11096 一、 原理 ESIM,简称 “Enhanced LSTM for Natural Language Inference“。顾名思义,一种专为自然语言推断而生的加强版 ...
分类:
其他好文 时间:
2019-10-03 20:12:07
阅读次数:
107
CountVectorizer方法进行特征提取 from sklearn.feature.extraction.text import CountVectorizer 这个方法根据分词进行数量统计继续文本分类 文本特征提取 作用:对文本进行特征值化 sklearn.feature_extractio ...
分类:
其他好文 时间:
2019-09-26 00:42:39
阅读次数:
508
第二章 Python入门 2.1.简介 Python是著名的“龟叔”( Guido van Rossum )在1989年圣诞节期间,为了打发无聊的圣诞节而编写的一个编程语言 2.1.1.Python适合开发哪些类型的应用呢? 云计算 机器学习 科学运算 自动化运维 自动化测试 爬虫 数据分析 GUI ...
分类:
编程语言 时间:
2019-09-12 13:29:52
阅读次数:
103
在文本挖掘与文本分类的有关问题中,文本最初始的数据是将文档表示成向量空间模型的一个矩阵,而这个矩阵所拥有的就是不同的词,常采用特征选择方法。原因是文本的特征一般都是单词(term),具有语义信息,使用特征选择找出的k维子集,仍然是单词作为特征,保留了语义信息,而特征提取则找k维新空间,将会丧失了语义 ...
分类:
编程语言 时间:
2019-09-01 01:16:49
阅读次数:
99
1.GCN的概念 传统CNN卷积可以处理图片等欧式结构的数据,却很难处理社交网络、信息网络等非欧式结构的数据。一般图片是由c个通道h行w列的矩阵组成的,结构非常规整。而社交网络、信息网络等是图论中的图(定点和边建立起 ...
分类:
其他好文 时间:
2019-08-31 23:41:04
阅读次数:
198
定义: 特征选择是一个「降维」的过程,是一个去掉无关特征,保留相关特征的过程。从所有特征集中选取最好的一个特征子集。 特征提取是一个将机器学习算法不能识别出来的原始数据转变成可以识别到数据特征的过程。没有「筛选」的操作,不需要考虑特征是否有用,所以并不能称其为降维。 通过实例理解,以文本分类为例: ...
分类:
其他好文 时间:
2019-08-18 23:38:42
阅读次数:
122
作者:尘心链接:https://zhuanlan.zhihu.com/p/76003775 简述 文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类。但是文本 ...
分类:
其他好文 时间:
2019-08-04 15:17:22
阅读次数:
123