1. 引言 word emedding技术如word2vec,glove等已经广泛应用于NLP,极大地推动了NLP的发展。既然词可以embedding,句子也应该可以(其实, "万物皆可embedding" ,Embedding is All You Need ^_^)。近年来(2014 2018) ...
分类:
其他好文 时间:
2019-01-30 17:16:50
阅读次数:
825
摘要 这篇短文的目的是分享我这几天里从头开始学习Python爬虫技术的经验,并展示对爬取的文本进行情感分析(文本分类)的一些挖掘结果。 不同于其他专注爬虫技术的介绍,这里首先阐述爬取网络数据动机,接着以豆瓣影评为例介绍文本数据的爬取,最后使用文本分类的技术以一种机器学习的方式进行情感分析。由于内容覆 ...
分类:
编程语言 时间:
2019-01-19 13:52:20
阅读次数:
200
文本分类长度较大,对文本的智能解析是很有挑战的。 ...
分类:
其他好文 时间:
2019-01-15 14:17:09
阅读次数:
151
1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类。总共有以下系列: word2vec预训练词向量 textCNN 模型 charCNN 模型 Bi-LSTM 模型 Bi-LSTM + Attention ...
分类:
其他好文 时间:
2019-01-02 15:08:14
阅读次数:
1378
1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类。总共有以下系列: word2vec预训练词向量 textCNN 模型 charCNN 模型 Bi-LSTM 模型 Bi-LSTM + Attention ...
分类:
其他好文 时间:
2019-01-02 15:07:33
阅读次数:
600
1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类。总共有以下系列: word2vec预训练词向量 textCNN 模型 charCNN 模型 Bi-LSTM 模型 Bi-LSTM + Attention ...
分类:
其他好文 时间:
2019-01-02 15:02:29
阅读次数:
970
1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类。总共有以下系列: word2vec预训练词向量 textCNN 模型 charCNN 模型 Bi-LSTM 模型 Bi-LSTM + Attention ...
分类:
其他好文 时间:
2019-01-02 12:54:39
阅读次数:
406
在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”,并成功入选中国数字化转型TOP100服务商。图:大快搜索获评“2018中国大数据基础软件领域领军企业”在本届2018中国软件大会上,不仅宣传并成立了数字转型促进会,还发布了由中国大数据产业生态联盟副秘书长、《软件和集成电路》杂志社总编辑郭嘉凯编辑的新书——《数据之翼-引领
分类:
编程语言 时间:
2018-12-24 11:16:09
阅读次数:
188
简介: BERT,全称Bidirectional Encoder Representations from Transformers,是一个预训练的语言模型,可以通过它得到文本表示,然后用于下游任务,比如文本分类,问答系统,情感分析等任务.BERT像是word2vec的加强版,同样是预训练得到词级别 ...
分类:
其他好文 时间:
2018-12-17 17:34:58
阅读次数:
326
1、fasttext是facebook开源的一个词向量与文本分类工具,在学术上没有太多创新点,好处是模型简单,训练速度非常快。简单尝试可以发现,做出来的结果也不错,可以达到上线使用的标准。 2、简单说来,fastText做的事情,就是把文档中所有词通过lookup table变成向量(word2ve ...
分类:
其他好文 时间:
2018-12-14 15:00:32
阅读次数:
507