不积跬步无以至千里,不积小流无以成江海!每天一点点,以达到积少成多之效! word2vec 概念,数学原理理解 1.数据集 Kaggle上的电影影评数据,包括unlabeledTrainData.tsv,labeledTrainData.tsv,testData.tsv三个文件 Strange th ...
分类:
其他好文 时间:
2020-06-24 23:51:31
阅读次数:
72
由于之前做的都是用深度学习做数据融合方面以及NLP方面的东西,虽然NLP做的不是很深入,但是基本用的都是深度学习那一套,都是处理时许序列和序列预训练。
[有一个综述类文章总结的多组学方面的方向](https://blog.csdn.net/xunan003/article/details/78836... ...
分类:
其他好文 时间:
2020-06-24 21:41:44
阅读次数:
125
BERT是一种预训练语言表示的方法,在大量文本语料(维基百科)上训练了一个通用的“语言理解”模型,然后用这个模型去执行想做的NLP任务。BERT比之前的方法表现更出色,因为它是第一个用在预训练NLP上的无监督的、深度双向系统。
无监督意味着BERT只需要用纯文本语料来训练,这点非常重要,因为海量的... ...
分类:
其他好文 时间:
2020-06-24 21:27:31
阅读次数:
58
环境:window10 + python3.8 + Visual Studio Code 发现好的内容就收集到这里。 词云(WordCloud) Ref:Python 词云可视化 文本朗读(Text to speech) 语音合成(Speech synthesis)语音识别(Speech recog ...
分类:
其他好文 时间:
2020-06-24 14:12:35
阅读次数:
86
目录 背景 vanilla Transformer Transformer-XL解析 总结 一句话简介:Transformer-XL架构在vanilla Transformer的基础上引入了两点创新:循环机制(Recurrence Mechanism)和相对位置编码(Relative Positio... ...
分类:
其他好文 时间:
2020-06-23 21:28:36
阅读次数:
56
一、NLP的研究任务 机器翻译; 情感分析; 智能问答; 文摘生成; 文本分类:采集各种文章,进行主题分析,从而进行自动分类; 舆论分析; 知识图谱:知识点相互连接而成的语义网络。 二、基本术语 分词; 词性标注:对动词、名词、形容词等进行词性标注。eg:我/r 爱/v 北京/ns 天安门/ns; ...
分类:
其他好文 时间:
2020-06-23 01:13:11
阅读次数:
89
BERT是谷歌在2018年10月推出的深度语言表示模型。一经推出便席卷整个NLP领域,带来了革命性的进步。从此,无数英雄好汉竞相投身于这场追剧(芝麻街)运动。
只听得这边G家110亿,那边M家又1750亿,真是好不热闹!然而大家真的了解BERT的具体构造,以及使用细节吗?本文就带大家来细品一下。 ...
分类:
其他好文 时间:
2020-06-21 15:37:35
阅读次数:
474
基于OpenSeq2Seq的NLP与语音识别混合精度训练 Mixed Precision Training for NLP and Speech Recognition with OpenSeq2Seq 迄今为止,神经网络的成功建立在更大的数据集、更好的理论模型和缩短的训练时间上。特别是顺序模型,可 ...
分类:
其他好文 时间:
2020-06-21 12:13:34
阅读次数:
67
什么是文本分类 文本分类任务是NLP十分常见的任务大类,他的输入一般是文本信息,输出则是预测得到的分类标签。主要的文本分类任务有主题分类、情感分析 、作品归属、真伪检测等,很多问题其实通过转化后也能用分类的方法去做。 常规步骤 选择一个感兴趣的任务 收集合适的数据集 做好标注 特征选择 选择一个机器 ...
分类:
其他好文 时间:
2020-06-19 20:33:25
阅读次数:
70
为什么要预处理? 我们知道,大部分NLP任务都是以文本形式输入的,然鹅language is compositional!我们理解文本通常能够把文本拆分成多个构成的部分去理解,那么机器也可以这么做,而预处理就是第一步操作! 常规步骤 1. 去除不需要的格式信息 如HTML 2. 把文本拆分成句子 可 ...
分类:
其他好文 时间:
2020-06-19 01:00:56
阅读次数:
67