1. 需要传入词向量 2.position_encoding 3. multihead_attention 4. feedforward 5.normalize 6. encoder-decoder 7. train ...
分类:
其他好文 时间:
2019-02-25 15:00:56
阅读次数:
332
1.自然语言处理2.情感分析3.监督学习模型4.词向量 5.fasttext 汉藏语系,是语言系属分类(Language family)的一种,分为汉语族和藏缅语族,是用汉语和藏语的名称概括与其有亲属关系的457种语言。 这个语系至少包含汉语语族、藏缅语族、苗瑶语族以及壮侗语族,共计约400种语言。 ...
分类:
其他好文 时间:
2019-02-22 21:22:32
阅读次数:
163
SparkLDA实例一、准备数据数据格式为:documents:RDD[(Long,Vector)],其中:Long为文章ID,Vector为文章分词后的词向量;通过分词以及数据格式的转换,转换成RDD[(Long,Vector)]即可。二、建立模型importorg.apache.spark.mllib.clustering._valldaOptimizer=newOnlineLDAOptimi
分类:
其他好文 时间:
2019-02-12 15:56:42
阅读次数:
344
1 TensorFlow使用 分析流程: 1.1 使用gensim加载预训练中文分词embedding 加载预训练词向量模型:https://github.com/Embedding/Chinese-Word-Vectors/ 查看词语的向量模型表示: 维度为300 词语相似度:向量余弦值 最相似的 ...
分类:
编程语言 时间:
2019-01-28 21:08:12
阅读次数:
308
函数说明: 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count=min_count, window=window, sample=sample) 参数说明:corp ...
分类:
其他好文 时间:
2019-01-27 14:42:31
阅读次数:
339
函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型,将文本分成不同的主题 参数说明:n_topics 表示分为多少个主题, max_iters表示最大的迭代次数, random_state 表示随机种子 2. LDA.component ...
分类:
其他好文 时间:
2019-01-27 01:06:51
阅读次数:
760
1、计算两个句子相似度,句子表征(工业界效果较好) 参考:https://www.zhihu.com/question/29978268/answer/55338644?utm_source=wechat_session&utm_medium=social&utm_oi=79530219802319 ...
分类:
其他好文 时间:
2019-01-16 11:58:56
阅读次数:
534
1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类。总共有以下系列: word2vec预训练词向量 textCNN 模型 charCNN 模型 Bi-LSTM 模型 Bi-LSTM + Attention ...
分类:
其他好文 时间:
2019-01-02 15:08:14
阅读次数:
1378
1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类。总共有以下系列: word2vec预训练词向量 textCNN 模型 charCNN 模型 Bi-LSTM 模型 Bi-LSTM + Attention ...
分类:
其他好文 时间:
2019-01-02 15:07:33
阅读次数:
600
1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类。总共有以下系列: word2vec预训练词向量 textCNN 模型 charCNN 模型 Bi-LSTM 模型 Bi-LSTM + Attention ...
分类:
其他好文 时间:
2019-01-02 15:02:29
阅读次数:
970