1.自然语言处理2.情感分析3.监督学习模型4.词向量 5.fasttext 汉藏语系,是语言系属分类(Language family)的一种,分为汉语族和藏缅语族,是用汉语和藏语的名称概括与其有亲属关系的457种语言。 这个语系至少包含汉语语族、藏缅语族、苗瑶语族以及壮侗语族,共计约400种语言。 ...
分类:
其他好文 时间:
2019-02-22 21:22:32
阅读次数:
163
在window下使用gemsim.models.word2vec.LineSentence加载中文维基百科语料库(已分词)时报如下错误: 这种编码问题真的很让人头疼,这种问题都是出现在xxx.decode("utf-8")的时候,所以接下来我们来看看gensim中的源码: 从源码中可以看到__ite ...
分类:
其他好文 时间:
2019-02-21 12:52:53
阅读次数:
727
Getting Started with Word2Vec 1. Source by Google Project with Code: https://code.google.com/archive/p/word2vec/ Blog: "Learning Meaning Behind Words" ...
分类:
其他好文 时间:
2019-02-16 13:37:44
阅读次数:
141
翻译自Jacob Devlin分享的slides [TOC] NLP中的预训练 词嵌入是利用深度学习解决自然语言处理问题的基础。 词嵌入(例如word2vec,GloVe)通常是在一个较大的语料库上利用词共现统计预训练得到的。例如下面两个句子中,由于 king 和 queen 附近的上下文时常相同或 ...
分类:
其他好文 时间:
2019-02-13 12:27:45
阅读次数:
382
SparkLDA实例一、准备数据数据格式为:documents:RDD[(Long,Vector)],其中:Long为文章ID,Vector为文章分词后的词向量;通过分词以及数据格式的转换,转换成RDD[(Long,Vector)]即可。二、建立模型importorg.apache.spark.mllib.clustering._valldaOptimizer=newOnlineLDAOptimi
分类:
其他好文 时间:
2019-02-12 15:56:42
阅读次数:
344
1. 引言 word emedding技术如word2vec,glove等已经广泛应用于NLP,极大地推动了NLP的发展。既然词可以embedding,句子也应该可以(其实, "万物皆可embedding" ,Embedding is All You Need ^_^)。近年来(2014 2018) ...
分类:
其他好文 时间:
2019-01-30 17:16:50
阅读次数:
825
1 TensorFlow使用 分析流程: 1.1 使用gensim加载预训练中文分词embedding 加载预训练词向量模型:https://github.com/Embedding/Chinese-Word-Vectors/ 查看词语的向量模型表示: 维度为300 词语相似度:向量余弦值 最相似的 ...
分类:
编程语言 时间:
2019-01-28 21:08:12
阅读次数:
308
引言在许多自然语言处理任务中,许多单词表达是由他们的tf-idf分数决定的。即使这些分数告诉我们一个单词在一个文本中的相对重要性,但是他们并没有告诉我们单词的语义。Word2vec是一类神经网络模型——在给定无标签的语料库的情况下,为语料库中的单词产生一个能表达语义的向量。这些向量通常是有用的: 通 ...
分类:
其他好文 时间:
2019-01-28 10:58:58
阅读次数:
468
函数说明: 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count=min_count, window=window, sample=sample) 参数说明:corp ...
分类:
其他好文 时间:
2019-01-27 14:42:31
阅读次数:
339
函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型,将文本分成不同的主题 参数说明:n_topics 表示分为多少个主题, max_iters表示最大的迭代次数, random_state 表示随机种子 2. LDA.component ...
分类:
其他好文 时间:
2019-01-27 01:06:51
阅读次数:
760