码迷,mamicode.com
首页 >  
搜索关键字:word2vec 词向量    ( 443个结果
Facebook开源技术识别网购评论
1.自然语言处理2.情感分析3.监督学习模型4.词向量 5.fasttext 汉藏语系,是语言系属分类(Language family)的一种,分为汉语族和藏缅语族,是用汉语和藏语的名称概括与其有亲属关系的457种语言。 这个语系至少包含汉语语族、藏缅语族、苗瑶语族以及壮侗语族,共计约400种语言。 ...
分类:其他好文   时间:2019-02-22 21:22:32    阅读次数:163
解决在使用gensim.models.word2vec.LineSentence加载语料库时报错 UnicodeDecodeError: 'utf-8' codec can't decode byte......的问题
在window下使用gemsim.models.word2vec.LineSentence加载中文维基百科语料库(已分词)时报如下错误: 这种编码问题真的很让人头疼,这种问题都是出现在xxx.decode("utf-8")的时候,所以接下来我们来看看gensim中的源码: 从源码中可以看到__ite ...
分类:其他好文   时间:2019-02-21 12:52:53    阅读次数:727
Getting Started with Word2Vec
Getting Started with Word2Vec 1. Source by Google Project with Code: https://code.google.com/archive/p/word2vec/ Blog: "Learning Meaning Behind Words" ...
分类:其他好文   时间:2019-02-16 13:37:44    阅读次数:141
深度双向Transformer预训练【BERT第一作者分享】
翻译自Jacob Devlin分享的slides [TOC] NLP中的预训练 词嵌入是利用深度学习解决自然语言处理问题的基础。 词嵌入(例如word2vec,GloVe)通常是在一个较大的语料库上利用词共现统计预训练得到的。例如下面两个句子中,由于 king 和 queen 附近的上下文时常相同或 ...
分类:其他好文   时间:2019-02-13 12:27:45    阅读次数:382
Spark LDA 实例
SparkLDA实例一、准备数据数据格式为:documents:RDD[(Long,Vector)],其中:Long为文章ID,Vector为文章分词后的词向量;通过分词以及数据格式的转换,转换成RDD[(Long,Vector)]即可。二、建立模型importorg.apache.spark.mllib.clustering._valldaOptimizer=newOnlineLDAOptimi
分类:其他好文   时间:2019-02-12 15:56:42    阅读次数:344
将句子表示为向量(上):无监督句子表示学习(sentence embedding)
1. 引言 word emedding技术如word2vec,glove等已经广泛应用于NLP,极大地推动了NLP的发展。既然词可以embedding,句子也应该可以(其实, "万物皆可embedding" ,Embedding is All You Need ^_^)。近年来(2014 2018) ...
分类:其他好文   时间:2019-01-30 17:16:50    阅读次数:825
使用TensorFlow进行中文自然语言处理的情感分析
1 TensorFlow使用 分析流程: 1.1 使用gensim加载预训练中文分词embedding 加载预训练词向量模型:https://github.com/Embedding/Chinese-Word-Vectors/ 查看词语的向量模型表示: 维度为300 词语相似度:向量余弦值 最相似的 ...
分类:编程语言   时间:2019-01-28 21:08:12    阅读次数:308
skip-gram模型
引言在许多自然语言处理任务中,许多单词表达是由他们的tf-idf分数决定的。即使这些分数告诉我们一个单词在一个文本中的相对重要性,但是他们并没有告诉我们单词的语义。Word2vec是一类神经网络模型——在给定无标签的语料库的情况下,为语料库中的单词产生一个能表达语义的向量。这些向量通常是有用的: 通 ...
分类:其他好文   时间:2019-01-28 10:58:58    阅读次数:468
机器学习入门-文本特征-word2vec词向量模型 1.word2vec(进行word2vec映射编码)2.model.wv['sky']输出这个词的向量映射 3.model.wv.index2vec(输出经过映射的词名称)
函数说明: 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count=min_count, window=window, sample=sample) 参数说明:corp ...
分类:其他好文   时间:2019-01-27 14:42:31    阅读次数:339
机器学习入门-文本特征-使用LDA主题模型构造标签 1.LatentDirichletAllocation(LDA用于构建主题模型) 2.LDA.components(输出各个词向量的权重值)
函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型,将文本分成不同的主题 参数说明:n_topics 表示分为多少个主题, max_iters表示最大的迭代次数, random_state 表示随机种子 2. LDA.component ...
分类:其他好文   时间:2019-01-27 01:06:51    阅读次数:760
443条   上一页 1 ... 13 14 15 16 17 ... 45 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!