搜索关键字：word2vec 词向量，搜索到443个结果！码迷,mamicode.com！

Facebook开源技术识别网购评论

1.自然语言处理2.情感分析3.监督学习模型4.词向量 5.fasttext 汉藏语系，是语言系属分类（Language family）的一种，分为汉语族和藏缅语族，是用汉语和藏语的名称概括与其有亲属关系的457种语言。这个语系至少包含汉语语族、藏缅语族、苗瑶语族以及壮侗语族，共计约400种语言。 ...

分类：其他好文时间：2019-02-22 21:22:32 阅读次数：163

解决在使用gensim.models.word2vec.LineSentence加载语料库时报错 UnicodeDecodeError: 'utf-8' codec can't decode byte......的问题

在window下使用gemsim.models.word2vec.LineSentence加载中文维基百科语料库（已分词）时报如下错误：这种编码问题真的很让人头疼，这种问题都是出现在xxx.decode("utf-8")的时候，所以接下来我们来看看gensim中的源码：从源码中可以看到__ite ...

分类：其他好文时间：2019-02-21 12:52:53 阅读次数：727

Getting Started with Word2Vec

Getting Started with Word2Vec 1. Source by Google Project with Code: https://code.google.com/archive/p/word2vec/ Blog: "Learning Meaning Behind Words" ...

分类：其他好文时间：2019-02-16 13:37:44 阅读次数：141

深度双向Transformer预训练【BERT第一作者分享】

翻译自Jacob Devlin分享的slides [TOC] NLP中的预训练词嵌入是利用深度学习解决自然语言处理问题的基础。词嵌入（例如word2vec，GloVe）通常是在一个较大的语料库上利用词共现统计预训练得到的。例如下面两个句子中，由于 king 和 queen 附近的上下文时常相同或 ...

分类：其他好文时间：2019-02-13 12:27:45 阅读次数：382

Spark LDA 实例

SparkLDA实例一、准备数据数据格式为：documents:RDD[(Long,Vector)]，其中：Long为文章ID，Vector为文章分词后的词向量；通过分词以及数据格式的转换，转换成RDD[(Long,Vector)]即可。二、建立模型importorg.apache.spark.mllib.clustering._valldaOptimizer=newOnlineLDAOptimi

分类：其他好文时间：2019-02-12 15:56:42 阅读次数：344

将句子表示为向量（上）：无监督句子表示学习（sentence embedding）

1. 引言 word emedding技术如word2vec，glove等已经广泛应用于NLP，极大地推动了NLP的发展。既然词可以embedding，句子也应该可以（其实， "万物皆可embedding" ，Embedding is All You Need ^_^）。近年来（2014 2018） ...

分类：其他好文时间：2019-01-30 17:16:50 阅读次数：825

使用TensorFlow进行中文自然语言处理的情感分析

1 TensorFlow使用分析流程： 1.1 使用gensim加载预训练中文分词embedding 加载预训练词向量模型：https://github.com/Embedding/Chinese-Word-Vectors/ 查看词语的向量模型表示：维度为300 词语相似度：向量余弦值最相似的 ...

分类：编程语言时间：2019-01-28 21:08:12 阅读次数：308

skip-gram模型

引言在许多自然语言处理任务中，许多单词表达是由他们的tf-idf分数决定的。即使这些分数告诉我们一个单词在一个文本中的相对重要性，但是他们并没有告诉我们单词的语义。Word2vec是一类神经网络模型——在给定无标签的语料库的情况下，为语料库中的单词产生一个能表达语义的向量。这些向量通常是有用的：通 ...

分类：其他好文时间：2019-01-28 10:58:58 阅读次数：468

机器学习入门-文本特征-word2vec词向量模型 1.word2vec（进行word2vec映射编码）2.model.wv['sky']输出这个词的向量映射 3.model.wv.index2vec(输出经过映射的词名称)

函数说明： 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count=min_count, window=window, sample=sample) 参数说明：corp ...

分类：其他好文时间：2019-01-27 14:42:31 阅读次数：339

机器学习入门-文本特征-使用LDA主题模型构造标签 1.LatentDirichletAllocation(LDA用于构建主题模型) 2.LDA.components(输出各个词向量的权重值)

函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型，将文本分成不同的主题参数说明:n_topics 表示分为多少个主题， max_iters表示最大的迭代次数， random_state 表示随机种子 2. LDA.component ...

分类：其他好文时间：2019-01-27 01:06:51 阅读次数：760

共443条上一页 1 ... 13 14 15 16 17 ... 45 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)