搜索关键字：ansj_seg word2vec，搜索到319个结果！码迷,mamicode.com！

Python gensim库word2vec的使用

ip install gensim安装好库后，即可导入使用： 1、训练模型定义参数解释： 0.sentences是训练所需语料，可通过以下方式进行加载此处训练集的格式为英文文本或分好词的中文文本 1.sg=1是skip-gram算法，对低频词敏感；默认sg=0为CBOW算法。 2.size是输出 ...

分类：编程语言时间：2019-03-24 17:32:09 阅读次数：223

列表转换为三维矩阵

先记录一下刚开始最慢最蠢的方法：（第一个函数是用单词训练的word2vec,第二个是字符训练的） ...

分类：其他好文时间：2019-03-14 18:09:00 阅读次数：173

java使用Ansj实现字符串分词

需要两个jar包 ansj_seg.jar nlp-lang ...

分类：编程语言时间：2019-03-07 14:15:52 阅读次数：279

解决在使用gensim.models.word2vec.LineSentence加载语料库时报错 UnicodeDecodeError: 'utf-8' codec can't decode byte......的问题

在window下使用gemsim.models.word2vec.LineSentence加载中文维基百科语料库（已分词）时报如下错误：这种编码问题真的很让人头疼，这种问题都是出现在xxx.decode("utf-8")的时候，所以接下来我们来看看gensim中的源码：从源码中可以看到__ite ...

分类：其他好文时间：2019-02-21 12:52:53 阅读次数：727

Getting Started with Word2Vec

Getting Started with Word2Vec 1. Source by Google Project with Code: https://code.google.com/archive/p/word2vec/ Blog: "Learning Meaning Behind Words" ...

分类：其他好文时间：2019-02-16 13:37:44 阅读次数：141

深度双向Transformer预训练【BERT第一作者分享】

翻译自Jacob Devlin分享的slides [TOC] NLP中的预训练词嵌入是利用深度学习解决自然语言处理问题的基础。词嵌入（例如word2vec，GloVe）通常是在一个较大的语料库上利用词共现统计预训练得到的。例如下面两个句子中，由于 king 和 queen 附近的上下文时常相同或 ...

分类：其他好文时间：2019-02-13 12:27:45 阅读次数：382

将句子表示为向量（上）：无监督句子表示学习（sentence embedding）

1. 引言 word emedding技术如word2vec，glove等已经广泛应用于NLP，极大地推动了NLP的发展。既然词可以embedding，句子也应该可以（其实， "万物皆可embedding" ，Embedding is All You Need ^_^）。近年来（2014 2018） ...

分类：其他好文时间：2019-01-30 17:16:50 阅读次数：825

skip-gram模型

引言在许多自然语言处理任务中，许多单词表达是由他们的tf-idf分数决定的。即使这些分数告诉我们一个单词在一个文本中的相对重要性，但是他们并没有告诉我们单词的语义。Word2vec是一类神经网络模型——在给定无标签的语料库的情况下，为语料库中的单词产生一个能表达语义的向量。这些向量通常是有用的：通 ...

分类：其他好文时间：2019-01-28 10:58:58 阅读次数：468

机器学习入门-文本特征-word2vec词向量模型 1.word2vec（进行word2vec映射编码）2.model.wv['sky']输出这个词的向量映射 3.model.wv.index2vec(输出经过映射的词名称)

函数说明： 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count=min_count, window=window, sample=sample) 参数说明：corp ...

分类：其他好文时间：2019-01-27 14:42:31 阅读次数：339

NLP文本多标签分类---HierarchicalAttentionNetwork

最近一直在做多标签分类任务，学习了一种层次注意力模型，基本结构如下：简单说，就是两层attention机制，一层基于词，一层基于句。首先是词层面：输入采用word2vec形成基本语料向量后，采用双向GRU抽特征：一句话中的词对于当前分类的重要性不同，采用attention机制实现如下： te ...

分类：Web程序时间：2019-01-14 21:22:44 阅读次数：1037

共319条上一页 1 ... 8 9 10 11 12 ... 32 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)