码迷,mamicode.com
首页 >  
搜索关键字:词向量    ( 222个结果
nlp学习杂记
什么是 token embedding? 输入一个word,在字典里查找得到它对应的下标就是token,然后用该数字下标去lookup表查找得到该词对应的词向量(词嵌入)就是embedding ...
分类:其他好文   时间:2019-10-20 19:59:29    阅读次数:108
中文分词
[TOC] 前言 在上一篇文章中,我们了解了词向量的相关内容。对于英文语料来说,直接根据空格或者标点即可对词记性划分。而对于中文语料,分词的方法就十分复杂了。之前在概述里提到过,在中文自然语言处理领域,不同的分词方法将使得同一个句子有不同的含义,如: “乒乓球拍/卖了” 和 “乒乓球/拍卖/了” “ ...
分类:其他好文   时间:2019-10-02 18:58:39    阅读次数:85
BERT预训练模型的演进过程!(附代码)
1. 什么是BERT BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在... ...
分类:其他好文   时间:2019-09-28 23:40:10    阅读次数:98
词向量
自然语言处理-词向量引言在计算机视觉中,作为输入的图片可以直接数值化。在语言识别中,作为输入的语音也可以直接数值化。而在自然语言处理中,我们无法将文字直接数值化,为了能够让计算机处理文字,我们需要将文字映射到一个数值空间。由于词是组成语义的基本单位,所以对词的表述就显得尤为重要,我们把词的数值(表征... ...
分类:其他好文   时间:2019-09-28 10:52:10    阅读次数:82
word2vec
在word2vec出现之前,自然语言处理经常把字词转为one-hot编码类型的词向量,这种方式虽然非常简单易懂,但是数据稀疏性非常高,维度很多,很容易造成维度灾难,尤其是在深度学习中;其次这种词向量中任意两个词之间都是孤立的,存在语义鸿沟(这样就不能体现词与词之间的关系)而有Hinton大神提出的D ...
分类:其他好文   时间:2019-09-16 09:45:20    阅读次数:167
gensim中正确使用姿势
1 gensim是什么?        gensim是一个Python常用的的自然语言处理开发包, 主要用于词向量训练和加载词向量,以下解释其正确使用姿势。 2 正确使用姿势 ...
分类:其他好文   时间:2019-08-31 23:02:51    阅读次数:73
深入理解wmd算法
"深入理解wmd算法" WMD(Word Mover’s Distance) "1" 是2015年提出的一种衡量文本相似度的方法。它具有以下几个优点: 效果出色:充分利用了 "word2vec" 的领域迁移能力 无监督:不依赖标注数据,没有冷启动问题 模型简单:仅需要词向量的结果作为输入,没有任何超 ...
分类:编程语言   时间:2019-08-31 21:26:54    阅读次数:148
词向量技术原理及应用详解(二)
当前文本向量化主流的方式是word2vec词向量技术,从基于统计的方法,到基于神经网络的方法,掌握word2vec词向量技术是学习文本向量化的最好的方式 下面是Tomas MIkolov的三篇有关word embedding的文章: 1、Efficient Estimation of Word Re ...
分类:其他好文   时间:2019-08-24 23:16:59    阅读次数:175
词向量技术原理及应用详解(一)
文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。在自然语言处理研究领域,文本向量化是文本表示的一种重要方式。 顾名思义,文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论中文还是英文,词语都是表达文本处理的最基本单元。 当前阶段,对文本向量化都是通过 ...
分类:其他好文   时间:2019-08-24 22:32:52    阅读次数:100
spacy词向量
spaCy能够比较两个对象,并预测它们的相似程度。 预测相似性对于构建推荐系统或标记重复项很有用。 例如,您可以建议与当前正在查看的用户内容相似的用户内容,或者将支持凭单标记为与现有内容非常相似的副本。 每个Doc、Span和Token都有一个.similarity()方法,它允许您将其与另一个对象 ...
分类:其他好文   时间:2019-08-08 13:00:33    阅读次数:100
222条   上一页 1 ... 4 5 6 7 8 ... 23 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!