搜索关键字：语料库，搜索到191个结果！码迷,mamicode.com！

文本情感分析(一)：基于词袋模型(VSM、LSA、n-gram)的文本表示

现在自然语言处理用深度学习做的比较多，我还没试过用传统的监督学习方法做分类器，比如SVM、Xgboost、随机森林，来训练模型。因此，用Kaggle上经典的电影评论情感分析题，来学习如何用传统机器学习方法解决分类问题。通过这个情感分析的题目，我会整理做特征工程、参数调优和模型融合的方法，这一系列会 ...

分类：其他好文时间：2019-05-19 11:49:23 阅读次数：224

LSI和LDA模型初试验

从文本到向量 1 京东速度杠杠的！信任京东！昨晚11:30付的尾款！本来显示的是预计12号送达的！结果下午还是送来了！效率没得说！要的就是这速度！东西看着还不错吧！小巧玲珑的很好看！目前没发现什么问题！我个人觉得这屏幕分辨率太低了点！！不知道这个电子狗功能是不是鸡肋！看上的就是这个功能，希望好用！因 ...

分类：其他好文时间：2019-05-11 23:21:17 阅读次数：183

TF-IDF(词频-逆文件频率)

TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。**字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。**即一个词语在一篇文章中出现次数越多, 同时在所 ...

分类：其他好文时间：2019-04-05 18:21:33 阅读次数：212

NLTK基础

Python上著名的?然语?处理库 ?带语料库，词性分类库 ?带分类，分词，等等功能强?的社区?持还有N多的简单版wrapper 安装语料库 # 方式一 import nltk nltk.download() showing info https://raw.githubusercontent. ...

分类：其他好文时间：2019-03-29 00:39:39 阅读次数：238

解决在使用gensim.models.word2vec.LineSentence加载语料库时报错 UnicodeDecodeError: 'utf-8' codec can't decode byte......的问题

在window下使用gemsim.models.word2vec.LineSentence加载中文维基百科语料库（已分词）时报如下错误：这种编码问题真的很让人头疼，这种问题都是出现在xxx.decode("utf-8")的时候，所以接下来我们来看看gensim中的源码：从源码中可以看到__ite ...

分类：其他好文时间：2019-02-21 12:52:53 阅读次数：727

清华大学刘洋--基于深度学习的机器翻译（2）--- 低资源/多模态

低资源：平行语料库：质量不行。伪数据：用单语语料库单向翻译，构造伪平行语料库半监督学习对偶学习：微软的多任务学习：百度的谷歌：通用的语言翻译模型最大期望似然估计 —————————————————————————————————————————————————————————————— ...

分类：其他好文时间：2019-02-15 13:44:45 阅读次数：361

清华大学刘洋--基于深度学习的机器翻译

< 1980 2013 > 基于规则的机器翻译基于统计的机器翻译基于神经网络的机器翻译 —————————————————————————————————————— 平行语料库数据驱动的机器翻译短语的切分、调序统计机器翻译的优缺点：然而，用神经网络进行建模，核心思路：用连续替代离散。 R ...

分类：其他好文时间：2019-02-14 22:29:43 阅读次数：407

深度双向Transformer预训练【BERT第一作者分享】

翻译自Jacob Devlin分享的slides [TOC] NLP中的预训练词嵌入是利用深度学习解决自然语言处理问题的基础。词嵌入（例如word2vec，GloVe）通常是在一个较大的语料库上利用词共现统计预训练得到的。例如下面两个句子中，由于 king 和 queen 附近的上下文时常相同或 ...

分类：其他好文时间：2019-02-13 12:27:45 阅读次数：382

skip-gram模型

引言在许多自然语言处理任务中，许多单词表达是由他们的tf-idf分数决定的。即使这些分数告诉我们一个单词在一个文本中的相对重要性，但是他们并没有告诉我们单词的语义。Word2vec是一类神经网络模型——在给定无标签的语料库的情况下，为语料库中的单词产生一个能表达语义的向量。这些向量通常是有用的：通 ...

分类：其他好文时间：2019-01-28 10:58:58 阅读次数：468

机器学习入门-文本数据-构造Tf-idf词袋模型(词频和逆文档频率) 1.TfidfVectorizer(构造tf-idf词袋模型)

TF-idf模型：TF表示的是词频：即这个词在一篇文档中出现的频率 idf表示的是逆文档频率，即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小，表示这个词越稀有，在这篇文档中也是越重要的 TF-idf：表示TF*idf, 即词频*逆文档频率词袋模型不仅考虑了一个词 ...

分类：其他好文时间：2019-01-26 20:23:40 阅读次数：795

共191条上一页 1 2 3 4 5 6 ... 20 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)