码迷,mamicode.com
首页 >  
搜索关键字:语料库    ( 191个结果
自然语言处理第二讲:单词计数
自然语言处理:单词计数 这一讲主要内容(Today): 1、语料库及其性质; 2、Zipf 法则; 3、标注语料库例子; 4、分词算法; 一、 语料库及其性质: a) 什么是语料库(Corpora) i. 一个语料库就是一份自然发生的语言文本的载体,以机器可读形式存储; ii. 一种平衡语料库尝试在 ...
分类:编程语言   时间:2017-02-26 18:48:34    阅读次数:227
python 自然语言处理(四)____词典资源
词典或者词典资源是一个词和/或短语及其相关信息的集合,例如:词性和词意定义等相关信息。词典资源附属于文本,而且通常在文本的基础上创建和丰富。下面列举几种nltk中的词典资源。 1. 词汇列表语料库 nltk中包括了一些仅仅包含词汇列表的语料库。词汇语料库是UNIX中的/usr/dict/words文 ...
分类:编程语言   时间:2017-02-19 00:09:21    阅读次数:531
python 自然语言处理(二)____获得文本语料和词汇资源
一, 获取文本语料库 一个文本语料库是一大段文本。它通常包含多个单独的文本,但为了处理方便,我们把他们头尾连接起来当做一个文本对待。 1. 古腾堡语料库 nltk包含古腾堡项目(Project Gutenberg)电子文本档案的一小部分文本。要使用该语料库通常需要用Python解释器加载nltk包, ...
分类:编程语言   时间:2017-02-17 00:17:30    阅读次数:319
文本情感分类:传统模型(1)
基于情感词典的文本情感分类 传统的基于情感词典的文本情感分类,是对人的记忆和判断思维的最简单的模拟,如上图。我们首先通过学习来记忆一些基本词汇,如否定词语有“不”,积极词语有“喜欢”、“爱”,消极词语有“讨厌”、“恨”等,从而在大脑中形成一个基本的语料库。然后,我们再对输入的句子进行最直接的拆分,看 ...
分类:其他好文   时间:2017-02-06 14:50:16    阅读次数:267
python NLTK 环境搭建
这里是我之前亲自操作过安装nltk,安装成功了。当时记得是参考这篇博文:http://www.tuicool.com/articles/VFf6Bza 其中,nltk安装时,遇到模块未找到,依次根据提示对应下载了四五个模块,才成功安装。后来装语料库,也是离线安装的。 1.安装Python(我安装的是 ...
分类:编程语言   时间:2017-01-12 12:59:32    阅读次数:217
用机器学习研究UFO目击报告
LDA算法太难?怎么也学不明白?学明白了也不知道有什么用?来看看这篇文章!真正的学以致用! 在开始之前,让我们看看LDA算法的黑盒描述。LDA算法要求你选择一些类(主题)并输入一个文档语料库。它的输出是一个主题的列表,每一个主题都是基于单词的概率分布。LDA模型也能够对文档进行分类,并为每个主题分配 ...
分类:其他好文   时间:2017-01-10 15:00:00    阅读次数:219
Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据
抓了20000多条的短评数据,利用Word2Vec算法做了一回情感分析,透过这些几个字到几百个字不等的短评来一窥评论者的喜怒哀乐。看看如何使用中文分词器以及加载停用词库,Word2Vec又是如何构建语料库,训练数据集以及得到模型的。 ...
分类:编程语言   时间:2016-12-04 07:51:59    阅读次数:817
tf-idf知多少?
1、最完整的解释 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 其实就是评价单词对于文件的重要性,这个重要性怎么衡量?-就是后文所说 2、关于 norma ...
分类:其他好文   时间:2016-11-11 14:39:49    阅读次数:150
自然语言处理3.1——从网络和硬盘访问文本
文本的最重要来源无疑是网络。探索现成的文本集合是很方便的,然而每个人都有自己的文本来源,需要学习如何去访问他们。 首先,我们要学习从网络和硬盘访问文本。 1.电子书 NLTk语料库集合中存有古腾堡项目的一小部分样例文本,如果你对古腾堡项目其他的文本感兴趣,可以在http://www.gutenber ...
分类:编程语言   时间:2016-10-10 23:29:30    阅读次数:658
自然语言处理——NLTK中文语料库语料库
Python NLTK库中包含着大量的语料库,但是大部分都是英文,不过有一个Sinica(中央研究院)提供的繁体中文语料库,值得我们注意。 在使用这个语料库之前,我们首先要检查一下是否已经安装了这个语料库。 检查箭头所指的sinica_treebank是否安装,如果未安装,则首先要进行安装。 安装完 ...
分类:编程语言   时间:2016-09-23 16:45:09    阅读次数:236
191条   上一页 1 ... 12 13 14 15 16 ... 20 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!