码迷,mamicode.com
首页 >  
搜索关键字:语料库    ( 191个结果
自然语言处理——NLTK文本语料库
1.获取文本语料库 NLTK库中包含了大量的语料库,下面一一介绍几个: (1)古腾堡语料库:NLTK包含古腾堡项目电子文本档案的一小部分文本。该项目目前大约有36000本免费的电子图书。 使用:from nltk.corpus import gutenberg 写一段简短的程序,通过遍历前面所列出的 ...
分类:编程语言   时间:2016-09-23 14:34:43    阅读次数:576
使用Perl读取Excel文件
1. 任务 为了实现一些机械分词算法,准备使用“国家语委语料库”的分词词表,在线下载到得词表文件是一个Excel文件。本文的任务就是使用Perl从该Execl文件中提取所有的词语。 词表文件格式如下: 需要的词语的位置在从第8行开始的,第B列的所有单元格。一共有14629个词语。(PS:语料库的分词 ...
分类:其他好文   时间:2016-08-18 23:04:03    阅读次数:251
TF-IDF
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外, ...
分类:其他好文   时间:2016-07-21 18:02:08    阅读次数:118
NLTK笔记
加载自定义语料库: ...
分类:其他好文   时间:2016-07-15 17:13:46    阅读次数:152
<NLP with python>笔记:三
Accessing Text Corpora and Lexical Resources(文本语料库和词汇资源) 常用文本预料和词汇资源,如何通过python访问这些资源。 2.1 Accessing Text Corpora 语料:大量的文本资源。 访问语料的三个接口: raw(fileids) ...
分类:编程语言   时间:2016-06-24 00:04:19    阅读次数:230
N-Gram语言模型
一、n-gram是什么wikipedia上有关n-gram的定义: n-gram是一种统计语言模型,用来根据前(n-1)个item来预测第n个item。在应用层面,这些item可以是音素(语音识别应用)、字符(输入法应用)、词(分词应用)或碱基对(基因信息)。一般来讲,可以从大规模文本或音频语料库生成n-gram模型。 习惯上,1-gram叫unigram,2-gram称为bigram,3-gr...
分类:编程语言   时间:2016-04-29 16:05:20    阅读次数:620
中文句子相似度之計算與應用
原文:http://www.aclweb.org/anthology/O05-1008 中文句子相似度之计算与应用 郑守益 梁婷国立交通大学信息科学系 摘要 近年來受惠于国内外各项语料库资源的建置及网际网路上的大量中文语料,使计算机语文辅助教材的涵盖层面日趋广泛。因此如何产生大量且具高质量之辅助教材 ...
分类:其他好文   时间:2016-04-02 16:06:14    阅读次数:152
(4)文本挖掘(一)——准备文本读写及对Map操作的工具类
文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。文本挖掘包含分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等方面的内容。文本挖掘的具体流程图可下图所示: 我的项目是以复旦大学中文语料库和路透社英文语料库为数据集的,都是有类别的两层目录文本集。 不管你要做什么,你首先都要先读取文本,为了方便后面的操作,我写了几个工具类,这里先将文本读取Reade...
分类:其他好文   时间:2016-03-29 10:52:32    阅读次数:291
word2vec词向量训练及中文文本相似度计算
本文是讲述如何使用word2vec的基础教程,文章比较基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ Word2vec是Google公司在2013年开放的一款用于训练词向量的软件工具。它根据给定的语料库,通过优化后的训练模型快速有效的将一个词语表达成向量形式,其核心架构包括CBOW和Skip-gram。...
分类:其他好文   时间:2016-02-18 01:25:25    阅读次数:1702
NLP系列(1)_从破译外星人文字浅谈自然语言处理的基础
如果让你破译“三体”人文字你会怎么办?我们试着开一下脑洞:假如你有一个优盘,里面存了大量“三体”人(刘慈欣小说中的高智能外星人)的网络文本信息... 当面对一种一无所知的语言的时候,似乎最直接的方法就是掌握大量的语料库,而且这些语料最好是经过各种方式标注了的。然后对其进行各种各样的统计,发掘一些有价值的信息。这是传说中自然语言处理的经验主义视角。...
分类:编程语言   时间:2016-01-20 01:14:12    阅读次数:273
191条   上一页 1 ... 13 14 15 16 17 ... 20 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!