码迷,mamicode.com
首页 >  
搜索关键字:语料库    ( 191个结果
scikit-learn:在实际项目中用到过的知识点(总结)
零、所有项目通用的: http://blog.csdn.net/mmc2015/article/details/46851245(数据集格式和预测器) http://blog.csdn.net/mmc2015/article/details/46852755(加载自己的原始数据) (适合文本分类问题的 整个语料库加载) http://blog.csdn.net/mmc2...
分类:其他好文   时间:2015-07-27 09:28:54    阅读次数:140
《用Python进行自然语言处理》归纳二
3.加工原料文本3.1 字符串:最底层的文本处理我们侧重于将文本作为一个词链表。通过使用NLTK 中的语料库接口,我们可以忽略这些文本所在的文件。一个词的内容,一个文件的内容在编程语言中是由一个叫做字符串的基本数据类型来表示的。3.2使用Unicode进行文字处理Unicode 支持超过一百万种字符...
分类:编程语言   时间:2015-07-01 17:21:33    阅读次数:964
Yes Or No孤立词识别
本实验中,我们将基于HTK工具集建立一个2-单词识别系统,词汇集是{Yes,No}。这是可以设计出来的最基本的自动语音识别(Automatic speech recognition,ASR)系统。目标:建立一个孤立词识别系统,只包含yes和no两个词。步骤:A:创建一个语料库,确定识别基本元(如.....
分类:其他好文   时间:2015-06-17 09:25:46    阅读次数:470
(64位)本体学习程序(ontoEnrich)系统使用说明文档
系统运行:文件夹system下,可执行文件ontoEnrichment概念学习--------------------------------------------------------1、简单概念学习语料库配置文件:corpusDir(可自行配置,第一行为领域语料文件所在目录,其他为背景语料文...
分类:其他好文   时间:2015-06-06 17:59:58    阅读次数:130
特征选择方法
1. TF-IDF的误区 TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。 1)它没有考虑特征词在类间的分布。也就是说该选择的特征应该在某类出现多,而其它类出现少,即考察各类的文档频率的差异。如果一个特征词,在各个类间分布比较均匀...
分类:其他好文   时间:2015-06-04 19:27:23    阅读次数:1273
本体学习程序(ontoEnrich)系统使用说明文档
系统运行:文件夹system下,可执行文件ontoEnrichment--------------------------------------------------------1、简单概念学习语料库配置文件:corpusDir(可自行配置,第一行为领域语料文件所在目录,其他为背景语料文件所在目...
分类:其他好文   时间:2015-05-25 13:00:46    阅读次数:113
关于爬虫能做的事情,源自知乎刘飞,原嘟嘟美甲产品总监、原锤子科技产品经理
该轮到我祭出我当年研究生期间在实验室里参与或旁观的各种有用或者有趣的课题了:1. 建立机器翻译的语料库。这是我研究生期间的核心课题,我先来介绍下背景。大家其实都用过谷歌翻译、百度翻译,虽然确实槽点很多,但不妨碍机器翻译相较过去已经达到基本可用的程度了。我大概说下机器翻译的原理。在几十年前,计算机学家...
分类:移动开发   时间:2015-05-24 11:28:49    阅读次数:998
TF-IDF 相关概念
概念TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。逆向文件频率 (inverse ...
分类:其他好文   时间:2015-05-21 17:01:55    阅读次数:161
语料库
语料库(Corpus)[2]是指通过科学的方法进行取样和加工的,据有一定格式和标记的大规模电子文本库。语料库是语言学中的一个概念,是语言学研究的资源之一,同时也是自然语言处理的重要基础。 语料库有多种类型,主要依据他的目的或者是内部包含成分进行划分。例如中英文双语语料库,它可能用于中文英文的互译,不...
分类:其他好文   时间:2015-05-19 20:43:31    阅读次数:139
数据结构在Java中的用法(持续更新...)
今天做了Medallia公司的Java面试题,发现用惯了C/C++的我对Java感到异常地不适应,特别是对数据结构在Java中如何使用感到十分头疼。之后决定开始整理并练习Java API里头关于使用数据结构的方法。我发现甲骨文的Java API对每一种数据结构只提供解释但没有提供相关的例子,我觉得这样很不方便,因为大多数时候我们都是通过读例子来学习语料库的用法,这也是我学C++的时候觉得最有用的方法...
分类:编程语言   时间:2015-05-13 10:37:00    阅读次数:191
191条   上一页 1 ... 15 16 17 18 19 20 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!