搜索关键字：语料库，搜索到191个结果！码迷,mamicode.com！

TF-IDF算法及其编程实现

TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果...

分类：编程语言时间：2014-11-15 11:31:57 阅读次数：363

语言统计学中的几个定律，可作为设计检索的参考

30定律：出现频率最高的30个词占全文本总词数的30％如果剔除150个最高频率的词（由于df过大被认为是停用词）：倒排表记录总个数会减少25－30％Zipf定律：在自然语料库中所有term的freq（频度）排名和其freq（频度）的乘积大致是一个常数freq_NO1 *1 =freq_NO2 *2...

分类：编程语言时间：2014-10-19 14:19:16 阅读次数：325

TF-IDF 加权及其应用

TF-IDF 加权及其应用TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索的常用加权技术。TF-IDF是一种统计方法，用以评估某个单词对于一个文档集合（或一个语料库）中的其中一份文件的重要程度。单词的重要性随着它在文件中出现的次数成...

分类：其他好文时间：2014-09-30 21:35:50 阅读次数：237

nltk-构建和使用语料库-可用于小说的推荐-完整实例

步骤1：构建语料库： #!/usr/bin/env?python #-*-coding=utf-8-*- #数据源目录(二级目录) sourceDataDir=‘data‘ #数据源文件列表 fileLists?=?[] import?os from?gensim?import?corpora,?models,?s...

分类：其他好文时间：2014-09-26 20:13:58 阅读次数：330

国内可用免费语料库（已经整理过，凡没有标注不可用的链接均可用）

(一) 国家语委1国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快，功能更强，同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字，为分词和词性标注语料。2古代汉语语料库http://ww...

分类：其他好文时间：2014-09-25 18:42:17 阅读次数：279

关键字提取算法之TF-IDF扫盲

TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加，但同时会随著它...

分类：其他好文时间：2014-09-24 19:29:07 阅读次数：208

TF-IDF算法扫盲2

TF-IDF算法是一种简单快捷的文档特征词抽取方法，通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency–inverse document frequency)是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件...

分类：其他好文时间：2014-09-24 18:51:57 阅读次数：252

nltk-比较中文文档相似度

nltk同时也能处理中文的场景，只要做如下改动：使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理，使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 to be continue......

分类：其他好文时间：2014-09-17 10:30:22 阅读次数：275

介绍图灵机器人php API

图灵机器人平台，基于自然语言处理、知识库和云计算等技术，为广大开发者、合作伙伴提供的一系列智能语义处理能力（包括语义理解、智能问答、知识库对接等）的服务平台。截止到目前为止，平台已经积累了近百亿条语料库和PB级别的基础数据，经测试平台的整体准确度已经达到90%以上，而且平台已经应用于HTC的小Hi语音助手、中国电信的微信平台、海尔的智能家电控制系统等，广受企业的好评。下面介绍下...

分类：Windows程序时间：2014-08-01 00:03:10 阅读次数：441

朴树贝叶斯新闻分类系统

基于搜狗语料库，建立的一个新闻分类系统；类别包括：classifierMap.put(0, "IT"); classifierMap.put(1, "体育"); classifierMap.put(2, "健康"); classifierMap.put(3, "军事"); class...

分类：其他好文时间：2014-07-09 23:08:04 阅读次数：241

共191条上一页 1 ... 17 18 19 20 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)