TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果...
分类:
编程语言 时间:
2014-11-15 11:31:57
阅读次数:
363
30定律:出现频率最高的30个词占全文本总词数的30%如果剔除150个最高频率的词(由于df过大被认为是停用词):倒排表记录总个数会减少25-30%Zipf定律: 在自然语料库中所有term的freq(频度)排名和其freq(频度)的乘积大致是一个常数freq_NO1 *1 =freq_NO2 *2...
分类:
编程语言 时间:
2014-10-19 14:19:16
阅读次数:
325
TF-IDF 加权及其应用TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索的常用加权技术。TF-IDF是一种统计方法,用以评估某个单词对于一个文档集合(或一个语料库)中的其中一份文件的重要程度。单词的重要性随着它在文件中出现的次数成...
分类:
其他好文 时间:
2014-09-30 21:35:50
阅读次数:
237
步骤1:构建语料库: #!/usr/bin/env?python
#-*-coding=utf-8-*-
#数据源目录(二级目录)
sourceDataDir=‘data‘
#数据源文件列表
fileLists?=?[]
import?os
from?gensim?import?corpora,?models,?s...
分类:
其他好文 时间:
2014-09-26 20:13:58
阅读次数:
330
(一) 国家语委1国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。2古代汉语语料库http://ww...
分类:
其他好文 时间:
2014-09-25 18:42:17
阅读次数:
279
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它...
分类:
其他好文 时间:
2014-09-24 19:29:07
阅读次数:
208
TF-IDF算法是一种简单快捷的文档特征词抽取方法,通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency–inverse document frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件...
分类:
其他好文 时间:
2014-09-24 18:51:57
阅读次数:
252
nltk同时也能处理中文的场景,只要做如下改动: 使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理,使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 to be continue......
分类:
其他好文 时间:
2014-09-17 10:30:22
阅读次数:
275
图灵机器人平台,基于自然语言处理、知识库和云计算等技术,为广大开发者、合作伙伴提供的一系列智能语义处理能力(包括语义理解、智能问答、知识库对接等)的服务平台。截止到目前为止,平台已经积累了近百亿条语料库和PB级别的基础数据,经测试平台的整体准确度已经达到90%以上,而且平台已经应用于HTC的小Hi语音助手、中国电信的微信平台、海尔的智能家电控制系统等,广受企业的好评。
下面介绍下...
基于搜狗语料库,建立的一个新闻分类系统;类别包括:classifierMap.put(0, "IT"); classifierMap.put(1, "体育"); classifierMap.put(2, "健康"); classifierMap.put(3, "军事"); class...
分类:
其他好文 时间:
2014-07-09 23:08:04
阅读次数:
241