读清华大学刘知远老师的今年的一篇IJCAI文章Representation
Learning for Measuring Entity Relatedness with Rich Information。
相比词汇相似度计算,维基实体相关度计算更加挖掘维基百科语料库的特性。其相关性计算大致分为三类:
1. text-theoretic 利用维基百科语料的海量特性。通过统计的方法进行词汇表征...
分类:
其他好文 时间:
2015-05-08 10:51:28
阅读次数:
118
介绍 谷歌对数据系统性能有极高的要求,MySQL这样的系统都很难令其满意,所以谷歌设计F1数据库,其目标是让其具备高度的可扩展性和高度稳定性,除了必备的SQL语言支持外,F1还提供ad hoc类型查询。基本构架
用户通过客户端语料库(client library)和F1交互。用户发出的请求首先送到某个F1服务器,F1服务器负责之后的任务分配和数据处理。
为了减少处理请求造成的延时(...
分类:
数据库 时间:
2015-05-04 10:11:08
阅读次数:
151
http://www.cnblogs.com/CherishFX/p/4005336.html下载搜狗新闻语料库1. 下载ictclas4j 后面的附件中,我有放上ictclas4j的源码包ictclas4j.zip2. 在Eclipse中新建项目并进行相关配置 首先把ictclas4j解压...
分类:
其他好文 时间:
2015-04-29 21:13:29
阅读次数:
734
(一)国家语委1国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。2古代汉语语料库http://www...
分类:
其他好文 时间:
2015-04-21 17:48:54
阅读次数:
128
预备知识
语言模型
[摘自 维基百科]
统计式的语言模型是借由一个概率分布,而指派概率给字词所组成的字串:
语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的概率变得很困难,这也是要使用近似的平滑n元语法...
分类:
编程语言 时间:
2015-04-06 15:45:25
阅读次数:
226
3. Cross-lingual speaker adaptation using STC with a bilingual corpus 第一段问题1,为什么要用双语语料库,双语语料库是同一个说话人的吗?cross-lingual speaker adaptation的开山鼻祖是Yijiang ....
分类:
移动开发 时间:
2015-03-31 21:59:58
阅读次数:
170
NLP中常用的PTB语料库,全名Penn Treebank。Penn Treebank是一个项目的名称,项目目的是对语料进行标注,包括词性标注以及句法分析。语料来源为:1989年华尔街日报语料规模:1M words,2499篇文章语料价格:$1700Penn Treebank项目有两个发行版,Tre...
分类:
其他好文 时间:
2014-12-17 00:08:22
阅读次数:
1274
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它...
分类:
其他好文 时间:
2014-11-29 22:52:21
阅读次数:
315
本文旨在介绍CoNLL格式的中文依存语料库(汉语依存树库)、CoNLL格式相关工具,以及提供两个公开的中文依存语料库下载。最近做完了分词、词性标注、命名实体识别、关键词提取、自动摘要、拼音、简繁转换、文本推荐,感觉HanLP初具雏形。现在希望拿下依存句法分析,这样我就做出了史上第一个(?)民间句法分...
分类:
其他好文 时间:
2014-11-19 21:59:55
阅读次数:
256