码迷,mamicode.com
首页 > 其他好文 > 详细

Penn Treebank

时间:2014-12-17 00:08:22      阅读:1274      评论:0      收藏:0      [点我收藏+]

标签:http   sp   on   log   bs   ef   时间   tt   nbsp   

NLP中常用的PTB语料库,全名Penn Treebank。

Penn Treebank是一个项目的名称,项目目的是对语料进行标注,包括词性标注以及句法分析。

语料来源为:1989年华尔街日报

语料规模:1M words,2499篇文章

语料价格:$1700

Penn Treebank项目有两个发行版,Treebank-2与Treebank-3,委托Linguistic Data Consortium (LDC) 发行与收费。

这两个版本的语料内容是一样的,除了发行时间不清楚还有啥区别……

 

ref:

http://www.cis.upenn.edu/~treebank/

https://catalog.ldc.upenn.edu/LDC95T7

https://catalog.ldc.upenn.edu/LDC99T42

Penn Treebank

标签:http   sp   on   log   bs   ef   时间   tt   nbsp   

原文地址:http://www.cnblogs.com/plwang1990/p/4168256.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!