码迷,mamicode.com
首页 > 其他好文 > 详细

现代汉语树库标记一览表(北大版)

时间:2014-08-21 18:47:44      阅读:235      评论:0      收藏:0      [点我收藏+]

标签:io   ar   时间   line   ad   sp   on   ef   

//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
// 共计120 个标记
/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
hl // headline 文章标题(篇章标记,不是句法结构标记— 超级单位)
////////////////////////////////////////////////////////////
zj // 整句(一级单位) 标记数(仅上位): 1
////////////////////////////////////////////////////////////
//
// 以下是二级单位: 标记数(仅上位):14,标记数(含下位):21
qj // 句群(篇章单位)
yj // 用来标记引号“”及引号所包括的句子单位(篇章单位)
dj // 小句,主谓结构短语
fj // 复句
ap // 形容词性短语
dp // 副词性短语
mp // 数词性短语
np // 名词性短语
npr // 指人专名短语,如:混世魔王程咬金
nps // 指处所专名短语,如:北京海淀中关村
npt // 指机构专名短语,如:北京大学中文系
npx // 用来标记非中文字符串(词组),如:good bye
npz // 其他专名短语,如:“发现”号航天飞机
pp // 介词性短语
qp // 数量词性短语
sp // 处所词性短语
tp // 时间词性短语
vp // 动词性短语
yp // 语篇成分(篇章标记)
ypc // 语篇成分-插入成分
yph // 语篇成分-呼语成分
// 以上是二级单位
//
///////////////////////////////////////////////////////////
// 以下是三级单位,标记数(仅上位):26,标记数(含下位):97
a // 形容词
ad // 形容词用作状语
an // 形容词用作名词
b // 区别词
c // 连词
ch // 前置关联词,比如“一”
ck // 后置关联词,比如“就”
d // 副词
e // 叹词
f // 方位词
g // 语素
ng // 名语素
vg // 动语素
ag // 形语素
dg // 副语素
bg // 区别语素
tg // 时间语素
sg // 处所语素
fg // 方位语素
h // 前缀
i // 成语
in // 名词性成语如:稗官野史
iv // 动词性成语如:暗箭伤人
ia // 形容词性成语
id // 副词性成语
j // 缩略语
jn // 名词性缩略语如:妇救会
jv // 动词性缩略语如:打砸抢
ja // 形容词性缩略语
k // 后缀
l // 习用语
ln // 名词性习用语如:鹅毛大雪
lv // 动词性习用语如:摆臭架子
la // 形容词性习用语
m // 数词
n // 名词
nr // 指人专名,如:张三、李四、王同志
ns // 指处所专名,如:中国,中关村
nt // 指机构专名,如:北京大学
nx // 用来标记非中文词,如:Ade,あなた
nz // 其他专名,如:京九铁路
o // 拟声词
p // 介词
pba // 介词“把”
pbei // 介词“被”
q // 量词
r // 代词
rn // 具有名词功能的代词(注意:标记是r n,不是m。要避免字母的字形混淆)
rs // 具有处所词功能的代词
rt // 具有时间词功能的代词

rm // 具有数词功能的代词
rd // 具有副词功能的代词
rv // 具有动词功能的代词
s // 处所词
t // 时间词
u // 助词
ude1 //“的”
ude2 //“地”
ude3 //“得”
usuo //“所”
uetc //“等” “等等”
uzhe // “着”
ule // “了”
uguo // “过”
udh // “的话”
usd // “似的”
v // 动词
vd // 动作作状语
vn // 动词用作名词
w // 标点下面是具体的标点,除此之外的标点都笼统地标 w,
比如·作为外国人名用分隔符,以及像●这样的符号
wqm // 问号?question mark
wem // 感叹号!excalmatory mark
wcm // 冒号:colon
wfs // 句号。full stop
wsc // 顿号、sign of coordination
wco // 逗号,comma
wsm // 分号;semicolon
wsp // 省略号…… suspension points
wda // 破折号—— dash
whf // 连字符 -
wql // 左双引号“ quotation mark left
wqr // 右双引号” quotation mark right
wal // 『
war // 』
wbl // 左书名号《 book mark left
wbr // 右书名号》 book mark right
wcl // 左尖括号〈左方括号〔
wcr // 右尖括号〉右方括号〕
wdl // 左单引号‘
wdr // 右单引号’
wpl // 左圆括号(parentheses Left
wpr // 右圆括号)parentheses Right
x // 中文非语素字,中文符号的自指用法一律标为x
y // 语气词
yle // 语气词“了”
yde // 语气词“的”,“他一定会成功的”“他跑起来很快的”
z // 状态词
说明:
(1)如果代词的功能类别暂时不好确定,就仍标为r,比如“这”“那”;如果代词的功能
类别容易确定,就应标为r 的下位标记,比如“我”应该标为rn;“这么”应该标为rd。
(2)从句法功能的角度看,拟声词o 的功能不是很明确,在进行短语结构标注的时候应该
注意将o 上升为合适的短语功能类,然后再参与组合。

现代汉语树库标记一览表(北大版),布布扣,bubuko.com

现代汉语树库标记一览表(北大版)

标签:io   ar   时间   line   ad   sp   on   ef   

原文地址:http://www.cnblogs.com/jianzhitanqiao/p/3927578.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!