码迷,mamicode.com
首页 > 其他好文 > 详细

语料库

时间:2015-05-19 20:43:31      阅读:139      评论:0      收藏:0      [点我收藏+]

标签:

语料库(Corpus)[2]是指通过科学的方法进行取样和加工的,据有一定格式和标记的大规模电子文本库。语料库是语言学中的一个概念,是语言学研究的资源之一,同时也是自然语言处理的重要基础。

语料库有多种类型,主要依据他的目的或者是内部包含成分进行划分。例如中英文双语语料库,它可能用于中文英文的互译,不同的目的,决定语料库的内容不同。对语料库进行专业类别的划分,有利于提高语料库的针对性。

 

语料库因为其语言的特性具有三个特点:

(1) 语料库来源于自然语言,但不是语言;

(2) 它存放的是一部分语言元素,如中文语料库的词语,俗语,部分单独的字以及部分短语。这些语言元素因为其具有一定的含义,或者某种含义的一部分,才能成为语料库内容,介词,例句等虽然也具有含义但通常不作为语料库,语料库中只有语意组成的元素;

(3) 语料库需要经过加工和处理,才能成为使用的基础资源;

第三代语料库,第三代语料库是目前语料库发展的前沿,特点就是大规模动态语料库,预计这一代语料库能达到万一次量级;其次语料库的语料元素是不断的动态添加;语料的加工上也开始把部分语用元素添加其中,语料来源也开始更加丰富。

国家语委现代汉语语料库,是上世纪末,国家语言文字工作委员会提出立项建设,至今已完成一亿字生语料和五千万标注语料,是我国的通用语料库。语料库分为三个集合,语法树库,包含语言的内部结构以及外部功能;标注语料库,包含已经经过处理的效对分词和词类标注的语言元素。其中包含13个一级类,16个二级类;其他切分单位划分为7个一级类,13个二级类,详细的词类分类有利于分词的准确性。还有未加工的生语料库。选材来源涉及人文社科,自然科学,通用教材等。

对文本分类的前提就是首先对文本进行词类标注,去除无意义的介词,语气词,标点等,根据最后的词频统计提取文本的特征值,与特征库进行匹配,计算文本所属类的概率。

图 3?4 词性标注

分词示例:

来源:人民日报

题目:人民日报感言:斯文的优胜

人民日报/n 感言/n :/w 斯文/a 的/u 优胜/v

王蒙/nh

2015/m 年/nt 04/m 月/nt 23/m 日/nt 08/m :/w 58/m

来源/n :/w 人民/n 网/n -/w 人民日报/n

党/n 的/u 十八/m 大/a 以来/nt ,/w 社会主义/n 核心/nl 价值观/n 建设/v 放/v 在/p 了/u 更加/d 凸显/v 的/u 位置/n 。/w 去年/nt 10/m 月/nt 15/m 日/nt ,/w 在/p 文艺/n 工作/n 座谈会/n 上/nd ,/w 我/r 又/d 亲耳/d 听到/v ,/w 习大大/nh 同志/n 强调/v 核心/nl 价值观/n 建设/v 非常/d 重要/a 。/w 我/r 个人/r 看法/n ,/w 价值观/n 的/u 问题/n ,/w 关键/n 在/p 与/c 人心/n 的/u 对接/v 。/w

其实/d ,/w 每个/r 人/n 心目中/nl 都/d 有一套/v 价值观/n ,/w 都/d 有/v 是非/n 、/w 善恶/n 、/w 曲直/n 的/u 观念/n 。/w 比如/c 到/v 杭州/ns 岳飞/nh 庙/n ,/w 我们/r 都/d 崇敬/v 岳飞/nh ,/w 而/c 秦桧/nh 则/c 为/p 人所不齿/i ,/w 这/r 说明/v 我们/r 的/u 价值观/n 很/d 清晰/a :/w 爱国/v 、/w 忠贞/a ,/w 是/vl 我们/r 所/u 崇尚/v 的/u ,/w 而/c 陷害/v 旁人/n 、/w 出卖/v 民族/n 的/u 利益/n ,/w 则/c 是/vl 我们/r 最/d 反对/v 的/u 。/w

《/w 人民日报/n 》/w (/w 2015/m 年/nt 04/m 月/nt 23/m 日/nt 06/m 版/n )/w

从标注的文本中取得词频统计:

表 3?2 词频统计

1

45

2.1028

2

我们

10

0.4673

3

10

0.4673

4

价值观

9

0.4206

5

8

0.3738

6

文化

8

0.3738

7

传统

7

0.3271

8

7

0.3271

9

7

0.3271

10

7

0.3271

11

6

0.2804

12

道德

5

0.2336

13

5

0.2336

14

经典

5

0.2336

15

5

0.2336

16

孝悌

5

0.2336

17

4

0.1869

18

4

0.1869

19

孔子

4

0.1869

20

4

0.1869

21

斯文

4

0.1869

22

4

0.1869

23

阅读

4

0.1869

24

4

0.1869

25

这种

4

0.1869

语料库

标签:

原文地址:http://www.cnblogs.com/bad-heli/p/4515379.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!