码迷,mamicode.com
首页 > 编程语言 > 详细

《统计自然语言处理基础》容易忘记的知识点

时间:2018-10-16 13:51:19      阅读:232      评论:0      收藏:0      [点我收藏+]

标签:art   计算机   前置   复数   标题   under   -o   排版   连接   

  • 语料库

Brown语料库:100万个标注词,标注消歧信息,1970s完成,平衡语料库

Lancaster-Oslo-Bergen(LOB)语料库:Brown语料库的英式英语版本

Susanne语料库:13万词的Brown语料库子集,标注了句法结构

PennTree库:标注句法结构,来源华尔街日报

The Canadian Hansards:加拿大议会议事录,双语语料

WordNet:英语词典,词之间构成网络,标注之间的关系

 

  • 词性

词性 = parts of speech = POS

主要的词性:名词,动词,形容词

名词Noun:人,动物,概念,事物;单数-复数变形,性别变形(拉丁语:filius/filia),格变形(拉丁语:filius/filium,其他语言位置格、工具格,英语中有所有格:the woman‘s house)

形容词Adjective:名词的属性;派生结尾-ly,比较级richer/trendier/more intelligent,最高级richest/trendiest/most intelligent

- 数目Numeral:基数one/two,序数first/second/tenth/mid-twentieth

介词:

代词Pronoun:人称(第一、二、三人称),主格人称代词、宾格人称代词,所有格代词,第二所有格代词:a friend of mine,反身代词:herself/each other

限定词:描述名词的特指;of/on/the/a/in/with/by/for/at/about/under

- 冠词Article:the/a/an

- 指示代词:this/that

- 复数限定词:these/those

- 可单可复限定词:some/any

- 两者联合限定词:either/neither

数量词:all/many/some

- 前置数量词:all/many

- 名词性代词:one/something/anything,somebody

- there用在句首表示存在

- 疑问代词:wh-限定词what/which,所有格wh-代词whose,兵哥wh-代词whom/which/that,主格wh-代词who/which/that

动词Verb:描述动作 She threw the stone,活动 She walked along the river,状态 I have $50

- 词根或原形:walk

- 第三人称单数现在时:walks

- 动名词或进行时:walking

- 过去时或过去分词:walked

- 助动词:have/be/will

- 现在完成时或过去完成时:+have

- 现在进行时:+be

- 情态动词:may/can/should/will

副词Adverb:动词的属性,指定地点、时间、方式、程度,有些也可修饰形容词;often

- 程度副词/限定词:修饰形容词和副词,不修饰动词;very

介词Preposition:表示空间关系;in the glass/on the table/over their heads

- 举例:up(She ran up a hill)

- 小品词:up(She ran up a bill)

- 短语动词:took off/give in/take on

连词Conjunction:

- 并列连词:连接对等句子;and/or/but

- 从属连词:引入动词补语,连接主句从句;that/for

 

  • 文本清洗

垃圾格式/内容:文档页眉页脚,分隔符,排版代码,表,图,计算机文件中的无用数据,脚注,OCR识别错误

大小写:句首的大写字母转成小写,一串连续大写的词作为标题或副标题,其余的大写字母词认作是名字

词项(token):词,数字,标点

逗号和破折号能反映文本结构

词:前后有空格的字符串,可包含连字符和省略号

单撇号:PennTree库将dog‘s看做两个词dog和s

连字符:将连字符两边词切开,并加上标记

多义词

分词问题:中文,日文,泰文,古希腊文,其他语言的复合词

词组判别

电话号码:用正则表达式匹配

口语语音:er/um

词干提取(stemming):尽量不做。因为:浪费信息,大量语言的语法复杂,领域知识缺乏

句子:90%句号是句子的分界,英文新闻句子典型长度是23个词

 

 

《统计自然语言处理基础》容易忘记的知识点

标签:art   计算机   前置   复数   标题   under   -o   排版   连接   

原文地址:https://www.cnblogs.com/yaoyaohust/p/9797204.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!