码迷,mamicode.com
首页 > 其他好文 > 详细

Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts.-paper

时间:2018-12-23 18:01:08      阅读:139      评论:0      收藏:0      [点我收藏+]

标签:文本   学习   模型   int   pen   soc   base   cti   holo   

http://www.aclweb.org/anthology/N07-1058


Volume:Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference
Authors:Michael Heilman | Kevyn Collins-Thompson | Jamie Callan | Maxine Eskenazi
Month:April
Year:2007
Venues:NAACL | HLT

 

数据不公开

 

1、introduction

L1英语学习者而言,英语水平很高的时候的语法能力其实和开始学英语的时候差不多,因为他们的语法是在使用中互动中学会的,而L2是在课本中学会的,所以L2高级学习者的语法可能不可强。所以grammer对于L2的readability的预测和评估很重要,比如动词时态、被动时态等。

 

2、language model readability prediction for first language texts

统计语言模型比传统公式的好处:

1)短文本和web文本上的准确率更高

2)给出概率分布而不是一个预测值

3)语言模型可以提供更多关于文本中单词相对难度的数据

我们的统计模型用的是多项式贝叶斯分布(就跟上一篇paper一样)

虽然unigram是weak model,但是会比tri、bi这种更复杂的模型要求更少的数据集

3、grammatical construction readability prediction for second language texts

3.1 features for grammer-based prediction

斯坦福parser用来产生constituent structure trees

PCFG scores可以用来过滤掉预料中有问题的文本

默认训练集是Penn Treebank来parser,因为该文本和L2学习者的阅读材料是相近的

 

Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts.-paper

标签:文本   学习   模型   int   pen   soc   base   cti   holo   

原文地址:https://www.cnblogs.com/rosyYY/p/10164809.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!