标签:文本 学习 模型 int pen soc base cti holo
http://www.aclweb.org/anthology/N07-1058
Volume:Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference
Authors:Michael Heilman | Kevyn Collins-Thompson | Jamie Callan | Maxine Eskenazi
Month:April
Year:2007
Venues:NAACL | HLT
数据不公开
1、introduction
L1英语学习者而言,英语水平很高的时候的语法能力其实和开始学英语的时候差不多,因为他们的语法是在使用中互动中学会的,而L2是在课本中学会的,所以L2高级学习者的语法可能不可强。所以grammer对于L2的readability的预测和评估很重要,比如动词时态、被动时态等。
2、language model readability prediction for first language texts
统计语言模型比传统公式的好处:
1)短文本和web文本上的准确率更高
2)给出概率分布而不是一个预测值
3)语言模型可以提供更多关于文本中单词相对难度的数据
我们的统计模型用的是多项式贝叶斯分布(就跟上一篇paper一样)
虽然unigram是weak model,但是会比tri、bi这种更复杂的模型要求更少的数据集
3、grammatical construction readability prediction for second language texts
3.1 features for grammer-based prediction
斯坦福parser用来产生constituent structure trees
PCFG scores可以用来过滤掉预料中有问题的文本
默认训练集是Penn Treebank来parser,因为该文本和L2学习者的阅读材料是相近的
标签:文本 学习 模型 int pen soc base cti holo
原文地址:https://www.cnblogs.com/rosyYY/p/10164809.html