码迷,mamicode.com
首页 > 其他好文 > 详细

A Statistical Model for Scientific Readability-paper

时间:2018-12-20 18:42:28      阅读:149      评论:0      收藏:0      [点我收藏+]

标签:优点   公式   学习   pap   ram   level   假设   很多   read   

monosyllable 单音节词

 

数据不公开:  educational Web pages ,A total of 91 Web pages。Pages were grouped into three readability levels: KindergartenGrade2, Grade3-Grade5, and Grade6-Grade8

 

2. READABILITY METRICS

技术分享图片

第一个是个初级中级学习者

第二个会比别的给的难度分更高

第三个用的更广

 

3. STATISTICAL LANGUAGE MODELS

线性模型广泛用于模型的组合,EM算法用来寻找最佳参数

线性插值公式来组合语言模型和句子长度模型:前者用ngram,后者考虑句长

1)unigram语言模型假设生成一个词的概率适合上下文无关的。虽然unigram模型在人类语言上效果不好,但是它们适合很多应用,有可以在小数据上训练的优点。

2)通过看某个特征的值是否和难度成正比或反比,来判断特征重要与否,最后得出句长特征很重要,公式法中单音节不适合该数据集;然后假设符合正态分布

技术分享图片

 

4 实验

KF这种公式法只能得出最终属于哪个等级,但是我们的数据集并不含有这些等级。我们统计的方法可以给出概率这种soft metric。

 

A Statistical Model for Scientific Readability-paper

标签:优点   公式   学习   pap   ram   level   假设   很多   read   

原文地址:https://www.cnblogs.com/rosyYY/p/10150553.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!