引自Fabian Suchanek的讲义。
总结:有三个指数可以看出算法是否好,精确度precision,召回率recall和F1指数。所以本章重点为记忆这三种计算方式。
黄金标准Golden Standard:任务执行在语料库后我们所期待的结果
对的:output与golden standard的交集
精确度 Precision:对的/output的长度
召回率 Recall:对的/golden standard的长度
Precision和Recall的关系:二者不可能都高,一定是一高一低。
- 若Precision高:说明结果很好,但是有很多instance没有被检测
- 若Recall高:得到的结果中有很多是错的,但泛化能力强
- 若黄金标准和output长度一样(一个实例一个结果时):precision=recall
F1指数F1 Mesure:表示precision和recall的均值
2 * (Precision * Recall) / (Precision + Recall)