聚类效果评测-F值

时间：2015-05-17 10:45:07 阅读：327 评论：0 收藏：0 [点我收藏+]

标签：

聚类结果的好坏，有很多种指标，其中F-Measue即F值是常用的一种，其中包括precision(查准率或者准确率)和recall(查全率或者召回率)。

F-Measue是信息检索中常用的评价标准。

F-Measue的公式如下：

\[{{F}_{\beta }}=\frac{\left( {{\beta }^{2}}+1 \right)P\cdot R}{{{\beta }^{2}}\cdot P+R}\]

其中${\beta}$是参数，P是precision,R是reacll。通常${\beta}$取1，即：

\[F=\frac{2\cdot P\cdot R}{P+R}\]

设人工标记的分类簇为${{P}_{j}}$，聚类算法分类簇为${{C}_{i}}$

precision、recall个人感觉准确率和查全率翻译的更方便理解些。

技术分享

precision(查准率或者准确率)：

\[P({{P}_{j}},{{C}_{i}})=\frac{\left| {{P}_{j}}\cap {{C}_{i}} \right|}{\left| {{C}_{i}} \right|}\]

recall(查全率或者召回率)：

\[R({{P}_{j}},{{C}_{i}})=\frac{\left| {{P}_{j}}\cap {{C}_{i}} \right|}{\left| {{P}_{j}} \right|}\]

F-Measure:

\[F\left( {{P}_{j}},{{C}_{i}} \right)=\frac{2\times P({{P}_{j}},{{C}_{i}})\times R\left( {{P}_{j}},{{C}_{i}} \right)}{P\left( {{P}_{j}},{{C}_{i}} \right)+R\left( {{P}_{j}},{{C}_{i}} \right)}\]

获得一个矩阵，不同于信息检索的是F-Measure有多个，并且人工标记簇的个数和聚类算法得到的簇个数不一定相等。

技术分享

若已人工标记的簇${{P}_{j}}$为基准，则聚类算法结果越接近人工标记的结果效果越好。也是推荐使用的指标

针对每一个人工标记的${{P}_{j}}$选择${{C}_{i}}$中最接近的作为其F值：

\[F\left( {{P}_{j}} \right)=\underset{1\le i\le m}{\mathop{\max }}\,F\left( F\left( {{P}_{j}},{{C}_{i}} \right) \right)\]

然后对所得到的F值进行加权平均，得到最终的一个直观的F值

\[F=\sum\limits_{j=1}^{S}{{{w}_{j}}\cdot F\left( {{P}_{j}} \right)},\ {{w}_{j}}=\frac{\left| {{P}_{j}} \right|}{\sum\limits_{i=1}^{s}{\left| {{P}_{i}} \right|}}=\frac{\left| {{P}_{j}} \right|}{n}\]

聚类效果评测-F值

标签：

原文地址：http://www.cnblogs.com/zhangduo/p/4504879.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行