概率密度估计简介

时间：2014-09-10 14:13:20 阅读：294 评论：0 收藏：0 [点我收藏+]

标签：style blog http color 数据 2014 问题 sp log

1、概率密度函数

在分类器设计过程中（尤其是贝叶斯分类器），需要在类的先验概率和类条件概率密度均已知的情况下，按照一定的决策规则确定判别函数和决策面。但是，在实际应用中，类条件概率密度通常是未知的。那么，当先验概率和类条件概率密度都未知或者其中之一未知的情况下，该如何来进行类别判断呢？其实，只要我们能收集到一定数量的样本，根据统计学的知识，可以从样本集来推断总体概率分布。这种估计方法，通常称之为概率密度估计。它是机器学习的基本问题之一，其目的是根据训练样本来确定x（随机变量总体）的概率分布。密度估计分为参数估计和非参数估计两种。

2、参数估计

参数估计：根据对问题的一般性认识，假设随机变量服从某种分布（例如，正态分布），分布函数的参数可以通过训练数据来估计。参数估计可以分为监督参数估计和非监督参数估计两种。参数估计当中最常用的两种方法是最大似然估计法和贝叶斯估计法。

监督参数估计：样本所属类别及条件总体概率密度的形式已知，表征概率密度的某些参数是未知的。

非监督参数估计：已知样本所属的类别，但未知总体概率密度函数的形式，要求推断出概率密度本身。

3、非参数估计

非参数估计：已知样本所属的类别，但未知总体概率密度函数的形式，要求我们直接推断概率密度函数本身。即，不用模型，只利用训练数据本身来对概率密度做估计。

非参数估计常用的有直方图法和核方法两种；其中，核方法又分为Pazen窗法和KN近领法两种。

bubuko.com,布布扣