标签:样本 hellip 垃圾 重要 量化 条件 准则 标记 向量
贝叶斯准则
P(x|y) = P(y|x) * P(x)/ P(y)
分类原则:在给定的条件下,哪种分类发生的概率大,则属于那种分类。
后验概率
P(R)=P(R|c1)*P(c1) + P(R|c2)*P(c2):全概率公式
P(c1|R)=P(R|c1)*P(c1)/P(R)
计算出先发生P(R)事件后P(c1|R)和P(c2|R)事件发生的概率即可
朴素贝叶斯的假设
1.一个特征出现的概率,与它相邻的特征没有关系(特征独立性)
? 2.每个特征同等重要(特征均衡性)
示例:
1000封邮件,每个邮件被标记为垃圾邮件或者非垃圾邮件,给定第1001封邮件,确定它是垃圾邮件还是非垃圾邮件
分析:
类别c:垃圾邮件c1,非垃圾邮件c2
词汇表:统计1000封邮件中出现的所有单词,记单词数目为N,即形成词汇表。
? 将每个样本si向量化:初始化N维向量xi,若词wj在si中出现,则xij=1,否则,为0。从而得到1000个N维向量x。
? 公式:对于两个关联事件A和B,同时发生的概率为:P(AB)=P(A|B)P(B)=P(B|A)P(A) 。
可以得到P(A|B)=P(B|A)*P(A)/P(B)
即表示事件B已经发生的前提下,事件A发生的概率=表示事件A已经发生的前提下,事件B发生的概率 * 事件A发生的概率/事件B发生的概率
对于垃圾邮件,P(A|T1,…Tn)=P(T1,…Tn|A)P(A)/P(T1,…Tn)=P(T1|A)P(T2|A)…P(Tn−1|A)P(Tn|A)P(A)/P(T1)P(T2)…P(Tn−1)P(Tn)
一般取高频词3000个,而不是全部,取正常邮件和垃圾邮件等量,统计关键词出现频率P(Tn),垃圾邮件中关键词出现频率P(Tn|A),垃圾邮件频率P(A)
那么即可得到一封邮件,最高关键词是这些的,该邮件是垃圾邮件的频率,可以设置阈值,超过多少才判定为垃圾邮件
标签:样本 hellip 垃圾 重要 量化 条件 准则 标记 向量
原文地址:https://www.cnblogs.com/czlong/p/11701464.html