标签:概率 main 异常类 ip地址 detail 数据 测试 stat 估计
1、周计划表
时间 | 计划进度 | 是否完成 |
3.8--3.15 | 了解KDDUP99数据集,以及所包含的属性,数据预处理思想 | |
3.16--3.23 | 代码实现数据预处理 | |
3.24--3.30 | 与算法的融合 | |
等等 |
1、本周内容:
1)KDDCUP99数据集
一个网络连接定义为在某个时间内从开始到结束的TCP数据包序列,并且在这段时间内,数据在预定义的协议下(如TCP、UDP)从源IP地址到目的IP地址的传递。每个网络连接被标记为正常(normal)或异常(attack),异常类型被细分为4大类共39种攻击类型,其中22种攻击类型出现在训练集中,另有17种未知攻击类型出现在测试集中。
KDDCUP99数据集中每个连接(*)用41个特征来描述:
1. TCP连接基本特征(共9种)
2. TCP连接的内容特征(共13种)
3. 基于时间的网络流量统计特征 (共9种,23~31)
4. 基于主机的网络流量统计特征 (共10种,32~41)
(具体的特征暂略)
2)数据的预处理
(1) protocol type: 1-icmp; 2-tcp; 3-udp; 4-others.
(2) service: domain-u 1; ecr_i 2; eco-i 3; finger 4; ftp-data 5; ftp 6; http 7; hostnames 8; imap4 9; login 10; mtp 11; netstat 12; other 13; private 14; smtp 15; systat 16; telnet 17; time 18; uucp 19; 其他服务 20;
(3) flag: 1-REJ; 2-RSTO; 3-RSTR; 4-S0; 5-S3; 6-SF; 7-SH; 8-OTHERS;
(4)其他数据归一化处理:x∈[xmin,xmax], t=(x-xmin)/(xmax-xmin) ∈[0,1].
3)相应的算法。
设为一个待分类项,而每个a为x的一个特征属性。有类别集合。(摘自来自第一次任务书)
1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。
2、统计得到在各类别下各个特征属性的条件概率估计。即。
3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:
因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:
(计算,如果,则。 关键就是如何计算第中各个条件概率——摘自第一次计划书)
4.你本周参考资料。
http://blog.sina.com.cn/s/blog_4ae073680101g1fh.html
http://blog.csdn.net/com_stu_zhang/article/details/6987632
5.你本周实现的代码及截图。
暂无
6.你本周的体会。
KDDCUP99数据具有诸多属性,数据预处理可以简化许多冗余数据,并且通过设定关键值来处理。30万的数据量可能对之后的实验运行会带来一些挑战,不过数据预处理后的样本训练就是机器工作,数据预处理对之后的精确度有很大影响,所以要重视。
标签:概率 main 异常类 ip地址 detail 数据 测试 stat 估计
原文地址:http://www.cnblogs.com/net1313whc/p/6560924.html