如何用机器学习定位账户冒用问题

时间：2017-09-23 19:09:18 阅读：118 评论：0 收藏：0 [点我收藏+]

对于一个互联网站点，这其实是一个挺平常的问题，因为目前“撞库”的发生。我们收集的数据主要还是来源于如下数据：

三层数据：IP地址

四层数据：TCP初始端口、TCP初始序列号（不同系统可能存在一些实现上的差异）、滑动窗口大小

七层数据：用户浏览器指纹数据，如UserAgent等能从一定角度体现用户浏览器特征的数据，比如Chrome、Firefox、Safari等就有所不同

应用系统日志：获取用户浏览页面分类信息、页面转换序列及相关时间等等。

将一段时间的上述历史数据（设定窗口，每一项可作为一个维度）通过一定的函数转换最终进行归一化处理（Normalization，归一化也可对不同维度进行加权），然后通过本次浏览情况判断是否是出自同一用户，如果不是则应发送响应通知原用户，可能出现冒用情况。

判断的方法可以使用简单的余弦夹角、马尔科夫或距离关系等。形式化的描述就暂不给出了。

原文地址：http://13345387.blog.51cto.com/13335387/1967992

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行