12306网站在今天启用了新的验证码,由简单的数字改成了如图,物品中文名,选择对应的照片。
在微博上知道这个新闻后,到12306逛了逛,然后开始思考这种验证码究竟能对黄牛票贩子和刷票软件起多大作用。
开始的时候认为启用了这种验证码比较难刷票了,刷票其实只是用软件代替了人工的操作。先识别中文,然后再找对应图片,除非有整个12306所有的中文和图片对应的关系数据库,不然就是识别出中文也没法找图片,图片都是照片,用软件可以比较图片的是否相同,但不可能用识别软件看出照片内容,如果能认出来,票贩子直接开发照片识别软件比刷票赚钱。
所以这个问题的关键就是中文和图片关系数据库。
后来在和朋友的讨论中,发现这个问题在现在这个互联网大数据时代也有解决方案。
方法就是类似于wifi密码共享的原理,让用户去人工识别,识别正确,则记下中文、图片和对应关系,在人肉多了后,所有的问题和验证码就被遍历了。因为像这种中文和验证码不是随机生成的,总是一条固定的关系数据。
当然,这种方案也会有一些限制。
1、刷票软件需要一定基数的用户群。
这对于像360和猎豹这种软件公司完全没有问题,但是会提高黄牛刷票软件的门槛。黄牛的刷票软件不会有大量用户群,所以想要积累验证码数据就需要雇人来识别,而12306可以随时录入新的验证码数据,把这个数据库提高到十万百万级,而黄牛的人工成本会大大提高。
2、数据图片的储存
由上一问题可以推论,这个验证码数据库不断增加最后很可能会有十万百万之多,这些数据尤其是图片的储存是个问题,互联网公司可以把这些数据储存到远程服务器中,黄牛软件呢?当然现在普通个人电脑完全能够储存下这些数据,但是当一个刷票软件安装需要上G空间,而且需要不断更新数据呢?这种数据的获取更新使黄牛刷票软件的完全脱离了之前单机操作的模式,黄牛软件也变得互联网化。黄牛软件也可以如互联网公司一样,将验证码数据储存到远程服务器中,但这将大大增加倒票的风险,成本也会提高。
3、数据查询、图片比较的效率
对数据库有所了解的人应该能够知道,优化合理的情况下,单个字段的查询在百万级以内都很快。但是获取了验证码的关键词以后还需要做比较图片操作。验证码关系数据库积累起来后,如果一个验证码关键词只对应两张图片,那么比较起来是十分容易的。但如果一个关键词有10张100张照片呢?和8张待选择图片需要比较多少次?这个效率会有多大影响。刷票软件响应速度是重要一环,之前一些刷票浏览器在识别验证码时效率就比较差,12306启用新的验证码后,刷票软件如果有图片比较环节,这个效率又会是怎样的呢?
以上是这次12306启用新验证机制以后想到的,感觉此次改版对黄牛软件影响会比较大,但对用户基数比较大的刷票浏览器来说却是新的机遇。
原文地址:http://daweilang.blog.51cto.com/9806748/1621090