没有隐私的时代
互联网社会,个人难有隐私可言,倒卖信息和电信诈骗比比皆是,然而这只是冰山的一角。数据是金矿,厂商花费高额成本收集用户数据都用于做什么呢?
虽然让别人知道自家门牌号和电话是件很可怕的事情。但明确信息不一定最有价值,因为这些很可能是用户刻意伪造或是不准确的:你很可能告诉房产中介错误的联系方式;反而是放松警惕,隐含和自然的行为更能刻画用户形象:平日浏览新闻,刷社交媒体,骑共享单车和付款模式,都蕴含了丰富的信息。用户行为产生的数据就像3D打印机,塑造了一个丰满立体的人。
为了获取隐藏行为,不同应用在几乎所有角落对用户行为进行了尽可能详尽的埋点,除了获取位置,读取短信和电话,在进入应用的每时每刻,它都会忠实地记录每一个阅读,点击和停留,更流氓的应用还会记录其他应用的活动情况。各类所谓的安全助手隐藏后台,贪婪地吮吸电量,传输数据。
我们可能不了解自己,更难于熟悉他人,然而机器了解所有人。人工智能如此火爆,它最大的应用暂时还不在科幻电影那样酷炫的机器人,通过掌握上亿用户的详细行为,具有千亿参数规模的复杂深度模型能够学习相似的用户特征和行为模式,用于商业营销和预测。比如我们看到“殚精”两个字时,脑子自然会蹦出“竭虑”来。若把用户行为编码成字符,机器在分析过足够多的行为序列后,就能大概率推断后期的行动。盗号者进入应用转账的行为和一般人完全不同,他会先检查余额,翻一遍好友列表,再去看绑定了哪些信用卡,AI后台早就启动了预警机制,进而要求身份验证。这些技术广泛地应用于反诈骗反套现等等场景。
同在一片天空下,每个人的兴趣爱好却很不一样,即所谓千人千面。用户信息大量用于个性化推荐和行为预测。但这些技术会比想象的更深入到生活的方方面面。
扭曲的世界
一款电商APP从安装开始,首页布局,广告排序,到详情页的排版,甚至物流都是经过个性化定制的。例如若经常退货,退货险因为不赚钱就不会出现在付款页面中。由于性格相似的用户大概率有相似的商品喜好,通过协同过滤,精准营销能大幅提升广告点击率和购买率,帮助厂商获得更多的利润。
资讯类APP追求点击和广告曝光量。越是吸引眼球的“震惊”标题党,越能获得算法的青睐,导致无营养的段子横行;对某类文章点击越多,就有更高的推荐概率,强者恒强的马太效应严重。例如从事人工智能,那么满世界都是人工智能如何火爆的文章,自然会形成可能是虚假的繁荣和错觉。父母一辈每天分享着养生鸡汤和谣言,那根本原因是他们喜欢这些呢?还是因为这些信息被推荐充斥其周围,让他们没得选择呢?
因为目前个性化推荐算法还不完善,模型很难对用户满意度建模,经常会出现用户不喜欢或过时的推荐。相比其他应用,微信在推荐营销上做得非常克制。任何大V都没有霸占他人屏幕的特权。尽管如此,我们在筛选好友时,已经完成了类似推荐系统的过滤和筛选。因此两个阶层的人很可能处于不同的世界,互相不了解。
十几年前,我们通过电视广播获取信息,在超市商场购买商品,大家看到的听到的都一样。但如今每个人都低头看着手机,然而手机是非常非常隐私的,你只知道自己的屏幕,大家真的是一样的吗?
商品的价格真的一样吗?虽然打车应用的价格,会因为周边的供求关系,时间和地点进行动态调整,但很难说它是否也按人进行了个性化定制。对高价的容忍,以及反复地打开打车页面,会展示出打车的强烈愿望,进一步提升加价的可能性。周围明明有出租车,但软件就是不显示,派单还是大概率地自家车辆,因为厂商在出租车上不赚钱。
营销是商业的命脉,信用是金融的核心。每个人在网上贷款的利率和额度是一样的吗?学历,车辆和房产都会被用于评估征信分数。对于个人小额贷款,逾期用户一般都有还款能力却缺乏还款意愿。这种情况传统征信很难覆盖,却很容易通过平日的行为模式推测。若平日不讲信用,消费没有规划,算法模型早就能将其归为高风险人群,借贷额度变低,利息反而更高。
利润最大化算法将“学生证半价”的价格歧视发展到无比精确的地步。它能准确地估计用户响应的最高门限。我们试着大开脑洞,如果软件故意暂时修改了剧烈波动的商品价格,我们有多大概率事后发现这种问题呢?
一件商品提示无货,它真的是无货状态吗?或许系统估计这单不赚钱,或认为购买者正在薅羊毛。红包奖励看似随机,但在屏幕上的抽奖基本都是谎言。幸运女神总会让未来更可能带来利润的人中奖。由于疲劳度控制,若曾经中过奖,那么抽到手抽筋也很难幸运重演了。
一篇文章被删稿了,它真的是被删掉了吗?还是只有少数人看不到?推送成功的一篇文章没人阅读点赞,但真的推送到别人那里了吗?各大媒体都有背后的金主和投资方,比如在知乎上是很难看到腾讯真正意义的负面信息的,反而阿里系的各种黑料都是在知乎上迅速蹿红的,你猜谁投资了知乎?interesting!
警惕控制
受限于目前高昂的数据采集成本,较低的回流速度,以及算法工程师的技术水平,现有的算法系统对信息的掌控和理解还远远不够。不过在不久的未来,遍布各个角落的传感器和物联网采集着浩繁的信息;实时计算成为主流,模型会在秒级时间内对新信号做出反应从而调整策略;上万台机器组成的GPU集群能够轻松模拟几亿用户的心智和行为。也许只是脑子里突然飘过一点需求,精准广告一定会立刻展现到你面前。你看到的一定是你或者他人希望看到的。每个人外围都罩上了外壳,看到的都是被加工过滤的世界,信息变得不对等,世界进而被割裂。
三原色事件被义愤填膺地热论了一周,之后却完全消失在网络中,让人不得不感慨信息管控的力量。目前敏感信息监控还停留在非常原始的关键词过滤,很容易通过替换敏感词躲过屏蔽,更不用说敏感音视频了。然而未来算法会具备超越一般人的模糊理解能力。如果某段信息被决策为不合适,那么它从源头就会被封锁,不论是所谓的段子,隐喻还是反讽,爆炸性传播更是无稽之谈。
英剧《black mirror》第二季里讲了几个故事,其中之一是剧中未来每个人都被安装上了智能眼,只要你不喜欢一个人,你可以直接屏蔽他,以后他就会在你面前变成灰白色的人影轮廓,虽然听得到他的声音,但是并不知道他具体说了什么。男主和前妻离婚,前妻很讨厌他,于是前妻屏蔽了她和她女儿有关他的所有信息。男主无比想见女儿一面,苦苦哀求,出现在女儿眼里的却是诡异的白影子和杂乱的噪音。
(英剧Black Mirror(黑镜子)剧照,强烈推荐)
或许我们能成体系地阅读信息和知识,避免碎片化的定制信息对大脑的禁锢;或许能尝试更多面对面充满温度的交流,而不是屏幕上仓促的只言片语;或许能花更多的时间认真体会生活和旅行,而不是在电视剧电影中八卦别人的故事。
我们还是能庆幸绝大多数的推荐和定制还没上升到“控制”的程度,因此总能通过其他途径自由获取信息;庆幸控制者是人类而非更强大的机器,否则黑客帝国里的故事将会成为现实;庆幸其动机一般都出于经济利益而非政治目的,否则一定哪里都是太平盛世歌舞升平.
细思恐极。
--
欢迎关注微信公众号《沙漠之鹰》