标签:blog http com width 数据 2014
6月12日消息 据国外媒体报道,世界杯即将开始,而雅虎首席执行官玛丽莎·梅耶尔(Marissa Mayer)的研究小组已经知道最后的冠军是谁:巴西。雅虎表示他们利用了轻博客网站Tumblr的数据来估计每支国家队的优势,并计算出最终哪支球队最可能获胜。雅虎科学家小组进行的分析是基于这样的前提:Tumblr上所有有关世界杯的讨论都存在有价值的信息。
“足球粉丝非常吵闹,”雅虎科学家小组这样说道。“但是粉丝并不只在体育场上喧嚣,他们还会在各种社交媒体上发表言论和见解。尽管你可能认为这些粉丝是在社交媒体上吹响助威喇叭,但如果你仔细聆听,你会发现很多宝贵的数据——包括最重要的问题的答案:谁将最终获得冠军?”
雅虎科研小组表示他们从831亿篇Tumblr博客中筛选了1.889亿篇文章用于分析,自2月至5月他们将注意力集中于2730万篇与世界杯“相关的博文”。“为了查明哪些国家将相互较量,我们必须为每支队伍赋予优势值。”研究小组说道。“这些值是基于每次比赛而计算出来的,提供了最具代表性的比分。”
针对每一次比赛,雅虎会利用名为泊松分布不同参数的概率论来估计每一支队伍可能的进球数量,例如在“与世界杯有关的帖子里被提及的国家队”,以及“在与足球有关的帖子里被提及的国家队”。例如雅虎预测德国将打败葡萄牙,而西班牙将击败荷兰。利用这个系统,雅虎计算出最终的世界杯冠军——巴西。
标签:blog http com width 数据 2014
原文地址:http://www.cnblogs.com/zc520/p/3787540.html