摘要:近日,Robert
Seaton整理了100多个最有趣的数据集,其中包括Jeopardy真题,死囚的最后一句话,20万个Eclipse
Bug,足球比赛相关,柏拉图式的爱情,太阳系以外的行星,11.3万个恐怖事件等。【编者按】在数据爆发式增长的逼迫下,当下数据分析能力已得到长足的发展,机器学习...
分类:
系统相关 时间:
2014-06-11 09:25:52
阅读次数:
717
Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成,来展现大数据应用的一个平台,其核心引擎就是Spark,其计算基础是弹性分布式数据集,也就是RDD。通过Spark生态圈,AMPLab运用大数据、云计算、通信等各种资源,以及各种灵活的技术方案,对海量不透明的数...
分类:
其他好文 时间:
2014-06-11 06:59:31
阅读次数:
288
由于不懂如何自律,中国人现在享受经济发展的同时却需要担心空气、水、食品等必需品。特别是空气问题,促成了口罩与空气滤清器等行业,却也极大影响了人们的工作生活。在这么下去最火的乐队绝对是Air Supply了,没有之一。
抱怨之外,让我们看看能不能从数据的角度分析一下空气质量及其成因。
首先非常感谢PM25.in网站提供的空气质量API,以至于我们可以轮询并把AQI(空气质量指数)数据储存...
分类:
其他好文 时间:
2014-06-10 07:19:26
阅读次数:
574
GitHub已然是全球最流行的开源项目托管平台,项目数量目前已经达到了千万级别。Adereth在Counting Stars on GitHub一文提供了一个非常有意思的思路,那就是籍GitHub用户通过星星标记感兴趣项目的数目,来观察GitHub中用户最流行的是什么编程语言。
老规矩,让我们用Power BI来分析一下吧。首先从Adereth的博客下载相关数据,然后用Power Query倒入...
分类:
编程语言 时间:
2014-06-10 07:18:01
阅读次数:
642
Hans Rosling是卡罗琳学院的国际卫生学教授,这位学者与众不同的技能是数据可视化,以直观的数据展现了令人信服的世界观,并且在gapminder.org提供无偿展示以及下载。如果你没有看过以下的TED讲座,真心建议你花点时间,保证物有所值:
Hans Rosling: Asia’s rise — how and whenHans Rosling: Let my dataset ch...
分类:
其他好文 时间:
2014-06-10 06:21:50
阅读次数:
336
百亿数量级的大数据项目,软硬件总体预算只有30万左右,需求是进行复杂分析查询,性能要求多数分析请求达到秒级响应。
遇到这样的项目需求,预算不多的情况,似乎只能考虑基于Hadoop来实施。
理论上Hadoop撑住百亿数量级没问题,但想要秒级响应各种查询分析就不行了。我们先大概分析一下Hadoop的优缺...
分类:
其他好文 时间:
2014-06-09 14:32:39
阅读次数:
509
php-数据分析 余弦相似度实现
<?php
/**
* 数据分析引擎
* 分析向量的元素 必须和基准向量的元素一致,取最大个数,分析向量不足元素以0填补。
* 求出分析向量与基准向量的余弦值
* @author yu.guo@okhqb.com
*/...
分类:
Web程序 时间:
2014-06-08 17:33:51
阅读次数:
210
对于诸多行业客户,在平时工作实践中,会产生大量的财务数据、交易数据,以及基于这些数据的计算过程和结果。如何将此类数据的采集、编辑、加工、汇总、整理、存储、产生分析报告,得到有效信息,工作量极大,人工成本昂贵,并且繁琐,存在风险。如果客户的工作报告生成系统为人工制作,操作风险会比较高,数据需人工采集编辑,未来产品数量和数据爆发式增长,现有制作报告人力会面临制作时效较长、缺失系统管理、无法有效完成报告查询定位等风险,间接影响客户服务体验。基于此,构建一个行业客户工作报告生成配套管理系统,从报告的出生到接触到最终...
分类:
其他好文 时间:
2014-06-08 15:07:56
阅读次数:
215
商宝商宝是基于微博移动的社交购物平台,通过商宝打通微博等社交平台商品展示、粉丝营销、订单支付、数据分析等环节,商宝可提供丰富的营销工具和活动插件。商宝展示的商品信息可以分享到各个社交网络的信息流中,实现商品的快速传播和售卖,使用商宝的商家仅需在商宝管理后台统一管理商品营销和订单即可。产品简介商宝,由...
分类:
移动开发 时间:
2014-06-08 00:38:15
阅读次数:
228
博主是自然语言处理方向的,不是推荐系统领域的,这个程序完全是为了应付大数据分析与计算的课程作业所写的一个小程序,先上程序,一共55行。不在意细节的话,55行的程序已经表现出了协同过滤的特性了。就是对每一个用户找4个最接近的用户,然后进行推荐,在选择推荐的时候是直接做的在4个用户中选择该用户item没...
分类:
编程语言 时间:
2014-06-07 07:19:12
阅读次数:
473