几天前2014阿里巴巴大数据竞赛刚刚落下帷幕,第11名的F1分数、准确率和召回率是6.10%、6.28%和5.93%。前10名的成绩还未公布,他们会被邀请到阿里巴巴公司来,有机会和内部团队一起参与双11。选手们闲下来,开始在群里爆特征、开玩笑、交换联系方式。 这次海内外共有7276支队报名。比赛分为...
分类:
其他好文 时间:
2014-11-12 19:40:44
阅读次数:
205
阿里云-采云间DPC
数据集成
支持本地数据上传和RDS数据同步到ODPS;持续增加更多数据源之间的相互同步,实现云端数据的无缝
流通
数据处理
提供ODPS IDE工具、SQL代码管理和任务调度功能,是ETL研发利器,也是分析师的基础数据处理工具
数据分析
通过拖拽和可视化的方式分析大数据,将数据...
分类:
其他好文 时间:
2014-11-03 16:00:41
阅读次数:
458
如果你是一个站长,想要提交一个查询,从一亿多条日志中找出从湖南省发出、使用ISP电信、通过百度搜索跳转到达的访问日志。该怎么做?别急,在接收到您的查询条件后,CNZZ可以快速通过SLS(简单日志服务) API获得结果,并将结果展示到官方网站。一眨眼,你想要的就看到了!??CNZZ(www.cnzz....
分类:
其他好文 时间:
2014-09-01 15:22:13
阅读次数:
252
——谨将此文献给阿瑞(@Nyanko君一生懸命)和湛卢。阿瑞在MapReduce等方面提供的技术支持,使我们成为最早充分利用ODPS的团队之一;湛卢提出很多分析问题的新思路,让我们在走投无路的时候屡次重拾希望。0. 写在最前面这个系列的几篇文章,记录我们队对于问题的整个处理过程。分成两个部分:首先的...
分类:
其他好文 时间:
2014-08-10 23:51:01
阅读次数:
431
阿里云计算的ODPS从内部使用的工具变成了面向社会开放的大数据平台,开创了国内大数据公共服务的先河,降低了大数据在资金、人才和应用方面的门槛。小型企业只要花费几百元就能进行海量数据分析,这是真的吗?阿里云计算的大数据平台ODPS可以让你梦想成真。今年举行的阿里巴巴大..
分类:
其他好文 时间:
2014-08-04 18:11:18
阅读次数:
292
最近几年日志分析这方面的人才需求越来越多,主要伴随数据挖掘的快速发展而迅速增长的。碰巧又在工作中又接触到一些日志记录方面的工作,就顺便了解一下日志系统的整个流程。下面这篇文章转自百度同学的一篇文章,针对大规模日志分析,联系到hadoop,hive的解决方案,阐述的比较全面。
另外就是阿里已经开发出类似的系统odps—通过sql语言进行数据的分析处理,详情见:http://102.alibab...
分类:
其他好文 时间:
2014-07-17 20:15:30
阅读次数:
301
namenode启动参数:-Xmx153600m -Xms153600m -Xmn4096m -verbose:gc -Xloggc:$ODPS_GC_LOG_DIR/namenode.gc.log -XX:ErrorFile=$ODPS_LOG_DIR/hs_err_pid.log -XX:+Pr...
分类:
其他好文 时间:
2014-07-09 14:55:32
阅读次数:
517
接到阿里电话说实习和竞赛智能二选一, 真伤心, 在实习前发挥余热吧.
总结一下在ODPS下 编写map / reduce 和进行购买预测的过程.
首先这里的hadoop输入输出都是表的形式, 我们需要一张输入表和一张输出表.
输入表为 提供的 t_alibaba_bigdata_user_brand_total_1 输出表为自定义的wc_out
w...
分类:
其他好文 时间:
2014-05-09 02:33:28
阅读次数:
418
ODPS中的TaskContext类有几个write函数write(Record
record)用来输出到默认输出表write(Record record, String label)用来输出的label的输出表write(Record
key, Record value) 用来Map后输出到中间表
分类:
其他好文 时间:
2014-05-09 00:14:26
阅读次数:
335