在某大型公司做大数据四年多,一直在大数据门口转悠,感觉自己从未迈进去过这个大门。 数据清洗,降低二次开发成本,将传输的速度达到极致,同时做到不丢数据。说起来简单,但是放在四年前,从0做到1还是很不简单的。java、javascipt,tomcat,SSH,Hadoop,Mapreduce,spark ...
分类:
其他好文 时间:
2016-08-30 01:50:56
阅读次数:
226
先声明一点,本人写此文章初衷只为对前段时间的工作做些总结,并做个记录,以备日后查用,此外也顺便与他人分享一下。当然间接上也为阿里云的大数据平台做了个免费广告。以下开始正文。 首先进入数加服务的控制面板,在左侧的面板上点击“BI报表” 进入报表页后,在左侧面板上会有“数据源”和“数据集”。 目前支持的 ...
分类:
其他好文 时间:
2016-08-17 12:09:43
阅读次数:
2224
Uber工程师在官方博客上描述了他们为什么要从 Postgres 切换到 MySQL 数据库。Uber的早期架构是由 Python编写的后端应用构成,使用了 Postgres 数据库。但此后,Uber的架构发生了显著的改变,转变到了微服务模型和新的数据平台。以前他们使用 Postgres,现在则改用 ...
分类:
数据库 时间:
2016-08-01 15:42:23
阅读次数:
203
http://www.csdn.net/article/2015-09-21/2825759 李智慧(微博、LinkedIn),目前任职宅米网CTO,曾供职阿里巴巴与英特尔亚太研发中心,从事大型网站、分布式系统、大数据平台方面的研发工作。著有《大型网站技术架构 核心原理与案例分析》一书。 CSDN: ...
分类:
其他好文 时间:
2016-07-28 15:45:41
阅读次数:
159
原文地址:https://yq.aliyun.com/articles/57901?spm=5176.100239.blogcont57826.25.oaM83B
摘要: 在阿里巴巴在线在线技术峰会上的第三天,来自阿里云高级技术专家李金波为大家题为《企业大数据平台仓库架构建设思路》。本次分享中,李金波主要从总体思路、模型设计、数加架构、数据治理四个方面介绍了如何利用大数据平台的特性,...
分类:
其他好文 时间:
2016-07-22 19:18:18
阅读次数:
232
整体思路 整体分三步: 1、记录日志 1、记录日志采用UDP协议写入大数据平台,大数据平台采用Hive表来存储日志信息。 2、写入日志的工作,封装了一个Auto.Lib3.Dealer.Log.dll,这个dll要依赖ZooKeeperNet.dll 和 log4net.dll。这三个dll文件地址... ...
分类:
其他好文 时间:
2016-07-21 08:39:52
阅读次数:
709
报表或者bi的价值在哪?这已经是十几年的问题啦!为什么要解释这个并不新鲜的问题,是因为当一个两个问我的时候,并没有在意,被问的多了,觉得这问题并没有过时。数据挖掘和建模分析,其价值很容易说出来,因为它是点对点打出来的,一个付费预测模型,就是有助于运营,降低运..
分类:
其他好文 时间:
2016-07-19 19:08:31
阅读次数:
121
当你利用Hadoop进行大数据分析和处理时,首先你需要确保配置、部署和管理集群。这个即不容易也没有什么乐趣,但却受到了开发者们的钟爱。本文提供了5款工具帮助你实现。 Apache Ambari Apache Ambari是对Hadoop进行监控、管理和生命周期管理的开源项目。它也是一个为Hortonworks数据平台选择管理组建的项目。......
分类:
其他好文 时间:
2016-07-15 21:27:09
阅读次数:
1358
简介 Husky是一个大数据分布式开发框架,用C++开发,因为粗粒度(coarse-grained)平台(如Spark,Hadoop,Flink)MR耗时太大,然后细粒度(fine-grained)平台(GraphX等)编程难度较大,同时细粒度在数据平台之间转移会很耗时。Husky就是在粗粒度和细粒 ...
分类:
系统相关 时间:
2016-07-14 01:18:28
阅读次数:
448
在网上看过的安装教程真的是有点心酸呢。好多都失败了。分享下,自己实验成功可以用的博文供大家参考:推荐1给力星:http://www.powerxing.com/install-hadoop/hadoop+spark完全参考的他的博文,相当给力推荐指数5个星hive的话,我这边参考的文章太多了。没个能用的,不知道是..
分类:
系统相关 时间:
2016-07-13 23:38:30
阅读次数:
470