一、什么是Presto? 背景知识:Hive的缺点和Presto的背景 Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。Presto是一个分布式SQL查询引擎,它被设计为用 ...
分类:
其他好文 时间:
2020-04-04 11:41:05
阅读次数:
80
随着数据不断增长以及互联网业务的兴起,新兴应用对IT架构需求的快速变化以及不确定性成为了主要挑战,因此催生出了一种创新的架构——超融合。近年来超融合发展如火如荼,替换传统架构已势不可挡,超融合正在成为数据中心基础架构的核心。什么是超融合?超融合基础架构(Hyper-ConvergedInfrastructure,或简称“HCI)是指在同一套单元设备中不仅仅具备计算、存储、网络和服务器虚拟化等资源和
分类:
其他好文 时间:
2020-04-01 17:50:37
阅读次数:
84
1 背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种 ...
分类:
Web程序 时间:
2020-03-25 18:49:49
阅读次数:
85
2020.3.22 pycharm:使用python进行爬取,并存储到文件 1.爬取网页的通用代码框架 1 try: 2 r = requests.get(url, timeout = 30) 3 r.raise_for_status() 4 r.encoding = r.apparent_enco ...
分类:
其他好文 时间:
2020-03-22 22:33:56
阅读次数:
79
老游戏新尝试,复刻经典扫雷游戏,简洁版,设计时尽可能减少文字信息,模仿iOS的特点,上手即用。提供最基本的设置和统计信息,毕竟大家是为了玩儿游戏,不是做大数据分析不是吗?试试吧,欢迎讨论分享。 操作: 长按标旗 点按翻开 扫动滚屏 捏合缩放 This is a classic minesweeper ...
分类:
其他好文 时间:
2020-03-22 14:23:16
阅读次数:
152
本文参考 在阅读了《Spark快速大数据分析》动物书后,大概了解到了spark常用的api,不过书中并没有给予所有api详细的案例,而且现在spark的最新版本已经上升到了2.4.5,动物书中的spark版本还停留在1.2.0版本,所以就有了这篇文章,在最新的2.4.5版本下测试常用的api 由于s... ...
大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。下面整理了一些大数据分析能用到的工具,助力大家更好的应用大数据技术。 一、hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高 ...
分类:
其他好文 时间:
2020-03-14 18:32:36
阅读次数:
75
大数据分析软件,数据分析平台,开源数据分析平台,echarts,d3.js,数据可视化分析软件,大屏数据分析展示
分类:
其他好文 时间:
2020-03-12 23:47:14
阅读次数:
67
大数据分析处理评测方法 效果与效率 (以分类模型为例) 效果 准确率 模型对未标注数据做作出的判断中,正确的比例 例子: 准确率看行,召回率看列 召回率 它是对于某个类别,模型正确判断的该样本个数占该类样本总数的比例 F值 效率 时间复杂度 空间复杂度 吞吐率 加速比 ...
分类:
其他好文 时间:
2020-03-07 09:48:25
阅读次数:
189
大数据分析处理基本流程 数据准备 数据获取(爬虫,统计) 数据清洗(获得想要的数据,去除无用的相关数据) 特征工程 特征提取 比如我爬下网页,网页中有图片,视频,文本信息,url等等之类的特征消息 特征选择 网页保存这学生的信息,我想要计算每个学生的BMI(身体质量指数),而这类信息是在网页中的文本 ...
分类:
其他好文 时间:
2020-03-07 09:34:06
阅读次数:
186