1 Hadoop是什么 2 Hadoop三大发行版本 Hadoop三大发行版本:Apache、Cloudera、Hortonworks。 Apache版本最原始(最基础)的版本,对于入门学习最好。 Cloudera在大型互联网企业中用的较多。 Hortonworks文档较好。 Apache Hado ...
分类:
其他好文 时间:
2020-07-12 00:59:06
阅读次数:
92
1. 一期工程项目技术架构 1)业务驱动 2)问题驱动 2. 二期工程项目技术架构 项目优化原则: 1)优先从架构和程序进行优化 2)考虑增加集群扩容 做任务为什么不适用kafka? 1)此业务用户量还小 2)数据量小 3)使用kafka大材小用,资源浪费 为什么同时使用db和redis 1)用户成 ...
分类:
其他好文 时间:
2020-07-12 00:58:36
阅读次数:
115
BI数据处理逻辑, 带默认值参数的函数, lambda 匿名函数等 ...
分类:
其他好文 时间:
2020-07-12 00:45:18
阅读次数:
86
写在前面 本系列目的:一篇文章,不求鞭辟入里,但使得心应手。 迭代是数据处理的基石,在扫描内存无法装载的数据集时,我们需要一种惰性获取数据的能力(即一次获取一部分数据到内存)。在Python中,具有这种能力的对象就是迭代器。生成器是迭代器的一种特殊表现形式。 个人认为生成器是Python中最有用的高 ...
分类:
编程语言 时间:
2020-07-11 20:58:15
阅读次数:
56
最近在研究虚拟化,容器和大数据,所以从Docker入手,下面介绍一下在Windows下怎么玩转Docker。 Docker本身在Windows下有两个软件,一个就是Docker,另一个是Docker Toolbox。这里我选择的是Docker Toolbox,为什么呢?参见官方文档: 官方下载地址( ...
1 kafka介绍 Kafka是一款性能非常好的并且支持分布式的消息队列中间件由于它的高吞吐特性,Kafka通常使用在大数据领域,如日志收集平台Kafka是一个流处理平台,因为它在工作中就像是一个可以支撑高吞吐量的管道,数据像水一样流进去,然后另外一端再去读取这些数据我们就可以把Kafka看作是一种 ...
分类:
其他好文 时间:
2020-07-11 13:02:34
阅读次数:
55
Hive数据仓库 Facebook由hive和Hadoop组建 hive由facebook开发的 存储HDFS,查询MapReduce 优势 解决了传统关系型数据库在大数据处理上的瓶颈。适合大数据批量处理 充分利用集群的CPU计算资源,存储资源,实现并行计算 Hive支持标准的SQL语法,免去了编写 ...
分类:
其他好文 时间:
2020-07-10 19:33:44
阅读次数:
77
使用TensorDataset和DataLoader来简化 from torch.utils.data import TensorDataset from torch.utils.data import DataLoader ? train_ds = TensorDataset(x_train, y ...
分类:
其他好文 时间:
2020-07-10 19:23:20
阅读次数:
71
数据库是按照数据结构来组织、存储和管理数据的仓库。通俗理解,数据库被视为电子资料柜,用户可以线上对资料柜中的数据进行各种合法操作,如添加数据,更新数据,删除数据,截取数据等等。
分类:
数据库 时间:
2020-07-10 19:18:26
阅读次数:
192
需求背景 项目需要对接大数据平台,定时更新相关的统计数据 version SpringBoot: 2.2.4.RELEASE MySQL: 5.5.4 Quartz: 2.3.0 实现 导入数据库表 因为Quartz 集群依赖于数据库,所以必须首先创建Quartz数据库表。Quartz 包括了所有被 ...
分类:
编程语言 时间:
2020-07-10 15:14:54
阅读次数:
97