在虚拟机上进行用户的增加: 以及相应的其他命令的设置: ...
分类:
其他好文 时间:
2020-08-09 21:34:32
阅读次数:
98
public class demo2 { public static void main(String[] args) { //八大数据类型 //整数 int num1 = 10; //最常用 -2147483648-2147483647 占4个字节 byte num2 = 100; //-128- ...
分类:
其他好文 时间:
2020-08-08 17:37:55
阅读次数:
66
SQL是大数据从业者的必备技能,大部分的大数据技术框架也都提供了SQL的解决方案。可以说SQL是一种经久不衰、历久弥新的编程语言。尤其是在数仓领域,使用SQL更是家常便饭。本文会分享四个在面试和工作中常用的几个使用技巧,具体包括:日期与期间的使用临时表与CommonTableExpression(WITH)Aggregation与CASEWHEN的结合使用WindowFunction的其他用途数仓
分类:
数据库 时间:
2020-08-08 00:41:54
阅读次数:
95
1.定义 RDD是只读的记录分区的集合,是一种基于工作集的应用抽象 创建RDD的方式有两种: 从驱动程序中的集合中并行创建 从外部数据集创建 2.底层存储原理 每个RDD的数据以Block的形式存储在多个机器上,对于每个Executor都会启动一个BlockManagerSlave,并且管理一部分B ...
分类:
其他好文 时间:
2020-08-08 00:33:32
阅读次数:
73
写在前面 最近不少读者找我要大数据面试题,我整理了很久,筛选出这10道容易出错的大数据面试题,希望对大家有所帮助。题目与解答整理自互联网,感谢分享这些面经的技术大牛们! 题目概览 如何从大量的 URL 中找出相同的 URL?(百度) 如何按照 query 的频度排序?(百度) 如何统计不同电话号码的 ...
分类:
其他好文 时间:
2020-08-08 00:32:59
阅读次数:
53
一. SparkSQL简介 Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 Dremel > Drill(Apache) >Impala(Cloudrea) Presto(Hotonworks) Hive > Shark(对Hive的模仿,区别在 ...
分类:
数据库 时间:
2020-08-07 21:45:52
阅读次数:
79
1、JedisConnectionPool.scala package sparkstreaming import redis.clients.jedis.{Jedis, JedisPool, JedisPoolConfig} object JedisConnectionPool{ val conf ...
分类:
其他好文 时间:
2020-08-07 18:03:42
阅读次数:
62
ForkJoin :: 分支合并 (JDK 1.7) 并行执行任务,提高效率。 使用场景:大数据量 将大任务拆成小任务 ForkJoin 特点:工作窃取 这个里面维护的都是双端队列,如果一方执行完了,获取另外一方的未完成的任务进行执行 ForkJoin 的操作 package pers.vincen ...
分类:
其他好文 时间:
2020-08-07 12:33:23
阅读次数:
64
作者:bellen,腾讯云大数据研发工程师。腾讯云Elasticsearch被广泛应用于日志实时分析、结构化数据分析、全文检索等场景中,本文将以情景植入的方式,向大家介绍与腾讯云客户合作过程中遇到的各种典型问题,以及相应的解决思路与方法,希望与大家一同交流。背景因为游戏业务本身的日志数据量非常大(写入峰值在100wqps),在服务客户的几个月中,踩了不少坑,经过数次优化与调整,把客户的ES集群调整
分类:
其他好文 时间:
2020-08-07 10:02:01
阅读次数:
67