Apache Flink是一个框架和分布式处理引擎,用于在无界和有界数据流上进行有状态的计算。Flink被设计为在所有常见的集群环境中运行,以内存中的速度和任何规模执行计算。 Apache Flink is a framework and distributed processing engine ...
分类:
其他好文 时间:
2020-05-17 17:52:04
阅读次数:
92
背景 分布式系统中最大的问题就是数据的不一致性,理解分布式系统中数据不一致性的产生原因和相关的解决方案对理解分布式系统和项目实战非常重要。 学习 参考博客:https://coolshell.cn/articles/10910.html#%E4%B8%80%E8%87%B4%E6%80%A7%E6% ...
分类:
其他好文 时间:
2020-05-13 12:00:41
阅读次数:
49
Hadoop的下载和安装 一:Hadoop的简介 Apache的Hadoop是一个开源的、可靠的、可扩展的系统架构,可利用分布式架构来存储海量数据,以及实现分布式的计算。 Hadoop许使用简单的编程模型在计算机集群中对大型数据集进行分布式处理。可以从单个服务器扩展到数千台机器, 每个机器都提供本地 ...
分类:
其他好文 时间:
2020-04-29 01:25:12
阅读次数:
151
一、Oracle数据库OracleDatabase,又名OracleRDBMS,简称Oracle数据库。Oracle数据库系统是美国Oracle公司(甲骨文)提供的以分布式数据库为核心的一系列软件产品,是目前世界上使用最为广泛的数据库管理系统,具备完整的数据管理功能,真正实现了分布式处理功能。Oracle数据库最新版本为OracleDatabase19c。Oracle数据库12c引入了一个新的多承
分类:
数据库 时间:
2020-04-24 01:07:22
阅读次数:
114
阿帕奇Hadoop Apache?Hadoop®项目开发了用于可靠,可扩展的分布式计算的开源软件。 Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。该库本身不依赖于硬件来 ...
分类:
Web程序 时间:
2020-04-11 09:56:47
阅读次数:
102
大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。下面整理了一些大数据分析能用到的工具,助力大家更好的应用大数据技术。 一、hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高 ...
分类:
其他好文 时间:
2020-03-14 18:32:36
阅读次数:
75
在通常情况下,URL是由系统生成的,通常包括URI路径,多个查询参数,可以对参数进行加密和解密。当人们要分享某个URL,比如短信,邮件,社交媒体,这就需要短URL。 而短网址,顾名思义就是在长度上比较短的网址。简单来说就是帮您把冗长的URL地址缩短成8个字符以内的短网址。 你有没有遇到过短信字符过长 ...
分类:
编程语言 时间:
2020-02-19 23:49:39
阅读次数:
92
官方讲解: Apache Hadoop 为可靠的,可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。 个人理解: Hadoop就是一些模块的相对简称!! 那Hadoop到底指的哪些模块??以及他们是干嘛 ...
分类:
其他好文 时间:
2020-02-15 00:12:46
阅读次数:
135
pandas内存优化分享 缘由 最近在做Kaggle上的wiki文章流量预测项目,这里由于个人电脑配置问题,我一直都是用的Kaggle的kernel,但是我们知道kernel的内存限制是16G,如下: 在处理数据过程中发现会超出,虽然我们都知道对于大数据的处理有诸如spark等分布式处理框架,但是依 ...
分类:
其他好文 时间:
2020-01-20 09:27:00
阅读次数:
74
1、认识Hadoop和Hbase 1.1 hadoop简单介绍 Hadoop是一个使用java编写的Apache开放源代码框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理。Hadoop框架工作的应用程序可以在跨计算机群集提供分布式存储和计算的环境中工作。Hadoop旨在从单一服务 ...
分类:
其他好文 时间:
2020-01-16 13:00:17
阅读次数:
97