以前对事务其实也有一定了解,事务最重要的应该就是。1.事务特性,2.事务的传播行为,3.事务的隔离级别。 但是仅仅是皮毛。。。那些定义而已。从别人的博客直接复制一下吧。哈哈哈,一搜都能搜到的。定义放在后面,前面主要说一下遇到的问题与解决。 问题: 以前在使用事务的时候,一般都是直接在方法上加@Tra ...
分类:
其他好文 时间:
2020-06-08 19:25:26
阅读次数:
67
恢复内容开始 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。 MapReduce的Shuffle ...
分类:
其他好文 时间:
2020-06-08 19:17:29
阅读次数:
88
一、收集 执行NewOutputCollector对象的write方法就开启了对map输出数据的收集过程: ? collector是一个MapOutputCollector类型的变量,它是实际执行收集数据功能的对象载体: private final MapOutputCollector<K,V> c ...
分类:
其他好文 时间:
2020-06-08 18:53:43
阅读次数:
64
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不好使,八成是正则表达式那儿匹配不到了,请更改一下正则,当然最主要的还是帮助大家理解思路。 本篇目标 ...
分类:
编程语言 时间:
2020-06-08 15:06:09
阅读次数:
73
本节中,我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容。requests比urllib使用更加方便,而且目前我们还没有系统学习HTML解析库,所以这里就选用正则表达式来作为解析工具。 1. 本节目标 本节中,我们要提取出猫眼电影TOP100的电影名称、时间、评分、图片等信 ...
分类:
编程语言 时间:
2020-06-08 14:16:46
阅读次数:
62
1.Pod资源管理1.1resource定义容器运行过程中需要分配所需的资源,如何与cggroup联动配合呢?答案是通过定义resource来实现资源的分配,资源的分配单位主要是cpu和memory,资源的定义分两种:requests和limits,requests表示请求资源,主要用于初始kubernetes调度pod时的依据,表示必须满足的分配资源;limits表示资源的限制,即pod不能超过
分类:
Web程序 时间:
2020-06-08 00:57:29
阅读次数:
84
做为一个业务马拉松爱好者和一个不太专业的IT从业者(十多年开发不会,业务略懂,没形成自己的价值体系,啥啥没心得,得过且过十几年),在马拉松的时候想到了这个对照关系。 那就随便写写,看到了博君一笑。 hadoop的map阶段,是通过transform操作,将数据进行转换,这个阶段数据都是在各个机器上, ...
分类:
其他好文 时间:
2020-06-08 00:39:55
阅读次数:
61
高可用概述 # 什么是高可用 一般是指2台机器启动着完全相同的业务系统,当有一台机器down机了,另外一台服务器就能快速的接管,对于访问的用户是无感知的。 # 高可用常用软件 硬件:F5 软件:keepalived # keepalived如何实现高可用 keepalived软件是基于VRRP协议实 ...
分类:
其他好文 时间:
2020-06-07 21:14:13
阅读次数:
59
一、Hive的压缩和存储 1,MapReduce支持的压缩编码 压缩格式 工具 算法 文件扩展名 是否可切分 对应的编码/解码器 DEFLATE 无 DEFLATE .deflate 否 org.apache.hadoop.io.compress.DefaultCodec Gzip gzip DEF ...
分类:
其他好文 时间:
2020-06-07 19:08:04
阅读次数:
65
参考视频链接:分析Ajax请求并抓取今日头条街拍美图 参考博文链接:【Python爬虫实战】2020最新无错误,头条爬取图片实战,Ajax异步加载,附有源码 老规矩,先上代码。主要分为 toutiao.py 和 config.py 。 config.py MONGO_URL = 'localhost ...
分类:
其他好文 时间:
2020-06-07 16:25:06
阅读次数:
97