GAN原理介绍 GAN 来源于博弈论中的零和博弈,博弈双方,分别为生成模型与判别模型。 生成模型G捕捉样本数据的分布,用服从某一分布例如正太,高斯分布的噪声z来生成一个类似真实训练数据的样本,追求的效果是越像真实越好。 判别模型是一个二分类器,判别样本来自于训练数据还是真实数据的概率。如果来自于真实 ...
分类:
其他好文 时间:
2021-06-20 18:06:47
阅读次数:
0
一、seaborn介绍 seaborn是python中基于Matplotlib包具有更多可视化效果和耿玉梅的可视化模块,可以说Matplotlib的封装。当我们想要探索单个或者一对数据分布上的特征时,可以使用seaborn中内置的若干函数对数据的分布进行多种多样的可视化。 二、kdeplot 对于单 ...
分类:
其他好文 时间:
2020-09-14 18:57:17
阅读次数:
33
这波差点放弃了……难度大+最近工作任务急,到家只想休息。 今天看了B站2、3节视频,讲的是Go语言、线程、RPC、GFS系统……整体就是在说线程的好处坏处,GFS是怎么备份数据的。分布式系统遇到的问题。 让我联想到了TCP/IP ,为什么要把数据分成许多个小块?可能就是为了让传输速度更快吧,这也是种 ...
分类:
编程语言 时间:
2020-08-28 12:03:38
阅读次数:
59
##Task2 数据读取与数据分析 ####1.学习目标 学习使用Pandas读取赛题数据 分析赛题数据的分布规律 ####2.数据读取 代码示例: import pandas as pd file_dir = "nlp_data_list" train_df = pd.read_csv("./{} ...
分类:
其他好文 时间:
2020-07-23 01:45:01
阅读次数:
80
机器学习领域有个很重要的假设:独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。神经网络学习过程本质上是为了学习数据的分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低;另一方面,一旦在mini-batch ...
分类:
其他好文 时间:
2020-07-10 11:32:44
阅读次数:
57
承接上一篇HDFS实验,学习入门课后的实验真的是以简单为主,后续估计得每个组件一一击破。 Hbase介绍 Hbase是一个分布式的、面向列的开源数据库,源于Google的一篇论文《BigTable:一个结构化的数据的分布式存储系统》。HBase中确定一个元素,需要提供表名,行,列族名,列。因为是以列 ...
分类:
其他好文 时间:
2020-07-05 10:24:53
阅读次数:
74
Kafka 的核心架构原理。 ##Kafka 分布式存储架构 那么现在问题来了,如果每天产生几十 TB 的数据,难道都写一台机器的磁盘上吗?这明显是不靠谱的啊! 所以说,这里就得考虑数据的分布式存储了,我们结合 Kafka 的具体情况来说说。 在 Kafka 里面,有一个核心的概念叫做“Topic” ...
分类:
其他好文 时间:
2020-07-01 17:26:55
阅读次数:
67
恢复内容开始 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。 MapReduce的Shuffle ...
分类:
其他好文 时间:
2020-06-08 19:17:29
阅读次数:
88
分布式一致性分布式场景下,多个服务同时对服务一个流程,比如电商下单场景,需要支付服务进行支付、库存服务扣减库存、订单服务进行订单生成、物流服务更新物流信息等。如果某一个服务执行失败,或者网络不通引起的请求丢失,那么整个系统可能出现数据不一致的原因。上述场景就是分布式一致性问题,追根到底,分布式一致性的根本原因在于数据的分布式操作,引起的本地事务无法保障数据的原子性引起。分布式一致性问题的解决思路有
分类:
其他好文 时间:
2020-06-06 09:16:57
阅读次数:
59
直方图,一种特殊类型的列的统计信息,它能提供表中列的更详细的数据分布信息,直方图将值存放于桶(buckets)中。基于不同值的数目和数据的分布,数据库选择要创建的直方图类型,直方图的类型有如下几种: 频率直方图和顶频直方图:Frequency histograms and to frequency ...
分类:
其他好文 时间:
2020-05-27 20:15:33
阅读次数:
49