数据算法 Hadoop Spark大数据处理技巧 ...
分类:
编程语言 时间:
2020-07-13 18:11:22
阅读次数:
80
一,kafka是什么 kafka是一个分布式的发布-订阅消息系统,能够支持海量的数据传递,在高效和实时的消息处理业务系统中,kafka都有广泛应用,kafka将消息持久化到磁盘中,并且创建了备份保存了数据的安全,kafka在保证了较高的处理速度的同时,又能保证数据处理的低延迟和数据的零丢失。 二,特 ...
分类:
其他好文 时间:
2020-07-13 11:53:56
阅读次数:
60
CNN实战--mnist dataprocessing 我一般把数据处理单独写一个函数 因为网上大多数都是直接在线下载做学习,导致与实际应用的情况不相符,所以我这是直接下载下来并读取,处理数据 这个数据类型文档说的很清楚 雾 是图片二进制存储的(图片大小28*28),并且开头有一个magic num ...
分类:
其他好文 时间:
2020-07-12 20:27:37
阅读次数:
90
写在前面 今天想写一篇使用Nginx如何生成缩略图的文章,想了半天题目也没想好,这个题目还是一名读者帮我起的。起因就是这位读者最近出去面试,面试官正好问了一个Nginx如何生成缩略图的问题。还别说,就是这么巧呀!!就冲这标题,也要写一篇干货满满的技术好文!! 关于Nginx的安装,小伙伴们可以参考《 ...
分类:
其他好文 时间:
2020-07-12 16:41:01
阅读次数:
61
Apache Flink是近几年大火的数据处理引擎。受到各大厂商的推崇并且已经应用与实际的业务场景中。很多公司在进行选型的时候都会选择Apache Flink作为选型的对象。
分类:
编程语言 时间:
2020-07-12 14:50:44
阅读次数:
63
对于海量的数据处理问题是一项艰巨而复杂的任务。原因有以下几个方面: 一、数据量过大,数据中什么情况都可能存在 如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什 ...
分类:
数据库 时间:
2020-07-12 12:12:37
阅读次数:
80
sklearn实践(二):决策树 一、数据处理 继续上次聚类的练习,基于稍作处理的数据,在决策树中,只需划分一下训练集和测试集即可 这里用到的是 sklearn.model_selection.train_test_split() 函数原型:sklearn.model_selection.``tra ...
分类:
其他好文 时间:
2020-07-12 12:08:46
阅读次数:
61
sklearn实践(一):kmeans聚类 实践往往比理论要经历更多的挫折。 一、数据处理 官方给的案例里用的都是sklearn自带的数据集,只要import之后便万事大吉,但实际中我们采用的数据往往没有那么规整,也不是可以一下就fit到模型里去的。经过这次经历,打算整理一下大致思路,关于更高级、深 ...
分类:
其他好文 时间:
2020-07-12 11:56:48
阅读次数:
59
BI数据处理逻辑, 带默认值参数的函数, lambda 匿名函数等 ...
分类:
其他好文 时间:
2020-07-12 00:45:18
阅读次数:
86
写在前面 本系列目的:一篇文章,不求鞭辟入里,但使得心应手。 迭代是数据处理的基石,在扫描内存无法装载的数据集时,我们需要一种惰性获取数据的能力(即一次获取一部分数据到内存)。在Python中,具有这种能力的对象就是迭代器。生成器是迭代器的一种特殊表现形式。 个人认为生成器是Python中最有用的高 ...
分类:
编程语言 时间:
2020-07-11 20:58:15
阅读次数:
56