本文参考 在阅读了《Spark快速大数据分析》动物书后,大概了解到了spark常用的api,不过书中并没有给予所有api详细的案例,而且现在spark的最新版本已经上升到了2.4.5,动物书中的spark版本还停留在1.2.0版本,所以就有了这篇文章,在最新的2.4.5版本下测试常用的api 由于s... ...
当我写下这篇文章的时候,我的内心是激动的,这是因为,自从去年6月份写了文章 "利用关系抽取构建知识图谱的一次尝试" 后,我就一直在试图寻找一种在开放领域能够进行三元组抽取的办法,也有很多读者问过我这方面的问题,今天,笔者将给出答复,虽然不是正确答案(现在也没有正确答案),但至少,我写下了自己的答案。 ...
分类:
其他好文 时间:
2020-03-21 21:06:26
阅读次数:
148
数据库转化为3NF以及BCNF 转换为3NF保持函数依赖 例题:关系模型R,U={A,B,C,D,E}, F={A→BC,ABD→CE,E→D} 1. 首先最小化处理得到$F=A\rightarrow B,A\rightarrow C,AD\rightarrow E,E\rightarrow D$ ...
分类:
数据库 时间:
2020-03-21 18:03:42
阅读次数:
303
心得体会: 初识数据结构,目前的理解是它能帮助我从内存的角度理解编程语言。受限于内存的大小,我们不得不思考问题解决的算法。与现实一致,实际问题的处理也总面临着时空和空间的约束。这个时候,高效的数据组织方式就显得极其重要了,数据结构就是学习如何组织数据。数据结构是数据之间相互存在的一种或多种特定的关系 ...
分类:
其他好文 时间:
2020-03-21 16:30:51
阅读次数:
51
一.什么是泛型: 泛型其实指得就是参数化类型,使得代码可以适应多种类型,它主要目的是指定容器要持有什么类型的对象 java的泛型是停留在编译阶段的,jvm在对待泛型数据时,依然把它们看成object类型的,在使用这些元素时,jvm会自动帮助开发者进行类型转化二.泛型的优点: 1.保证了类型的安全: ...
分类:
编程语言 时间:
2020-03-21 14:45:45
阅读次数:
50
谁在消耗cpu? 用户+系统+IO等待+软硬中断+空闲 祸首是谁? 用户 用户空间CPU消耗,各种逻辑运算 正在进行大量tps 函数/排序/类型转化/逻辑IO访问… 用户空间消耗大量cpu,产生的系统调用是什么?那些函数使用了cpu周期? IO等待 等待IO请求的完成 此时CPU实际上空闲 如vms ...
分类:
数据库 时间:
2020-03-21 13:15:24
阅读次数:
101
思路比较新奇,但是想到了题目还是挺好做的 看到最小和次数可以想到最短路.看到数据范围可以想到必须在跑dij的时候记录次数.由于要记录的是最短路的方案,易证如果一种药有一种更便宜的配置方法,我们不会记录贵的那种. 于是,我们可以将这道题转化为一个用堆优化的dij.如果一种药水在堆顶,那么这种药水不可能 ...
分类:
其他好文 时间:
2020-03-21 09:37:36
阅读次数:
68
windows下bison的安装与示例 Bison是一个语法分析器,bison和flex配合使用 可以将用户提供的语法规则转化成一个语法分析器 利用Bison,可以开发各种语言解释器 Bison的输入文件以.y作为后缀名 其语法文件的一般格式如下: %{ Prologue %} Bison decl ...
import hashlib m3 = hashlib.md5() #定义加密方式 src = bytes("123456", encoding="utf-8") #定义一个需要加密的字符串转化成二进制,需要设定解码 m3.update(src) print(m3.hexdigest()) #结果如 ...
分类:
编程语言 时间:
2020-03-20 12:52:40
阅读次数:
56
一、连续型变量1.1 连续变量无量纲化(1)无量纲化: 使不同规格尺度的数据转化统一规格尺度(将数据单位统一)(2)无量纲化方法:标准化, 区间所方法 标准化: 将连续性变量转变为 均值0 标准差1 的变量 代码: #对 Amount字段--均值为0,方差为1标准化from sklearn impo ...
分类:
编程语言 时间:
2020-03-20 10:35:16
阅读次数:
88