练习: 输出一个a-z的随机集合,然后去重,按照a-z的顺序进行排列 方法一: print(sorted(set([chr(i) for i in range(97,123)]))) 方法二: import numpy as npa1=np.arange(97,123)b1=[chr(i) for ...
分类:
编程语言 时间:
2021-03-09 13:54:55
阅读次数:
0
1.union 和 union all 前者可以去重 select sex,address from test where dt='20210218' union all select sex,address from test where dt='20210218'; + + +--+ | sex ...
分类:
其他好文 时间:
2021-03-08 14:17:52
阅读次数:
0
一.对两张表的结果进行合并起来,会有临时 union: 对两个结果集进行并集操作, 不包括重复行,相当于distinct, 同时进行默认规则的排序; (会去重,而去重所需要的开销很高,) union all: 对两个结果集进行并集操作, 包括重复行, 即所有的结果全部显示, 不管是不是重复;(不会去 ...
分类:
数据库 时间:
2021-03-02 11:44:24
阅读次数:
0
一 布隆过滤器简介 bloomfilter:是一个通过多哈希函数映射到一张表的数据结构,能够快速的判断一个元素在一个集合内是否存在,具有很好的空间和时间效率。(典型例子,爬虫url去重) 原理: BloomFilter 会开辟一个m位的bitArray(位数组),开始所有数据全部置 0 。当一个元素 ...
分类:
其他好文 时间:
2021-03-01 13:19:00
阅读次数:
0
pyspark有个bug, 虽然下面代码写了 write.mode("overwrite")但是不生效 spark.conf.set("hive.exec.dynamic.partition.mode", "constrict") db_df.repartition(1).write.mode("o ...
分类:
其他好文 时间:
2021-02-23 14:14:20
阅读次数:
0
MySQL概述 SQL、DB、DBMS分别是什么?他们之间的关系 DB:DataBase(数据库,数据库实际上在硬盘上以文件的形式存在) DBMS:DataBase Management System(数据库管理系统,常见的有:MySQL,Oracle,DB2,Sybase,SqlServer... ...
分类:
数据库 时间:
2021-02-20 11:43:40
阅读次数:
0
set 其作用是去重,排序。 set常用操作: #include<set> //声明一个set容器 set<typename> s;//定义,typename为数据类型,假设定义了一个容器s //常用操作: s.insert(x);//将x插入set容器中,并自动排序,去重 s.find(value ...
分类:
其他好文 时间:
2021-02-16 12:32:19
阅读次数:
0
通常会分为两种情况,一种是去除完全重复的行数据,另一种是去除某几列重复的行数据,就这两种情况可用下面的代码进行处理。 1. 去除完全重复的行数据 data.drop_duplicates(inplace=True) 2. 去除某几列重复的行数据 data.drop_duplicates(subset ...
分类:
编程语言 时间:
2021-02-15 12:17:56
阅读次数:
0
UOJ87 mx的仙人掌 这里没有用传统的方点外接圆点的做法,而是方点虚树上儿子跳到方点所在环上单调队列处理,本质上是一样的. code //爽! #include<bits/stdc++.h> using namespace std; typedef long long ll; const int ...
分类:
其他好文 时间:
2021-02-06 12:15:50
阅读次数:
0
一 介绍 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis,然后重写Scrapy的Scheduler,让新的Schedul ...
分类:
其他好文 时间:
2021-02-02 11:24:43
阅读次数:
0