思路:从简单的排序谈到BitMap算法,再谈到数据去重问题,谈到大数据量处理利器:布隆过滤器。 情景1:对无重复的数据进行排序 @给定数据(2,4,1,12,9,7,6)如何对它排序? 方法1:基本的排序方法包括冒泡,快排等。 方法2:使用BitMap算法 方法1就不介绍了,方法2中所谓的BitMa ...
分类:
其他好文 时间:
2019-02-25 18:48:05
阅读次数:
143
索引 mongodb mysql redis的区别和使用场景 爬虫数据去重 实现增量式爬虫 使用数据库建立关键字段(一个或多个)建立索引进行去重 根据url地址进行去重 使用场景 url地址对应的数据不会变的情况下,url地址能够唯一判别一个条数据的情况 思路 url存在redis中 拿到url地址 ...
分类:
数据库 时间:
2019-02-19 13:31:11
阅读次数:
191
一 利用HashSet进行去重 //定义一个数组;有几个重复项 int[] testarray = {1,2,33,4,2,3,44,5,222,3}; //利用HashSet对数组数据去重 Set<Integer> set = new HashSet(); for(int i=0;i<testar ...
分类:
编程语言 时间:
2019-01-22 15:07:59
阅读次数:
191
在启动一个应用的时候,发现其中有一处数据加载要数分钟,刚开始以为是需要load的数据比较多的缘故,查了一下数据库有6条左右,但是单独写了一个数据读取的方法,将这6万多条全部读过来,却只需要不到10秒钟,就觉得这里面肯定有问题,于是仔细看其中的逻辑,其中有一段数据去重的逻辑,就是记录中存在某几个字段相 ...
分类:
其他好文 时间:
2019-01-20 18:55:56
阅读次数:
150
一、基础 1)反爬:useragent/cookie/代理ip/js生成/需要登陆/refer/2)url得到方式:network/search3)提取方式:正则/xpath/bs4/josn/jsonpath/css4)验证码处理:手动/打码平台/tesseract识别5)数据去重:数据库分组去重 ...
分类:
其他好文 时间:
2019-01-11 21:21:22
阅读次数:
213
基础问题 1. 几类数据结构的定义和区别是什么? 2. 容器的数据结构底层是怎么实现的?怎么进行扩容? 3. 容器的线程安全怎么实现? 一、List容器 数据有序,允许重复数据,线程不安全。 1. linkedList 底层用双向链表实现,操作速度快,可以在头、尾、[n]操作数据。 2. Array ...
分类:
编程语言 时间:
2018-11-23 20:48:06
阅读次数:
205
项目说明:【抓取网页数据】项目介绍:采集指定网页内容,通过模式匹配匹配到要采集的数据格式返回到数组中项目步骤:1.创建匹配模式表2.请求网页连接3.过滤文本,并对数据去重处理4.显示结果效果展示:完整代码:importconsole;/*项目说明:【抓取网页数据】项目介绍:采集指定网页内容,通过模式匹配匹配到要采集的数据格式返回到数组中项目步骤:1.创建匹配模式表2.请求网页连接3.过滤文本,并对
分类:
Web程序 时间:
2018-11-13 20:47:41
阅读次数:
204
年初时,写过一篇去重的,在小表中还能用用,在大表中真的是效率低下,现在给了一次优化 "https://www.cnblogs.com/jarjune/p/8328013.html" 继上一篇文章 方法三: 之后发现删除的效率还是挺低,又优化成 方法三(优化): 综上,方法三(优化)是目前在用的去重。 ...
分类:
数据库 时间:
2018-11-13 14:19:21
阅读次数:
184
<!-- flowchart 箭头图标 勿删 --> 平时,我们将c#中的Distinct大多用于对数组去重,一般数组为基础的数据类型,例如 int,string.也可以用于对象去重,我们看看C#对Distinct方法的定义: 有重载,第一个参数都加了this,是拓展方法,有关拓展方法,请百度了解。 ...
分类:
其他好文 时间:
2018-10-24 16:00:12
阅读次数:
155
尴--尬--一--比 记录今天: 知识点一:distinct 去重 例如:select distinct fd_name from sys_org_element 查出fd_name去除重复 知识点二: like 为模糊匹配,可以用%替代所有,用_代替单字符 mysql中rlike为正则匹配 ora ...
分类:
数据库 时间:
2018-10-22 20:13:36
阅读次数:
238