mongo 去重 # 上面的案例,表示如何url重复的话,url不更新,其他字典如果数据不一致就会更新。 爬虫案例: ...
分类:
数据库 时间:
2019-05-24 22:27:12
阅读次数:
380
不难看出,姓名有出现重复的现象,少的情况我们可以逐个删除,当数据量达到几百万,几千万的时候估计大家有些发愁了,应该会有些朋友会想到写脚本去筛选然后删除这些重复的数据把,其实可以利用MongoDB中的聚合去删除重复的数据 第一个括号是:相同数据的字段 第二个括号是:操作相对应的文档 然后我依次向大家解 ...
分类:
数据库 时间:
2019-05-24 19:08:07
阅读次数:
330
1、列表是什么 列表是由一系列按特定顺序排列的元素组成。 鉴于列表通常包含多个元素,给列表制定一个表示复数的名称(如letters,digits或names)是个不错的主意。 在Python中,用方括号([ ])来表示列表,并用逗号来分割其中元素。 1.访问列表元素 列表是有序集合,因此要访问列表的 ...
分类:
其他好文 时间:
2019-05-24 18:43:53
阅读次数:
118
1,C 语言中讨论了原生含义,C++ 中有必要考虑前置、后置操作符能够重载,有何问题; 2,值得思考的问题: 1,下面的代码有没有区别?为什么? 1,i++ // i 的值作为返回值,i 自增 1; 2,++i // i 自增 1,i 的值作为返回值; 3,没有使用返回值,由于编译器(不同的编译器都 ...
分类:
编程语言 时间:
2019-05-23 19:36:56
阅读次数:
110
数据库概述 数据存储阶段 【1】 人工管理阶段 缺点 : 数据无法共享,不能单独保持,数据存储量有限 【2】 文件管理阶段 (.txt .doc .xls) 优点 : 数据可以长期保存,可以存储大量的数据,使用简单 缺点 : 数据一致性差,数据查找修改不方便,数据冗余度可能比较大 【3】数据库管理阶 ...
分类:
数据库 时间:
2019-05-20 19:37:20
阅读次数:
141
当表格记录比较多时,常常会有重复数据,而重复记录往往只希望保存一条,因此需要把多余的删除;在 Excel 中,删除重复数据有两种方法,一种是用“删除重复数据”删除,另一种是用“高级筛选”删除;其中前者删除重复数据后会在表格末尾留下空行,而后者不会。如果只想查看重复数据而不必删除,可以给重复数据标记颜 ...
分类:
其他好文 时间:
2019-05-20 13:52:26
阅读次数:
352
python变量存储的缓存机制 1. 在同一文件(模块)里 1.对于整型而言,-5~正无穷范围内的相同值 id一致 2.对于浮点数而言,非负数范围内的相同值 id一致 3.布尔值而言,值相同情况下,id一致 4.复数的id标识都不相同(在 实数+虚数 这样的结构中) 5.字符串而言,字符串值相同情况 ...
分类:
编程语言 时间:
2019-05-19 19:23:21
阅读次数:
137
1、什么是分词器 作用:切分词语,normalization(提升recall召回率),如给你一段句子,然后将这段句子拆分成一个一个的单个的单词,同时对每个单词进行normalization(时态转换,单复数转换),分词器 recall,召回率:搜索的时候,增加能够搜索到的结果的数量 3个功能: 一 ...
分类:
其他好文 时间:
2019-05-19 18:16:21
阅读次数:
114
网址 https://www.acwing.com/solution/AcWing/content/2069/ 题目描述给定一个长度为n的整数序列,请找出最长的不包含重复数字的连续子序列,输出它的长度。 算法1(枚举) O(n)O(n)滑动窗口 记录窗口的起始点 l r同时使用一个数组或者map记录 ...
Disk Drill mac 中文版是mac平台上一款超强的mac数据恢复软件,它可以帮助您扫描内外置磁盘恢复被删除的数据。Disk Drill for mac 特别版拥有超强大的恢复功能,可以从所有存储设备中扫描并恢复数据,完美恢复数据。而且Disk Drill pro支持HFS、HFS+、FAT ...
分类:
系统相关 时间:
2019-05-17 13:46:07
阅读次数:
163