一、大数据预处理的几个步骤 1.数据预处理 2.数据清洗 3.数据集成 4.数据归约 5.数据变换 6.数据离散化 7.大数据预处理 二、数据预处理 现实中的数据大多是“脏”数据: ①不完整 缺少属性值或仅仅包含聚集数据 ②含噪声 包含错误或存在偏离期望的离群值 比如:salary=“-10”,明显 ...
分类:
其他好文 时间:
2020-04-03 22:15:48
阅读次数:
171
一、事务的并发问题 1、脏读:事务A读取了事务B更新的数据,然后B回滚操作,那么A读取到的数据是脏数据 2、不可重复读:事务 A 多次读取同一数据,事务 B 在事务A多次读取的过程中,对数据作了更新并提交,导致事务A多次读取同一数据时,结果 不一致。 3、幻读:系统管理员A将数据库中所有学生的成绩从 ...
分类:
数据库 时间:
2020-03-31 12:12:55
阅读次数:
101
问题描述: 一直遇到创建site collection失败,然后在CA中View Site Collection中能看见Site Collection,但是点击url View Detail,Detail是空白,访问URL 404提示url不存在 问题解决: 之前只是知道是config db中有脏数 ...
分类:
数据库 时间:
2020-03-16 12:45:19
阅读次数:
66
一、InnoDB架构 InnoDB架构 Memory Buffer Pool 用途 缓存InnoDB表、索引以及其他辅助buffer 组成 Data/Index Page Cache Change Buffer 用途 当page不在BF中时,缓存非唯一索引pages的变更(DML),避免从磁盘读取非 ...
分类:
数据库 时间:
2020-03-01 00:14:12
阅读次数:
73
此处为csv至mysql代码 { "job": { "content": [ { "reader": { "name": "txtfilereader", "parameter": { "path": ["D:/file/test.csv"], "encoding":"gbk", "column": ...
分类:
其他好文 时间:
2020-02-29 20:41:02
阅读次数:
873
其实还是得结合业务来思考,我这里给几个思路: 比如你拿个数据要写库,你先根据主键查一下,如果这数据都有了,你就别插入了,update 一下好吧。比如你是写 Redis,那没问题了,反正每次都是 set,天然幂等性。比如你不是上面两个场景,那做的稍微复杂一点,你需要让生产者发送每条数据的时候,里面加一 ...
分类:
数据库 时间:
2020-02-26 01:51:51
阅读次数:
110
[TOC] 二次封装 Response 总结: 自定义继承 Response ,重写 init 方法,在内部格式化 data 数据库关系分析 总结: 断关联 有点:提升增删改操作效率,不允许查效率 缺点:增删改操作可能会导致脏数据,所以需要通过逻辑或是事务来保证 ORM 操作关系 总结: 1. 外键 ...
分类:
其他好文 时间:
2020-02-21 19:53:22
阅读次数:
54
什么是线程安全 线程安全就是多线程访问时,采用了加锁机制,当一个线程访问该类的某个数据时,进行保护,其他线程不能进行访问直到该线程读取完,其他线程才可使用。不会出现数据不一致或者数据污染。 线程不安全就是不提供数据访问保护,有可能出现多个线程先后更改数据造成所得到的数据是脏数据。 例如:String ...
分类:
编程语言 时间:
2020-02-17 16:06:20
阅读次数:
78
隔离级别的实现原理 https://www.cnblogs.com/wade-luffy/p/8686883.html#_label7 目录 排他锁(Exclusive Lock) 共享锁(Share lock) “丢失修改”的问题 读未提交(最低的事务隔离级别)-脏数据 读已提交-不可重复读 可重 ...
分类:
其他好文 时间:
2020-02-14 18:48:43
阅读次数:
68
查看方式:1、sysctl-a2、cat/proc/sys/vm/overcommit_memory一、overcommit_memory内核源码中的介绍:Thisvaluecontainsaflagthatenablesmemoryovercommitment.Whenthisflagis0,thekernelattemptstoestimate(估算)theamountoffreememory
分类:
系统相关 时间:
2020-02-06 18:13:07
阅读次数:
124