数据采集利用各种手段获取数据,数据样式不限制,但一般而言是形如excel或者csv这样的表格格式。数据采集:urllib,requests数据解析:Xpath,BS4,正则表达式数据持久化存储:pd.to_csv,pd.to_excel,MySQL,Redis数据预处理一般而言,数据分析和数据挖掘领域的处理的数据都是海量的数据,这样的数据难免会出现问题。数据预处理占到数据挖掘工作的60%,这是最重
分类:
编程语言 时间:
2020-05-03 00:58:59
阅读次数:
67
什么是事务 1.概述:事务指的是逻辑上的一组操作,组成这组操作的单元,要不同时成功,要不同时失败 2.作用:保证在一个事务中,多次SQL操作要么同时成功,要么同时失败 JDBC操作事务 事务管理流程 1.开启事务 2.执行多条SQL语句,如果没有出现错误,提交事务,将数据持久化存储到数据库 3.执行 ...
分类:
数据库 时间:
2020-04-17 23:41:45
阅读次数:
100
十,Redis的RDB存储方式 10.1 redis的运行方式说明 redis如果提供缓存服务,可以关闭所有持久化存储,如此一来redis重启后所有数据会丢失 开启rdb或aof持久化存储,能把redis中的数据持久化到磁盘中。 rdb和aof对性能都有影响,所以建议持久化的操作在从库上进行 10. ...
分类:
数据库 时间:
2020-04-17 00:20:43
阅读次数:
194
一,redis概述与实验环境说明 1.1 什么是redis redis是一种内存型的NoSQL数据库,优点是快,常用来做缓存用 redis存储数据的方法是以key-value的形式 value类型支持字符串,列表,哈希等多种类型 1.2 环境说明 主机名 IP 用途 redis01 192.168. ...
分类:
数据库 时间:
2020-04-17 00:03:32
阅读次数:
92
Scrapy框架(爬虫框架) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化存储等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、 ...
分类:
其他好文 时间:
2020-04-15 21:27:52
阅读次数:
95
PVC 描述的,是 Pod 想要使用的持久化存储的属性,比如存储的大小、读写权限等。 PV 描述的,则是一个具体的 Volume 的属性,比如 Volume 的类型、挂载目录、远程存储服务器地址等。 StorageClass 的作用,则是充当 PV 的模板。并且,只有同属于一个 StorageCla ...
分类:
其他好文 时间:
2020-04-14 16:36:50
阅读次数:
78
缓冲流 学习了基本的一些流,作为IO流的入门,今天我们要见识一些更强大的流。比如能够高效读写的缓冲流,能够转换编码的转换流,能够持久化存储对象的序列化流等等。这些功能更为强大的流,都是在基本的流对象基础之上创建而来的,就像穿上铠甲的武士一样,相当于是对基本流对象的一种增强。 1.1 概述 缓冲流,也 ...
分类:
其他好文 时间:
2020-04-14 12:35:57
阅读次数:
63
requests模块 爬虫中一个基于网络请求的模块 pip install requests 作用:模拟浏览器发起请求 编码流程: 1 . 指定url 2 . 发起请求 3 . 获取响应数据(爬取到的页面源码数据) 4 . 进行持久化存储 简单例子: 实现一个简易网页采集器 基于搜狗针对指定不同的关 ...
分类:
其他好文 时间:
2020-04-12 20:19:35
阅读次数:
78
docker容器, 再启动之后 我们可以对其进行 修改删除等等。如果是一个数据库的容器, 里面的数据 不想随着这个容器的消失, 而消失。 就需要持久化数据存储。 Data Volume 这是 docker hub 上面 mysql 的Dockerfile 这里的 VOLUME 意思就是, 将产生的数 ...
分类:
其他好文 时间:
2020-04-11 22:09:39
阅读次数:
73
周数/细项|第五周 | 第六周 | 第七周 | 第八周 : : |: : | : : | : : | : : 所花时间(包括上课)| 4+4+3+3=14 |4|4+3| 4+5| | 代码量(行) | 约1000行| 100行 | 约1000行 |约1000行 | 博客量(篇) | 3| 1 | ...
分类:
其他好文 时间:
2020-04-11 20:17:08
阅读次数:
64