结构化数据:json,xml等 处理方式:直接转化为python类型 非结构化数据:HTML 处理方式:正则表达式、xpath #json.dumps 实现python类型转化为json字符串 #indent实现换行和空格 #ensure_ascii=False实现让中文写入的时候保持为中文 jso ...
分类:
编程语言 时间:
2020-04-06 20:26:45
阅读次数:
78
1、准备数据 import numpy as np import pandas as pd import matplotlib.pyplot as plt import tensorflow as tf from tensorflow.keras import models,layers dftra ...
分类:
其他好文 时间:
2020-04-05 18:16:13
阅读次数:
337
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL?如果大家了解Hive的话,应该知道它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRedu ...
分类:
数据库 时间:
2020-04-05 13:33:32
阅读次数:
113
什么是数据库? 数据库是一批数据构成有序集合,存放在结构化数据表中。 特点:实现数据共享、减少数据冗余、特定数据类型、统一数据控制。 表: 是二维数组集合,用来储存数据和操作数据的逻辑结构。 数据类型: 决定数据在计算机中的存储格式。 主键: 用唯一标识表中的每一条数据。不能重复、不能为空。 什么是 ...
分类:
数据库 时间:
2020-03-29 10:42:19
阅读次数:
76
1. NoSQL简介 NoSQL(NoSQL = Not Only SQL ),非关系型数据库,也意"not only SQL"。 通过应用实践证明,关系模型是非常适合于客户服务器编程,远远超出预期的利益,今天它是结构化数据存储在网络和商务应用的主导技术。 1.1 RDBMS vs NoSQL RD ...
分类:
数据库 时间:
2020-03-28 00:51:53
阅读次数:
106
微软在Ignite2019大会上正式发布了新一代数据库产品SQLServer2019。使用统一的数据平台实现业务转型SQLServer2019附带ApacheSpark和HadoopDistributedFileSystem(HDFS),可实现所有数据的智能化。SQLServer2019的亮点SQLServer是数据集成的中心。通过SQLserver和Spark为结构化和非结构化数据提供转型洞察力
分类:
数据库 时间:
2020-03-26 10:48:50
阅读次数:
131
IndexedDB是一种能在浏览器中持久的存储结构化数据的对象数据库,并且为web应用提供了丰富的查询能力。
分类:
数据库 时间:
2020-03-19 15:20:24
阅读次数:
99
什么是数据湖? 数据湖是一个存储库,可以存储大量结构化、半结构化和非结构化数据。它是一个以本机格式存储每种类型数据的地方,不受帐户大小或文件的固定限制。它提供了高数据量来提高分析性能和本地集成。 数据湖就像一个大容器,非常类似于真实的湖泊和河流。就像在一个湖中有多个支流,一个数据湖有结构化数据,非结 ...
分类:
其他好文 时间:
2020-03-14 10:58:47
阅读次数:
99
什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe ...
分类:
数据库 时间:
2020-03-11 10:46:14
阅读次数:
68
【1】数据的定义: 【2】数据的语义: 【3】数据之间的联系: 【注】结构化数据:如:二维表数据 半结构化数据:如:html文档(数据的结构和内容混在一起,没有明显的区分) 非结构化数据:如:所有格式的文档,文件,文本,图像,各类报表,音频,视频, 【注】传统的关系数据库主要是面向事物处理,传统的关 ...
分类:
数据库 时间:
2020-03-01 12:37:05
阅读次数:
83