数据科学的基础概念
1数据
1.1数据模型
概念模型:用户视角—各种文档,业务流程图,er图等
逻辑模型:数据科学家视角—关系模型,层次模型,网状模型 key-value,key-document,key-column和图模型等,常用格式:关系表,csv,json,xml,rdf等
物理模型:机器视角--索引,分区,物化视图,事务等
1.2数据维度
按结构化程度分:结构化数据,半结构化数据,非结构化数据。
按数据的加工程度分:零次数据,一次数据,二次数据,三次数据
按数据的抽象或封装程度分:数据,元数据,数据对象
2大数据
2.1内涵与特征
内涵:也就是一种大数据现象
特征:Volume(数据量大),Variety(类型多),Value(价值密度低),Velocity(速度快)
2.2常见基本术语
数据化,数据柔术,数据改写,数据打磨,数据洞见,数据分析式思维模式,数据驱动,数据密集型,数据空间,关联数据
3数据科学概述
3.1研究目的
大数据及其运动规律的揭示
从数据到智慧的转化
数据洞见
数据业务化
数据驱动型决策支持
数据产品研发
数据生态系统建设
3.2理论基础
数学与统计知识
领域实务知识
黑客精神与技能
3.3:研究内容
数据科学的理论基础
数据预处理
数据计算
数据管理
3.4基本流程
数据化—数据(预)处理—探索性分析—数据分析与洞见—结果展示--提供数据产品
3.5数据科学的主要原则
资产原则
DIKUW原则:Data,Information,Knowledge,Understanding,Wisdom
黑客原则
协同原则
从简原则
经验原则
第四范式原则
数据业务化原则
数据驱动原则
数据预处理原则