标签:目标 机器学习算法 数据接口 文档 而不是 提取 splay excel 性能
数据:
数据科学(英语:Data Science),又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。
它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。
数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
from IPython.display import Image
from IPython.core.display import HTML
Image(url= "https://images.gitbook.cn/305484d0-ddb3-11e8-a810-c56af2994f6b")
项目介绍:
开发一套能够评价学生学习情况的软件系统
项目分析:
理解商业问题 !!1
对相应的业务有所了解
从业务中梳理出与数据工程项目有关的环节,特别是将业务中某些问题转化为数据问题。
问如下几个问题:
哪些类型的数据能够支持“过程性评价”?
通过什么渠道可以获取这些数据?
所获得的数据可靠程度如何?
理解商业问题,把通常的业务人员习惯用的描述性语言,转变为具体的科学性语言,才能对某些环节作出“数据性”回复,实现“数据驱动决策”目标。
过程性评价能够对学生的成长发展提供指导,而不是一考定终身。
学生成长发展的指标是什么?是考试成绩?心理发展?身体状况?
如果是考试成绩,是周考试成绩?月考试成绩?学期末考试成绩?
如果是心理发展,用什么量表测量?还是凭借主观观察?
如果是身体状况,又要测量哪些项目?
衡量学生发展的周期是多长?学年?学期?月?周?日?小时?每次作业?
从数据层面解决上述问题,就必须把有关数据的问题提炼出来,用准确的语言表述,然后考查业务是否能够支持这些问题
数据采集:
数据收集和前述理解商业问题,两者之间是一个互动关系。研究收集数据的方法,也是对商业问题的再度理解
数据收集还包含着从某个数据集中获得数据的含义。这里所说的数据集,包括但不限于:
数据库,包括关系型和非关系型
数据接口(API)
保存数据的文件,比如 Excel、CSV 文档等
从这些数据集中读取到数据?需要的技能应该是:
熟练使用 SQL
熟练使用某种编程语言(本达人课使用的是 Python 语言)
数据清洗 + 特征 工程:
数据采集后,了解这些数据:
对数据进行简单的描述性统计
对数据实行可视化,直观地了解数据概况
“数据可视化”的技能 + “数据清洗”和“特征工程”
结果:
数据之后,根据商业问题的目标,可以从事两个方面的具体工作:
数据分析:
应用各种数据分析的方法,最终得到一份分析报告。
分析结果,除了用数字表达之外,可视化是不可避免的
机器学习:
机器学习是另外一个专门领域,目前正火热中。
通过机器学习算法,实现对数据的分类、预测和聚类等操作,在这个过程中,也难免要用“数据可视化”表达某种结论
评估:
不论是机器学习,还是数据分析,其结果都要进行评估。
对于机器学习而言,有专门的模型评估方式。即便如此,用可视化的方式把结果表达出来,也是一种重要的手段。
总结:
“数据科学”的基本概念,并简述了“数据工程”项目的基本流程,
标签:目标 机器学习算法 数据接口 文档 而不是 提取 splay excel 性能
原文地址:https://www.cnblogs.com/shaozheng/p/12889869.html