标签:序列 可视化 包含 计算 sch 大数 学习 分布式文件 步骤
??大数据处理的根本目的是从海量异质数据中挖掘知识,包含了数据源收集、数据存储管理、数据分析与挖掘以及数据展现与获取等几个序列进行的步骤,如图1:
??原始数据来源各异,很多数据形式不规整,包含噪音,因此首先需要从原始数据中进行数据抽取,获取后续分析所需的信息。
??抽取后的海量数据,需要将其存储进分布式文件系统或NoSQL数据库中:
NoSQL数据库可以用于实时查询场景:社交网络数据的存储可以使用图数据库,实时响应要求更高的场合可以使用HBase等列式数据库。
??大数据的存储层的NoSQL数据库提供了简单的读、写功能,但是要挖掘更深层次的知识,需要利用数据挖掘、机器学习等复杂技术。
??数据可视化的主要目的是将挖掘出来的知识,以具体表现呈现给用户。
标签:序列 可视化 包含 计算 sch 大数 学习 分布式文件 步骤
原文地址:https://www.cnblogs.com/schumiyi/p/12284031.html