test

时间：2020-02-08 17:48:25 阅读：68 评论：0 收藏：0 [点我收藏+]

1. 大数据处理流程

??大数据处理的根本目的是从海量异质数据中挖掘知识，包含了数据源收集、数据存储管理、数据分析与挖掘以及数据展现与获取等几个序列进行的步骤，如图1:

图1 大数据处理流程的整体架构

??原始数据来源各异，很多数据形式不规整，包含噪音，因此首先需要从原始数据中进行数据抽取，获取后续分析所需的信息。

??抽取后的海量数据，需要将其存储进分布式文件系统或NoSQL数据库中：

Hadoop分布式存储与计算系统可以用于海量数据的后台离线批处理任务：通过HDFS分布式文件系统来对数据进行存储，使用MapReduce计算框架对数据进行处理，系统本身负责数据的高可用、容错性等复杂管理任务。
NoSQL数据库可以用于实时查询场景：社交网络数据的存储可以使用图数据库，实时响应要求更高的场合可以使用HBase等列式数据库。

1.3 数据挖掘与分析

??大数据的存储层的NoSQL数据库提供了简单的读、写功能，但是要挖掘更深层次的知识，需要利用数据挖掘、机器学习等复杂技术。

1.4 数据可视化

??数据可视化的主要目的是将挖掘出来的知识，以具体表现呈现给用户。

原文地址：https://www.cnblogs.com/schumiyi/p/12284031.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行