标签:数据处理 步骤 框架 lin 任务 安装 agg linu 数据集
一、选题与意义
1.Hadoop平台应用
2.Kaggle分析数据项目
简要说明理由与意义。
答:选Hadoop平台应用的淘宝双11数据分析与预测;因为对Hadoop平台的应用比较感兴趣,对于淘宝双11数据的分析与预测也可以更了解人们的购物行为。
二、实践方案
答:个人电脑安装实验环境。
三、实践任务分解
根据所选的题目,明确实验步骤,分解任务到每天。
答:1.安装Linux操作系统
2.安装关系型数据库MySQL
3.安装大数据处理框架Hadoop
4.安装数据仓库Hive
5.安装Sqoop
6.安装Eclipse
7.安装Spark
8.对文本文件形式的原始数据集进行预处理
9.把文本文件的数据集导入到数据仓库Hive中
10.对数据仓库Hive中的数据进行查询分析
11.使用Sqoop将数据从Hive导入MySQL
12.利用Eclipse搭建动态Web应用
13.利用ECharts进行前端可视化分析
14.利用Spark MLlib进行回头客行为预测
四、实践计划
按任务分解撰写计划表,每天按计划表开展工作。
第天根据实际情况更新计划表,有必要时调整。
标签:数据处理 步骤 框架 lin 任务 安装 agg linu 数据集
原文地址:https://www.cnblogs.com/cyj085/p/13184129.html