标签:
说完上面这些杂七杂八的伏笔,下文我将深入仔细去引导你,如何去搭建属于自己Spark版本的Data Mining环境,以及某些环节在实践项目中开发的必要性。
第一步 : Java安装和配置(1.7或者1.8)
jdk安装路径
环境变量设置
a.新建JAVA_HOME,为C:\Program Files\Java\jdk1.8.0_20。
b.新建CLASSPATH,为“.;%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar;”
c.编辑Path,添加“;%JAVA_HOME%/bin;%JAVA_HOME%/jre/bin”
考虑到有不少读者非软件专业,因此这里没有一笔带过基本的软件安装。最终安装成功的显示如下所示:
成功安装java的显示
第二步 : IDE安装和配置(Eclipse或者Spring Tool Suite)
STS解压后应用程序
在后期使用IDE时,考虑到个人有代码洁癖,因此,我都推荐先设置好这几点:a.字体大小和类型,b.缩进方式,c.代码行数序号;
第三步 : IDE插件的加载
第四步 : Maven的安装配置
MAVEN的全局变量和路径设置
Maven安装成功的显示
第五步 : hadoop包的下载配置
配置hadoop的全局变量和路径
第六步 : hadoop插件的加载配置
将hadoop插件放置于bin目录下
第七步 : spark包的下载配置
配置Spark的全局变量和路径
通过上述的安装,可以通过下面的显示来验证是否成功
Spark配置成功的显示
第八步 : scala环境的安装配置
scala成功安装的显示图
第九步 : scala ide集成插件的加载配置
scala ide集成插件复制到sts指定目录
至此,通过以上9个步骤的下载、安装和配置,一个基于Windows的标配大数据挖掘环境就已经搭建好了。上面这些版本和链接都会在以后日子进行更新迭代,有部署过程中遇到问题的小伙伴,也可以积极将问题和截图发到评论里,一起进行解决。
Step1:创建MAVEN工程
创建Maven工程中的步骤一
创建Maven工程中的步骤二
Step2:创建工程中的对象
创建Maven工程中的对象
创建成功显示图
Step3:配置好pom.xml文件,下载相关Spark依赖包
修改pom.xml文件,添加工程依赖包坐标
Step4:写一个朴素贝叶斯模型里涉及先验概率计算的逻辑,后期深入的开发等着以后的文章吧!
(点击放大图像)
代码逻辑,让大家看看模样
总结:工欲善其事,必先利其器!这句话里面有两层的逻辑,一方面,你在要踏入大数据挖掘领域的同时,应该要学会部署一套上述这样的环境,因为它对于你的模型工程开发、集群任务提交、数据产品项目开发、甚至是以后的模型优化重构,都是至关重要!一方面,我希望真正想学习大数据挖掘的小伙伴们,要走一个正确的方向,真正理解大数据生态圈的特点,要致力于为数据产品提供源源不断的大数据挖掘体系而奋斗。
出处:http://www.infoq.com/cn/articles/datamining-spark-env
标签:
原文地址:http://www.cnblogs.com/hd-zg/p/5930696.html