初识spark的MLP模型

时间：2019-01-06 16:41:29 阅读：553 评论：0 收藏：0 [点我收藏+]

初识Spark的MLP模型

1. MLP介绍

Multi-layer Perceptron（MLP），即多层感知器，是一个前馈式的、具有监督的人工神经网络结构。通过多层感知器可包含多个隐藏层，实现对非线性数据的分类建模。MLP将数据分为训练集、测试集、检验集。其中，训练集用来拟合网络的参数，测试集防止训练过度，检验集用来评估网络的效果，并应用于总样本集。当因变量是分类型的数值，MLP神经网络则根据所输入的数据，将记录划分为最适合类型。常被MLP用来进行学习的反向传播算法，在模式识别的领域中算是标准监督学习算法，并在计算神经学及并行分布式处理领域中，持续成为被研究的课题。MLP已被证明是一种通用的函数近似方法，可以被用来拟合复杂的函数，或解决分类问题。

2. 使用Java进行开发

2.1开发环境准备

基本Java开发环境

Eclipse，Maven，Jdk1.7

spark开发需要环境

Windows操作系统保存训练模型必须要依赖于hadoop-common-2.2.0-bin-master，如果不保存模型不需要配置此环境，linux操作系统不需要配置此环境。

配置此环境有以下两种方法：

直接在代码最开始写

System.setProperty("hadoop.home.dir", "D:\\Programe\\hadoop-common-2.2.0-bin-master");

配置入环境变量

直接在Windows的系统变量里面配置HADOOP_HOME，然后在PATH里面配置HADOOP_HOME/bin

2.2项目搭建

创建简单的maven项目
在pom下增加下列jar

<dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>2.1.3</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.11</artifactId>

            <version>2.1.3</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-mllib_2.11</artifactId>

            <version>2.1.3</version>

            <scope>runtime</scope>

    </dependency>

注意：本例使用jdk1.7，spark2.2.x要求jdk1.8。

2.3官网实例

技术分享图片