码迷,mamicode.com
首页 > 系统相关 > 详细

利用KNIME建立Spark Machine learning模型 2:泰坦尼克幸存预测

时间:2018-05-09 16:05:02      阅读:660      评论:0      收藏:0      [点我收藏+]

标签:大数据分析   KNIME   Machine Learning   Spark   数据建模   

本文利用KNIME基于Spark决策树模型算法,通过对泰坦尼克的包含乘客及船员的特征属性的训练数据集进行训练,得出决策树幸存模型,并利用测试数据集对模型进行测试。

1、从Kaggle网站下载训练数据集和测试数据集

2、在KNIME创建新的Workflow,起名:TitanicKNIMESpark

技术分享图片

3. 读取训练数据集

KNIME支持从Hadoop集群读取数据,本文为了简化流程直接从本地读取数据集。

在Node Repository的搜索框里输入CSV Reader,找到CSV Reader节点,并将它拖入画布。

技术分享图片

双击或右击CSV Reader对节点进行配置,设置数据集的目录。

技术分享图片

右击节点,点击Excute, 然后右击节点,点击File table查看结果

技术分享图片


4.利用Missing Value节点对缺失值进行处理

类似第三步的操作找到Missing Value节点,并拖入画布(本文以下操作类似,不再重复),并根据需要设置属性,这里采用简单取平均值的方法处理缺失值。建立CSV Reader节点到Missing Value节点的连接。

技术分享图片

右击节点,点击Excute, 然后右击节点,点击Output Table查看结果

技术分享图片


5、添加Create Spark Context节点,设置Spark Context

技术分享图片

技术分享图片


6 .添加Table to Spark节点,将KNIME数据表转换成Spark的DataFrame/RDD,配置Table to Spark节点并建立Missing Value节点到Table to Spark节点的连接,建立Create Spark Context节点到Table to Spark节点的连接。

这里采用默认配置。


7. 添加Spark Normalizer节点,将Survived属性从数字类型转换成为字符类型,配置Spark Normalizer节点并建立Table to Spark节点到Spark Normalizer节点的连接。

技术分享图片

右击节点,点击Excute, 然后右击节点,点击Normalized Spark DataFrame/RDD查看结果.

技术分享图片


8. 添加Spark Decision Tree Learner节点,配置决策树算法参数,并建立Spark Normalizer节点到Spark Decision Tree Learner节点的连接。

技术分享图片

右击节点,点击Excute, 然后右击节点,点击Decision Tree Model查看结果.

技术分享图片


9利用测试数据集和Spark Predictor节点对模型进行测试。

复制CSV Reader,Missing Value和Table to Spark节点并参考3,4,6步进行配置读取测试数据集并对数据进行处理和转换。添加Spark Predictor节点, 配置 Spark Predictor节点,并将新添加的Table to Spark节点以及Spark Decision Tree Learner节点和Spark Predictor相连接。

CSV Reader配置测试数据集。

技术分享图片

Spark Predictor节点配置Prediction column

技术分享图片

右击节点,点击Excute, 然后右击节点,点击Labled Data查看结果.

技术分享图片


10.可以添加其他节点对结果进行后续处理,这里添加只添加Spark Column Filter节点过滤掉不需要的column。

添加Spark Column Filter节点并进行配置。

技术分享图片

右击节点,点击Excute, 然后右击节点,点击Filtered Spark DataFrame/RDD查看结果。

技术分享图片

最终整个workflow如下图所示

技术分享图片

利用KNIME建立Spark Machine learning模型 2:泰坦尼克幸存预测

标签:大数据分析   KNIME   Machine Learning   Spark   数据建模   

原文地址:http://blog.51cto.com/yinweiai/2114399

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!