飞谷云六期第三组——基于Spark的机器学习

时间：2015-10-19 22:07:30 阅读：500 评论：0 收藏：0 [点我收藏+]

标签：

项目正式开始时间：2015.10.15.

　　随笔内容：本次项目的主题是基于Spark的ML。对于ML的学习有大概半年了，正好在网上关注到了由上海交通大学所主办的这个飞谷云的大数据项目，我所报名的这期已经是飞谷云的第六期了，在网上和群里了解了一段时间后大算报名参与一次，毕竟之前没有参与过真正的项目开发，也刚好趁着在学习ML的这个时间通过项目把理论和实践都加强。在这篇随笔中，我打算把这次项目的每个过程都写进来，一是为了给正在进行的项目提供一个全程记录；二是给自己一个留念，毕竟是自己独立完成的一个ML方面的项目，对于今后的学习也能起到帮助作用。

飞谷云六期第三组项目需求说明（我选择的内容）：

招聘信息挖掘:

1)通过公司描述、招聘岗位、薪水等对公司评级；2)通过招聘岗位描述对岗位分类,找出岗位描述关键词。

项目交付物

1. 代码(python) 2. 成果展示(可视化最好)

希望在项目截止的时候能达到项目组的要求。对于这次项目，我主要还是以学习为主，通过对于数据的分析掌握数据整理、数据清洗、Spark、ML等方面的知识。

正式的项目经过：

一.登陆服务器：飞谷云测试服务器上的数据存储情况：

·Mac连接服务器步骤（到这里才真正认识到Mac之于开发的优势）：

Terminal:

$ssh open@210.14.77.98

$password

$ssh 222.249.249.152

$password

·查看服务器上HDFS中的表数据：

$hadoop fs -ls

$hadoop fs -ls /user/hive/warehouse/feigu3.db 查看刚才 feigu3 数据中的所有表

$hadoop fs -cat /user/hive/warehouse/feigu3.db/stg_job/pt=20151014/liepin1.dat 打开feigu3数据中的stg_job表，查看其中任意一个文件

上图为在服务器端查看到的抓取的招聘网站的数据信息。

到2015.10.19为止计划的项目流程进度：

·在Spark中所引用服务器上所用的表数据（使用Python）

·把项目需要的表数据经过清洗、规整后整合为一个数据文件（包含公司描述、招聘职位、薪水等）

·提取有用的特征条件W

·给ML（聚类等）算法喂入特征条件，输出最后结果

预计每周完成一个计划点。

飞谷云六期第三组——基于Spark的机器学习

标签：

原文地址：http://www.cnblogs.com/JXPITer/p/4892996.html

踩

(0)

(1)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行