这是微博深度和广度预测的原始代码,写了大约半个月,第一个版本不是这样的,但是这个版本包含所有需要的功能。 模块化的程度也更高。找工作前一直想用python完美解决这个问题,后来发现自己的方法和硬件都有很大的局限。 算是我的第一次正儿八经的尝试在分布式计算的框架下,计算海量的数据。 意识到很多问题,影 ...
分类:
编程语言 时间:
2016-10-30 20:00:37
阅读次数:
251
利用Spark-mllab进行聚类,分类,回归分析的代码实现(python) http://www.cnblogs.com/adienhsuan/p/5654481.html ...
分类:
编程语言 时间:
2016-10-24 20:33:19
阅读次数:
235
1. 从官网下载Spark安装包,解压到自己的安装目录下; http://spark.apache.org/downloads.html 2. 进入系统命令行界面,进入安装目录下,如"/安装目录/spark-1.6.0-bin-hadoop-2.6.0 ",输入命令"./bin/pyspark"验证 ...
分类:
系统相关 时间:
2016-09-26 17:53:04
阅读次数:
216
欢呼一下先。软件环境菜鸟的我终于把单机Spark 和 Pyspark 安装成功了。加油加油!!! 1. 安装方法参考: 已安装Pycharm 和 Intellij IDEA。 win7 PySpark 安装: http://blog.csdn.net/a819825294/article/detai ...
PySpark in PyCharm on a remote server 1、确保remote端Python、spark安装正确 2、remote端安装、设置 vi /etc/profile添加一行:PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python ...
分类:
编程语言 时间:
2016-09-09 16:33:27
阅读次数:
4373
8-28决定参加一下这个千万条的数据处理任务,因为场景和自己做过的一个回归分析预测差不多,第一天开始在小规模的数据上做准备工作。 ## 第二次大修改版本### date 20160829原始数据处理,得到用户粉丝关系,微博转发在每个时间段的量,微博转发的总体深度下一阶段目标,建立模型,实现基于时间序 ...
分类:
编程语言 时间:
2016-09-02 07:40:01
阅读次数:
285
在spark2中的shell使用python3 spark2.0.0中的python默认使用python2,可以通过以下两种方式之一使用python3: PYSPARK_PYTHON=python3 ./bin/pyspark 修改~/.profile,增加 PYSPARK_PYTHON=pytho ...
分类:
编程语言 时间:
2016-08-14 12:51:39
阅读次数:
401
第一步:安装anaconda anaconda自带一系列科学计算包 下载链接:http://pan.baidu.com/s/1b4jWlg 密码:fqq3 接着配置环境变量:如我安装在D盘下 试一下命令行启动,确保ipython从anaconda启动 第二步:安装spark(需要提前安装JDK) 到 ...
AttributeError: 'SparkConf' object has no attribute '_get_object_id' 初始化SparkContext时出现这种错误是因为把SparkConf对象放在了参数第一个的位置,由于pyspark命令行会默认创建一个SparkContext, ...
分类:
其他好文 时间:
2016-07-20 22:38:10
阅读次数:
355
还是打算选择python学习spark编程 因为java写函数式比较复杂,scala学习曲线比较陡峭,而且sbt和eclipse和maven的结合实在是让人崩溃,经常找不到主类去执行 python以前没用过但是名声在外,可以很方便的进行数据处理 在eclipse中集成pydev插件去编写python ...
分类:
其他好文 时间:
2016-07-06 14:52:40
阅读次数:
269