码迷,mamicode.com
首页 > 其他好文 > 详细

2014-08-4

时间:2014-08-05 00:30:28      阅读:239      评论:0      收藏:0      [点我收藏+]

标签:des   blog   http   java   os   io   数据   2014   

  今天做的就是将fpg跑出来的结果进行各种指标计算,但是因为用python还是不是特别熟悉,因为没有找到python能处理类似SequenceFile这样的类库,所以就用java编写,这下就是折腾各种包引用,就是classpath的引用。由于涉及到hadoop和mahout的包,这样需要添加到classpath里面的包就很多很多,如果自己一个一个的添加,也许一天下来就差不多完了(我自己就这样折腾了好几个小时),最后在网上到处搜找到了“classpath多个包添加”这个方法。还有用shell的,但是自己还不会。程序差不多就跑通了。那今天目前遇到的问题:

  1、classpath的添加

  2、java的OutOfMemoryError:Java heap space:分开处理了part-r-00000,和part-r-00001

  3、还有就是最后关联规则的度量标准,虽然知道有哪些,但是还是不是特别明白其数值大小代表什么意思。

  http://www.cnblogs.com/fengfenggirl/p/3255173.html;

  http://web.engr.illinois.edu/~hanj/pdf/pkdd07_twu.pdf;

  http://www.nyu.edu/classes/jcf/g22.3033-002/slides/session6/MiningFrequentPatternsAssociationAndCorrelations.pdf;

  4、一开始的数据的处理就有问题:对于关联规则,一、不存在时间顺序问题,二、每一个事物里面不要用重复的数据,这样用python处理的话,就要考虑用到数据结构。python处理: http://woodpecker.org.cn/diveintopython/native_data_types/lists.html;http://woodpecker.org.cn/diveintopython/index.html;http://sebug.net/paper/python/ch09s04.html;

http://wangwei007.blog.51cto.com/68019/903426

  5、数据的report和action,不能每一个都有记录,只保留需要加载的:view0,view1,related。

2014-08-4,布布扣,bubuko.com

2014-08-4

标签:des   blog   http   java   os   io   数据   2014   

原文地址:http://www.cnblogs.com/leewiki/p/3891104.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!