码迷,mamicode.com
首页 >  
搜索关键字:Spark 大数据开发 大数据    ( 18881个结果
poj1019 大数据处理 分块
Number Sequence Time Limit: 1000MS   Memory Limit: 10000K Total Submissions: 33215   Accepted: 9490 Description A single positive integer i is given. Write a program to f...
分类:其他好文   时间:2014-05-01 22:06:17    阅读次数:437
spark源码笔记
1。国际化 如添加朋友Friends是英文,可以找着相关的类,并在国际化配置文件中添加key 在项目中全局搜索“Friends”,将得到的结果集全部展开,找到这两个文件: 在国际化配置文件spark_i18n_zh_CN.properties 中增加 custum.friends=朋友 修...
分类:其他好文   时间:2014-05-01 19:52:51    阅读次数:470
R简单数据分析
眼下大数据口号满天飞,今天拿我微信圈朋友一段时间内分享内容作为数据,用R包的算法实现简单分析。由于微信没有接口获取数据,暂时只能手动记录数据,主要是做个小尝试,数据获取方式是其次。1)我们看看微信圈活跃的朋友。PS:知道为何我们的流量烧的这么快了吧?这些小伙伴八成是运营商潜伏过来的余则成,在背后分成...
分类:其他好文   时间:2014-05-01 19:11:52    阅读次数:372
spark开发环境
利用build.xml导入eclipse点击Run——Run Configurations点击“Main”Name填写:SparkProject:Spark(选择Spark工程)Main class:org.jivesoftware.launcher.Startup(启动类)勾选Stop in ma...
分类:其他好文   时间:2014-05-01 11:51:57    阅读次数:366
亚马逊AWS在线系列讲座——第1讲:云计算和AWS入门
亚马逊AWS在线讲座将围绕AWS云平台的各种服务分不同的主题对AWS服务进行系统介绍。AWS在线讲座系列会由浅入深帮助刚开始接触AWS的用户了解各种AWS云服务,达到快速上手进行实际应用的目的。 第一讲:AWS入门介绍 在此次在线讲座旨在帮助您: 1. 了解AWS云计算概览及价值主张 2. 了解AWS 服务的特点:灵活、高效、弹性以及安全性 3. 了解AWS云平台的基础知识,包括AWS的计算、存储、网络、数据库和大数据等服务概况...
分类:其他好文   时间:2014-04-30 22:34:38    阅读次数:313
ORACLE存储过程如何迁移到HIVE?
在将ORACLE存储过程迁移到HIVE平台时,不可避免地会遇到各种问题。 ORACLE与HIVE都使用SQL语句,但是语法和特性不尽相同,本文简述了几个迁移时需要注意的地方。...
分类:数据库   时间:2014-04-30 22:31:40    阅读次数:526
【机器学习算法-python实现】逻辑回归的实现(LogicalRegression)
(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.背景知识       在刚刚结束的天猫大数据s1比赛中,逻辑回归是大家都普遍使用且效果不错的一种算法。   (1)回归                先来说说什么是回归,比如说我们有两类数据,各有50十个点组成,当我门把这些点画出来,会有一条线区分这两组数据,我们拟合出这个曲线(因为很有可能是非...
分类:编程语言   时间:2014-04-30 22:15:39    阅读次数:454
如何把其他数据库中AUTO_INCREMENT约束的字段(如ID)导入Vertica数据库
如果在Vertica数据库在建一张同样带AUTO_INCREMENT约束字段(ID)的表,由于AUTO_INCREMENT约束的限制,COPY导入数据时会发生冲突,导致COPY执行失败。 经过分析研究及测试,先创建SEQUENCE,然后创建表并设置ID字段的缺省值为NEXTVAL('schemaname.sequencename'),就可COPY导入AUTO_INCREMENT约束字段的数据。...
分类:数据库   时间:2014-04-29 13:44:21    阅读次数:409
SQL Server表分区详解
什么是表分区 一般情况下,我们建立数据库表时,表数据都存放在一个文件里。 但是如果是分区表的话,表数据就会按照你指定的规则分放到不同的文件里,把一个大的数据文件拆分为多个小文件,还可以把这些小文件放在不同的磁盘下由多个cpu进行处理。这样文件的大小随着拆分而减小,还得到硬件系统的加强,自然对我们操作数据是大大有利的。 所以大数据量的数据表,对分区的需要还是必要的,因为它可以提高s...
分类:数据库   时间:2014-04-29 13:33:20    阅读次数:544
spark编译与onyarn的运行
Spark on yarn执行流程源代码分析 目前的分析主要基于spark0.9.0的cdh5的版本进行分析, 源代码下载地址:https://github.com/cloudera/spark.git 下载方式:gitclone url ./spark 进入spark目录,执行gitcheckout cdh5-0.9.0_5.0.0 源代码编译 使用sbt编译spa...
分类:其他好文   时间:2014-04-29 13:13:22    阅读次数:446
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!