搜索关键字：Spark 大数据开发大数据，搜索到18881个结果！码迷,mamicode.com！

poj1019 大数据处理分块

Number Sequence Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 33215 Accepted: 9490 Description A single positive integer i is given. Write a program to f...

分类：其他好文时间：2014-05-01 22:06:17 阅读次数：437

spark源码笔记

1。国际化如添加朋友Friends是英文，可以找着相关的类，并在国际化配置文件中添加key 在项目中全局搜索“Friends”，将得到的结果集全部展开，找到这两个文件：在国际化配置文件spark_i18n_zh_CN.properties 中增加 custum.friends=朋友修...

分类：其他好文时间：2014-05-01 19:52:51 阅读次数：470

R简单数据分析

眼下大数据口号满天飞，今天拿我微信圈朋友一段时间内分享内容作为数据，用R包的算法实现简单分析。由于微信没有接口获取数据，暂时只能手动记录数据，主要是做个小尝试，数据获取方式是其次。1）我们看看微信圈活跃的朋友。PS：知道为何我们的流量烧的这么快了吧？这些小伙伴八成是运营商潜伏过来的余则成，在背后分成...

分类：其他好文时间：2014-05-01 19:11:52 阅读次数：372

spark开发环境

利用build.xml导入eclipse点击Run——Run Configurations点击“Main”Name填写：SparkProject：Spark（选择Spark工程）Main class：org.jivesoftware.launcher.Startup（启动类）勾选Stop in ma...

分类：其他好文时间：2014-05-01 11:51:57 阅读次数：366

亚马逊AWS在线系列讲座——第1讲：云计算和AWS入门

亚马逊AWS在线讲座将围绕AWS云平台的各种服务分不同的主题对AWS服务进行系统介绍。AWS在线讲座系列会由浅入深帮助刚开始接触AWS的用户了解各种AWS云服务，达到快速上手进行实际应用的目的。第一讲：AWS入门介绍在此次在线讲座旨在帮助您： 1. 了解AWS云计算概览及价值主张 2. 了解AWS 服务的特点：灵活、高效、弹性以及安全性 3. 了解AWS云平台的基础知识，包括AWS的计算、存储、网络、数据库和大数据等服务概况...

分类：其他好文时间：2014-04-30 22:34:38 阅读次数：313

ORACLE存储过程如何迁移到HIVE？

在将ORACLE存储过程迁移到HIVE平台时，不可避免地会遇到各种问题。 ORACLE与HIVE都使用SQL语句，但是语法和特性不尽相同，本文简述了几个迁移时需要注意的地方。...

分类：数据库时间：2014-04-30 22:31:40 阅读次数：526

【机器学习算法-python实现】逻辑回归的实现(LogicalRegression)

(转载请注明出处：http://blog.csdn.net/buptgshengod) 1.背景知识在刚刚结束的天猫大数据s1比赛中，逻辑回归是大家都普遍使用且效果不错的一种算法。（1）回归先来说说什么是回归，比如说我们有两类数据，各有50十个点组成，当我门把这些点画出来，会有一条线区分这两组数据，我们拟合出这个曲线（因为很有可能是非...

分类：编程语言时间：2014-04-30 22:15:39 阅读次数：454

如何把其他数据库中AUTO_INCREMENT约束的字段（如ID）导入Vertica数据库

如果在Vertica数据库在建一张同样带AUTO_INCREMENT约束字段（ID）的表，由于AUTO_INCREMENT约束的限制，COPY导入数据时会发生冲突，导致COPY执行失败。经过分析研究及测试，先创建SEQUENCE，然后创建表并设置ID字段的缺省值为NEXTVAL('schemaname.sequencename')，就可COPY导入AUTO_INCREMENT约束字段的数据。...

分类：数据库时间：2014-04-29 13:44:21 阅读次数：409

SQL Server表分区详解

什么是表分区一般情况下，我们建立数据库表时，表数据都存放在一个文件里。但是如果是分区表的话，表数据就会按照你指定的规则分放到不同的文件里，把一个大的数据文件拆分为多个小文件，还可以把这些小文件放在不同的磁盘下由多个cpu进行处理。这样文件的大小随着拆分而减小，还得到硬件系统的加强，自然对我们操作数据是大大有利的。所以大数据量的数据表，对分区的需要还是必要的，因为它可以提高s...

分类：数据库时间：2014-04-29 13:33:20 阅读次数：544

spark编译与onyarn的运行

Spark on yarn执行流程源代码分析目前的分析主要基于spark0.9.0的cdh5的版本进行分析，源代码下载地址：https://github.com/cloudera/spark.git 下载方式：gitclone url ./spark 进入spark目录，执行gitcheckout cdh5-0.9.0_5.0.0 源代码编译使用sbt编译spa...

分类：其他好文时间：2014-04-29 13:13:22 阅读次数：446

共18881条上一页 1 ... 1885 1886 1887 1888 1889 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)