码迷,mamicode.com
首页 >  
搜索关键字:大数据处理    ( 465个结果
JAVA大数据处理题
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取 ...
分类:编程语言   时间:2017-12-10 15:58:56    阅读次数:186
PHP大数据处理【转】
1:硬件方面 普通的一个p4的服务器每天最多能支持大约10万左右的IP,如果访问量超过10W那么需要专用的服务器才能解决,如果硬件不给力 软件怎么优化都是于事无补的。主要影响服务器的速度 有:网络-硬盘读写速度-内存大小-cpu处理速度。 2:软件方面 第一个要说的就是数据库,首先要有一个很好的架构 ...
分类:Web程序   时间:2017-12-05 17:45:43    阅读次数:284
《Spark大数据处理:技术、应用与性能优化》【PDF】 下载
内容简介 《Spark大数据处理:技术、应用与性能优化》根据最新技术版本,系统、全面、详细讲解Spark的各项功能使用、原理机制、技术细节、应用方法、性能优化,以及BDAS生态系统的相关技术。 作为一个基于内存计算的大数据并行计算框架,Spark不仅很好地解决了数据的实时处理问题,而且保证了高容错性... ...
分类:其他好文   时间:2017-12-03 12:59:28    阅读次数:267
日志采集框架Flume
前言 在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: 1. 日志采集框架Flume 1.1 Flume介绍 1.1.1 概 ...
分类:Web程序   时间:2017-12-01 17:42:24    阅读次数:292
matlab安装详解
大家好呢,我是宇晖,前不久因为系统故障原因,去换了一个系统,导致电脑中许多重要文件丢失,其中就有matlab。而今天刚好又花了些时间将它安上去了。不过回想到当初大一的时候,自己连文件夹都不懂,只会儿玩儿游戏,装个matlab还得四处找朋友,那种感觉蛮难受的,很不好意思..
分类:其他好文   时间:2017-11-18 21:53:32    阅读次数:137
大数据处理框架
说起大数据处理啊,一切都起源于Google公司的经典论文。在当时(2000年左右),由于网页数量急剧增加,Google公司内部平时要编写很多的程序来处理大量的原始数据:爬虫爬到的网页、网页请求日志;计算各种类型的派生数据:倒排索引、网页的各种图结构等等。这些计算在概念上很容易理解,但由于输入数据量很 ...
分类:其他好文   时间:2017-11-05 15:07:11    阅读次数:100
Spark基本架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势: Spark提供了一个全面、统 ...
分类:其他好文   时间:2017-11-05 13:50:28    阅读次数:144
python优缺点分析及python种类,编码-课堂笔记及课后总结
1、Python的缺点: 相较于其它类型的语言可能运行速度上会略差。C语言的运行性能速度上最好,因为C最接近计算机底层。 2、Python的优点: 1)、大数据处理,有专门的功能模块,比较方便。 2)、Linux自带Python,运用更广泛,更方便。 3)、Python可做自动化处理,自动化运维。 ...
分类:编程语言   时间:2017-11-03 13:11:18    阅读次数:206
python 大数据处理小结
1.shop_min=shop.drop(['category_id','longitude','latitude','price'],axis=1)pandas中删除多个列 2.mall=shop_min.drop_duplicates(subset='mall_id')pandas中将某一列去重 ...
分类:编程语言   时间:2017-10-22 23:28:16    阅读次数:230
Spark内存管理之钨丝计划
Spark内存管理之钨丝计划 1. 钨丝计划的产生的原因 2. 钨丝计划内幕详解 一:“钨丝计划”产生的本质原因 1, Spark作为一个一体化多元化的(大)数据处理通用平台,性能一直是其根本性的追求之一,Spark基于内存迭代(部分基于磁盘迭代)的模型极大的满足了人们对分布式系统处理性能的渴望,但 ...
分类:其他好文   时间:2017-10-13 19:07:36    阅读次数:178
465条   上一页 1 ... 16 17 18 19 20 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!