Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flu
分类:
其他好文 时间:
2016-03-20 21:14:09
阅读次数:
253
Java服务有些什么形式?目前来看主要是以下几类:1、 运行在Web应用服务器的Servlet2、 Thrift、PB、Avro等类似框架写的java服务3、 WebService(JAX-WS、JAX-RS)现在我们服务端要全面转向java。若后端子系统全部用Servlet写,将无法实现跨语言,我们现在客户端大部分还是.NET平台。如果用Thrift等框架,现在满足了.NET调用Java服...
分类:
编程语言 时间:
2016-01-06 01:41:12
阅读次数:
315
Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开...
分类:
Web程序 时间:
2016-01-05 18:23:59
阅读次数:
153
1.Common。是为Hadoop其他子项目提供支持的常用工具。它主要包括FileSystem、RPC和串行化库,并且为运行在云计算环境平台上的软件开发提供所需的API。 2.Avro。是用于数据序列化的系统。提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调...
分类:
其他好文 时间:
2015-12-18 22:45:16
阅读次数:
344
这是一篇翻译,原文来自:How to load some Avro data into Spark。首先,为什么使用 Avro ?最基本的格式是 CSV ,其廉价并且不需要顶一个一个 schema 和数据关联。随后流行起来的一个通用的格式是 XML,其有一个 schema 和 数据关联,XML 广泛...
分类:
其他好文 时间:
2015-12-03 13:58:44
阅读次数:
1608
1、spark sql可以直接加载avro文件,之后再进行一系列的操作,示例: 1 SparkConf sparkConf = new SparkConf().setAppName("Spark job"); 2 JavaSparkContext javaSpar...
分类:
数据库 时间:
2015-12-03 13:16:40
阅读次数:
158
1、通过Java往hdfs写avro文件 1 import java.io.File; 2 import java.io.IOException; 3 import java.io.OutputStream; 4 import java.nio.ByteBuffer; 5 6 import org....
分类:
编程语言 时间:
2015-12-03 13:15:32
阅读次数:
269
原文链接:记Flume-NG一些注意事项这里只考虑flume本身的一些东西,对于JVM、HDFS、HBase等得暂不涉及。。。。一、关于Source:1、spool-source:适合静态文件,即文件本身不是动态变化的;2、avro source可以适当提高线程数量来提高此source性能;3、Th...
分类:
Web程序 时间:
2015-11-24 14:55:18
阅读次数:
214
apache avro 是一个数据序列化系统,是一个基于二进制数据传输高性能的中间件。 1. 提供以下特征 ?富有的数据结构 一个简洁紧凑,快速的二进制数据格式 ?一个持久存储数据的文...
分类:
Web程序 时间:
2015-11-17 19:36:37
阅读次数:
243