有时我们需要查询大文本而不是数据库,这时就需要流式读入文件并实现查询算法,还要进行并行处理以提高性能。但JAVA本身缺少相应的类库,需要硬编码才能实现结构化文件计算,代码复杂且可读性差,难以实现高效的并行处理。
使用免费的集算器可以弥补这一不足。集算器封装了丰富的结构化文件读写和游标计算函数,书写简单代码就能实现并行计算,并提供了易用的JDBC接口。JAVA应用程序可以将集算器脚...
分类:
编程语言 时间:
2015-06-16 09:20:29
阅读次数:
203
问题论坛上碰见一个问题:有 N 个 1-2G 大的文件,其中第六列是点分表示的 IPV4 地址,需要把它转为整数表示。#!/bin/awk -f{ len = split($6, a, ".") if (len == 4) { ip = lshift(a[1], 24) + lshift(...
分类:
其他好文 时间:
2015-06-07 17:05:50
阅读次数:
112
(转自:http://my.oschina.net/laopiao/blog/88158)保谓线程?线程与并行处理任务息息相关,就像进程一样。那么,线程与进程有什么区别呢?当你在电子表格上进行数据结算的时候,在相同的桌面上可能有一个播放器正在播放你最喜欢的歌曲。这是一个两个进程并行工作的例子:一个进...
分类:
编程语言 时间:
2015-06-04 11:36:11
阅读次数:
191
OpenWorker-初始建立(2015-05-29),欢迎参与:https://github.com/supergis/OpenWorker。 OpenWorker-基于Python的并行处理框架,将集成Celery、Flower、Jobtastic和Rodeo工程,可以通过控制台或Web进行管理、...
分类:
其他好文 时间:
2015-05-29 10:14:43
阅读次数:
1291
Flower: Real-time Celery web-monitor Flower is a real-time web based monitor and administration tool for Celery. It is under active development, but is already an essential tool. Being the recommen...
分类:
Web程序 时间:
2015-05-28 12:44:25
阅读次数:
275
并行处理:可以在很多语句中指定reducer的数量group,join,cogroup,cross,distinct,order(复习:reduce的任务个数设置为稍小于集群中的reduce任务槽数)参数替换:在pig语句中使用$加变量名的方式使用外部定义的变量值,在运行时可以通过"-paraminput=”设置变量的值,或者通过"-..
分类:
其他好文 时间:
2015-05-26 19:07:21
阅读次数:
142
并行处理: 可以在很多语句中指定reducer的数量
group, join, cogroup, cross, distinct, order
(复习:reduce的任务个数设置为稍小于集群中的reduce任务槽数)
参数替换:在pig语句中使用$加变量名的方式使用外部定义的变量值,在运行时可以通过"-param input=”设置变量的值,
或者通过"-param_f...
分类:
其他好文 时间:
2015-05-26 18:56:02
阅读次数:
123
目录宏观上的“系统架构”系统架构图(举例)微观上的系统设计生产者-消费者 设计图(举例)宏观架构与微观设计的区别孰轻孰重?三种线程泵的作用代码中泵的作用常见泵结构(1)常见泵结构(2)常见泵结构(3)常见泵结构(4)常见泵结构(5)串行处理数据的泵并行处理数据的泵泵对于系统的意义什么是框架?框架的特...
分类:
其他好文 时间:
2015-05-25 20:13:46
阅读次数:
170
概念部分:1.并发和并行的区别: 并发 (Concurrency):一个处理器“同时”处理多个任务 并行 (Parallelism):多个处理器 “同时”处理多个任务2.多线程的优点和缺点: 多线程的优点: 可并行处理任务,减少单个任务的等待时间 线程较进程或子进程系统开销小 ...
分类:
编程语言 时间:
2015-05-25 16:16:22
阅读次数:
166
C# 线程知识--使用ThreadPool执行异步操作 在应用程序中有许多复杂的任务,对于这些任务可能需要使用一个或多个工作线程或I/O线程来协作处理,比如:定时任务、数据库数据操作、web服务、文件的处理等。这些任务可能会非常耗费时间,为了是用户界面能及时响应,就会启用一个其他线程来并行处理任务。...
分类:
编程语言 时间:
2015-05-11 12:19:15
阅读次数:
145