使用 Apache Pig 处理数据5

时间：2014-06-18 23:59:12 阅读：305 评论：0 收藏：0 [点我收藏+]

使用 Apache Pig 从大数据集中获得所需的信息

Apache Pig 是一个高级过程语言，适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询，Pig 可以简化 Hadoop 的使用。本文将探索 Pig 背后的语言，并在一个简单的 Hadoop 集群中发现其用途。

Hadoop 的普及和其生态系统的不断壮大并不令人感到意外。Hadoop 不断进步的一个特殊领域是 Hadoop 应用程序的编写。虽然编写 Map 和 Reduce 应用程序并不十分复杂，但这些编程确实需要一些软件开发经验。Apache Pig 改变了这种状况，它在 MapReduce 的基础上创建了更简单的过程语言抽象，为 Hadoop 应用程序提供了一种更加接近结构化查询语言 (SQL) 的接口。因此，您不需要编写一个单独的 MapReduce 应用程序，您可以用 Pig Latin 语言写一个脚本，在集群中自动并行处理与分发该脚本。

Pig Latin 示例

让我们从一个简单的 Pig 示例开始介绍，并剖析该示例。Hadoop 的一个有趣的用法是，在大型数据集中搜索满足某个给定搜索条件的记录（在 Linux® 中被称为 grep）。清单 1 显示了在 Pig 中实现该过程的简单性。在所显示的三行代码中，只有一行是真正的搜索。第一行只是将测试数据集（消息日志）读取到代表元组集合的包中。用一个正则表达式来筛选该数据（元组中的惟一条目，表示为 $0 或 field 1），然后查找字符序列 WARN。最后，在主机文件系统中将这个包存储在一个名为 warnings 的新文件中，这个包现在代表来自消息的包含 WARN 的所有元组。

清单 1. 一个简单的 Pig Latin 脚本

messages = LOAD ‘messages‘;
warns = FILTER messages BY $0 MATCHES ‘.*WARN+.*‘;
STORE warns INTO ‘warnings‘;

如您所见，这个简单的脚本实现了一个简单的流，但是，如果直接在传统的 MapReduce 模型中实现它，则需要增加大量的代码。这使得学习 Hadoop 并开始使用数据比原始开发容易得多。

现在让我们更深入地探讨 Pig 语言，然后查看该语言的一些功能的其他示例。

示例演示：

1、准备数据

　　messages文件内容(含有两条WARN的)

　　This is WARNING message1

　　This is INFOING message2

　　This is WARNING message3

2、上传数据

　　hadoop dfs -put messages /input
3、运行pig进入grunt

　　grunt> messages = load ‘/input/messages‘;

　　grunt> warns = filter messages by $0 matches ‘.*WARN+.*‘;
　　grunt> dump warns

　　
　　　　(This is WARNING message1)
　　　　(This is WARNING message3)

　　grunt> store warns into ‘/output/wranings‘; 保存进入文件（位于hdfs上）

　　参考：http://www.ibm.com/developerworks/cn/linux/l-apachepigdataquery/index.html

使用 Apache Pig 处理数据5,布布扣,bubuko.com

使用 Apache Pig 处理数据5

标签：des style class code http color

原文地址：http://www.cnblogs.com/jsunday/p/3789690.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行