MapReduce 编程系列五 MapReduce 主要过程梳理

阿尔萨斯

浏览: 4179570 次

最近访客更多访客>>

snower_tt

iams13

u012363178

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2014-10 ( 581)
2014-09 ( 572)
2014-08 ( 545)
更多存档...

前面4篇文章介绍了如何编写一个简单的日志提取程序，读取HDFS share/logs目录下的所有csv日志文件，然后提取数据后，最终输出到share/output目录下。

本篇停留一下，梳理一下主要过程，然后提出新的改进目标。

首先声明一下，所有的代码都是maven工程的，没有使用任何IDE。这是我一贯的编程风格，用Emacs + JDEE开发。需要使用IDE的只需要学习如何在IDE中使用maven即可。

可比较的序列化

第一个是序列化，这是各种编程技术中常用的。MapReduce的特别之处在于由于key用来排序，所有它既要支持序列化和反序列化，同时也要支持比较大小的操作。因此通常使用的都是接口WritableComparable<T>，这个接口分别从Writable接口和java.lang.Comparable<T>接口继承。前者负责序列化，实现的就是类似流(stream)的功能，后者负责比较。

MapReduce计算流程

这里只是概括的介绍主要步骤：

1. 通过InputFormat读取HDFS目录的日志文件的所有行，进行内容分块。然后每个块都会对应一个mapper

2. 调用每个Mapper的map函数，将内容块的数据按照行变成<key, value>格式，作为参数传递. map函数的代码由程序员自己实现，通常key是数据，value是整数，便于做统计。这样，也就将参数<key, value>改成了另一种符合业务逻辑的<key, value>, 通过Context.write方法

写出去，随后会被框架交给Reducer.

3. Partitioner目前我的程序中没有实现自己的类，只是简单使用了Reducer，后面会增加这部分的说明

4. 框架会根据key进行分组，组成<key, values>对，调用Reducer的reduce函数，函数接受到Mapper传递来的<key, values>后再做统计

5. 输出成什么样的格式文件由OutputFormat来控制。

注意上面的几个粗体字，就是5大MapReduce组件。每个组件都是我们可以继承的类，然后MapReduce框架通过多态的方式来回调我们的子类实现的方法。

MapReduce Job的配置

有了上面的实现，还需要配置Job，并且在hadoop命令行中提交。

配置的话，直接new一个Job类，调用set方法进行相应的设置即可。 Job的父类是JobContext。

就在这里可以设置上面的5大组件类，用自己的类来替换。还可以设置Reducer的数量。

分析就到这里，后面会陆续进行更多的编程实践。

比如，定制自己的3大组件， InputFormat，Partitioner和OutputFormat。

分享到：

C++ Struct和Class的区别与相同点 (注意 ... | Directx9.0 学习教程2 - 使用DXUT框架

2014-09-27 20:59
浏览 356
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论