Contents

6.824 lab1 write up


Preface

什么是 MapReduce

MapReduce 是一由 Google 提出的分布式软件架构。主要用于大规模数据的并行计算。

MapReduce 的执行过程主要由 Map (映射) 与 Reduce (归并) 两个阶段组成。在 Map 阶段,分布式集群将原始数据分块,并通过特定的映射操作处理,得到存有中间结果的一系列文件。而在 Reduce 阶段,集群又对中间文件进行归并处理,从而得到最后的处理结果。

值得一提的是,通过定制 Map 阶段的映射操作和 Reduce 阶段的归并操作。即可使得集群执行特定的任务。譬如将映射定制为正则匹配,而将归并操作定制为整合匹配结果。即可实现分布式的 Grep 工具。

MapReduce 集群的基本结构

待续…