6.824 lab1 write up
Contents
Preface
什么是 MapReduce
MapReduce
是一由 Google 提出的分布式软件架构。主要用于大规模数据的并行计算。
MapReduce
的执行过程主要由 Map
(映射) 与 Reduce
(归并) 两个阶段组成。在 Map
阶段,分布式集群将原始数据分块,并通过特定的映射操作处理,得到存有中间结果的一系列文件。而在 Reduce
阶段,集群又对中间文件进行归并处理,从而得到最后的处理结果。
值得一提的是,通过定制 Map
阶段的映射操作和 Reduce
阶段的归并操作。即可使得集群执行特定的任务。譬如将映射定制为正则匹配,而将归并操作定制为整合匹配结果。即可实现分布式的 Grep
工具。
MapReduce 集群的基本结构
待续…