试分析为何采用Combiner可以减少数据传输量？是否所有的MapReduc...

试分析为何采用Combiner可以减少数据传输量？是否所有的MapReduce程序都可以采用Combiner？为什么？

参考答案：对于每个分区内的所有键值对，后台线程会根据key对它们进行内存排序（Sort），排序是MapReduce的默认操作。排序结束后，还包含一个可选的合并（Combine）操作。如果用户事先没有定义Combiner函数，就不用进行合并操作。如果用户事先定义了Combiner函数，则这个时候会执行合并操作，从而减少需要溢写到磁盘的数据量。
所谓“合并”，是指将那些具有相同key的的value加起来，比如，有两个键值对<*xmu"，1>和<*xmu"，1>，经过合并操作以后就可以得到一个键值对<*xmu"，2>，减少了键值对的数量。
不过，并非所有场合都可以使用Combiner，因为，Combiner的输出是Reduce任务的输人，Combiner绝不能改变Reduce任务最终的计算结果，一般而言，累加、最大值等场景可以使用合并操作。

进入题库练习

查答案就用赞题库小程序还有拍照搜题语音搜题快来试试吧

无需下载立即使用

你可能喜欢

问答题

是否所有的MapReduce程序都需要经过Map和Reduce这两个过程？如果不是，请举例说明。

参考答案：不是。对于关系的选择运算，只需要Map过程就能实现，对于关系R 中的每个元组t，检测是否是满足条件的所需元组，如果满足条...

点击查看答案进入题库练习

问答题

MapReduce中有这样一个原则：移动计算比移动数据更经济。试述什么是本地计算，并分析为何要采用本地计算。

参考答案：MapReduce设计的一个理念就是“计算向数据靠拢”，而不是“数据向计算靠拢&rd...

点击查看答案进入题库练习