问答题X 纠错

参考答案:

对于每个分区内的所有键值对,后台线程会根据key对它们进行内存排序(Sort),排序是MapReduce的默认操作。排序结束后,还包含一个可选的合并(Combine)操作。如果用户事先没有定义Combiner函数,就不用进行合并操作。如果用户事先定义了Combiner函数,则这个时候会执行合并操作,从而减少需要溢写到磁盘的数据量。
所谓“合并”,是指将那些具有相同key的的value加起来,比如,有两个键值对<*xmu",1>和<*xmu",1>,经过合并操作以后就可以得到一个键值对<*xmu",2>,减少了键值对的数量。
不过,并非所有场合都可以使用Combiner,因为,Combiner的输出是Reduce任务的输人,Combiner绝不能改变Reduce任务最终的计算结果,一般而言,累加、最大值等场景可以使用合并操作。

查答案就用赞题库小程序 还有拍照搜题 语音搜题 快来试试吧
无需下载 立即使用

你可能喜欢

问答题

是否所有的MapReduce程序都需要经过Map和Reduce这两个过程?如果不是,请举例说明。

参考答案:不是。对于关系的选择运算,只需要Map过程就能实现,对于关系R 中的每个元组t,检测是否是满足条件的所需元组,如果满足条...

问答题

MapReduce中有这样一个原则:移动计算比移动数据更经济。试述什么是本地计算,并分析为何要采用本地计算。

参考答案:MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢&rd...

问答题

试述MapReduce的工作流程(需包括提交任务、Map、Shuffle、Reduce的过程)。

参考答案:





问答题

MapReduce模型采用Master(JobTracker)-Slave(TaskTracker)结构,试描述JobTracker和TasKTracker的功能。

参考答案:MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave。Master上运行Jo...

问答题

MapReduce 是处理大数据的有力工具,但不是每个任务都可以使用MapReduce 来进行处理。试述适合用MapReduce来处理的任务或者数据集需满足怎样的要求。

参考答案:适合用MapReduce来处理的数据集,需要满足一个前提条件:待处理的数据集可以分解成许多小的数据集,而且每一个小数据集...

问答题

试述MapReduce和Hadoop的关系。

参考答案:Hadoop是依据Mapreduce的原理,用Java语言实现的分布式处理机制。Hadoop是一个能够对大量数据进行分布...

问答题

列举连接RDS for MySQL数据库的4种方法。

参考答案:方法1:使用客户端MySQL-Front访问。使用客户端MySQL-Front,在连接Host框中输人数据实例链接地址、...

问答题

简述RDS 中实例与数据库的概念。

参考答案:RDS实例或简称“实例”,是用户购买RDS服务的基本.单位。在实例中可以创建多个数据库,可以使用...

问答题

UMP系统是如何保障数据安全的?

参考答案:1)SSL数据库连接。SSL(Secure Sockets Layer)是为网络通信提供安全及数据完...

问答题

试述UMP系统的功能。

参考答案:UMP系统是构建在一个大的集群之上的,通过多个组件的协同作业,整个系统实现了对用户透明的 容灾、读写分离、分库...
赞题库

赞题库-搜题找答案

(已有500万+用户使用)


  • 历年真题

  • 章节练习

  • 每日一练

  • 高频考题

  • 错题收藏

  • 在线模考

  • 提分密卷

  • 模拟试题

无需下载 立即使用

版权所有©考试资料网(ppkao.com)All Rights Reserved