A、 从分布式⽂件系统读⼊数据
B、 执⾏Map任务输出中间结果
C、 通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务
D、 执⾏Reduce任务得到最终结果并写⼊分布式⽂件系统
答案:ABCD
A、 从分布式⽂件系统读⼊数据
B、 执⾏Map任务输出中间结果
C、 通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务
D、 执⾏Reduce任务得到最终结果并写⼊分布式⽂件系统
答案:ABCD
A. 间断性
B. 原⼦性
C. ⼀致性
D. 持久性
A. 许多⾮图结构的⼤数据,通常会被转换为关系模型后进⾏分析
B. 许多⼤数据都是以⼤规模图或⽹络的形式呈现
C. 图数据结构很好地表达了数据之间的关联性
D. 关联性计算是⼤数据计算的核⼼
A. RDS是阿⾥云提供的关系型数据库服务
B. RDS由专业数据库管理团队维护
C. RDS具有安全稳定、数据可靠、⾃动备份
D. RDS实例,是⽤户购买RDS服务的基本单位。在实例中,⽤户只能创建⼀个数据库
A. MapReduce默认1000MB缓存
B. 多个溢写⽂件归并成⼀个或多个⼤⽂件,⽂件中的键值对是排序的
C. 当数据很少时,不需要溢写到磁盘,直接在缓存中归并,然后输出给Reduce
D. 每个Map任务分配多个缓存,使得任务运⾏更有效率
A. 为了让⽤户从海量信息中⾼效地获得⾃⼰所需的信息,推荐系统应运⽽⽣
B. 推荐系统是⼤数据在互联⽹领域的典型应⽤
C. 推荐系统是⾃动联系⽤户和物品的⼀种⼯具
D. 推荐系统是利⽤⼤数据为⽤户推荐消费内容、调整线下门店布局、控制店内⼈流量
A. ⾼性能:处理⼤数据的基本要求,如每秒处理⼏⼗万条数据
B. 实时性:保证较低的延迟时间,达到秒级别,甚⾄是毫秒级别
C. 分布式:⽀持⼤数据的基本架构,必须能够平滑扩展
D. 可靠性:能可靠地处理流数据
A. ⽤户可通过Client提供的⼀些接⼝查看作业运⾏状态
B. ⽤户编写的MapReduce程序通过Client提交到JobTracker端
C. JobTracker负责资源监控和作业调度
D. JobTracker会跟踪任务的执⾏进度、资源使⽤量等信息,并将这些信息告诉任务调度器(TaskScheduler)
A. 流数据层(Kafka)
B. 执⾏层(YARN)
C. 处理层(SamzaAPI)
D. 数据采集层(Scribe)
A. ⽆论是亚马逊还是Netflix,其推荐系统的基础都是ItemCF算法
B. ItemCF算法是给⽬标⽤户推荐那些和他们之前喜欢的物品相似的物品
C. ItemCF算法主要通过分析⽤户的⾏为记录来计算物品之间的相似度
D. 实现UserCF算法的关键步骤是计算物品与物品之间的相似度