A、 处理⼤规模数据的脚本语⾔
B、 ⼯作流和协作服务引擎,协调Hadoop上运⾏的不同任务
C、 ⽀持DAG作业的计算框架
D、 基于内存的分布式并⾏编程框架,具有较⾼的实时性,并且较好⽀持迭代计算
答案:D
A、 处理⼤规模数据的脚本语⾔
B、 ⼯作流和协作服务引擎,协调Hadoop上运⾏的不同任务
C、 ⽀持DAG作业的计算框架
D、 基于内存的分布式并⾏编程框架,具有较⾼的实时性,并且较好⽀持迭代计算
答案:D
A. 从分布式⽂件系统读⼊数据
B. 执⾏Map任务输出中间结果
C. 通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务
D. 执⾏Reduce任务得到最终结果并写⼊分布式⽂件系统
A. 从编程的灵活性来讲,Storm是⽐较理想的选择,它使⽤ApacheThrift,可以⽤任何编程语⾔来编写拓扑结构(Topology)
B. 当有⼤量的状态需要处理时,⽐如每个分区都有数⼗亿个元组,则可以选择Storm和SparkStreaming
C. SparkStreaming⽆法实现毫秒级的流计算
D. 在Spark上可以统⼀部署SparkSQL,SparkStreaming、MLlib,GraphX等组件,提供便捷的⼀体化编程模型
A. ⼀切与⽀撑⼤数据组织管理和价值发现相关的企业经济活动的集合
B. 提供智能交通、智慧医疗、智能物流、智能电⽹等⾏业应⽤的企业
C. 提供数据分享平台、数据分析平台、数据租售平台等服务的企业
D. 提供分布式计算、数据挖掘、统计分析等服务的各类企业
A. ⽹络层
B. 访问层
C. ⼤数据层
D. 数据源层
A. MapReduce具有⼴泛的应⽤,⽐如关系代数运算、分组与聚合运算等
B. MapReduce将复杂的、运⾏于⼤规模集群上的并⾏计算过程⾼度地抽象到了两个函数
C. 编程⼈员在不会分布式并⾏编程的情况下,也可以很容易将⾃⼰的程序运⾏在分布式系统上,完成海量数据集的计算
D. 不同的Map任务之间可以进⾏通信
A. Spark最初由美国加州伯克利⼤学(UCBerkeley)的AMP实验室于2009年开发
B. Spark在2014年打破了Hadoop保持的基准排序纪录.
C. Spark⽤⼗分之⼀的计算资源,获得了⽐Hadoop快3倍的速度
D. Spark运⾏模式单⼀
A. Web2.0⽹站系统通常不要求严格的数据库事务
B. Web2.0⽹站系统基本上不⽤数据库来存储
C. Web2.0并不要求严格的读写实时性
D. Web2.0通常不包含⼤量复杂的SQL查询
A. 数据存储方式
B. 数据传输速度
C. 数据查询语言
D. 数据安全性
A. 扩展性好,灵活性好
B. ⼤量写操作时性能⾼
C. ⽆法存储结构化信息
D. 条件查询效率⾼