A、 从磁盘或从⽹络读取数据,即IO密集⼯作
B、 计算数据,即CPU密集⼯作
C、 针对不同的⼯作节点选择合适硬件类型
D、 负责协调集群中的数据存储
答案:AB
A、 从磁盘或从⽹络读取数据,即IO密集⼯作
B、 计算数据,即CPU密集⼯作
C、 针对不同的⼯作节点选择合适硬件类型
D、 负责协调集群中的数据存储
答案:AB
A. 许多⾮图结构的⼤数据,通常会被转换为关系模型后进⾏分析
B. 许多⼤数据都是以⼤规模图或⽹络的形式呈现
C. 图数据结构很好地表达了数据之间的关联性
D. 关联性计算是⼤数据计算的核⼼
A. SecondaryNameNode⼀般是并⾏运⾏在多台机器上
B. 它是⽤来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间
C. SecondaryNameNode通过HTTPGET⽅式从NameNode上获取到FsImage和EditLog⽂件,并下载到本地的相应⽬录下
D. SecondaryNameNode是HDFS架构中的⼀个组成部分
A. 数值数组
B. 字符串
C. 对象(本⾝包含其他数组或键/值对)
D. JSON和GeoJSON
A. Scala语法复杂,但是能提供优雅的API计算
B. Scala具备强⼤的并发性,⽀持函数式编程,可以更好地⽀持分布式系统
C. Scala兼容Java,运⾏速度快,且能融合到Hadoop⽣态圈中
D. Scala是Spark的主要编程语⾔
A. 运⾏速度快
B. 容易使⽤
C. 通⽤性
D. 运⾏模式单⼀
A. 为⽤户提供了系统底层细节透明的分布式基础架构
B. 具有很好的跨平台特性
C. 可以部署在廉价的计算机集群中
D. 被公认为⾏业⼤数据标准开源软件
A. 从分布式⽂件系统读⼊数据
B. 执⾏Map任务输出中间结果
C. 通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务
D. 执⾏Reduce任务得到最终结果并写⼊分布式⽂件系统
A. 强⼤的跨平台兼容性
B. ⽀持⼤规模⽂件存储
C. 简化系统设计
D. 适合数据备份
A. HadoopMapReduce是MapReduce的开源实现,后者⽐前者使⽤门槛低很多
B. MapReduce⾮共享式,容错性好
C. MapReduce批处理、实时、数据疏散型
D. MapReduce采⽤”分⽽治之”策略