A、 ⾼效的容错性
B、 中间结果持久化到内存,数据在内存中的多个
C、 存放的数据可以是Java对象,避免了不必要的对象序列化和反序列化
D、 现有容错机制:数据复制或者记录⽇志
答案:BC
A、 ⾼效的容错性
B、 中间结果持久化到内存,数据在内存中的多个
C、 存放的数据可以是Java对象,避免了不必要的对象序列化和反序列化
D、 现有容错机制:数据复制或者记录⽇志
答案:BC
A. 不可以⽔平扩展
B. 多点故障问题
C. HDFSHA是热备份,提供⾼可⽤性,但是⽆法解决可扩展性、系统性能和隔离性
D. 系统整体性能受限于单个名称节点的吞吐量
A. RDD(ResillientDistributedDataset)是运⾏在⼯作节点(WorkerNode)的⼀个进程,负责运⾏Task
B. Application是⽤户编写的Spark应⽤程序
C. ⼀个Job包含多个RDD及作⽤于相应RDD上的各种操作
D. DirectedAcyclicGraph反映RDD之间的依赖关系
A. 在Pregel中,为了获得更好的性能,”标志位”和输⼊消息队列是分开保存的
B. 在超步S中,当⼀个Worker在进⾏顶点处理时,⽤于当前超步的消息会被处理
C. 需要两个消息队列⽤于存放作⽤于当前超步S的消息和作⽤于下⼀个超步S+1的消息
D. 每个Worker上都保存了⼀个或多个分区的状态信息,当⼀个Worker发⽣故障时,它所负责维护的分区的当前状态信息就会丢失
A. 数据间的因果关系
B. 数据间的相关关系
C. 数据间的包含关系
D. 数据间的传递关系
A. 每个Application都有⾃⼰专属的Executor进程,并且该进程在Application运⾏期间⼀直驻留
B. Executor进程以多线程的⽅式运⾏Task
C. Spark运⾏过程与资源管理器⽆关,只要能够获取Executor进程并保持通信即可
D. Task采⽤了数据本地性和推测执⾏等优化机制
A. 识别和感知技术
B. ⽹络与通信技术
C. 数据挖掘与融合技术
D. 信息处理⼀体化技术
A. ⾼效的容错性
B. 中间结果持久化到内存,数据在内存中的多个
C. 存放的数据可以是Java对象,避免了不必要的对象序列化和反序列化
D. 现有容错机制:数据复制或者记录⽇志
A. 从磁盘或从⽹络读取数据,即IO密集⼯作
B. 计算数据,即CPU密集⼯作
C. 针对不同的⼯作节点选择合适硬件类型
D. 负责协调集群中的数据存储
A. 利⽤多线程来执⾏具体的任务,减少任务的启动开销
B. Executor中有⼀个BlockManager存储模块,有效减少IO开销
C. 提供了⼀种⾼度受限的共享内存模型
D. 不同场景之间输⼊输出数据能做到⽆缝共享
A. ⼀切与⽀撑⼤数据组织管理和价值发现相关的企业经济活动的集合
B. 提供智能交通、智慧医疗、智能物流、智能电⽹等⾏业应⽤的企业
C. 提供数据分享平台、数据分析平台、数据租售平台等服务的企业
D. 提供分布式计算、数据挖掘、统计分析等服务的各类企业