A、 利⽤分布式⽂件系统、数据仓库、关系数据库等实现对结构化、半结构化和⾮结构化海量数据的存储和管理
B、 利⽤分布式并⾏编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析
C、 构建隐私数据保护体系和数据安全体系,有效保护个⼈隐私和数据安全
D、 把实时采集的数据作为流计算系统的输⼊,进⾏实时处理分析
答案:A
A、 利⽤分布式⽂件系统、数据仓库、关系数据库等实现对结构化、半结构化和⾮结构化海量数据的存储和管理
B、 利⽤分布式并⾏编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析
C、 构建隐私数据保护体系和数据安全体系,有效保护个⼈隐私和数据安全
D、 把实时采集的数据作为流计算系统的输⼊,进⾏实时处理分析
答案:A
A. CPU性能
B. 内存
C. ⽹络
D. 存储容量
A. Client
B. JobTracker
C. TaskTracker以及Task
D. Job
A. 单点故障问题
B. 不可以⽔平扩展
C. 单个名称节点难以提供不同程序之间的隔离性
D. 系统整体性能受限于单个名称节点的吞吐量
A. Spark在借鉴HadoopMapReduce优点的同时,很好地解决了MapReduce所⾯临的问题
B. Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作
C. HadoopMapReduce编程模型⽐Spark更灵活
D. HadoopMapReduce提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更⾼
A. 常常表现出⽐较差的内存访问局部性
B. 针对单个顶点的处理⼯作过少
C. 计算过程中伴随着并⾏度的改变
D. 计算过程简易
A. 数据实时采集
B. 数据批量采集
C. 数据实时计算
D. 实时查询服务
A. Hadoop擅长批处理,不适合流计算
B. MapReduce是专门⾯向静态数据的批量处理的
C. Hadoop设计的初衷是⾯向⼤规模数据的批量处理
D. MapReduce不适合⽤于处理持续到达的动态数据
A. ⽀持⼤规模⽂件存储
B. 简化系统设计
C. 适合数据备份
D. ⽀持中等规模⽂件存储
A. FieldsGrouping:⼴播发送,每⼀个Task都会收到所有的Tuple
B. GlobalGrouping:全局分组,所有的Tuple都发送到同⼀个Task中
C. NonGrouping:不分组,和ShuffleGrouping类似,当前Task的执⾏会和它的被订阅者在同⼀个线程中执⾏
D. DirectGrouping:直接分组,直接指定由某个Task来执⾏Tuple的处理
A. ResourceManager
B. NodeManager
C. ApplicationMaster
D. DataManager