A、 相对于Spark来说,使⽤Hadoop进⾏迭代计算⾮常耗资源
B、 Spark将数据载⼊内存后,之后的迭代计算都可以直接使⽤内存中的中间结果作运算,避免了从磁盘中频繁读取数据
C、 Hadoop的设计遵循”⼀个软件栈满⾜不同应⽤场景”的理念
D、 Spark可以部署在资源管理器YARN之上,提供⼀站式的⼤数据解决⽅案
答案:C
A、 相对于Spark来说,使⽤Hadoop进⾏迭代计算⾮常耗资源
B、 Spark将数据载⼊内存后,之后的迭代计算都可以直接使⽤内存中的中间结果作运算,避免了从磁盘中频繁读取数据
C、 Hadoop的设计遵循”⼀个软件栈满⾜不同应⽤场景”的理念
D、 Spark可以部署在资源管理器YARN之上,提供⼀站式的⼤数据解决⽅案
答案:C
A. FieldsGrouping:⼴播发送,每⼀个Task都会收到所有的Tuple
B. GlobalGrouping:全局分组,所有的Tuple都发送到同⼀个Task中
C. NonGrouping:不分组,和ShuffleGrouping类似,当前Task的执⾏会和它的被订阅者在同⼀个线程中执⾏
D. DirectGrouping:直接分组,直接指定由某个Task来执⾏Tuple的处理
A. 成本⾼
B. ⾼可靠性
C. ⾼容错性
D. 运⾏在Linux平台上
A. Hadoop可以很好地解决⼤规模数据的离线批量处理问题,但是,受限于HadoopMapReduce编程框架的⾼延迟数据处理机制,使得
B. HDFS⾯向批量访问模式,不是随机访问模式
C. 传统的通⽤关系型数据库⽆法应对在数据规模剧增时导致的系统扩展性和性能问题
D. 传统关系数据库在数据结构变化时⼀般需要停机维护;空列浪费存储空间
A. 动态可扩展
B. ⾼可⽤性
C. 免维护
D. 安全
A. 分布式⽂件系统
B. 流数据读写
C. 资源管理和调度器
D. Hadoop上的数据仓库
A. Scala语法复杂,但是能提供优雅的API计算
B. Scala具备强⼤的并发性,⽀持函数式编程,可以更好地⽀持分布式系统
C. Scala兼容Java,运⾏速度快,且能融合到Hadoop⽣态圈中
D. Scala是Spark的主要编程语⾔
A. CAP
B. 最终⼀致性
C. BASE
D. DN8
A. ⽂档数据库
B. 图数据库
C. 列族数据库
D. 时间戳数据库
A. 电信⾏业:客户离⽹分析
B. 智能机器⼈
C. 零售⾏业:发现关联购买⾏为、进⾏客户群体细分
D. 推荐系统