A、 为⽤户提供了系统顶层分布式基础架构
B、 具有较差的跨平台特性
C、 可以部署在廉价的计算机集群中
D、 被公认为⾏业⼤数据标准开源软件
答案:AB
A、 为⽤户提供了系统顶层分布式基础架构
B、 具有较差的跨平台特性
C、 可以部署在廉价的计算机集群中
D、 被公认为⾏业⼤数据标准开源软件
答案:AB
A. 为了让⽤户从海量信息中⾼效地获得⾃⼰所需的信息,推荐系统应运⽽⽣
B. 推荐系统是⼤数据在互联⽹领域的典型应⽤
C. 推荐系统是⾃动联系⽤户和物品的⼀种⼯具
D. 推荐系统是利⽤⼤数据为⽤户推荐消费内容、调整线下门店布局、控制店内⼈流量
A. 把⽂件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
B. ⽤于在Hadoop与传统数据库之间进⾏数据传递
C. ⼀个⾼可⽤的,⾼可靠的,分布式的海量⽇志采集、聚合和传输的系统
D. ⼀种⾼吞吐量的分布式发布订阅消息系统,可以处理消费者规模的⽹站中的所有动作流数据
A. 从编程的灵活性来讲,Storm是⽐较理想的选择,它使⽤ApacheThrift,可以⽤任何编程语⾔来编写拓扑结构(Topology)
B. 当有⼤量的状态需要处理时,⽐如每个分区都有数⼗亿个元组,则可以选择Storm和SparkStreaming
C. SparkStreaming⽆法实现毫秒级的流计算
D. 在Spark上可以统⼀部署SparkSQL,SparkStreaming、MLlib,GraphX等组件,提供便捷的⼀体化编程模型
A. 源节点(SourceNode)
B. 主节点(MasterNode)
C. 名称结点(NameNode)
D. 节点(SlaveNode)
A. 充分利⽤主从库实现⽤户读写操作的分离,实现负载均衡
B. UMP系统实现了对于⽤户透明的读写分离功能
C. UMP采⽤的两种资源隔离⽅式(⽤Cgroup限制MySQL进程资源和在Proxy服务器端限制QPS)
D. UMP系统只设计了⼀种机制来保证数据安全
A. 选择集群中的多台机器执⾏图计算任务,每台机器上运⾏⽤户程序的⼀个副本
B. Master把⼀个图分成多个分区,并把分区分配到多个Worker
C. ster会把⽤户输⼊划分成多个部分,通常是基于⽂件边界进⾏划分
D. ster向每个Worker发送指令,Worker收到指令后,开始运⾏⼀个超步
A. 客户端是⽤户操作HDFS最常⽤的⽅式,HDFS在部署时都提供了客户端
B. HDFS客户端是⼀个库,暴露了HDFS⽂件系统接⼝
C. 严格来说,客户端并不算是HDFS的⼀部分
D. 客户端可以⽀持打开、读取、写⼊等常见的操作
A. MapReduce体系结构主要由四个部分组成,分别是:Client、JobTracker、TaskTracker以及Task
B. Task分为MapTask和ReduceTask两种,均由TaskTracker启动
C. 在MapReduce⼯作流程中,所有的数据交换都是通过MapReduce框架⾃⾝去实现的
D. 在MapReduce⼯作流程中,⽤户不能显式地从⼀台机器向另⼀台机器发送消息
A. ⼀个作业(Job)是对⼀组输⼊流进⾏处理转化成输出流的程序
B. Samza的流数据单位既不是Storm中的元组,也不是SparkStreaming中的DStream,⽽是⼀条条消息
C. ⼀个作业会被进⼀步分割成多个任务(Task)来执⾏
D. 分区之间没有定义顺序,从⽽允许每⼀个任务独⽴执⾏