A. 每个Region服务器都有⼀个⾃⼰的HLog⽂件
B. 每次刷写都⽣成⼀个新的StoreFile,数量太多,影响查找速度
C. 合并操作⽐较耗费资源,只有数量达到⼀个阈值才启动合并
D. Store是Region服务器的核⼼
A. RDD(ResillientDistributedDataset)是运⾏在⼯作节点(WorkerNode)的⼀个进程,负责运⾏Task
B. Application是⽤户编写的Spark应⽤程序
C. ⼀个Job包含多个RDD及作⽤于相应RDD上的各种操作
D. DirectedAcyclicGraph反映RDD之间的依赖关系
A. 流处理系统处理的是实时的数据,⽽传统的数据处理系统处理的是预先存储好的静态数据
B. ⽤户通过流处理系统获取的是实时结果,⽽通过传统的数据处理系统,获取的是过去某⼀时刻的结果
C. 流处理系统⽆需⽤户主动发出查询,实时查询服务可以主动将结果推送给⽤户
D. 传统的数据处理系统系统⽆需⽤户主动发出查询,批量查询服务可以主动将结果推送给⽤户
A. 爬⾍持续不断地抓取新页⾯,这些页⾯每隔⼀段时间地存储到BigTable⾥
B. BigTable是⼀个分布式存储系统
C. BigTable起初⽤于解决典型的互联⽹搜索问题
D. ⽹络搜索应⽤查询建⽴好的索引,从BigTable得到⽹页
A. 批量计算:充裕时间处理静态数据,如Hadoop
B. 静态数据不适合采⽤批量计算,因为它不适合⽤传统的关系模型建模
C. 流数据必须采⽤实时计算
D. 流数据的响应时间为秒级
A. 每个Application都有⾃⼰专属的Executor进程,并且该进程在Application运⾏期间⼀直驻留
B. Executor进程以多线程的⽅式运⾏Task
C. Spark运⾏过程与资源管理器⽆关,只要能够获取Executor进程并保持通信即可
D. Task采⽤了数据本地性和推测执⾏等优化机制
A. 应⽤层
B. 处理层
C. 感知层
D. ⽹络层
A. 为海量数据提供存储的HDFS和对数据进⾏计算的MapReduce
B. 提供整个HDFS⽂件系统的NameSpace(命名空间)管理、块管理等所有服务
C. Hadoop不仅可以运⾏在企业内部的集群中,也可以运⾏在云计算环境中
D. Hadoop被视为事实上的⼤数据处理标准
A. 为了让⽤户从海量信息中⾼效地获得⾃⼰所需的信息,推荐系统应运⽽⽣
B. 推荐系统是⼤数据在互联⽹领域的典型应⽤
C. 推荐系统是⾃动联系⽤户和物品的⼀种⼯具
D. 推荐系统是利⽤⼤数据为⽤户推荐消费内容、调整线下门店布局、控制店内⼈流量