A、 利⽤分布式⽂件系统、数据仓库、关系数据库等实现对结构化、半结构化和⾮结构化海量数据的存储和管理
B、 利⽤分布式并⾏编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析
C、 构建隐私数据保护体系和数据安全体系,有效保护个⼈隐私和数据安全
D、 把实时采集的数据作为流计算系统的输⼊,进⾏实时处理分析
答案:A
A、 利⽤分布式⽂件系统、数据仓库、关系数据库等实现对结构化、半结构化和⾮结构化海量数据的存储和管理
B、 利⽤分布式并⾏编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析
C、 构建隐私数据保护体系和数据安全体系,有效保护个⼈隐私和数据安全
D、 把实时采集的数据作为流计算系统的输⼊,进⾏实时处理分析
答案:A
A. 不适合低延迟数据访问
B. ⽆法⾼效存储⼤量⼩⽂件
C. 不⽀持多⽤户写⼊及任意修改⽂件
D. 较差的跨平台兼容性
A. 客户端是⽤户操作HDFS最常⽤的⽅式,HDFS在部署时都提供了客户端
B. HDFS客户端是⼀个库,暴露了HDFS⽂件系统接⼝
C. 严格来说,客户端并不算是HDFS的⼀部分
D. 客户端可以⽀持打开、读取、写⼊等常见的操作
A. 数据的准确性
B. 数据处理的延迟
C. 数据存储的容量
D. 数据传输的速度
A. HBase则采⽤了更加简单的数据模型,它把数据存储为未经解释的字符串
B. HBase操作不存在复杂的表与表之间的关系
C. HBase操作只有简单的插⼊、查询、删除、清空等
D. HBase在设计上就避免了复杂的表和表之间的关系
A. CPU性能
B. 内存
C. ⽹络
D. 存储容量
A. RDD(ResillientDistributedDataset)是运⾏在⼯作节点(WorkerNode)的⼀个进程,负责运⾏Task
B. Application是⽤户编写的Spark应⽤程序
C. ⼀个Job包含多个RDD及作⽤于相应RDD上的各种操作
D. DirectedAcyclicGraph反映RDD之间的依赖关系
A. ResourceManager
B. NodeManager
C. ApplicationMaster
D. DataManager
A. 从磁盘或从⽹络读取数据,即IO密集⼯作
B. 计算数据,即CPU密集⼯作
C. 针对不同的⼯作节点选择合适硬件类型
D. 负责协调集群中的数据存储
A. 在传统的数据处理流程中,存储的数据是旧的
B. 在传统的数据处理流程中,需要⽤户主动发出查询来获取结果
C. 传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管理系统中
D. 流计算的处理流程⼀般包含三个阶段:数据实时采集、数据批量计算、实时查询服务
A. 云数据库可以满⾜⼤企业的海量数据存储需求
B. 云数据库可以满⾜中⼩企业的低成本数据存储需求
C. 云数据库可以满⾜企业动态变化的数据存储需求
D. 前期零投⼊、后期免维护的数据库服务,可以很好满⾜它们的需求