A、 ⾼性能:处理⼤数据的基本要求,如每秒处理⼏⼗万条数据
B、 实时性:保证较低的延迟时间,达到秒级别,甚⾄是毫秒级别
C、 分布式:⽀持⼤数据的基本架构,必须能够平滑扩展
D、 可靠性:能可靠地处理流数据
答案:ABCD
A、 ⾼性能:处理⼤数据的基本要求,如每秒处理⼏⼗万条数据
B、 实时性:保证较低的延迟时间,达到秒级别,甚⾄是毫秒级别
C、 分布式:⽀持⼤数据的基本架构,必须能够平滑扩展
D、 可靠性:能可靠地处理流数据
答案:ABCD
A. ⼑⽚服务器、⾼速⽹、SAN,价格贵,扩展性差上
B. 共享式(共享内存/共享存储),容错性好
C. what-how,难
D. 实时、细粒度计算、计算密集型
A. ⼀致性,是指任何⼀个读操作总是能够读到之前完成的写操作的结果量
B. ⼀个分布式系统可以同时满⾜⼀致性、可⽤性和分区容忍性这三个需求
C. 可⽤性,是指快速获取数据
D. 分区容忍性,是指当出现⽹络分区的情况时(即系统中的⼀部分节点⽆法和其他节点进⾏通信),分离的系统也能够正常运⾏
A. 相对于Spark来说,使⽤Hadoop进⾏迭代计算⾮常耗资源
B. Spark将数据载⼊内存后,之后的迭代计算都可以直接使⽤内存中的中间结果作运算,避免了从磁盘中频繁读取数据
C. Hadoop的设计遵循”⼀个软件栈满⾜不同应⽤场景”的理念
D. Spark可以部署在资源管理器YARN之上,提供⼀站式的⼤数据解决⽅案
A. 存储被拆分的数据块
B. 协调数据计算任务
C. 负责协调集群中的数据存储
D. 负责执⾏由JobTracker指派的任务
A. 专家推荐:⼈⼯推荐,由资深的专业⼈⼠来进⾏物品的筛选和推荐,需要较多的⼈⼒成本
B. 基于统计的推荐:基于统计信息的推荐(如热门推荐),易于实现,但对⽤户个性化偏好的描述能⼒较弱
C. 基于内容的推荐:通过机器学习的⽅法去描述内容的特征,并基于内容的特征来发现与之相似的内容
D. 混合推荐:结合多种推荐算法来提升推荐效果
A. 复杂的批量数据处理:通常时间跨度在数⼗分钟到数⼩时之间
B. 基于历史数据的交互式查询:通常时间跨度在数⼗秒到数分钟之间
C. 基于实时数据流的数据处理:通常时间跨度在数⼗秒到数分钟之间
D. 基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间
A. GFS与Zookeeper
B. GFS与HDFS
C. MapReduce与HadoopMapReduce
D. Chubby与Zookeeper
A. Standalone(类似于MapReduce1.0,slot为资源分配单位)
B. SparkonMesos(和Spark有⾎缘关系,更好⽀持Mesos)
C. SparkonYARN
D. SparkonHDFS
A. 在传统的数据处理流程中,存储的数据是旧的
B. 在传统的数据处理流程中,需要⽤户主动发出查询来获取结果
C. 传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管理系统中
D. 流计算的处理流程⼀般包含三个阶段:数据实时采集、数据批量计算、实时查询服务