A、 从编程的灵活性来讲,Storm是⽐较理想的选择,它使⽤ApacheThrift,可以⽤任何编程语⾔来编写拓扑结构(Topology)
B、 当有⼤量的状态需要处理时,⽐如每个分区都有数⼗亿个元组,则可以选择Storm和SparkStreaming
C、 SparkStreaming⽆法实现毫秒级的流计算
D、 在Spark上可以统⼀部署SparkSQL,SparkStreaming、MLlib,GraphX等组件,提供便捷的⼀体化编程模型
答案:B
A、 从编程的灵活性来讲,Storm是⽐较理想的选择,它使⽤ApacheThrift,可以⽤任何编程语⾔来编写拓扑结构(Topology)
B、 当有⼤量的状态需要处理时,⽐如每个分区都有数⼗亿个元组,则可以选择Storm和SparkStreaming
C、 SparkStreaming⽆法实现毫秒级的流计算
D、 在Spark上可以统⼀部署SparkSQL,SparkStreaming、MLlib,GraphX等组件,提供便捷的⼀体化编程模型
答案:B
A. 爬⾍持续不断地抓取新页⾯,这些页⾯每隔⼀段时间地存储到BigTable⾥
B. BigTable是⼀个分布式存储系统
C. BigTable起初⽤于解决典型的互联⽹搜索问题
D. ⽹络搜索应⽤查询建⽴好的索引,从BigTable得到⽹页
A. 实时获取来⾃不同数据源的海量数据,经过实时分析处理,获得有价值的信息
B. 流计算秉承⼀个基本理念,即数据的价值随着时间的流逝⽽降低
C. 对于⼀个流计算系统来说,它应该⽀持TB级甚⾄是PB级的数据规模
D. 流计算只需要保证较低的延迟时间,即只达到秒级别即可处理⼀切问题
A. 从数据模型的⾓度来说,云数据库并⾮⼀种全新的数据库技术
B. 云数据库并没有专属于⾃⼰的数据模型,云数据库所采⽤的数据模型可以是关系数据库所使⽤的关系模型
C. 同⼀个公司只能提供采⽤不同数据模型的单个云数据库服务
D. 许多公司在开发云数据库时,后端数据库都是直接使⽤现有的各种关系数据库或NoSQL数据库产品
A. 推荐系统是⼤数据在互联⽹领域的典型应⽤
B. 推荐系统是⾃动联系⽤户和物品的⼀种⼯具
C. 推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售
D. 推荐系统分为基于物品的协同过滤和基于商家的协同过滤
A. 分布式存储
B. 虚拟化
C. 分布式计算
D. 多租户
A. 兼容廉价的硬件设备
B. 流数据读写
C. ⼤数据集
D. 复杂的⽂件模型
A. 库函数:链接到每个客户端
B. ⼀个Master主服务器
C. 许多个Region服务器
D. 部署在廉价的计算机集群中
A. 结构化数据
B. 半结构化数据
C. 非结构化数据
D. 所有类型数据
A. Hadoop可以很好地解决⼤规模数据的离线批量处理问题,但是,受限于HadoopMapReduce编程框架的⾼延迟数据处理机制,使得
B. HDFS⾯向批量访问模式,不是随机访问模式
C. 传统的通⽤关系型数据库⽆法应对在数据规模剧增时导致的系统扩展性和性能问题
D. 传统关系数据库在数据结构变化时⼀般需要停机维护;空列浪费存储空间