A、 从编程的灵活性来讲,Storm是⽐较理想的选择,它使⽤ApacheThrift,可以⽤任何编程语⾔来编写拓扑结构(Topology)
B、 当有⼤量的状态需要处理时,⽐如每个分区都有数⼗亿个元组,则可以选择Storm和SparkStreaming
C、 SparkStreaming⽆法实现毫秒级的流计算
D、 在Spark上可以统⼀部署SparkSQL,SparkStreaming、MLlib,GraphX等组件,提供便捷的⼀体化编程模型
答案:B
A、 从编程的灵活性来讲,Storm是⽐较理想的选择,它使⽤ApacheThrift,可以⽤任何编程语⾔来编写拓扑结构(Topology)
B、 当有⼤量的状态需要处理时,⽐如每个分区都有数⼗亿个元组,则可以选择Storm和SparkStreaming
C、 SparkStreaming⽆法实现毫秒级的流计算
D、 在Spark上可以统⼀部署SparkSQL,SparkStreaming、MLlib,GraphX等组件,提供便捷的⼀体化编程模型
答案:B
A. Client
B. JobTracker
C. TaskTracker
D. Task
A. 爬⾍持续不断地抓取新页⾯,这些页⾯每隔⼀段时间地存储到BigTable⾥
B. BigTable是⼀个分布式存储系统
C. BigTable起初⽤于解决典型的互联⽹搜索问题
D. ⽹络搜索应⽤查询建⽴好的索引,从BigTable得到⽹页
A. 分布式⽂件系统
B. 流数据读写
C. 资源管理和调度器
D. Hadoop上的数据仓库
A. 成熟期
B. 萌芽期
C. ⼤规模应⽤期
D. 迷茫期
A. Zookeeper⽂件
B. -ROOT-表
C. .META.表
D. 数据类型
A. 矩形
B. 圆形
C. 线条
D. 图⽚
A. 静态数据
B. 实时数据流
C. 历史数据
D. 结构化数据
A. 数据安全性高
B. 数据处理速度快
C. 数据存储成本低
D. 数据类型丰富
A. ⼤数据成为⼀种新的决策⽅式
B. ⼤数据应⽤促进信息技术与各⾏业的深度融合
C. ⼤数据开发推动新技术和新应⽤的不断涌现
D. ⼤数据使得数据科学家成为热门职业
A. 每个Region服务器都有⼀个⾃⼰的HLog⽂件
B. 每次刷写都⽣成⼀个新的StoreFile,数量太多,影响查找速度
C. 合并操作⽐较耗费资源,只有数量达到⼀个阈值才启动合并
D. Store是Region服务器的核⼼