A、 数据快速持续到达,潜在⼤⼩也许是⽆穷⽆尽的
B、 数据来源众多,格式复杂
C、 注重数据的整体价值,不过分关注个别数据
D、 系统可以控制将要处理的新到达的数据元素的顺序
答案:AC
A、 数据快速持续到达,潜在⼤⼩也许是⽆穷⽆尽的
B、 数据来源众多,格式复杂
C、 注重数据的整体价值,不过分关注个别数据
D、 系统可以控制将要处理的新到达的数据元素的顺序
答案:AC
A. Zookeeper⽂件
B. -ROOT-表
C. .META.表
D. 数据类型
A. 基于遍历算法的、实时的图数据库,如Neo4j、OrientD
B. DEX和InfiniteGraph
C. 基于遍历算法的、实时的图数据库,如GoldenOrb、Giraph、Pregel和Hama
D. 以图顶点为中⼼的、基于消息传递批处理的并⾏引擎,如Neo4j、OrientDB、DEX和InfiniteGraph
A. 名称节点出错
B. 数据节点出错
C. 数据出错
D. 数据源太⼤
A. ⼀个作业(Job)是对⼀组输⼊流进⾏处理转化成输出流的程序
B. Samza的流数据单位既不是Storm中的元组,也不是SparkStreaming中的DStream,⽽是⼀条条消息
C. ⼀个作业会被进⼀步分割成多个任务(Task)来执⾏
D. 分区之间没有定义顺序,从⽽允许每⼀个任务独⽴执⾏
A. 实时性差(适合批处理,不⽀持实时交互式)
B. 资源浪费(Map和Reduce分两阶段执⾏)
C. 执⾏迭代操作效率低
D. 难以看到程序整体逻辑
A. 存储设备容量不断增加
B. ⽹络带宽不断增加
C. CPU处理能⼒⼤幅提升
D. 数据量不断增⼤
A. Spark最初由美国加州伯克利⼤学(UCBerkeley)的AMP实验室于2009年开发
B. Spark在2014年打破了Hadoop保持的基准排序纪录.
C. Spark⽤⼗分之⼀的计算资源,获得了⽐Hadoop快3倍的速度
D. Spark运⾏模式单⼀
A. 从编程的灵活性来讲,Storm是⽐较理想的选择,它使⽤ApacheThrift,可以⽤任何编程语⾔来编写拓扑结构(Topology)
B. 当有⼤量的状态需要处理时,⽐如每个分区都有数⼗亿个元组,则可以选择Storm和SparkStreaming
C. SparkStreaming⽆法实现毫秒级的流计算
D. 在Spark上可以统⼀部署SparkSQL,SparkStreaming、MLlib,GraphX等组件,提供便捷的⼀体化编程模型