A、 流数据层(Kafka)
B、 执⾏层(YARN)
C、 处理层(SamzaAPI)
D、 数据采集层(Scribe)
答案:D
A、 流数据层(Kafka)
B、 执⾏层(YARN)
C、 处理层(SamzaAPI)
D、 数据采集层(Scribe)
答案:D
A. 数据起始位置
B. 数据长度
C. 数据所在节点
D. 数据⼤⼩
A. Map将⼩数据集进⼀步解析成⼀批
B. Map每⼀个输⼊的
C. Reduce输⼊的中间结果
D. Reduce输⼊的中间结果
A. ModestMaps是⼀个⼩型、可扩展、交互式的免费库
B. Leaflet是⼀个⼩型化的地图框架,通过⼩型化和轻量化来满⾜移动⽹页的需要
C. GoogleFusionTables让⼀般使⽤者也可以轻松制作出专业的统计地图
D. ⼤数据魔镜是⼀款优秀的国产数据分析软件,它丰富的数据公式和算法可以让⽤户真正理解探索分析数据
A. Scala语法复杂,但是能提供优雅的API计算
B. Scala具备强⼤的并发性,⽀持函数式编程,可以更好地⽀持分布式系统
C. Scala兼容Java,运⾏速度快,且能融合到Hadoop⽣态圈中
D. Scala是Spark的主要编程语⾔
A. ⼑⽚服务器、⾼速⽹、SAN,价格贵,扩展性差上
B. 共享式(共享内存/共享存储),容错性好
C. what-how,难
D. 实时、细粒度计算、计算密集型
A. 存储被拆分的数据块
B. 协调数据计算任务
C. 负责协调集群中的数据存储
D. 负责执⾏由JobTracker指派的任务
A. 主从结构模型
B. 分层模式
C. 管道-过滤器模式
D. 点对点模式
A. 数据分析
B. 数据实时查询
C. 数据挖掘
D. 数据接收
A. 从编程的灵活性来讲,Storm是⽐较理想的选择,它使⽤ApacheThrift,可以⽤任何编程语⾔来编写拓扑结构(Topology)
B. 当有⼤量的状态需要处理时,⽐如每个分区都有数⼗亿个元组,则可以选择Storm和SparkStreaming
C. SparkStreaming⽆法实现毫秒级的流计算
D. 在Spark上可以统⼀部署SparkSQL,SparkStreaming、MLlib,GraphX等组件,提供便捷的⼀体化编程模型