A、Spark应⽤在复杂的批量数据处理
B、SparkSQL是基于历史数据的交互式查询
C、SparkStreaming是基于历史数据的数据挖掘
D、GraphX是图结构数据的处
答案:C
A、Spark应⽤在复杂的批量数据处理
B、SparkSQL是基于历史数据的交互式查询
C、SparkStreaming是基于历史数据的数据挖掘
D、GraphX是图结构数据的处
答案:C
A. 图结构数据的处理
B. 基于历史数据的交互式查询
C. 复杂的批量数据处理
D. 基于历史数据的数据挖掘
A. 数据存储
B. 数据加密
C. 数据理解与分析
D. 数据传输
A. 在传统的数据处理流程中,存储的数据是旧的
B. 在传统的数据处理流程中,需要⽤户主动发出查询来获取结果
C. 传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管理系统中
D. 流计算的处理流程⼀般包含三个阶段:数据实时采集、数据批量计算、实时查询服务
A. Map将⼩数据集进⼀步解析成⼀批
B. Map每⼀个输⼊的
C. Reduce输⼊的中间结果
D. Reduce输⼊的中间结果
A. 操作系统和围绕特定应⽤的必需的服务
B. 将基础设施(计算资源和存储)作为服务出租
C. 从⼀个集中的系统部署软件,使之在⼀台本地计算机上(或从云中远程地)运⾏的⼀个模型
D. 提供硬件、软件、⽹络等基础设施以及提供咨询、规划和系统集成服务
A. 数据挖掘
B. 离线分析
C. 实时查询
D. BI分析
A. 关系数据库以完善的关系代数理论作为基础,有严格的标准
B. 关系数据库可扩展性较差,⽆法较好⽀持海量数据存储
C. NoSQL可以⽀持超⼤规模数据存储
D. NoSQL数据库缺乏数学理论基础,复杂查询性能不⾼
A. 大数据可以脱离云计算独立存在
B. 云计算为大数据提供存储和计算资源
C. 大数据和云计算是两个毫不相关的领域
D. 云计算只能处理结构化大数据
A. 从编程的灵活性来讲,Storm是⽐较理想的选择,它使⽤ApacheThrift,可以⽤任何编程语⾔来编写拓扑结构(Topology)
B. 当有⼤量的状态需要处理时,⽐如每个分区都有数⼗亿个元组,则可以选择Storm和SparkStreaming
C. SparkStreaming⽆法实现毫秒级的流计算
D. 在Spark上可以统⼀部署SparkSQL,SparkStreaming、MLlib,GraphX等组件,提供便捷的⼀体化编程模型
A. 解析⽹页的任务就是分析⼀个页⾯的链接数,但是不赋初值
B. PageRank分配就是多次迭代计算页⾯的PageRank值
C. 收敛阶段的任务就是由⼀个⾮并⾏组件决定是否达到收敛
D. ⼀般判断是否收敛的条件是所有⽹页的PageRank值不再变化,或者运⾏30次以后我们就认为已经收敛了