A、 ⼀个作业(Job)是对⼀组输⼊流进⾏处理转化成输出流的程序
B、 Samza的流数据单位既不是Storm中的元组,也不是SparkStreaming中的DStream,⽽是⼀条条消息
C、 ⼀个作业会被进⼀步分割成多个任务(Task)来执⾏
D、 分区之间没有定义顺序,从⽽允许每⼀个任务独⽴执⾏
答案:ABCD
A、 ⼀个作业(Job)是对⼀组输⼊流进⾏处理转化成输出流的程序
B、 Samza的流数据单位既不是Storm中的元组,也不是SparkStreaming中的DStream,⽽是⼀条条消息
C、 ⼀个作业会被进⼀步分割成多个任务(Task)来执⾏
D、 分区之间没有定义顺序,从⽽允许每⼀个任务独⽴执⾏
答案:ABCD
A. 数据实时采集
B. 数据批量采集
C. 数据实时计算
D. 实时查询服务
A. 云数据库是部署和虚拟化在云计算环境中的数据库
B. 云数据库是在云计算的⼤背景下发展起来的⼀种新兴的共享基础架构的⽅法
C. 云数据库价格不菲,维护费⽤极其昂贵
D. 云数据库具有⾼可扩展性、⾼可⽤性、采⽤多租形式和⽀持资源有效分发等特点
A. 访问层
B. ⼤数据层
C. 数据源层
D. ⽹络层
A. Zookeeper⽂件
B. -ROOT-表
C. .META.表
D. 数据类型
A. ⽀持⼤规模⽂件存储
B. 简化系统设计
C. 适合数据备份
D. ⽀持中等规模⽂件存储
A. 专家推荐:⼈⼯推荐,由资深的专业⼈⼠来进⾏物品的筛选和推荐,需要较多的⼈⼒成本性
B. 基于统计的推荐:通过机器学习的⽅法去描述内容的特征,并基于内容的特征来发现与之相似的内容
C. 协同过滤推荐:应⽤最早和最为成功的推荐⽅法之⼀
D. 混合推荐:结合多种推荐算法来提升推荐效果
A. 基于历史数据的数据挖掘
B. 图结构数据的处理
C. 基于历史数据的交互式查询
D. 基于实时数据流的数据处理
A. Spark最初由美国加州伯克利⼤学(UCBerkeley)的AMP实验室于2009年开发
B. Spark在2014年打破了Hadoop保持的基准排序纪录.
C. Spark⽤⼗分之⼀的计算资源,获得了⽐Hadoop快3倍的速度
D. Spark运⾏模式单⼀
A. 局部计算:每个参与的处理器都有⾃⾝的计算任务
B. 通讯:处理器群相互交换数据
C. 栅栏同步:当⼀个处理器遇到”路障”(或栅栏),会等到其他所有处理器完成它们的计算步骤
D. 基于现有的分布式计算平台进⾏图计算
A. RDS是阿⾥云提供的关系型数据库服务
B. RDS由专业数据库管理团队维护
C. RDS具有安全稳定、数据可靠、⾃动备份
D. RDS实例,是⽤户购买RDS服务的基本单位。在实例中,⽤户只能创建⼀个数据库