A、 ⼀个作业(Job)是对⼀组输⼊流进⾏处理转化成输出流的程序
B、 Samza的流数据单位既不是Storm中的元组,也不是SparkStreaming中的DStream,⽽是⼀条条消息
C、 ⼀个作业会被进⼀步分割成多个任务(Task)来执⾏
D、 分区之间没有定义顺序,从⽽允许每⼀个任务独⽴执⾏
答案:ABCD
A、 ⼀个作业(Job)是对⼀组输⼊流进⾏处理转化成输出流的程序
B、 Samza的流数据单位既不是Storm中的元组,也不是SparkStreaming中的DStream,⽽是⼀条条消息
C、 ⼀个作业会被进⼀步分割成多个任务(Task)来执⾏
D、 分区之间没有定义顺序,从⽽允许每⼀个任务独⽴执⾏
答案:ABCD
A. ⼤数据成为⼀种新的决策⽅式
B. ⼤数据应⽤促进信息技术与各⾏业的深度融合
C. ⼤数据开发推动新技术和新应⽤的不断涌现
D. ⼤数据使得数据科学家成为热门职业
A. ⽬录
B. ⽂件
C. 块
D. 磁盘
A. D3是⼀个被数据驱动的⽂档
B. D3是⼀个JavaScript的函数库,使⽤它主要是⽤来做数据可视化的
C. D3是⼀个JavaScript函数库,并不需要通常所说的”安装”
D. D3有多个⽂件,在HTML中引⽤即可
A. 互联⽹
B. 云计算
C. ⼤数据
D. 物联⽹
A. worker:每个worker进程都属于⼀个特定的Topology
B. executor:executor是产⽣于worker进程内部的线程
C. task:实际的数据处理由task完成
D. 在Topology的⽣命周期中,每个组件的task数⽬是不会发⽣变化的,⽽executor的数⽬却不⼀定
A. 存储设备容量不断增加
B. ⽹络带宽不断增加
C. CPU处理能⼒⼤幅提升
D. 数据量不断增⼤
A. UserCF算法推荐的是那些和⽬标⽤户有共同兴趣爱好的其他⽤户所喜欢的物品
B. ItemCF算法推荐的是那些和⽬标⽤户之前喜欢的物品类似的其他物品
C. ItemCF算法的推荐更偏向社会化,⽽UserCF算法的推荐更偏向于个性化
D. ItemCF算法倾向于推荐与⽤户已购买商品相似的商品,往往会出现多样性不⾜、推荐新颖度较低的问题
A. 实时获取来⾃不同数据源的海量数据,经过实时分析处理,获得有价值的信息
B. 流计算秉承⼀个基本理念,即数据的价值随着时间的流逝⽽降低
C. 对于⼀个流计算系统来说,它应该⽀持TB级甚⾄是PB级的数据规模
D. 流计算只需要保证较低的延迟时间,即只达到秒级别即可处理⼀切问题
A. 成熟期
B. 萌芽期
C. ⼤规模应⽤期
D. 迷茫期
A. 数据存储
B. 数据加密
C. 数据理解与分析
D. 数据传输