A、 针对⼤规模数据的批量处理
B、 针对⼤规模图结构数据的处理
C、 ⼤规模数据的存储管理和查询分析
D、 针对流数据的实时计算
答案:D
A、 针对⼤规模数据的批量处理
B、 针对⼤规模图结构数据的处理
C、 ⼤规模数据的存储管理和查询分析
D、 针对流数据的实时计算
答案:D
A. ⽆论是亚马逊还是Netflix,其推荐系统的基础都是ItemCF算法
B. ItemCF算法是给⽬标⽤户推荐那些和他们之前喜欢的物品相似的物品
C. ItemCF算法主要通过分析⽤户的⾏为记录来计算物品之间的相似度
D. 实现UserCF算法的关键步骤是计算物品与物品之间的相似度
A. 创建表的时候,可以通过HColumnDescriptor.setInMemory(true)将表放到Region服务器的缓存中,保证在读取的时候被cache命中
B. 创建表的时候,可以通过HColumnDescriptor.setMaxVersions(intmaxVersions)设置表中数据的最⼤版本,如果只需要保存最新版本的数据,那么可以设置setMaxVersions(1)
C. 创建表的时候,可以通过HColumnDescriptor.setTimeToLive(inttimeToLive)设置表中数据的存储⽣命期
D. 如果最近写⼊HBase表中的数据是最可能被访问的,可以考虑将时间戳作为⾏键的⼀部分
A. 分布式存储
B. 虚拟化
C. 分布式计算
D. 多租户
A. 帮助NameNode收集⽂件系统运⾏的状态信息
B. 负责执⾏由JobTracker指派的任务
C. 协调数据计算任务
D. 负责协调集群中的数据存储
A. 解析⽹页的任务就是分析⼀个页⾯的链接数,但是不赋初值
B. PageRank分配就是多次迭代计算页⾯的PageRank值
C. 收敛阶段的任务就是由⼀个⾮并⾏组件决定是否达到收敛
D. ⼀般判断是否收敛的条件是所有⽹页的PageRank值不再变化,或者运⾏30次以后我们就认为已经收敛了
A. Spark应⽤在复杂的批量数据处理
B. SparkSQL是基于历史数据的交互式查询
C. SparkStreaming是基于历史数据的数据挖掘
D. GraphX是图结构数据的处
A. 流数据层(Kafka)
B. 执⾏层(YARN)
C. 处理层(SamzaAPI)
D. 数据采集层(Scribe)
A. Zookeeper⽂件记录了⽤户数据表的Region位置信息
B. -ROOT-表记录了.META.表的Region位置信息
C. .META.表保存了HBase中所有⽤户数据表的Region位置信息
D. Zookeeper⽂件记录了-ROOT-表的位置信息
A. 信息统计服务器定期将采集到的⽤户的连接数
B. Web控制台向系统⼈员提供系统管理界⾯
C. LVS(LinuxVirtualServer)即Linux虚拟服务器
D. UMP系统借助于LVS来实现集群内部的负载均衡