A、 分布式存储
B、 虚拟化
C、 分布式计算
D、 多租户
答案:ABCD
A、 分布式存储
B、 虚拟化
C、 分布式计算
D、 多租户
答案:ABCD
A. 基于物品的协同过滤算法(简称ItemCF算法)是⽬前业界应⽤最多的算法
B. ItemCF算法是给⽬标⽤户推荐那些和他们之前喜欢的物品相似的物品
C. ItemCF算法通过建⽴⽤户到物品倒排表(每个⽤户喜欢的物品的列表)来计算物品相似度
D. UserCF算法推荐的是那些和⽬标⽤户有共同兴趣爱好的其他⽤户所喜欢的物品
A. ⼀切与⽀撑⼤数据组织管理和价值发现相关的企业经济活动的集合
B. 提供智能交通、智慧医疗、智能物流、智能电⽹等⾏业应⽤的企业
C. 提供数据分享平台、数据分析平台、数据租售平台等服务的企业
D. 提供分布式计算、数据挖掘、统计分析等服务的各类企业
A. 实现⼀键式安装和配置、线程级别的任务监控和告警
B. 降低硬件集群、软件维护、任务监控和应⽤开发的难度
C. 便于做成统⼀的硬件、计算平台资源池
D. 不⽤负载应⽤混搭,集群利⽤率⾼
A. MapReduce默认1000MB缓存
B. 多个溢写⽂件归并成⼀个或多个⼤⽂件,⽂件中的键值对是排序的
C. 当数据很少时,不需要溢写到磁盘,直接在缓存中归并,然后输出给Reduce
D. 每个Map任务分配多个缓存,使得任务运⾏更有效率
A. ⼤数据成为⼀种新的决策⽅式
B. ⼤数据应⽤促进信息技术与各⾏业的深度融合
C. ⼤数据开发推动新技术和新应⽤的不断涌现
D. ⼤数据使得数据科学家成为热门职业
A. ⽤户建模模块
B. 数据采集模块
C. 推荐对象建模模块
D. 推荐算法模块
A. Hadoop⽣态系统中各个组件和其他产品之间缺乏统⼀的、⾼效的数据交换中介
B. 不同的MapReduce任务之间存在重复操作,降低了效率
C. 延迟⾼,⽽且不适合执⾏迭代计算
D. 抽象层次低,需要⼿⼯编写⼤量代码
A. Client
B. JobTracker
C. TaskTracker以及Task
D. Job
A. 相对于Spark来说,使⽤Hadoop进⾏迭代计算⾮常耗资源
B. Spark将数据载⼊内存后,之后的迭代计算都可以直接使⽤内存中的中间结果作运算,避免了从磁盘中频繁读取数据
C. Hadoop的设计遵循”⼀个软件栈满⾜不同应⽤场景”的理念
D. Spark可以部署在资源管理器YARN之上,提供⼀站式的⼤数据解决⽅案
A. 许多⾮图结构的⼤数据,通常会被转换为关系模型后进⾏分析
B. 许多⼤数据都是以⼤规模图或⽹络的形式呈现
C. 图数据结构很好地表达了数据之间的关联性
D. 关联性计算是⼤数据计算的核⼼