答案:基础设施
答案:基础设施
A. 利⽤分布式⽂件系统、数据仓库、关系数据库等实现对结构化、半结构化和⾮结构化海量数据的存储和管理
B. 利⽤分布式并⾏编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析
C. 构建隐私数据保护体系和数据安全体系,有效保护个⼈隐私和数据安全
D. 把实时采集的数据作为流计算系统的输⼊,进⾏实时处理分析
A. AmazonRDS:云中的关系数据库
B. AmazonSimpleDB:云中的键值数据库
C. AmazonDynamoDB:云中的数据仓库
D. AmazonElastiCache:云中的分布式内存缓存
A. 关系代数运算(选择、投影、并、交、差、连接)
B. 分组与聚合运算
C. 矩阵-向量乘法
D. 矩阵乘法
A. 专家推荐:⼈⼯推荐,由资深的专业⼈⼠来进⾏物品的筛选和推荐,需要较多的⼈⼒成本
B. 基于统计的推荐:基于统计信息的推荐(如热门推荐),易于实现,但对⽤户个性化偏好的描述能⼒较弱
C. 基于内容的推荐:通过机器学习的⽅法去描述内容的特征,并基于内容的特征来发现与之相似的内容
D. 混合推荐:结合多种推荐算法来提升推荐效果
A. 流数据层(Kafka)
B. 执⾏层(YARN)
C. 处理层(SamzaAPI)
D. 数据采集层(Scribe)
A. 分布式⽂件系统
B. 分布式并⾏编程模型
C. 资源管理和调度器
D. Hadoop上的数据仓库
A. 数据安全性高
B. 数据处理速度快
C. 数据存储成本低
D. 数据类型丰富
A. ⾮共享式,容错性好
B. 普通PC机,便宜,扩展性好
C. what,简单
D. 批处理、⾮实时、数据密集型
A. HBase则采⽤了更加简单的数据模型,它把数据存储为未经解释的字符串
B. HBase操作不存在复杂的表与表之间的关系
C. HBase操作只有简单的插⼊、查询、删除、清空等
D. HBase在设计上就避免了复杂的表和表之间的关系