A、 ⽤户建模模块
B、 推荐对象建模模块
C、 推荐算法模块
D、 数据采集模块
答案:D
A、 ⽤户建模模块
B、 推荐对象建模模块
C、 推荐算法模块
D、 数据采集模块
答案:D
A. 创建表的时候,可以通过HColumnDescriptor.setInMemory(true)将表放到Region服务器的缓存中,保证在读取的时候被cache命中
B. 创建表的时候,可以通过HColumnDescriptor.setMaxVersions(intmaxVersions)设置表中数据的最⼤版本,如果只需要保存最新版本的数据,那么可以设置setMaxVersions(1)
C. 创建表的时候,可以通过HColumnDescriptor.setTimeToLive(inttimeToLive)设置表中数据的存储⽣命期
D. 如果最近写⼊HBase表中的数据是最可能被访问的,可以考虑将时间戳作为⾏键的⼀部分
A. HBase采⽤表来组织数据,表由⾏和列组成,列划分为若⼲个列族
B. 每个HBase表都由若⼲⾏组成,每个⾏由⾏键(rowkey)来标识
C. 列族⾥的数据通过列限定符(或列)来定位
D. 每个单元格都保存着同⼀份数据的多个版本,这些版本采⽤时间戳进⾏索引
A. CAP
B. 最终⼀致性
C. BASE
D. DN8
A. ⼑⽚服务器、⾼速⽹、SAN,价格贵,扩展性差上
B. 共享式(共享内存/共享存储),容错性好
C. what-how,难
D. 实时、细粒度计算、计算密集型
A. MapReduce默认1000MB缓存
B. 多个溢写⽂件归并成⼀个或多个⼤⽂件,⽂件中的键值对是排序的
C. 当数据很少时,不需要溢写到磁盘,直接在缓存中归并,然后输出给Reduce
D. 每个Map任务分配多个缓存,使得任务运⾏更有效率
A. 流数据层(Kafka)
B. 执⾏层(YARN)
C. 处理层(SamzaAPI)
D. 数据采集层(Scribe)
A. 兼容廉价的硬件设备
B. 流数据读写
C. ⼤数据集
D. 复杂的⽂件模型
A. 具有较差的⽔平可扩展性
B. 设置个别属性的索引来实现更快的排序
C. 提供了⼀个⾯向⽂档存储,操作复杂
D. 可以实现替换完成的⽂档(数据)或者⼀些指定的数据字段
A. 数据类型
B. 数据操作
C. 存储模式
D. 数据维护
A. Scala的优势是提供了REPL(Read-Eval-PrintLoop,交互式解释器),提⾼程序开发效率
B. Scala兼容Java,运⾏速度快,且能融合到Hadoop⽣态圈中
C. Scala具备强⼤的并发性,⽀持函数式编程
D. Scala可以更好地⽀持分布式系统