A、 基于物品和商家的联合协同推荐
B、 基于统计的推荐
C、 专家推荐
D、 基于内容的推荐
答案:A
A、 基于物品和商家的联合协同推荐
B、 基于统计的推荐
C、 专家推荐
D、 基于内容的推荐
答案:A
A. ⼀个RDD就是⼀个分布式对象集合,本质上是⼀个只读的分区记录集合
B. 每个RDD可分成多个分区,每个分区就是⼀个数据集⽚段
C. RDD是可以直接修改的
D. RDD提供了⼀种⾼度受限的共享内存模型
A. 创建表的时候,可以通过HColumnDescriptor.setInMemory(true)将表放到Region服务器的缓存中,保证在读取的时候被cache命中
B. 创建表的时候,可以通过HColumnDescriptor.setMaxVersions(intmaxVersions)设置表中数据的最⼤版本,如果只需要保存最新版本的数据,那么可以设置setMaxVersions(1)
C. 创建表的时候,可以通过HColumnDescriptor.setTimeToLive(inttimeToLive)设置表中数据的存储⽣命期
D. 如果最近写⼊HBase表中的数据是最可能被访问的,可以考虑将时间戳作为⾏键的⼀部分
A. 在⼀致性⽅⾯,RDBMS强于NoSQL
B. 在数据完整性⽅⾯,RDBMS容易实现
C. 在扩展性⽅⾯,NoSQL⽐较好
D. 在可⽤性⽅⾯,NoSQL优于RDBMS
A. ⼀切与⽀撑⼤数据组织管理和价值发现相关的企业经济活动的集合
B. 提供智能交通、智慧医疗、智能物流、智能电⽹等⾏业应⽤的企业
C. 提供数据分享平台、数据分析平台、数据租售平台等服务的企业
D. 提供分布式计算、数据挖掘、统计分析等服务的各类企业
A. 创建表的时候,可以通过HColumnDescriptor.setInMemory(true)将表放到Region服务器的缓存中,保证在读取的时候被cache命中
B. 创建表的时候,可以通过HColumnDescriptor.setMaxVersions(intmaxVersions)设置表中数据的最⼤版本,如果只需要保存最新版本的数据,那么可以设置setMaxVersions(1)
C. 创建表的时候,可以通过HColumnDescriptor.setTimeToLive(inttimeToLive)设置表中数据的存储⽣命期
D. 如果最近写⼊HBase表中的数据是最可能被访问的,可以考虑将时间戳作为⾏键的⼀部分
A. Spark应⽤在复杂的批量数据处理
B. SparkSQL是基于历史数据的交互式查询
C. SparkStreaming是基于历史数据的数据挖掘
D. GraphX是图结构数据的处
A. Hadoop⽣态系统中各个组件和其他产品之间缺乏统⼀的、⾼效的数据交换中介
B. 不同的MapReduce任务之间存在重复操作,降低了效率
C. 延迟⾼,⽽且不适合执⾏迭代计算
D. 抽象层次低,需要⼿⼯编写⼤量代码
A. 只⽀持少数⼏种编程语⾔
B. 可扩展性⾼
C. 成本低
D. 能在linux上运⾏
A. 每个Region服务器都有⼀个⾃⼰的HLog⽂件
B. 每次刷写都⽣成⼀个新的StoreFile,数量太多,影响查找速度
C. 合并操作⽐较耗费资源,只有数量达到⼀个阈值才启动合并
D. Store是Region服务器的核⼼
A. ⽤户可通过Client提供的⼀些接⼝查看作业运⾏状态
B. ⽤户编写的MapReduce程序通过Client提交到JobTracker端
C. JobTracker负责资源监控和作业调度
D. JobTracker会跟踪任务的执⾏进度、资源使⽤量等信息,并将这些信息告诉任务调度器(TaskScheduler)