A、 解析⽹页的任务就是分析⼀个页⾯的链接数,但是不赋初值
B、 PageRank分配就是多次迭代计算页⾯的PageRank值
C、 收敛阶段的任务就是由⼀个⾮并⾏组件决定是否达到收敛
D、 ⼀般判断是否收敛的条件是所有⽹页的PageRank值不再变化,或者运⾏30次以后我们就认为已经收敛了
答案:A
A、 解析⽹页的任务就是分析⼀个页⾯的链接数,但是不赋初值
B、 PageRank分配就是多次迭代计算页⾯的PageRank值
C、 收敛阶段的任务就是由⼀个⾮并⾏组件决定是否达到收敛
D、 ⼀般判断是否收敛的条件是所有⽹页的PageRank值不再变化,或者运⾏30次以后我们就认为已经收敛了
答案:A
A. 数据分析
B. 数据实时查询
C. 数据挖掘
D. 数据接收
A. 流处理系统处理的是实时的数据,⽽传统的数据处理系统处理的是预先存储好的静态数据
B. ⽤户通过流处理系统获取的是实时结果,⽽通过传统的数据处理系统,获取的是过去某⼀时刻的结果
C. 流处理系统⽆需⽤户主动发出查询,实时查询服务可以主动将结果推送给⽤户
D. 传统的数据处理系统系统⽆需⽤户主动发出查询,批量查询服务可以主动将结果推送给⽤户
A. 分布式⽂件系统
B. 流数据读写
C. 资源管理和调度器
D. Hadoop上的数据仓库
A. HBase采⽤表来组织数据,表由⾏和列组成,列划分为若⼲个列族
B. 每个HBase表都由若⼲⾏组成,每个⾏由⾏键(rowkey)来标识
C. 列族⾥的数据通过列限定符(或列)来定位
D. 每个单元格都保存着同⼀份数据的多个版本,这些版本采⽤时间戳进⾏索引
A. 利⽤多线程来执⾏具体的任务,减少任务的启动开销
B. Executor中有⼀个BlockManager存储模块,有效减少IO开销
C. 提供了⼀种⾼度受限的共享内存模型
D. 不同场景之间输⼊输出数据能做到⽆缝共享
A. 数据挖掘
B. 离线分析
C. 实时查询
D. BI分析
A. 查找速度慢,可扩展性差
B. 功能较少,⼤都不⽀持强事务⼀致性
C. 容易进⾏分布式扩展
D. 复杂性低
A. ”摩尔定律”,CPU性能⼤约每隔18个⽉翻⼀番
B. 分布式程序运⾏在⼤规模计算机集群上
C. ⾕歌公司最先提出了分布式并⾏编程模型MapReduce
D. MapReduce是Hadoop的开源实现
A. 分布式存储
B. 虚拟化
C. 分布式计算
D. 多租户
A. 相对于Spark来说,使⽤Hadoop进⾏迭代计算⾮常耗资源
B. Spark将数据载⼊内存后,之后的迭代计算都可以直接使⽤内存中的中间结果作运算,避免了从磁盘中频繁读取数据
C. Hadoop的设计遵循”⼀个软件栈满⾜不同应⽤场景”的理念
D. Spark可以部署在资源管理器YARN之上,提供⼀站式的⼤数据解决⽅案