答案:大数据处理的基本流程包括数据收集、数据清洗、数据存储 与管理、数据分析和数据可视化等环节。数据收集是获取原 始数据的过程;数据清洗是去除重复数据、纠正错误、处理 缺失值等,提高数据质量;数据存储与管理是选择合适的技 术和工具来存储和管理大数据;数据分析是运用统计、机器学习等方法对数据进行深入挖掘;数据可视化则是将分析结 果以图形、图像等形式展示出来,便于理解和分析
答案:大数据处理的基本流程包括数据收集、数据清洗、数据存储 与管理、数据分析和数据可视化等环节。数据收集是获取原 始数据的过程;数据清洗是去除重复数据、纠正错误、处理 缺失值等,提高数据质量;数据存储与管理是选择合适的技 术和工具来存储和管理大数据;数据分析是运用统计、机器学习等方法对数据进行深入挖掘;数据可视化则是将分析结 果以图形、图像等形式展示出来,便于理解和分析
A. 适合做数据统计
B. 适合HBase管理使⽤
C. 适合其他异构系统在线访问HBase表数据
D. 适合HadoopMapReduce作业并⾏批处理HBase表数据
A. 在Pregel中,为了获得更好的性能,”标志位”和输⼊消息队列是分开保存的
B. 在超步S中,当⼀个Worker在进⾏顶点处理时,⽤于当前超步的消息会被处理
C. 需要两个消息队列⽤于存放作⽤于当前超步S的消息和作⽤于下⼀个超步S+1的消息
D. 每个Worker上都保存了⼀个或多个分区的状态信息,当⼀个Worker发⽣故障时,它所负责维护的分区的当前状态信息就会丢失
A. Hadoop⽣态系统中各个组件和其他产品之间缺乏统⼀的、⾼效的数据交换中介
B. 不同的MapReduce任务之间存在重复操作,降低了效率
C. 延迟⾼,⽽且不适合执⾏迭代计算
D. 抽象层次低,需要⼿⼯编写⼤量代码
A. 云数据库可以满⾜⼤企业的海量数据存储需求
B. 云数据库可以满⾜中⼩企业的低成本数据存储需求
C. 云数据库可以满⾜企业动态变化的数据存储需求
D. 前期零投⼊、后期免维护的数据库服务,可以很好满⾜它们的需求
A. 关键字
B. ⾏键
C. 列族
D. 时间戳
A. 静态数据
B. 实时数据流
C. 历史数据
D. 结构化数据
A. 基于物品的协同过滤算法(简称ItemCF算法)是⽬前业界应⽤最多的算法
B. ItemCF算法是给⽬标⽤户推荐那些和他们之前喜欢的物品相似的物品
C. ItemCF算法通过建⽴⽤户到物品倒排表(每个⽤户喜欢的物品的列表)来计算物品相似度
D. UserCF算法推荐的是那些和⽬标⽤户有共同兴趣爱好的其他⽤户所喜欢的物品
A. 基于遍历算法的、实时的图数据库,如Neo4j、OrientD
B. DEX和InfiniteGraph
C. 基于遍历算法的、实时的图数据库,如GoldenOrb、Giraph、Pregel和Hama
D. 以图顶点为中⼼的、基于消息传递批处理的并⾏引擎,如Neo4j、OrientDB、DEX和InfiniteGraph
A. FsImage⽂件没有记录⽂件包含哪些块以及每个块存储在哪个数据节点
B. FsImage⽂件包含⽂件系统中所有⽬录和⽂件inode的序列化形式
C. FsImage⽤于维护⽂件系统树以及⽂件树中所有的⽂件和⽂件夹的元数据
D. FsImage⽂件记录了所有针对⽂件的创建、删除、重命名等操作
A. 全局计算
B. 局部计算
C. 通讯
D. 栅栏同步