APP下载
首页
>
IT互联网
>
大数据技术理论题库
搜索
大数据技术理论题库
题目内容
(
简答题
)
1.简述大数据处理的基本流程。

答案:大数据处理的基本流程包括数据收集、数据清洗、数据存储 与管理、数据分析和数据可视化等环节。数据收集是获取原 始数据的过程;数据清洗是去除重复数据、纠正错误、处理 缺失值等,提高数据质量;数据存储与管理是选择合适的技 术和工具来存储和管理大数据;数据分析是运用统计、机器学习等方法对数据进行深入挖掘;数据可视化则是将分析结 果以图形、图像等形式展示出来,便于理解和分析

大数据技术理论题库
223、在HBase访问接⼝中,Pig主要⽤在哪个场合?
https://www.shititong.cn/cha-kan/shiti/0004b09e-d5d4-c2fa-c022-e44c3222c300.html
点击查看题目
259、下列说法正确的有?
https://www.shititong.cn/cha-kan/shiti/0004b0a1-a33f-0b28-c022-e44c3222c300.html
点击查看题目
124、在Hadoop⽣态系统中,Kafka主要解决Hadoop中存在哪些的问题?
https://www.shititong.cn/cha-kan/shiti/0004b09e-d5b8-fc31-c022-e44c3222c300.html
点击查看题目
97、为什么说云数据库是个性化数据存储需求的理想选择?
https://www.shititong.cn/cha-kan/shiti/0004b0a1-a30f-34a9-c022-e44c3222c300.html
点击查看题目
224、HBase中需要根据某些因素来确定⼀个单元格,这些因素可以视为⼀个”四维坐标”,下⾯哪个不属于”四维坐标”?
https://www.shititong.cn/cha-kan/shiti/0004b09e-d5d5-4891-c022-e44c3222c300.html
点击查看题目
15.大数据技术中的流处理主要用于处理哪种类型的数据?( )
https://www.shititong.cn/cha-kan/shiti/00059ddd-4565-d433-c057-47291d003a00.html
点击查看题目
219、下列关于协同过滤算法的描述,哪些是正确的?
https://www.shititong.cn/cha-kan/shiti/0004b0a1-a334-7859-c022-e44c3222c300.html
点击查看题目
252、针对⼤型图的计算,⽬前通⽤的图计算软件主要哪些?
https://www.shititong.cn/cha-kan/shiti/0004b09e-d5de-d183-c022-e44c3222c300.html
点击查看题目
46、下⾯对FsImage的描述,哪个是错误的?
https://www.shititong.cn/cha-kan/shiti/0004b09e-d5a3-3e22-c022-e44c3222c300.html
点击查看题目
248、下列哪⼀项不属于每个超步的组件?
https://www.shititong.cn/cha-kan/shiti/0004b09e-d5dd-b252-c022-e44c3222c300.html
点击查看题目
首页
>
IT互联网
>
大数据技术理论题库
题目内容
(
简答题
)
手机预览
大数据技术理论题库

1.简述大数据处理的基本流程。

答案:大数据处理的基本流程包括数据收集、数据清洗、数据存储 与管理、数据分析和数据可视化等环节。数据收集是获取原 始数据的过程;数据清洗是去除重复数据、纠正错误、处理 缺失值等,提高数据质量;数据存储与管理是选择合适的技 术和工具来存储和管理大数据;数据分析是运用统计、机器学习等方法对数据进行深入挖掘;数据可视化则是将分析结 果以图形、图像等形式展示出来,便于理解和分析

分享
大数据技术理论题库
相关题目
223、在HBase访问接⼝中,Pig主要⽤在哪个场合?

A.  适合做数据统计

B.  适合HBase管理使⽤

C.  适合其他异构系统在线访问HBase表数据

D.  适合HadoopMapReduce作业并⾏批处理HBase表数据

https://www.shititong.cn/cha-kan/shiti/0004b09e-d5d4-c2fa-c022-e44c3222c300.html
点击查看答案
259、下列说法正确的有?

A.  在Pregel中,为了获得更好的性能,”标志位”和输⼊消息队列是分开保存的

B.  在超步S中,当⼀个Worker在进⾏顶点处理时,⽤于当前超步的消息会被处理

C.  需要两个消息队列⽤于存放作⽤于当前超步S的消息和作⽤于下⼀个超步S+1的消息

D.  每个Worker上都保存了⼀个或多个分区的状态信息,当⼀个Worker发⽣故障时,它所负责维护的分区的当前状态信息就会丢失

https://www.shititong.cn/cha-kan/shiti/0004b0a1-a33f-0b28-c022-e44c3222c300.html
点击查看答案
124、在Hadoop⽣态系统中,Kafka主要解决Hadoop中存在哪些的问题?

A.  Hadoop⽣态系统中各个组件和其他产品之间缺乏统⼀的、⾼效的数据交换中介

B.  不同的MapReduce任务之间存在重复操作,降低了效率

C.  延迟⾼,⽽且不适合执⾏迭代计算

D.  抽象层次低,需要⼿⼯编写⼤量代码

https://www.shititong.cn/cha-kan/shiti/0004b09e-d5b8-fc31-c022-e44c3222c300.html
点击查看答案
97、为什么说云数据库是个性化数据存储需求的理想选择?

A.  云数据库可以满⾜⼤企业的海量数据存储需求

B.  云数据库可以满⾜中⼩企业的低成本数据存储需求

C.  云数据库可以满⾜企业动态变化的数据存储需求

D.  前期零投⼊、后期免维护的数据库服务,可以很好满⾜它们的需求

https://www.shititong.cn/cha-kan/shiti/0004b0a1-a30f-34a9-c022-e44c3222c300.html
点击查看答案
224、HBase中需要根据某些因素来确定⼀个单元格,这些因素可以视为⼀个”四维坐标”,下⾯哪个不属于”四维坐标”?

A.  关键字

B.  ⾏键

C.  列族

D.  时间戳

https://www.shititong.cn/cha-kan/shiti/0004b09e-d5d5-4891-c022-e44c3222c300.html
点击查看答案
15.大数据技术中的流处理主要用于处理哪种类型的数据?( )

A. 静态数据

B. 实时数据流

C. 历史数据

D. 结构化数据

https://www.shititong.cn/cha-kan/shiti/00059ddd-4565-d433-c057-47291d003a00.html
点击查看答案
219、下列关于协同过滤算法的描述,哪些是正确的?

A.  基于物品的协同过滤算法(简称ItemCF算法)是⽬前业界应⽤最多的算法

B.  ItemCF算法是给⽬标⽤户推荐那些和他们之前喜欢的物品相似的物品

C.  ItemCF算法通过建⽴⽤户到物品倒排表(每个⽤户喜欢的物品的列表)来计算物品相似度

D.  UserCF算法推荐的是那些和⽬标⽤户有共同兴趣爱好的其他⽤户所喜欢的物品

https://www.shititong.cn/cha-kan/shiti/0004b0a1-a334-7859-c022-e44c3222c300.html
点击查看答案
252、针对⼤型图的计算,⽬前通⽤的图计算软件主要哪些?

A.  基于遍历算法的、实时的图数据库,如Neo4j、OrientD

B.  DEX和InfiniteGraph

C.  基于遍历算法的、实时的图数据库,如GoldenOrb、Giraph、Pregel和Hama

D.  以图顶点为中⼼的、基于消息传递批处理的并⾏引擎,如Neo4j、OrientDB、DEX和InfiniteGraph

https://www.shititong.cn/cha-kan/shiti/0004b09e-d5de-d183-c022-e44c3222c300.html
点击查看答案
46、下⾯对FsImage的描述,哪个是错误的?

A.  FsImage⽂件没有记录⽂件包含哪些块以及每个块存储在哪个数据节点

B.  FsImage⽂件包含⽂件系统中所有⽬录和⽂件inode的序列化形式

C.  FsImage⽤于维护⽂件系统树以及⽂件树中所有的⽂件和⽂件夹的元数据

D.  FsImage⽂件记录了所有针对⽂件的创建、删除、重命名等操作

https://www.shititong.cn/cha-kan/shiti/0004b09e-d5a3-3e22-c022-e44c3222c300.html
点击查看答案
248、下列哪⼀项不属于每个超步的组件?

A.  全局计算

B.  局部计算

C.  通讯

D.  栅栏同步

https://www.shititong.cn/cha-kan/shiti/0004b09e-d5dd-b252-c022-e44c3222c300.html
点击查看答案
试题通小程序
试题通app下载