答案:大数据安全面临的挑战包括数据泄露、数据篡改、数据丢失等。应对措施包括加强数据加密和访问控制,确保数据的保 密性;采用数据备份和恢复机制,防止数据丢失;同时,建 立完善的安全管理制度和流程,提高人员的安全意识
答案:大数据安全面临的挑战包括数据泄露、数据篡改、数据丢失等。应对措施包括加强数据加密和访问控制,确保数据的保 密性;采用数据备份和恢复机制,防止数据丢失;同时,建 立完善的安全管理制度和流程,提高人员的安全意识
A. 使⽤DAG执⾏引擎以⽀持循环数据流与内存计算
B. 可运⾏于独⽴的集群模式中,可运⾏于Hadoop中,也可运⾏于AmazonEC2等云环境中
C. ⽀持使⽤Scala、Java、Python和R语⾔进⾏编程,但是不可以通过SparkShell进⾏交互式编程
D. Spark提供了内存计算,可将中间结果放到内存中,对于迭代计算效率更⾼
A. 数据挖掘
B. 云计算
C. 机器学习
D. 关系型数据库
A. ⽹络层
B. 访问层
C. ⼤数据层
D. 数据源层
A. 数据是规则的
B. 性能好(⾼并发)
C. 缺乏统⼀的查询语法
D. 复杂性低
A. Code⽤于存储⼆进制数据
B. Object⽤于内嵌⽂档
C. Null⽤于创建空值
D. String字符串,储数据常⽤的数据类型
A. 静态数据
B. 实时数据流
C. 历史数据
D. 结构化数据
A. 创建表的时候,可以通过HColumnDescriptor.setInMemory(true)将表放到Region服务器的缓存中,保证在读取的时候被cache命中
B. 创建表的时候,可以通过HColumnDescriptor.setMaxVersions(intmaxVersions)设置表中数据的最⼤版本,如果只需要保存最新版本的数据,那么可以设置setMaxVersions(1)
C. 创建表的时候,可以通过HColumnDescriptor.setTimeToLive(inttimeToLive)设置表中数据的存储⽣命期
D. 如果最近写⼊HBase表中的数据是最可能被访问的,可以考虑将时间戳作为⾏键的⼀部分
A. 应⽤层
B. 处理层
C. 感知层
D. ⽹络层
A. 增加数据量
B. 删除重复数据
C. 提高数据质量
D. 降低存储空间
A. worker:每个worker进程都属于⼀个特定的Topology
B. executor:executor是产⽣于worker进程内部的线程
C. task:实际的数据处理由task完成
D. 在Topology的⽣命周期中,每个组件的task数⽬是不会发⽣变化的,⽽executor的数⽬却不⼀定