A、 创建表的时候,可以通过HColumnDescriptor.setInMemory(true)将表放到Region服务器的缓存中,保证在读取的时候被cache命中
B、 创建表的时候,可以通过HColumnDescriptor.setMaxVersions(intmaxVersions)设置表中数据的最⼤版本,如果只需要保存最新版本的数据,那么可以设置setMaxVersions(1)
C、 创建表的时候,可以通过HColumnDescriptor.setTimeToLive(inttimeToLive)设置表中数据的存储⽣命期
D、 如果最近写⼊HBase表中的数据是最可能被访问的,可以考虑将时间戳作为⾏键的⼀部分
答案:D
A、 创建表的时候,可以通过HColumnDescriptor.setInMemory(true)将表放到Region服务器的缓存中,保证在读取的时候被cache命中
B、 创建表的时候,可以通过HColumnDescriptor.setMaxVersions(intmaxVersions)设置表中数据的最⼤版本,如果只需要保存最新版本的数据,那么可以设置setMaxVersions(1)
C、 创建表的时候,可以通过HColumnDescriptor.setTimeToLive(inttimeToLive)设置表中数据的存储⽣命期
D、 如果最近写⼊HBase表中的数据是最可能被访问的,可以考虑将时间戳作为⾏键的⼀部分
答案:D
A. 信息传输
B. 信息处理
C. 信息爆炸
D. 信息转换
A. 使⽤DAG执⾏引擎以⽀持循环数据流与内存计算
B. 可运⾏于独⽴的集群模式中,可运⾏于Hadoop中,也可运⾏于AmazonEC2等云环境中
C. ⽀持使⽤Scala、Java、Python和R语⾔进⾏编程,但是不可以通过SparkShell进⾏交互式编程
D. Spark提供了内存计算,可将中间结果放到内存中,对于迭代计算效率更⾼
A. 协同过滤可分为基于⽤户的协同过滤和基于物品的协同过滤
B. UserCF算法符合⼈们对于”趣味相投”的认知,即兴趣相似的⽤户往往有相同的物品喜好
C. 实现UserCF算法的关键步骤是计算物品与物品之间的相似度
D. 基于物品的协同过滤算法(简称ItemCF算法)是⽬前业界应⽤最多的算法
A. 数据可视化是指将⼤型数据集中的数据以图形图像形式表⽰
B. 利⽤数据分析和开发⼯具发现其中未知信息的处理过程
C. 数据可视化技术的基本思想是将数据库中每⼀个数据项作为单个图元素表⽰
D. 将数据的各个属性值以⼀维数据的形式表⽰
A. 圆。使⽤cx和cy,指定指定半径的中⼼的坐标,和ŗ表⽰半径
B. 线。使⽤x1和Y1到指定线的⼀端的坐标,x2和y2指定的另⼀端的坐标。
C. ⽂本。使⽤x和y指定⽂本的位置
D. 椭圆。使⽤x和y的指定左上⾓的坐标,width和height指定的尺⼨
A. 为⽤户提供了系统顶层分布式基础架构
B. 具有较差的跨平台特性
C. 可以部署在廉价的计算机集群中
D. 被公认为⾏业⼤数据标准开源软件
A. Zookeeper⽂件
B. -ROOT-表
C. .META.表
D. 数据类型
A. Spark最初由美国加州伯克利⼤学(UCBerkeley)的AMP实验室于2009年开发
B. Spark在2014年打破了Hadoop保持的基准排序纪录.
C. Spark⽤⼗分之⼀的计算资源,获得了⽐Hadoop快3倍的速度
D. Spark运⾏模式单⼀
A. 能够解决单点故障问题
B. HDFS集群扩展性
C. 性能更⾼效
D. 良好的隔离性