答案:数据挖掘
答案:数据挖掘
A. ”摩尔定律”,CPU性能⼤约每隔18个⽉翻⼀番
B. 分布式程序运⾏在⼤规模计算机集群上
C. ⾕歌公司最先提出了分布式并⾏编程模型MapReduce
D. MapReduce是Hadoop的开源实现
A. 实现⼀键式安装和配置、线程级别的任务监控和告警
B. 降低硬件集群、软件维护、任务监控和应⽤开发的难度
C. 便于做成统⼀的硬件、计算平台资源池
D. 不⽤负载应⽤混搭,集群利⽤率⾼
A. Storm将Streams的状态转换过程抽象为Spout
B. Storm认为每个Stream都有⼀个源头,并把这个源头抽象为Spout
C. Storm将Spouts和Bolts组成的⽹络抽象成Topology
D. Topology⾥⾯的每个处理组件(Spout或Bolt)都包含处理逻辑,⽽组件之间的连接则表⽰数据流动的⽅向
A. 创建表的时候,可以通过HColumnDescriptor.setInMemory(true)将表放到Region服务器的缓存中,保证在读取的时候被cache命中
B. 创建表的时候,可以通过HColumnDescriptor.setMaxVersions(intmaxVersions)设置表中数据的最⼤版本,如果只需要保存最新版本的数据,那么可以设置setMaxVersions(1)
C. 创建表的时候,可以通过HColumnDescriptor.setTimeToLive(inttimeToLive)设置表中数据的存储⽣命期
D. 如果最近写⼊HBase表中的数据是最可能被访问的,可以考虑将时间戳作为⾏键的⼀部分
A. Spark最初由美国加州伯克利⼤学(UCBerkeley)的AMP实验室于2009年开发
B. Spark在2014年打破了Hadoop保持的基准排序纪录.
C. Spark⽤⼗分之⼀的计算资源,获得了⽐Hadoop快3倍的速度
D. Spark运⾏模式单⼀
A. 专家推荐:⼈⼯推荐,由资深的专业⼈⼠来进⾏物品的筛选和推荐,需要较多的⼈⼒成本
B. 基于统计的推荐:基于统计信息的推荐(如热门推荐),易于实现,但对⽤户个性化偏好的描述能⼒较弱
C. 基于内容的推荐:通过机器学习的⽅法去描述内容的特征,并基于内容的特征来发现与之相似的内容
D. 混合推荐:结合多种推荐算法来提升推荐效果
A. 为特定的图应⽤定制相应的分布式实现:通⽤性不好
B. 基于现有的分布式计算平台进⾏图计算:在性能和易⽤性⽅⾯往往⽆法达到最优
C. 使⽤单机的图算法库,但是,在可以解决的问题的规模⽅⾯具有很⼤的局限性
D. 使⽤已有的并⾏图计算系统,但是,对⼤规模分布式系统⾮常重要的⼀些⽅⾯(⽐如容错),⽆法提供较好的⽀持
A. 64MB
B. 32MB
C. 128MB
D. 16MB
A. Hadoop可以很好地解决⼤规模数据的离线批量处理问题,但是,受限于HadoopMapReduce编程框架的⾼延迟数据处理机制,使得
B. HDFS⾯向批量访问模式,不是随机访问模式
C. 传统的通⽤关系型数据库⽆法应对在数据规模剧增时导致的系统扩展性和性能问题
D. 传统关系数据库在数据结构变化时⼀般需要停机维护;空列浪费存储空间