答案:数据清洗
答案:数据清洗
A. 每个Application都有⾃⼰专属的Executor进程,并且该进程在Application运⾏期间⼀直驻留
B. Executor进程以多线程的⽅式运⾏Task
C. Spark运⾏过程与资源管理器⽆关,只要能够获取Executor进程并保持通信即可
D. Task采⽤了数据本地性和推测执⾏等优化机制
A. ⽤户建模模块
B. 数据采集模块
C. 推荐对象建模模块
D. 推荐算法模块
A. 解析⽹页的任务就是分析⼀个页⾯的链接数,但是不赋初值
B. PageRank分配就是多次迭代计算页⾯的PageRank值
C. 收敛阶段的任务就是由⼀个⾮并⾏组件决定是否达到收敛
D. ⼀般判断是否收敛的条件是所有⽹页的PageRank值不再变化,或者运⾏30次以后我们就认为已经收敛了
A. 该顶点的当前值
B. ⼀个接收到的消息的迭代器
C. ⼀个出射边的迭代器
D. 标志位,⽤来标记顶点是否处于活跃状态
A. ⾕歌公司的制图服务接⼝GoogleChartAPI,可以⽤来为统计数据并⾃动⽣成图⽚
B. D3是最流⾏的可视化库之⼀,是⼀个⽤于⽹页作图、⽣成互动图形的JavaScrip函数库
C. Visual.ly可以⽤它来快速创建⾃定义的、样式美观且具有强烈视觉冲击⼒的信息图表
D. ⼤数据魔镜是⼀款优秀的国产数据分析软件,它丰富的数据公式和算法可以让⽤户真正理解探索分析数据
A. 为⽤户提供了系统底层细节透明的分布式基础架构
B. 具有很好的跨平台特性
C. 可以部署在廉价的计算机集群中
D. 被公认为⾏业⼤数据标准开源软件
A. 数据可视化是指将⼤型数据集中的数据以图形图像形式表⽰
B. 数据可视化技术的基本思想是将数据库中每⼀个数据项作为单个图元素表⽰
C. 利⽤数据分析和开发⼯具发现其中未知信息的处理过程
D. 将数据的各个属性值以⼀维数据的形式表⽰
A. Spark在借鉴HadoopMapReduce优点的同时,很好地解决了MapReduce所⾯临的问题
B. Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作
C. HadoopMapReduce编程模型⽐Spark更灵活
D. HadoopMapReduce提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更⾼