解析：最大熵隐马模型则解决了隐马的问题，可以任意选择特征，但由于其在每一节点都要进行归一化，所以只能找到局部的最优值，同时也带来了标记偏见的问题，即凡是训练语料中未出现的情况全都忽略掉。条件随机场则很好的解决了这一问题，他并不在每一个节点进行归一化，而是所有特征进行全局归一化，因此可以求得全局的最优值。

点击查看答案

以（）为中心是数据产品区别于其他类型产品的本质特征

A. 客户

B. 分析

C. 资源

D. 数据

点击查看答案

我们想在大数据集上训练决策树, 为了减少训练时间, 我们可以

A. 增加树的深度

B. 增大学习率(Learnin Rate)

C. 对决策树模型进行预剪枝

D. 减少树的数量

点击查看答案

信息熵是度量样本集合(___)最常用的一种指标。

A. 精确度

B. 准确率

C. 召回率

D. 纯度

解析：见算法解析

点击查看答案

从加工程度看，以下()属于数据产品中的应用类产品。

A. 洞见与行动

B. 实施指南

C. 桌面应用

D. 预料库

点击查看答案

K-Means聚类法的局限性体现在（）

A. K-Means聚类法对噪声和离群点敏感

B. K-Means聚类法对变量的要求比较高

C. 由K-Means聚类法得到的聚类结果，轮廓系数都不是很大。

D. 应用K-Means聚类法需要预先设定聚类个数

解析：k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。

点击查看答案

下列选项中，哪个不是关键词提取常用的算法？

A. TF-IDF

B. TextRank

C. SSA

D. LDA

类似热门题库