A、在无监督学习任务中,研究最多、应用最广的是聚类
B、聚类可作为一个单独过程,用于找寻数据内在的分布结构,但不能作为其他学习任务的前驱过程
C、聚类分析的目标是组内的对象之间是相似的,不同组中的对象是不同的
D、组内的相似性越大,组间差别越大,聚类就越好
答案:B
解析:聚类可作为一个单独过程,用于找寻数据内在的分布结构,可以作为其他学习任务的前驱过程
A、在无监督学习任务中,研究最多、应用最广的是聚类
B、聚类可作为一个单独过程,用于找寻数据内在的分布结构,但不能作为其他学习任务的前驱过程
C、聚类分析的目标是组内的对象之间是相似的,不同组中的对象是不同的
D、组内的相似性越大,组间差别越大,聚类就越好
答案:B
解析:聚类可作为一个单独过程,用于找寻数据内在的分布结构,可以作为其他学习任务的前驱过程
A. 密度直达关系
B. 密度可达关系
C. 密度相连关系
解析:DBSCAN算法将“簇”定义为:由密度可达关系导出的最大的密度相连样本集合。
A. accuracy_score
B. accuracy
C. f1_score
D. f2_score
解析:Scikit-Learn中accuracy_score 可以实现计算模型准确率。
A. GaussianNB
B. BernoulliNB
C. MultinomialNB
D. BaseDiscreteNB
解析:GaussianNB 适合连续特征,它假设每个特征对于每个类都符合正态分布。
A. 留一交叉验证
B. 留出法
C. 自助法
D. k折交叉验证
解析:将训练集随机等分为k份,选择其中的1份为测试集,另外k-1份作为训练集进行训练,进而可以进行k次训练和测试,最后返回这k个测试结果的均值,这种评估模型的方法叫做k折交叉验证。
A. 多分类学习
B. 对数几率回归
C. 线性判别分析
D. 多分类学习
解析:见算法解析
A. 一对一
B. 一对其余
C. 一对多
D. 多对多
解析:见算法解析
A. 二分法
B. 最小二乘法
C. 均值法
D. 投票法
解析:见算法解析
A. 如果原始空间是有限维,即属性数有限,那么一定存在一个高维特征空间使样本可分
B. 某个核函数使训练集在特征空间中线性可分,可能原因是欠拟合
C. “软间隔”允许某些样本不满足约束
D. 正则化可理解为一种“罚函数法
解析:见算法解析
A. 错误率
B. 精度
C. 误差
D. 查准率
解析:见算法解析
A. 权值学习迭代次数足够多
B. 学习能力低下
C. 训练集过多模型复杂
D. 数据有噪声
解析:见算法解析