答案:A
A. 一个集合
B. 一个映射
C. 一个概率空间
D. 一个线性空间
A. 在实际场景下,应尽量使用ADAM,避免使用SGD
B. 同样的初始学习率情况下,ADAM的收敛速度总是快于SGD方法
C. 相同超参数数量情况下,比起自适应的学习率调整方式,SGD加手动调节通常会取得更好效果
D. 同样的初始学习率情况下,ADAM比SGD容易过拟合
解析:相同超参数数量情况下,比起自适应的学习率调整方式,SGD加手动调节通常会取得更好效果
A. 学习方式分类
B. 网络结构分类
C. 网络的协议类型分类
D. 网络的活动方式分类
A. 脱敏数据
B. 数据订阅
C. 知识库
D. 决策支持
解析:分类问题常用的损失函数为交叉熵
A. 输入层
B. 中间隐藏层
C. 映射层
D. 输出层
解析:见算法解析
A. 多分类学习&;&对数几率回归&;&线性判别分析&;&多分类学习
解析:基础概念
解析:向量的正无穷范数是所有向量元素中的最大值。
A. 语音合成
B. 本人录制
C. 语音识别
D. 词典查询