
•优化方法的目标: 训练集合损失函数值
•深度学习目标: 测试集损失函数值(概括)
•局部最小值
•鞍点
•渐变消失
批次梯度下降-最小化所有训练样本的损失函数,因此最终的解决方案是全局最优解,也就是说,解决方案的参数是将风险函数最小化.
随机梯度下降-最小化每个样本的损失函数. 尽管在每次迭代中获得的损失函数并非都朝向全局最优方向,但总体方向却朝着全局最优解. 最终结果通常是接近全局最优解.
数据集是成功应用深度神经网络的先决条件. 图像增强技术通过对训练图像进行一系列随机更改来生成相似但不同的训练样本,从而扩大了训练数据集的规模. 图像增强的另一种解释是,随机更改训练样本可以减少模型对某些属性的依赖,从而提高模型的泛化能力. 例如,我们可以以不同的方式裁剪图像,以使感兴趣的对象出现在不同的位置,从而减少模型对对象位置的依赖. 我们还可以调整亮度,颜色和其他因素,以降低模型对颜色的敏感度. 可以说,在当年的AlexNet的成功中,图像增强技术做出了巨大贡献. 在本节中,我们将讨论这种在计算机视觉中广泛使用的技术.
•翻页
•更改颜色
•叠加多张图像的放大方法

以下不是图像增强的作用: B
A. 缓解过度拟合
B. 缓解不合身
C. 提高模型泛化能力
D. 通过旋转/翻转可以减少对某些属性的依赖.
选项2: 错误,欠拟合的常见原因是模型对于数据而言过于简单,因此图像的放大无法缓解欠拟合,但可以缓解过度拟合. 通过添加相似的图片,泛化能力和归约效果几乎不依赖于图片方向和尺寸等不相关的属性.
转移学习,将学习的知识从源数据集转移到目标数据集. 例如,尽管ImageNet数据集中的大多数图像与椅子无关,但是在该数据集上训练的模型可以提取更通用的图像特征,这可以帮助识别边缘,纹理,形状和对象组成. 这些相似的功能也可能对识别椅子有效.
微调是转移学习中常用的技术.
•在源数据集(例如ImageNet数据集)上预训练神经网络模型,源模型.
•创建一个新的神经网络模型应用 日志分类,即目标模型. 它在源模型上复制所有模型设计及其参数,输出层除外. 我们假设这些模型参数包含在源数据集上学习的知识,并且该知识也适用于目标数据集. 我们还假设源模型的输出层与源数据集的标签密切相关,因此在目标模型中未使用它.
•为目标模型添加一个输出层,其输出大小为目标数据集类别的数量,并随机初始化该层的模型参数.

•在目标数据集(例如椅子数据集)上训练目标模型. 我们将从头开始训练输出层,其余层的参数都根据源模型的参数进行微调.
1. 以下哪种算法不使用指数移动平均线: C
A.RMSProp
亚当(B.Adam)
C.Adagrad
D.SGD动量
说明:
选项1: RMSProp的自适应学习率分母使用EMA
选项2: 亚当的自适应学习率同时使用EMA作为分子和分母
选项3: Adagrad的自适应学习率不使用EMA,而是累积梯度的平方,因此存在梯度消失的问题
选项4: 动量表示为梯度计算EMA

2. 以下有关RMSProp,AdaGrad,AdaDelta,Adam等高阶优化算法的陈述是错误的: D
A.RMSProp使用指数移动平均值来解决Adagrad梯度消失的问题
B. 梯度在AdaGrad中消失的原因是自适应学习速率分母的不断积累使其最终可能变为0
C. AdaDelta是一种基于RMSProp的改进算法,只有一个超参数
D. 亚当没有使用动量算法
说明:
选项1: 正确,RMSProp不会直接累积梯度的平方,而是使用EMA衰减前一时刻的自适应学习率的分母.
选项2: 正确,当梯度不总是为0时,Adagrad的自适应学习率的分母将继续累积应用 日志分类,使自适应学习率趋于0,并且出现梯度消息的问题
选项3: 正确,Adelta基于RMSprop的改进,只需传入EMA的衰减参数
选项4: 错误,Adam使用Momentum算法,该算法是RMSProp和Momentum的组合
3. 关于亚当的以下说法是错误的: D

A. 亚当使用指数移动平均线
B. Adam可以重新缩放与相似大小相差很大数量级的梯度
C. Adam是RMSProp和Momentum算法的结合,以及EMA权重的无偏运算
D.Adam两次使用指数移动平均值,并且都使用相同的衰减参数
说明:
选项2: Adam算法中的正确,m_tmt和v_tvt(原始符号)分别是梯度的第一和第二矩估计. 与两者相比,更新量可以重新调整为1.
选项4: 错误,m_tmt和v_tvt都使用EMA,但是两者的衰减参数不相同
在“递归神经网络的零实现”部分中,我们使用单热向量表示单词. 尽管它们易于构建,但通常不是一个好选择. 一个主要的原因是,单词向量无法准确地表达不同词之间的相似性,例如我们经常使用的余弦相似性.
为解决上述问题,提出了Word2Vec单词嵌入工具. 它将每个单词表示为固定长度的向量,并且通过对语料库进行预训练,这些向量可以更好地在不同单词之间表达. 相似性和类比引入某些语义信息. 基于两个概率模型的假设,我们可以定义两个Word2Vec模型:
假设背景词是由头词生成的,即建模P(wo∣wc),其中wc是头词,而wo是任何背景词;
假设首词是由背景词生成的,即建模P(wc∣Wo),其中Wo是一组背景词.
在“ Word2Vec的实现”部分中,我们在小规模数据集上训练了Word2Vec词嵌入模型,并通过词向量的余弦相似度来搜索同义词. 尽管Word2Vec能够成功地将离散的单词转换为连续的单词向量,并可以在一定程度上保存单词之间的近似关系,但Word2Vec模型仍然不够完善,可以进一步改进: <
FastText以更详细的n-gram形式将单词表示为子单词的集合,而BPE(字节对编码)算法可以根据语料库统计信息自动,动态地生成高频子单词;
通过等效转换Word2Vec模型的条件概率公式,我们可以获得全局损失函数表达式,并基于此表达式进一步优化模型.
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-172187-1.html
1
在大数据的时代