2021年3月17日,机器学习算法岗实习岗面试题6道

常见的损失函数:0-1损失函数 , 绝对值损失函数 , log对数损失函数 , 平方损失函数 , 指数损失函数 , hinge损失函数 , 交叉熵损失函数等 。
0-1损失函数
2021年3月17日,机器学习算法岗实习岗面试题6道
文章图片
绝对值损失函数
log对数损失函数
平方损失函数
2021年3月17日,机器学习算法岗实习岗面试题6道
文章图片
指数损失函数
hinge损失函数
交叉熵损失函数
2021年3月17日,机器学习算法岗实习岗面试题6道
文章图片
常见的激活函数有:Sigmoid、Tanh、ReLU、LeakyReLU
Sigmoid函数:
2021年3月17日,机器学习算法岗实习岗面试题6道
文章图片
特点:
2021年3月17日,机器学习算法岗实习岗面试题6道】它能够把输入的连续实值变换为0和1之间的输出 , 特别的 , 如果是非常大的负数 , 那么输出就是0;如果是非常大的正数 , 输出就是1 。
缺点:
缺点1:在深度神经网络中梯度反向传递时导致梯度消失 , 其中梯度爆炸发生的概率非常小 , 而梯度消失发生的概率比较大 。
缺点2:Sigmoid的output不是0均值(即zero-centered) 。
缺点3:其解析式中含有幂运算 , 计算机求解时相对来讲比较耗时 。 对于规模比较大的深度网络 , 这会较大地增加训练时间 。
Tanh函数:
特点:它解决了Sigmoid函数的不是zero-centered输出问题 , 收敛速度比sigmoid要快 , 然而 , 梯度消失(gradientvanishing)的问题和幂运算的问题仍然存在 。
ReLU函数:
特点:
1.ReLu函数是利用阈值来进行因变量的输出 , 因此其计算复杂度会比剩下两个函数低(后两个函数都是进行指数运算)
2.ReLu函数的非饱和性可以有效地解决梯度消失的问题 , 提供相对宽的激活边界 。
3.ReLU的单侧抑制提供了网络的稀疏表达能力 。
ReLU的局限性:在于其训练过程中会导致神经元死亡的问题 。
这是由于函数f(x)=max(0,x)导致负梯度在经过该ReLU单元时被置为0 , 且在之后也不被任何数据激活 , 即流经该神经元的梯度永远为0 , 不对任何数据产生响应 。 在实际训练中 , 如果学习率(LearningRate)设置较大 , 会导致超过一定比例的神经元不可逆死亡 , 进而参数梯度无法更新 , 整个训练过程失败 。
LeakyReLu函数:
LReLU与ReLU的区别在于 , 当z<0时其值不为0 , 而是一个斜率为a的线性函数 , 一般a为一个很小的正常数 , 这样既实现了单侧抑制 , 又保留了部分负梯度信息以致不完全丢失 。 但另一方面 , a值的选择增加了问题难度 , 需要较强的人工先验或多次重复训练以确定合适的参数值 。
基于此 , 参数化的PReLU(ParametricReLU)应运而生 。 它与LReLU的主要区别是将负轴部分斜率a作为网络中一个可学习的参数 , 进行反向传播训练 , 与其他含参数网络层联合优化 。 而另一个LReLU的变种增加了“随机化”机制 , 具体地 , 在训练过程中 , 斜率a作为一个满足某种分布的随机采样;测试时再固定下来 。 RandomReLU(RReLU)在一定程度上能起到正则化的作用 。
ELU函数:
2021年3月17日,机器学习算法岗实习岗面试题6道
文章图片
ELU函数是针对ReLU函数的一个改进型 , 相比于ReLU函数 , 在输入为负数的情况下 , 是有一定的输出的 , 而且这部分输出还具有一定的抗干扰能力 。 这样可以消除ReLU死掉的问题 , 不过还是有梯度饱和和指数运算的问题 。
LR的基本表达形式如下:
2021年3月17日,机器学习算法岗实习岗面试题6道