当前位置:网站首页>复盘:BN和Dropout共同使用时会出现的问题
复盘:BN和Dropout共同使用时会出现的问题
2022-07-16 14:38:00 【冰露可乐】
复盘:BN和Dropout共同使用时会出现的问题
提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学习和总结,以应对未来更多的可能性
关于互联网大厂的笔试面试,都是需要细心准备的
(1)自己的科研经历,科研内容,学习的相关领域知识,要熟悉熟透了
(2)自己的实习经历,做了什么内容,学习的领域知识,要熟悉熟透了
(3)除了科研,实习之外,平时自己关注的前沿知识,也不要落下,仔细了解,面试官很在乎你是否喜欢追进新科技,跟进创新概念和技术
(4)准备数据结构与算法,有笔试的大厂,第一关就是手撕代码做算法题
面试中,实际上,你准备数据结构与算法时以备不时之需,有足够的信心面对面试官可能问的算法题,很多情况下你的科研经历和实习经历足够跟面试官聊了,就不需要考你算法了。但很多大厂就会面试问你算法题,因此不论为了笔试面试,数据结构与算法必须熟悉熟透了
秋招提前批好多大厂不考笔试,直接面试,能否免笔试去面试,那就看你简历实力有多强了。
请问;BN和Dropout能共同使用吗?
不能!!!!
BN和Dropout单独使用都能减少过拟合并加速训练速度,
但如果一起使用的话并不会产生1+1>2的效果,
相反可能会得到比单独使用更差的效果。
相关的研究参考论文:
Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift
本论文作者发现理解 Dropout 与 BN 之间冲突的关键是
网络状态切换过程中存在神经方差的(neural variance)不一致行为。
试想若有图一中的神经响应 X,当网络从训练转为测试时,
Dropout 可以通过其随机失活保留率(即 p)来缩放响应,
并在学习中改变神经元的方差,
而 BN 仍然维持 X 的统计滑动方差。
这种方差不匹配可能导致数值不稳定(见下图中的红色曲线)。
而随着网络越来越深,最终预测的数值偏差可能会累计,从而降低系统的性能。
简单起见,作者们将这一现象命名为**「方差偏移」**。
事实上,如果没有 Dropout,那么实际前馈中的神经元方差将与 BN 所累计的滑动方差非常接近(见下图中的蓝色曲线),这也保证了其较高的测试准确率。
作者采用了两种策略来探索如何打破这种局限。
一个是在所有 BN 层后使用 Dropout,
另一个就是修改 Dropout 的公式让它对方差并不那么敏感,就是高斯Dropout。
第一个方案比较简单,把Dropout放在所有BN层的后面就可以了,这样就不会产生方差偏移的问题,但实则有逃避问题的感觉。
第二个方案来自Dropout原文里提到的一种高斯Dropout,是对Dropout形式的一种拓展。作者进一步拓展了高斯Dropout,提出了一个均匀分布Dropout,这样做带来了一个好处就是这个形式的Dropout(又称为“Uout”)对方差的偏移的敏感度降低了,总得来说就是整体方差偏地没有那么厉害了。
总之,就是不能放一起,否则炸了
总结
提示:重要经验:
1)BN和dropOut可以单独使用,但是不能同时使用
2)可以简单地将dropout放在BN之后用
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。
边栏推荐
猜你喜欢

844. Compare strings with backspace

Common network devices and network reference models, as well as common network layer protocols and data communication processes

ctf-pikachu-sql

TCP拥塞控制详解 | 6. 主动队列管理

走不下去恶补基础呢--C#线程开发输出字符串程序

九联科技开发板正式合入OpenHarmony主干

论文翻译解读:learning logic rules for reasoning on knowledge graphs【RNNLogic】

How to build a digital system of dual prevention mechanism for hazardous chemical enterprises?

2022 latest Tianjin Construction Safety Officer simulation question bank and answers

thingJS的使用
随机推荐
不知道如何提高视觉语言大模型?浙大与联汇研究院提出新型多维度评测框架...
Typora更换MarkText,Mark Text下载,MarkText调出工具栏和大纲栏、设置文本编辑区宽度、编辑快捷键。
STL string
鸿湖万联致远开发板正式合入OpenHarmony主干
Sword finger offer 52 The first common node of two linked lists
Leetcode 49. 字母异位词分组
go语言零知识证明gnark框架
【Ucos-III源码分析】——信号量
Object serialization stream and deserialization stream
业务类库中的老门店类封装和调用
三面头条+四面阿里+五面腾讯拿offer分享面经总结,最终入职阿里
问题来了!拔掉网线几秒,再插回去,原本的 TCP 连接还存在吗?
《遥远的救世主》遵守客观规律(五)——文化属性
【Ucos-III源码分析】——消息队列
A game research and development company in Shenzhen installed monitoring for each station. Netizen: it's comparable to imprisonment!
uCOS-III学习笔记——时间片轮转
Talk about promise
JWT学习
空间属性概述 C语言
勤于奋闲聊