Swish: a Self-Gated Activation Function https://arxiv.org/abs/1710.05941 ReLUの代わりになる活性化関数Swishの提案。 Swishの形はシンプル。 $$ f(x) = x \cdot σ (x) $$ ReLUとの違いは,non-monotonicityとsmoothnessだと思う. 小さい負の入力はReLUを通すと全てゼロになるが, Swishでは負の値を出力する. また,smoothnessという観点では, 2入力・2出力の6層NNに対して、 ランダムに入力を与えたときの出力(x,y)をヒートマップで描画すると,以下のようになる。 ReLUは値の変化が鋭い領域があるのがわかる。 Swishのこのsmoothnessはlossに影響を与えて最適化しやすいらしい. これらの特徴がどういう効果を具体的に持つのかは
