「Biasパラメータはweight decayの対象から除外すべき」という意見[1]がある。 典拠 これの根拠について明示的に議論した論文は見つけられなかったが、Pytorch Forum[1]で言及されているように、NFNetの論文[2]において「biasとgain(どちらもscalar)のパラ…
「学習率をバッチサイズに比例して増やす」(ルール1) という慣例があるが、これの根拠について説明する。 典拠 まず、このアイデアの出所は論文[1]だと思われる。 この論文では「学習率をバッチサイズに比例して増やす」というルールを適用すると幅広いバ…
Quote saved.
Login to quote this blog
Failed to save quote. Please try again later.
You cannot quote because this article is private.