バイアスパラメータは重み減衰させるべきか？

「Biasパラメータはweight decayの対象から除外すべき」という意見[1]がある。典拠これの根拠について明示的に議論した論文は見つけられなかったが、Pytorch Forum[1]で言及されているように、NFNetの論文[2]において「biasとgain（どちらもscalar）のパラ…

2023-08-16

バッチサイズと学習率の関係について

「学習率をバッチサイズに比例して増やす」（ルール1）という慣例があるが、これの根拠について説明する。典拠まず、このアイデアの出所は論文[1]だと思われる。この論文では「学習率をバッチサイズに比例して増やす」というルールを適用すると幅広いバ…

2023-04-10

StratifiedGroupKFoldの実装を読んだ

有名なアルゴリズムの実装を読むシリーズの第二回。今回はscikit-learnのStratifiedGroupKFoldの元のなったKaggle Notebookの実装を読んだ。といっても43行のとても短いコードである。表記 n_fold: フォールド数 n_groups: ユニークなグループ数 n_labels…

#有名なアルゴリズムの実装を読む

2023-03-19

scikit-learn-extraのKMedoidsの実装を読んだ

概要 scikit-learn-extraのKMedoidsの実装を読んだので備忘録として残しておく。 KMedoidsとは KMeansと同種のクラスタリングアルゴリズムで、クラスタの代表点としてクラスタの重心(centroid)でなくメドイド(medoid)を使う。メドイドは1次元における中央値(…

2023-02-03

8日目: 決意表明

100日後にCompetition Masterを目指す今後のコンペ参加方針について 100日後にCompetition Masterを目指す Ottoコンペは残念ながらメダル争いの圏外だった。とはいえ良い事もあって、GBRの時のように燃え尽き症候群が発生していない。精神的にも体力的に…

2023-02-01

6日目: Ottoコンペの振り返り

11月から参加していたKaggleコンペOTTO – Multi-Objective Recommender System（通称Otto）の期間中にあった出来事について振り返っておく。全体の感想 CVのリークについてデータ設計について共通の設計学習スキーム（candidate generator; 1段目）学習…

#100日後にKaggleMasterになるトカゲ