StratifiedGroupKFoldの実装を読んだ - 機械学習の詰め合わせ

有名なアルゴリズムの実装を読むシリーズの第二回。今回はscikit-learnのStratifiedGroupKFoldの元のなったKaggle Notebookの実装を読んだ。といっても43行のとても短いコードである。

表記

まず、StratifiedGroupKFoldは、以下の制約を満たすようなFold分割アルゴリズムである。

これを実現するために、以下の処理を行っている。

fold割り当て処理

評価値は以下のように定義している。

コストの大きいものから、評価値（＝元の分布からの隔たり）が小さくなるように割り当てていくので、貪欲法のアルゴリズムの一種である。

計算量はO(n_fold * n_groups * n_labels)である。

scikit-learnの実装はこの実装をより汎用的に使えるようにするための処理が追加されている。少数グループが割り当てられなかったfoldがあった場合に警告を出したり、乱数でshuffleかどうかを切り替える機能などが追加されている。

なお、shuffleした後で結局コストの大きいものから順に処理しているので、shuffleの効果はのグループ内でラベル頻度の標準偏差が一致するものの処理順序が変わる程度の効果しかない。