勉強会で紹介して頂いた論文を自分なりにまとめる。
論文
- 論文: Fashion++ : Minimal Edits for Outfit Improvement
- 筆者・所属機関: Wei-Lin Hsiao, Isay Katsman, Chao-Yuan Wu, Devi Parikh, Kristen Grauman, ICCV 2019,
- 投稿日付: 2019-04-19
- 一言: Facebook AI Researchが出したファッションに関する機械学習の論文
どんなもの?
ファッションを少しの変更で改善する提案を行う。
例えばこの図の矢印の方への変更を提案する。 アクセサリーを除く(左)、ネックラインの高いブラウスに変更する(中央)、シャツをしまう(右)といった変更。 変更は衣服のみで、体形や姿勢はそのまま。
衣装全体をコーディネートするわけではなく、最小限の調整でファッション性に最大の影響を与えるアプローチを提案する。
先行研究と比べてどこがすごい?
- 体形や姿勢(ポーズ)はそのままで服を合成する。
- 互換性のある衣服をゼロから推奨する代わりに、既存の服装を微調整してより互換性のある/ファッショナブルなものにする。
- データセットを集めることが難しい問題を、アイデアで乗り切った。
技術や手法の概要
データセット
データはChictopia 10k。 服や髪などの領域でラベル付された画像のデータセット。
モデル
Fashion++の概要。
EがエンコーダでGがジェネレータ。 テクスチャ(Et)と形状(Es)のエンコーダから特徴を取得する。 それをF++で編集する。 形状のジェネレータ(Gs)で2Dのマスクにデコードして、領域ごとにテクスチャをアップデート。 最後に、テクスチャのジェネレータ(Gt)で画像を出力する。
評価関数
理想的なトレーニングセットは、同じ人物で僅かに異なる服装で一方がファッショナブルなペアの画像セット。 ただし、現実的でないし、スタイルが進化するとすぐに古くなってしまう。
そこで、ファッショナブルな写真から一部のパーツを変更してネガティブな衣装を作る。 元の衣装がファッション性高く、変更後の衣装が低いデータセットができる。
どうやって有効だと検証した?
定量的評価とユーザー調査でベースラインよりも良くなっているか検証。
定量的評価(左)ではコーディネートの変更数(Amount of change)とファッションの改善指標(Fashion Improvement)を数値化して評価。 ファッションの改善指標が1以上なら元の組み合わせより良い改善が出来きたことになり、 コーディネートの変更数が小さいほど小さな改善で良い評価をえられたことになる。
コーディネートの変更数も少なめながら、ランダムな変更(Random)・似た服に変更(Similarity-only)よりもFashion++のファッションの改善指標が高い。
ユーザー調査(右)はTurkersを使った。
議論はある?
最小限の編集には、優れた衣装生成モデル、正確なファッション性分類子、および堅牢な編集操作が必要でこれらのいずれかで失敗するとより悪い服装の変更が生じる。 今後はトレーニングソースの構成を拡大する。
次に読むべき論文は?
- Activation maximization 33
- ニューラルネットワーク内のターゲットニューロンを高度に活性化するために画像を最適化する勾配ベースのアプローチ。
- ネットワークが学んだことを視覚化するために広く使用される。
- 最近では画像を合成するために使用される。
終わり
この論文を読んで、衣装の一部を変更して生成し直すモデルの精度に驚いた。 体形や姿勢にも自然に当て込められる。 全身コーディネートではなく、こうした改善案はいつかアプリとして使ってみたい。
まとめ方はからあげさんの論文のまとめ方を自分なりに作ってみた。 難しいので、慣れるまで続けるしかない。