Skip to content

Denoising Diffusion Probabilistic Models #51

@shnakazawa

Description

@shnakazawa

Ho, Jonathan, Ajay Jain, and Pieter Abbeel. 2020. “Denoising Diffusion Probabilistic Models.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2006.11239.
Revised 2020

  • 「拡散確率モデル (Diffusion Probabilistic Model. Sohl-Dickstein et al., 2015)」を改良し、高品質な画像の生成に成功。
  • 以前にまとめたスコアベースモデル (Song and Ermon et al., 2019) と発想は同じ。
    • 画像にノイズを加えモデルを作る↔ノイズが一段回小さい画像を推定させる、を繰り返し、最終的にはノイズのみ(に見える)画像から元画像までをつなぐ。
  • GAN等の従来手法以上の高画質画像の生成に成功。
  • DALL-E, Imagen等はこのモデルがベースとなっている。

Abstract

We present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by training on a weighted variational bound designed according to a novel connection between diffusion probabilistic models and denoising score matching with Langevin dynamics, and our models naturally admit a progressive lossy decompression scheme that can be interpreted as a generalization of autoregressive decoding. On the unconditional CIFAR10 dataset, we obtain an Inception score of 9.46 and a state-of-the-art FID score of 3.17. On 256x256 LSUN, we obtain sample quality similar to ProgressiveGAN.

(DeepL翻訳)

我々は、非平衡熱力学の考察に触発された潜在変数モデルのクラスである拡散確率モデルを用いた高品質な画像合成の結果を発表する。我々の最良の結果は、拡散確率モデルとランジュバン動力学によるノイズ除去のスコアマッチングとの間の新しい接続に従って設計された重み付き変分境界で学習することによって得られ、我々のモデルは自然に自己回帰復号の一般化として解釈できる漸進的損失伸長方式を認める。無条件CIFAR10データセットにおいて、Inceptionスコア9.46、FIDスコア3.17を得ることができました。256x256 LSUNでは、ProgressiveGANと同程度のサンプル品質が得られている。

コード

https://github.com/hojonathanho/diffusion

解決した課題/先行研究との比較

  • GANやスコアベースモデルなど、様々な種類の深層生成モデルの研究が進んでいる。
  • 本論文は拡散確率モデル (Sohl-Dickstein et al., 2015) を改良し、高品質な画像の生成に成功。
  • 拡散確率モデルを用いてスコアベースと同程度の精度が出た。

技術・手法のポイント

  • 最初のデータにガウシアンノイズを何回も付加し学習を行う「前向き過程 (forward process)」
  • ノイズを除去し元のデータを復元する「後ろ向き過程 (reverse process)」
  • モデルの学習にスコアマッチングを使う代わりに、データの尤度の最大化をターゲットとする。
    • (尤度ベース手法には限界があるというのがスコアベースモデルの話だったが、どうやってその限界を解決したのだろう?)
  • ガウシアンノイズの分散は固定値として扱い、平均μ、あるいは平均の差分εθを予測・修正することで、画像xを予測するように訓練する
    • 拡散が少量のガウシアンノイズからなる場合、サンプリングチェーンの遷移も条件付きガウスに設定すれば十分であり、特に簡単なニューラルネットワークのパラメータ化が可能

評価指標

  • CIFAR10データセット、Inceptionスコア・FIDスコアで評価 → FIDスコア state of the art

残された課題・議論

  • フェイク画像や動画の生成に使われてしまった場合、どうすれば検出が可能か?
  • 学習データセットのバイアスを反映する。
    • 多くの大規模データセットが自動化されたシステムによってインターネットから収集されているため、特に画像がラベル付けされていない場合、これらのバイアスを取り除くことが困難。
    • このようなデータセットから生成された画像がインターネット上で拡散すれば、これらのバイアスはさらに強化される。

重要な引用

  • Sohl-Dickstein, Jascha, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. 07--09 Jul 2015. “Deep Unsupervised Learning Using Nonequilibrium Thermodynamics.” In Proceedings of the 32nd International Conference on Machine Learning, edited by Francis Bach and David Blei, 37:2256–65. Proceedings of Machine Learning Research. Lille, France: PMLR.
    • 拡散確率モデルを用いた画像生成を提唱した論文。
  • Song, Yang, and Stefano Ermon. 2019. “Generative Modeling by Estimating Gradients of the Data Distribution.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/1907.05600.
    • スコアベースの生成モデル

関連論文

  • 拡散モデルによる画像生成のこの後の発展
  • Nichol, Alex, and Prafulla Dhariwal. 2021. “Improved Denoising Diffusion Probabilistic Models.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2102.09672.
  • Dhariwal, Prafulla, and Alex Nichol. 2021. “Diffusion Models Beat GANs on Image Synthesis.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2105.05233.
  • 言語モデルに進出
    • Austin, Jacob, Daniel D. Johnson, Jonathan Ho, Daniel Tarlow, and Rianne van den Berg. 2021. “Structured Denoising Diffusion Models in Discrete State-Spaces.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2107.03006.

参考

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions