Classifier-Free Guidance(CFG)

graph TD subgraph 分類器を使う A[画像生成モデル] -- 生成 --> B[生成された画像] C[分類器] -- 評価 --> B end subgraph CFG D[画像生成モデル] -- 生成 --> E[生成された画像] F[仮想的な分類器] -- 評価 --> E end

弟子君

博士、最近話題になっている「Classifier-Free Guidance(CFG)」っていうのを見かけたんだけど、これは一体どういうものなの？

博士

うむ、それは画像生成における新しい手法だよ。「Classifier-Free Guidance」は、その名の通り、「分類器を使わないガイダンス」を意味する。伝統的な画像生成技術では、分類器を使って生成される画像の品質を評価していたんだが、CFGはその分類器を使わない。

弟子君

分類器って何？それがないと、どうやって画像の品質を評価するの？

博士

分類器とは、簡単に言うと「何かを他のものと区別するための道具」だよ。たとえば、リンゴとバナナを区別するための分類器だとすれば、その形や色を見て「これはリンゴだ」とか「これはバナナだ」と言えるようなものさ。

博士

分類器がない場合の評価方法については、これを「レストランでの食事」に例えて考えてみよう。レストランではシェフが料理を作り、それが美味しいかどうかを評価する役割を客が果たす。伝統的な画像生成技術では、シェフ（画像生成モデル）が料理（生成される画像）を作り、それを客（分類器）が評価する。

博士

しかし、「Classifier-Free Guidance」では分類器（客）がいない。これは、まるでシェフが料理を作りながら、自分でその味を評価し、調整していくようなものだ。シェフ自身が料理の品質を評価し、それに基づいて次の料理を改良していく。これにより、分類器に依存せずにより自律的に画像を生成することが可能となる。

弟子君

なるほど、分類器なしで画像を生成するって、自分で自分の作品を評価しながら改良していくような感じなんだね。それで、生成された画像の品質も保証されるんだね。理解したよ、ありがとう博士！