ComfyUI > ワークフロー > Stable Diffusion 3.5

Stable Diffusion 3.5

Stable Diffusion 3.5 (SD3.5) は、テキストプロンプトから多様で高品質な画像を生成する新しいオープンソースモデルです。SD3.5はさまざまなスタイルを作成し、プロンプトに従うことに優れています。解剖学や解像度にいくつかの制限があるにもかかわらず、SD3.5は視覚的創造のための強力なツールです。ComfyUIでSD3.5を探求し、簡単に素晴らしいビジュアルを作成してください。

ComfyUI Stable Diffusion 3.5 ワークフロー

このワークフローを実行しますか？

完全に動作するワークフロー
欠落したノードやモデルはありません
手動セットアップは不要
魅力的なビジュアルを特徴としています

ComfyUI Stable Diffusion 3.5 例

stable-diffusion-3.5-models-in-comfyui-1137

stable-diffusion-3.5-models-in-comfyui-1137-example_1.webp

stable-diffusion-3.5-models-in-comfyui-1137-example_2.webp

stable-diffusion-3.5-models-in-comfyui-1137-example_3.webp

ComfyUI Stable Diffusion 3.5 説明

Stability AIは、を発表しました。これは、Stable Diffusion 3.5 (SD3.5) Large、Stable Diffusion 3.5 (SD3.5) Large Turbo、Stable Diffusion 3.5 (SD3.5) Mediumなど、いくつかのバリアントを含むオープンソースのマルチモーダル生成AIモデルです。これらのモデルは非常にカスタマイズ可能で、コンシューマーハードウェアで実行可能です。SD3.5 LargeとLarge Turboモデルはすぐに利用可能で、Mediumバージョンは2024年10月29日にリリースされます。

1. Stable Diffusion 3.5 (SD3.5) の動作原理

技術的には、Stable Diffusion 3.5 (SD3.5) はテキストプロンプトを入力として取り込み、トランスフォーマーベースのテキストエンコーダーを使用して潜在空間にエンコードし、その潜在表現をディフュージョンベースのデコーダーを使用して出力画像にデコードします。トランスフォーマーテキストエンコーダーは、CLIP (Contrastive Language-Image Pre-training) モデルのように、入力プロンプトを潜在空間の意味的に意味のある圧縮表現にマッピングします。この潜在コードは、テキスト埋め込みに条件付けされた元々ノイズの多い潜在表現からノイズを徐々に除去し、最終的な画像出力を生成するために、ディフュージョンデコーダーによって反復的にデノイズされます。

Stable Diffusion 3.5 (SD3.5) の異なるモデルサイズ（Large、Medium）は、トレーニング可能なパラメータの数を指します。Largeモデルは80億、Mediumは25億です。より多くのパラメータは、一般的に、モデルがトレーニングデータからより多くの知識とニュアンスをキャプチャすることを可能にします。Turboモデルは、品質の一部を犠牲にして、はるかに高速な推論速度を実現するために蒸留されたバージョンです。蒸留は、より小さな「学生」モデルが、より大きな「教師」モデルの出力を模倣するためにトレーニングされ、より効率的なアーキテクチャでほとんどの能力を保持することを目指します。

2. Stable Diffusion 3.5 (SD3.5) モデルの強み

2.1. カスタマイズ性

Stable Diffusion 3.5 (SD3.5) モデルは、特定のアプリケーション向けに簡単に微調整され、構築されるように設計されています。トランスフォーマーブロックにQuery-Key Normalizationが統合され、トレーニングを安定化し、さらなる開発を簡素化しました。この技術は、トランスフォーマーレイヤーの注意スコアを正規化し、モデルをより堅牢にし、新しいデータセットへの転移学習を通じて適応しやすくすることができます。

2.2. 出力の多様性

Stable Diffusion 3.5 (SD3.5) は、広範なプロンプトを必要とせずに世界の多様性を表現する画像を生成することを目的としています。さまざまな肌の色、特徴、美学を持つ人々を描写することができます。これは、おそらくインターネット上の多様な画像データセットでモデルがトレーニングされたためです。

2.3. 幅広いスタイルの範囲

Stable Diffusion 3.5 (SD3.5) モデルは、3Dレンダリング、フォトリアリズム、絵画、線画、アニメなど、さまざまなスタイルの画像を生成することができます。この多様性は、多くのユースケースに適しています。スタイルの多様性は、ディフュージョンモデルが潜在空間で多くの異なる視覚パターンと美学をキャプチャする能力から生まれます。

2.4. 強力なプロンプトの遵守

特にStable Diffusion 3.5 (SD3.5) Largeモデルでは、SD3.5は入力テキストプロンプトの意味に沿った画像を生成することに優れています。プロンプトマッチングメトリクスで他のモデルと比較して高くランクされています。テキストを画像に正確に変換するこの能力は、トランスフォーマーテキストエンコーダーの言語理解能力によって支えられています。

3. Stable Diffusion 3.5 (SD3.5) モデルの制限と欠点

3.1. 解剖学とオブジェクトの相互作用に苦労

ほとんどのテキストから画像へのモデルと同様に、Stable Diffusion 3.5 (SD3.5) は、特に手、足、複雑なポーズの顔など、リアルな人体解剖をレンダリングするのにまだ苦労しています。オブジェクトと手の相互作用はしばしば歪んでいます。これは、2D画像から3D空間関係と物理学のすべてのニュアンスを学ぶことの難しさによるものです。

3.2. 限られた解像度

Stable Diffusion 3.5 (SD3.5) Largeモデルは、1メガピクセルの画像（1024x1024）に最適で、Mediumは約2メガピクセルで最高です。より高い解像度で一貫性のある画像を生成することは、SD3.5にとって挑戦です。この制限は、ディフュージョンアーキテクチャの計算とメモリの制約に起因します。

3.3. 時折のグリッチと幻覚

Stable Diffusion 3.5 (SD3.5) モデルは、同じプロンプトから異なるランダムシードを使用して幅広い多様な出力を可能にするため、予測不可能なことがあります。特異性を欠くプロンプトは、グリッチや予期しない要素の出現を引き起こす可能性があります。これは、ランダム性を伴うディフュージョンサンプリングプロセスの固有の特性です。

3.4. 絶対的最先端には及ばない

いくつかの初期テストによると、画像品質と一貫性の観点で、Stable Diffusion 3.5 (SD3.5) は、Midjourneyのような最先端のテキストから画像へのモデルの性能に現在匹敵していません。そして、Stable Diffusion 3.5 (SD3.5) とFLUX.1の初期の比較では、それぞれのモデルが異なる領域で優れていることが明らかになっています。FLUX.1はフォトリアリスティックな画像を生成することにおいて優位性を持っているようですが、SD3.5 Largeは、追加の微調整や修正を必要とせずにアニメスタイルのアートワークを生成する能力がより高いです。

4. ComfyUIでのStable Diffusion 3.5

RunComfyでは、Stable Diffusion 3.5 (SD3.5) モデルを事前ロードして、簡単に使用できるようにしています。すぐに始めて、サンプルワークフローを使用して推論を実行することができます

サンプルワークフローは、CheckpointLoaderSimpleノードから始まり、事前トレーニングされたStable Diffusion 3.5 Largeモデルをロードします。そして、テキストプロンプトをモデルが理解できる形式に変換するために、TripleCLIPLoaderノードを使用して対応するエンコーダーをロードします。これらのエンコーダーは、提供されたテキストに基づいて画像生成プロセスを導くのに重要です。

次に、EmptySD3LatentImageノードは、指定されたサイズ、通常は1024x1024ピクセルの白紙キャンバスを作成し、モデルが画像を生成するための出発点として機能します。CLIPTextEncodeノードは、提供されたテキストプロンプトを処理し、ロードされたエンコーダーを使用してモデルが従うべき一連の指示を作成します。

これらの指示がモデルに送信される前に、ConditioningCombine、ConditioningZeroOut、ConditioningSetTimestepRangeノードを通じてさらに精緻化されます。これらのノードは、ネガティブプロンプトの影響を排除し、生成プロセス中にプロンプトが適用されるタイミングを指定し、指示を単一の一貫したセットに結合します。

最後に、ModelSamplingSD3ノードを使用して、サンプリングモード、ステップ数、モデル出力スケールなどのさまざまな設定を調整することで、画像生成プロセスを微調整できます。最後に、KSamplerノードを使用して、ステップ数、指示の影響力の強さ（CFGスケール）、および生成に使用される特定のアルゴリズムを制御し、望ましい結果を達成することができます。