MMAudio | Video-to-Audio
MMAudioは、ビデオおよびテキスト入力から同期された音声を比類なき精度で生成します。マルチモーダル共同トレーニングを使用して、多様な音声-視覚および音声-テキストデータセットにシームレスに適応します。その高度な同期モジュールは完璧な整合を保証し、現代のコンテンツニーズに合わせて音声生成を変革します。ComfyUI MMAudio ワークフロー
ComfyUI MMAudio 例
ComfyUI MMAudio 説明
The ノードとその関連ワークフローはすべてKijaiによって開発されました。この革新的な作品に対して、Kijaiにすべての功績を帰します。RunComfyプラットフォームでは、単にKijaiの貢献をコミュニティに紹介しています。現在、RunComfyとKijaiの間に正式な関係やパートナーシップはありません。Kijaiの作品に深く感謝しています。
MMAudio
MMAudioは、ビデオおよびテキスト入力から同期された音声を作成するための強力なツールです。多様な音声-視覚および音声-テキストデータセットから学習するためにマルチモーダル共同トレーニングを利用し、卓越した適応性を確保します。その高度な同期モジュールにより、音声をビデオフレームに完璧に整合させます。MMAudioは音声生成を革命化し、クリエイターやイノベーターのためにプロセスを簡素化します。
1.1 MMAudioワークフローの使い方
これはMMAudioワークフローです。左側のノードはビデオのアップロード用入力、中央はMMAudioノードの処理、右側は出力ノードです。
- 入力ノードにビデオをアップロードしてください。
- 音声生成のプロンプトを書いてください。
- レンダーをクリック!!!
1.2 ビデオ入力
- 参照ビデオをクリックしてアップロードしてください。
ビデオはHDビデオや長いビデオの処理でメモリ不足になる可能性があるため、?*512の解像度にダウンスケールされます。
1.3 MMAudio処理
Positive
: 音声のためのビデオ生成プロンプトを入力します。Negative
: 聞きたくないものを入力します。Steps
: ステップが多いほど、音質が向上する可能性があります。
1.4 MMAudioモデル
これらはモデルダウンローダーノードで、2-3分でcomfyuiにモデルを自動的にダウンロードします。
- MMAudio Models : https://github.com/hkchengrex/MMAudio
革新的なマルチモーダルトレーニングと正確な同期を備えたMMAudioは、音声生成の新しい基準を設定します。ビデオ、アニメーション、または没入型体験を作成する場合でも、MMAudioはシームレスで高品質な音声でクリエイターを支援します。プロジェクトを向上させ、アイデアをMMAudioで具現化してください。