Hallo2技術は、Fudan UniversityとBaidu Inc.のJiahao Cui、Hui Li、Yao Yao、Hao Zhu、Hanlin Shang、Kaihui Cheng、Hang Zhou、Siyu Zhu、Jingdong Wangによって開発されました。詳細はを訪問してください。ComfyUI_Hallo2ノードとワークフローはsmthemexによって開発されました。詳細はを訪問してください。すべての貢献に感謝します。
Hallo2は、高品質で長時間の4K解像度のオーディオ駆動ポートレートアニメーションビデオを生成する最先端モデルです。元のHalloモデルにいくつかの重要な改善を加えています:
Hallo2は、データ拡張のような高度な技術を使用して長時間にわたる一貫性を維持し、4K解像度の潜在コードのベクトル量子化、およびオーディオとテキストの両方に導かれた改良されたノイズ除去プロセスを使用してこれを達成しています。
Hallo2は、いくつかの高度なAIモデルと技術を組み合わせて高品質のポートレートビデオを作成します:
要するに、Hallo2はオーディオとポートレート画像を取り込み、それらを一致させるためにビデオフレームを彫刻するAI「エージェント」を持ち、長時間のビデオでもすべてを同期させて一貫性を保つための追加のトリックを採用しています。これらのすべての部分が多段階のパイプラインで連携して、あなたが見る印象的な結果を生み出します。
Hallo2は、いくつかの専門的なノードを備えたカスタムワークフローを通じてComfyUIに統合されています。使用方法は次のとおりです:
LoadImage
ノードを使用して参照ポートレート画像をロードします。これは明確な正面のポートレートであるべきです。(ヒント:参照ポートレートがより良くフレーム化され、照明されているほど、結果は良くなります。側面のプロファイル、遮蔽、忙しい背景などを避けてください。)LoadAudio
ノードを使用して駆動オーディオをロードします。それはポートレートに感情を与えたいムードに合致するべきです。HalloPreImgAndAudio
ノードに画像とオーディオを接続します。これにより、画像とオーディオが埋め込みに前処理されます。主要なパラメータ:
audio_separator
: 背景ノイズから音声を分離するモデル。通常はデフォルトのままにします。face_expand_ratio
: 検出された顔領域をどの程度拡張するか。より高い値はより多くの髪/背景を含みます。width
/height
: 生成解像度。より高い値は遅いが詳細。512-1024四角は良いバランスです。fps
: 目標ビデオFPS。25は良いデフォルトです。HalloLoader
ノードを使用してコアHallo2モデルをロードします。あなたのHallo2チェックポイント、VAE、およびモーションモジュールファイルを指します。HalloSampler
ノードに接続します。これが実際のビデオ生成を行います。主要なパラメータ:
seed
: マイナーな詳細を決定するランダムシード。最初の結果が気に入らない場合は変更します。pose_scale
/face_scale
/lip_scale
: ポーズ、顔の表情、リップの動きの強度をどの程度スケールするか。1.0 = 完全な強度、0.0 = 固定。cfg
: クラスフィアフリーガイダンススケール。高いほど条件に従いますが多様性が少なくなります。steps
: ノイズ除去ステップの数。ステップが多いほど品質が良くなりますが遅くなります。HallosUpscaleloader
とHallosVideoUpscale
ノードを追加します。アップスケールローダーは事前にトレーニングされたアップスケーリングモデルを読み込み、アップスケーラーノードは実際に4Kにアップスケーリングを行います。© 著作権 2024 RunComfy. All Rights Reserved.