LatentSync 是一个最先进的端到端唇同步框架,利用音频条件的潜在扩散模型生成逼真的唇同步。LatentSync 的独特之处在于其能够直接建模音频和视觉组件之间的复杂相关性,而无需依赖任何中间运动表示,革新了唇同步合成的方法。
LatentSync 流水线的核心是稳定扩散(Stable Diffusion)的集成,这是一种以其卓越的高质量图像捕捉和生成能力而闻名的强大生成模型。通过利用稳定扩散的能力,LatentSync 可以有效地学习和再现语音音频和相应唇部运动之间的复杂动态,从而产生高度准确和令人信服的唇同步动画。
基于扩散的唇同步方法的一个关键挑战是在生成的帧之间保持时间一致性,这对于真实结果至关重要。LatentSync 通过其突破性的时间表示对齐(TREPA)模块正面解决了这个问题,该模块专为增强唇同步动画的时间一致性而设计。TREPA 使用大规模自监督视频模型从生成的帧中提取时间表示。通过将这些表示与真实帧对齐,LatentSync 的框架确保了高度的时间一致性,从而产生与音频输入紧密匹配的平滑且令人信服的唇同步动画。
这是 LatentSync 工作流程,左侧节点是上传视频的输入,中间是处理 LatentSync 节点,右侧是输出节点。
视频调整为 25 FPS 以便与音频模型正确同步
LatentSync 通过其创新的音视频生成方法为唇同步设定了新的标杆。通过结合精确性、时间一致性和稳定扩散(Stable Diffusion)的力量,LatentSync 改变了我们创造同步内容的方式。使用 LatentSync 重新定义唇同步的可能性。
© 版权 2025 RunComfy. 保留所有权利。