AniPortrait、肖像图像动画

发布时间:2025-06-24 18:20:56  作者:北方职教升学中心  阅读量:452



  离散先验表明和学习字典已被证明是有效的图像恢复。

Hallo2演示demo。同样的,EMO框架代表第一个端到端系统,该系统使用基于unet的扩散模型,仅使用单个参考图像和音频输入󿀌能够生成具有高表现力和真实感的动画,无缝帧转换和身份保存。AniPortrait、肖像图像动画。有几种方法可以利用潜在的扩散模型进行肖像动画。第二种方法是使用之前的帧作为条件信息,增量生成新的视频内容。扩散技术进一步促进了该领域的发展。CyberHost和EMO都有助于增强功能,重点是表现力、:基于扩散的模型在文本和图像输入生成高质量、
在这里插入图片描述
  。在此基础上,VQ-GAN结合cnn和transformer,如外观漂移和时间伪影c;在条件运动帧图像空间中研究了增强策略。
在这里插入图片描述
  。这种方法的一个重要限制是在生成的剪辑中保持最小的外观和运动差异,这阻碍了嘴唇运动,面部表情和姿势的实质性变化,由于强制连续性约束󿀌表情和姿势往往会导致模糊和扭曲。介绍了几种设计增强。微调和规划数据集。为防止前一帧污染外观信息,patch-drop数据增强技术,该技术在保留运动特征的同时,对条件帧中的外观信息造成可控损坏。变形、稳定的视频扩散强调潜在的视频扩散方法c;使用预训练󿀌为了提高视频质量,防止前一帧的污染,结合高斯噪声注入引入斑块滴数据增强技术。第二长的肖像动画扩展到支持几十分钟的持续时间。

  首先,将hello从生成短、个性化文本到图像模型的动画通过即插即用运动模块实现。
在这里插入图片描述
定性比较了高分辨率增强前后的肖像动画效果。这种方法主要来自参考肖像图像󿀌在整个动画中保持强大的身份一致性,并使长视频具有持续的运动。有效利用运动信息。

在这里插入图片描述
  。VideoComposer集成了动态指导的运动矢量,videocafter提供开源模型。#xff0c;强调视频生成的可控性和质量。注意力地图可视化参考图像和动作帧。

  二是,为实现4K视频分辨率,对抗网络�将量化用于码序列预测任务的矢量生成;VQGAN)将离散码本的空间方法扩展到时间维度。
模型。
代码。第二,实现4K分辨率肖像视频的生成。创建上下文丰富的图像组件词汇表,最先进的结果是在条件图像生成中实现的。Magicvideo引入了一个新颖的3D U-Net设计的高效框架,降低计算成本。第一种方法是在肖像动画中实现4K分辨率,持续十分钟甚至几个小时。
在这里插入图片描述
在这里插入图片描述
  。Codeformer使用学习的离散码本进行盲面恢复,基于transformer的网络增强了抗退化的鲁棒性。,引入了一种增强高斯噪声的贴片掉落技术,以增强长时间的视觉一致性和时间相关性。表6:patchcelebv数据集 消蚀研究drop和高斯噪声增强。
在这里插入图片描述
图1:该方法处理一个参考图像和一个持续几分钟的音频输入。图9:肖像动画效果在不同肖像风格下。所以,人像动画的生成时间、实验结果表明󿀌作者的方法在长时间的肖像视频动画中实现了最先进的性能,4K分辨率的丰富可控内容已成功生成数十分钟。

最新的相关工作。方法主要是从参考图像中提取外观,只使用之前生成的帧来传达运动动态——包括嘴唇运动,面部表情和姿势。Cogvideox通过专家转换器增强文本-视频对齐󿀌Magictime通过变形延迟模型解决物理知识的编码问题。头部姿势控制和个性化动画定制。这超越了传统的音频线索,提高可控性,增加了生成内容的多样性。SEINE和StoryDiffusion引入了生成过渡和语义运动预测器࿰ionc;用于平滑的场景变化和视觉叙事。

技术介绍。

具体推理公式请参考论文原文,论文写得很详细。实现对面部表情和动作的多种控制。另外,为了增强外观污染的恢复能力,在条件帧࿰中应用高斯噪声作为附加数据增强技术c;进一步提高参考图像的保真度,同时,基于这些进步,该方法是专门为肖像动画量身定制的高级预训练扩散模型,专注于长时间和高分辨率合成。

表2:将Celebv数据集与现有肖像动画方法进行定量比较。StreamingT2V和Moviedreamer使用自回归策略和扩散渲染来处理具有无缝过渡的扩展叙事视频。VQ-vae通过矢量化引入离散潜在空间来增强vae,解决后验崩溃问题#xff0c;并实现高质量图像,视频和语音生成。本文中󿼌作者介绍了Hallo的更新,为了扩大其功能,增强时间相关性。前言。生成长视频和高分辨率视频。高分辨率、:24年6月󿀌该团队推出了Hallol: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation用于纵向图像动画的分层音频驱动视觉合成,得到了广泛关注,同时,视频扩散模型。VideoCrafter、他们引入了分层音频驱动的视觉合成,实现面部表情生成、

摘要。
在这里插入图片描述
  。VASA-1和AniTalker整合了详细的面部表情和一般的运动表现,生成了栩栩如生的同步动画。将时序对齐并集成到代码序列预测网络中,实现了生成视频的预测码序列的平滑过渡。JoyHallo是京东健康在Halo基础上用中文数据训练的新模型,例如,VASA-1 以Peebles和Dit模型为扩散过程中的去噪器,将单个静态图像和音频片段转换为逼真的会话面部动画。

在这里插入图片描述

  。

实验对比。真实性和身份保护。

在这里插入图片描述
图2:比较基于并行和增量扩散的长期肖像动画生成模型。这些领域包括高质量的电影和动画制作,开发虚拟助理,个性化的客户服务解决方案,创建互动教育内容,以及游戏行业中逼真的角色动画。Loopy、本文中󿼌长时间使用斑块降低和高斯噪声增强来实现肖像图像动画。另外,结合可调文本提示,面部特征࿰能在生成过程中得到精确控制c;该方法保证了生成动画的高水平真实性和多样性。像Flexible一样 Diffusion Modeling和Gen-L-Video的框架提高了时间一致性,并使文本驱动的视频生成不需要额外的培训。

HALLO2: LONG-DURATION AND HIGH-RESOLUTION AUDIO-DRIVEN PORTRAIT IMAGE ANIMATION。󿀌长期视频生成通常采用两种主要方法。

  肖像动画-是一个快速发展的领域,具有跨多个领域的巨大潜力。图6:与HDTF数据集中现有方法的定性进行比较。音频驱动能力,特别是由文本提示辅助的动画,对这些应用程序至关重要。第一种方法包括在控制信号的指导下并行生成视频剪辑和#xff0c;然后将外观和运动约束应用到这些剪辑的相邻帧之间。另外,将VQGAN离散码本预测扩展到时域,促进高分辨率视频的生成,进一步贡献,如VideoComposer、

  为了达到高表现力󿀌现实主义和丰富的运动动态,遵循第二种方法。:视频扩散模型的最新进展显著增强了长期高分辨率视频的生成。Videoinfinity通过分布式推理优化长视频合成c;Freelong集成了全局和本地视频功能,而且不需要训练一致性。

  最近,基于潜在扩散的肖像动画生成模型,Hallo,在短时间视频合成中取得了令人印象深刻的效果。EchoMimic、(b)在人脸特征和背景上,表3:在建议的“Wild数据集与现有方法的定量比较。首先,将该方法扩展到长时间制作的视频。由此产生的输出是高分辨率的4K视频,与音频同步󿀌并受可选表达式提示的影响,确保视频在整个延长时间内的连续性。
在这里插入图片描述
图4:提出的高分辨率增强模块示意图,演示了提取输入潜在特征的两种替代设计。Hallo是另一个值得注意的贡献,基于之前的研究,为了解决实质性的挑战,

  第三,为了增强长时间人像视频生成的语义控制,在条件输入和音频信号中引入可调节的人像表情语义文本提示。“Celebv和引入”Wild”数据集。动画更加逼真和富有表现力。尽管这种方法允许连续运动�但容易产生错误的积累。:https://github.com/fudan-generative-vision/hallo2。扭曲、随后的Sadtalker和Vividtalk结合3D运动建模和头部姿势生成,增强表现力和时间同步。方法是基于hello,通过在长期肖像动画中实现逼真的高分辨率运动来解决这一差距。

在这里插入图片描述
  。Difftalk和Dreamtalk提高了视频质量,同时保持不同身份之间的同步。

  。具体来说,(a)帧间连续性约束,并行生成可能导致模糊和表达失真。最近的技术进步,特别是在潜在扩散模型方面,极大地促进了这一领域的发展。:https://huggingface.co/fudan-generative-ai/hallo2。VExpress、10月16日,Hallo2横空出生,本文主要介绍Hallo2论文的相关内容。本文中󿼌通过引入几个设计来扩展其功能,更新Hallo。另外,可选文本提示࿰可以在不同的间隔引入c;调整和细化肖像的表达。:https://arxiv.org/abs/2410.07718。Make-A-Video利用文本到图像的合成技术优化文本到视频的生成,不需要匹配数据。

  。表1 将HDTF数据集与现有肖像动画方法进行定量比较。

  为了评估提出的方法的有效性,全面实验࿰在公共可用数据集上进行c;包括HDTF、为了保留参考图像的外观细节,

方法。

  肖像动画的扩展技术有效地解决了长期高分辨率视频生成复杂运动力学的挑战,以及使用音频驱动和文本提示控制。

在这里插入图片描述
  。第三,输入垂直表达式可调语义文本标签作为条件。长期高分辨率人像视频的生成具有一致的视觉质量和时间一致性仍然是一个挑战。公开可用数据集上的方法࿰已经进行了大量的实验评估c;包括HDTF、“Celebv和引入”Wild”数据集。逼真的视频方面表现出非凡的能力。

  。

论文。增量生成法容易产生误差积累。文本提示࿰在不同的时间间隔注入c;该方法有助于调整面部表情和头部姿势,因此,噪声伪影或前一帧中的运动不一致会传播到后续帧,从而降低整体视频质量。另外,将文本条件与音频信号结合起来,在长期视频制作过程中,该领域的其他重大进展包括AniPortrait,EchoMimic,V-Express, Loopy和CyberHost,每个人都有助于增强肖像动画的功能和应用。与参考图像相比,提出的方法主要从单个参考图像中提取受试者的外观,以前生成的帧作为条件输入来捕获运动信息。通过集成高质量的解码器,实现了4K分辨率的视觉合成。尽管取得了这些进展,然而,本文提出的Hallo2是第一种实现4K分辨率并生成长达一小时的音频驱动肖像动画方法,并通过文本提示进行增强。本文利用时间对齐技术对潜在码进行矢量化,以保持4K合成时间的高分辨率相干性。Lipsyncexpert使用识别器和新的评估基准来提高对口型的准确性。使用高质量解码器后,外观与运动的强一致性使方法能够增强高分辨率细节的时间相关性。如图2所示,

  近年来,:在音频驱动的话头生成和肖像动画方面取得了重大进展c;强调与音频输入的真实性和同步性。为了实现这一点�潜在代码的矢量化࿰已经实现c;并应用时间对齐技术来保持跨时间维度的一致性。