开启视频创作新篇章!腾讯发布MimicMotion:单张图像+简单姿势,瞬间“活”化视频。

腾讯和上交发布了一个根据图片生成跳舞视频的项目MimicMotion。效果同时支持面部特征和唇形同步,不止可以搞跳舞视频,也可以做数字人。

MimicMotion方案优化的内容有:

  • 引入基于置信度的姿态引导机制。确保生成的视频在时间上更加连贯流畅。

  • 开发了基于姿态置信度的区域损失放大技术。能够显著减少生成图像中的扭曲和变形。

  • 提出创新的渐进式融合策略。能够在可接受的计算资源消耗下,实现任意长度视频的生成。

相关链接

代码地址:https://github.com/tencent/MimicMotion

论文地址:https://arxiv.org/abs/2406.19680

论文阅读

MimicMotion :利用置信度感知姿势引导生成高质量人体运动视频

摘要

近年来,生成式人工智能在图像生成领域取得了长足进步,催生出各种应用。然而,视频生成在可控性、视频长度、细节丰富度等各方面仍面临巨大挑战,阻碍了这项技术的应用和普及。本文提出了一个可控的视频生成框架MimicMotion,可以在任意动作引导下生成任意长度的高质量视频。

与以前的方法相比,我们的方法有几个亮点。首先,通过置信度感知的姿势引导,可以实现时间平滑性,从而利用大规模训练数据增强模型鲁棒性。其次,基于姿势置信度的区域损失放大显著缓解了图像的失真。最后,为了生成长而流畅的视频,提出了一种渐进式潜在融合策略。通过这种方式,可以在可接受的资源消耗下生成任意长度的视频。经过大量的实验和用户研究,MimicMotion在多个方面比以前的方法有了显著的改进。

方法

MimicMotion 将图像到视频的扩散模型与新颖的置信感知姿势引导相结合。该模型的可训练组件包括时空 U-Net 和用于引入姿势序列作为条件的 PoseNet。置信感知姿势引导的主要特点包括:1) 姿势序列附有关键点置信度分数,使模型能够根据分数自适应地调整姿势引导的影响。2) 置信度高的区域在损失函数中被赋予更大的权重,从而放大它们在训练中的影响。

置信度感知姿势引导

我们利用姿势指导框架上的亮度来表示姿势估计的置信度。

特定区域手动精炼机

我们实施了一种基于置信度阈值生成掩码的掩码策略。我们取消掩码置信度得分超过预定义阈值的区域,从而识别可靠区域。在计算视频扩散模型的损失时,未掩码区域对应的损失值会按一定比例放大,因此它们可以比其他掩码区域对模型训练产生更大的影响。

逐渐潜在融合以实现时间平滑

我们提出了一种渐进式方法来生成具有时间平滑度的长视频。在每个去噪步骤中,首先使用训练模型对视频片段进行单独去噪,以相同的参考图像和相应的姿势子序列为条件。在每个去噪步骤中,重叠帧(在图中虚线框内标记)根据其帧位置逐步融合。

效果展示

跳舞&谈话

定量评估

我们的方法实现了更好的手部生成质量,并且更准确地遵循参考姿势。请注意,我们的方法不是在 TikTok 数据集上进行训练的。

我们对 TikTok 数据集 seq 338 中的第 106 帧以及连续帧之间的像素差异进行了可视化。MagicPose 表现出突然的过渡,而 Moore 和 MuseV 表现出纹理和文本的不稳定性。相比之下,我们的方法表现出稳定的帧间差异和更好的时间平滑度。

时间平滑度与最先进方法的比较

定量评估

MimicMotion(我们的)在TikTok数据集测试分裂上优于基线方法的偏好。相比其他方法,用户更喜欢MimicMotion。

消融研究

置信度感知姿势引导

这种设计增强了对错误引导信号(姿势 1 和 2)的生成鲁棒性,并提供了可见性提示来解决姿势模糊性(姿势 3)。

手部区域增强

在相同的参考图像和姿势指导下,通过手部增强训练可以持续减少手部扭曲并增强视觉吸引力。

渐进性潜在融合

渐进式潜在融合可实现平滑过渡并避免跨视频片段边界的突然变化,从而增强长视频生成的整体视觉时间连贯性。

结论

在本研究中,我们引入了 MimicMotion,这是一种姿势引导的人体视频生成模型,它利用置信度感知姿势引导和渐进式潜在融合来制作高质量的长视频,其中人体运动由姿势引导。通过大量的实验和消融研究,我们表明我们的模型对嘈杂的姿势估计具有出色的适应性,提高了手部质量并确保了时间平滑度。将置信度得分整合到姿势引导中、增强手部区域损失以及实施渐进式潜在融合对于实现这些改进至关重要,从而产生更具视觉吸引力和逼真的人体视频生成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/776910.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算机图形学入门25:BRDF的测量

1.前言 BRDF(双向反射分布函数)可以用各种各样的材质去描述,但是这只是一种基于物理的描述或者近似,那什么是真正的BRDF?只有测出来的才是真正的。 为什么要测出BRDF?因为之前所描述的BRDF并不准确。如下图所示,以菲涅…

C++——模板详解(下篇)

一、非类型模板参数 模板参数分为类型形参与非类型形参。 类型形参即:出现在模板参数列表中,跟在class或者typename之后的参数类型名称。 非类型形参,就是用一个常量作为类(函数)模板的一个参数,在类&#…

LabVIEW与OpenCV图像处理对比

LabVIEW和OpenCV在图像处理方面各有特点。LabVIEW擅长图形化编程、实时处理和硬件集成,而OpenCV则提供丰富的算法和多语言支持。通过DLL、Python节点等方式,OpenCV的功能可在LabVIEW中实现。本文将结合具体案例详细分析两者的特点及实现方法。 LabVIEW与…

解决Docker Desktop启动异常 Docker Desktop- WSL distro terminated abruptly

异常 当打开Docker Desktop时候,启动docker引擎时,提示 加粗样式文本信息 Docker Desktop - WSL distro terminated abruptly A WSL distro Docker Desktop relies on has exited unexpectedly. This usually happensas a result of an external entit…

二叉树中的前序、中序、后续遍历(C语言)

目录 前序遍历概念代码递归分解图 中序遍历概念代码 后序遍历概念代码 前序遍历 概念 概念: 前序遍历(Preorder Traversal 亦称先序遍历)——访问根结点的操作发生在遍历其左右子树之前。 简单点来说就是:根 左子树 右子树的访问顺序 例如:…

2、图形验证码

1、图形验证码设计 1.1思路 现今,市面上的图形验证码付费的,免费的多种多样,主要形式有滑动拼图、文字点选、语序点选、字体识别、空间推理、智能随机等。 而处理也分为web端和sever端两部分 此处以免费的kaptcha 为例,进行数字图…

Vatee万腾平台:智能生活的新选择

在科技飞速发展的今天,智能生活已经不再是遥不可及的梦想,而是逐渐渗透到我们日常生活的方方面面。Vatee万腾平台,作为智能科技领域的佼佼者,正以其创新的技术、丰富的应用场景和卓越的用户体验,成为智能生活的新选择&…

免费的K歌软件

提到K歌软件,目前市场上的选择似乎并不多,全民的会员制非常恶心!除此之外,IKTV和想唱还不错是其中的热门选择,不过它们的更新频率有点让人有些疲倦。不过最近一款TV K歌软件非常火爆,而且他的曲库更新也是非…

输入框输入值之后,检索表格中是否存在输入框中的值,存在就让当前文字为红色

this.searchValue为输入框的值 createKeywordHtml_content(data) { if (data undefined) { return data; } if (typeof data ! string) { data String(data) } let value data.replace(this.searchValue, <span style"color:#FF5555">$&</span>…

LivePortrait:一张照片生成生动视频,精准操控眼睛和嘴唇动作 本地一键整合包下载

LivePortrait&#xff0c;这个名字听起来就像是魔法&#xff0c;但它其实是现实世界中的黑科技。想象一下&#xff0c;你那尘封已久的相册里&#xff0c;那些定格在时间里的笑脸&#xff0c;突然间动了起来&#xff0c;眨眼、微笑、甚至说话&#xff0c;这不再是电影里的场景&a…

2024 WAIC|第四范式胡时伟分享通往AGI之路:行业大模型汇聚成海

7月4日&#xff0c;2024世界人工智能大会&#xff08;WAIC&#xff09;正式开幕。此次大会围绕核心技术、智能终端、应用赋能等板块展开&#xff0c;展览规模、参展企业数均达历史最高。第四范式受邀参展&#xff0c;集中展示公司十年来在行业大模型产业应用方面的实践。在当天…

不要再盲目入场啦!跨境电商入场第一步!先收集整理这些数据,看清自己该如何入场!【纯分享】

23年、24年确实无愧于“品牌出海元年”的称号&#xff0c;23年出海四小龙——速卖通、TikTokshop、Temu、Shein在海外的爆发让大家看到了海外市场的活动&#xff1b;而24年则有更多的国内品牌将目光瞄向了海外市场&#xff0c;年后开工到今天基本上每天都有客户来咨询出海相关的…

Python制作动态颜色变换:颜色渐变动效

文章目录 引言准备工作前置条件 代码实现与解析导入必要的库初始化Pygame颜色变换函数主循环 完整代码 引言 颜色渐变动画是一种视觉上非常吸引人的效果&#xff0c;常用于网页设计和图形应用中。在这篇博客中&#xff0c;我们将使用Python创建一个动态颜色变换的动画效果。通…

PMP–知识卡片--马斯洛需求理论

记忆 马&#xff08;马斯洛&#xff09;背着很多东西&#xff0c;很累&#xff08;生理需要&#xff09;需要找个地方休息&#xff0c;而且需要安全&#xff08;安全需要&#xff09;的地方&#xff0c;就要找朋友&#xff08;社交需要&#xff09;帮忙&#xff0c;但是由于自尊…

【IT领域新生必看】深入浅出Java:揭秘`Comparator`与`Comparable`的神奇区别

文章目录 引言什么是Comparable接口&#xff1f;Comparable接口的定义实现Comparable接口示例&#xff1a; 什么是Comparator接口&#xff1f;Comparator接口的定义实现Comparator接口示例&#xff1a; Comparable与Comparator的区别排序逻辑位置示例&#xff1a; 可扩展性示例…

【IT领域新生必看】深入浅出Java:值传递与引用传递的神奇区别

文章目录 引言什么是值传递&#xff1f;定义和使用值传递示例&#xff1a; 什么是引用传递&#xff1f;定义和使用引用传递示例&#xff1a; 值传递与引用传递的区别参数类型示例&#xff1a; 参数传递方式示例&#xff1a; 修改效果示例&#xff1a; 内存管理示例&#xff1a;…

WPF UI 3D 基本概念 点线三角面 相机对象 材质对象与贴图 3D地球 光源 变形处理 动作交互 辅助交互插件 系列三

WPF UI交互专题 平面图形 Path Drawing 绘图 渐变 Brush 矩阵 Transform 变形 阴影效果 模糊效果 自定义灰度去色效果 系列二-CSDN博客 1软件中的3D基本概念 WPF 中 3D 功能的设计初衷并非提供功能齐全的游戏开发平台。 WPF 中的 3D 图形内容封装在 Viewport3D 元素中&#x…

倒退型自闭症与轻度自闭症有什么区别?

作为星贝育园自闭症儿童康复中心的一名专业教师&#xff0c;我深知家长们在面对自闭症谱系障碍&#xff08;ASD&#xff09;时的种种疑问与挑战&#xff0c;尤其是关于倒退型自闭症与轻度自闭症之间的区别。今天&#xff0c;我将从专业视角出发&#xff0c;深入浅出地解析这两种…

【PWN · ret2shellcode | sandbox-bypass | 格式化字符串】[2024CISCN · 华东北赛区]pwn1_

一道栈ret2shellcodesandbox&#xff08;seccomp&#xff09;格式化字符串的题目 前言 ret2shellcode&#xff0c;已经不是简单的放到栈上、ret这样一个简单的过程。套一层seccomp的沙箱&#xff0c;打ORW又遇到open受限等等&#xff0c;考虑的蛮多。过程中收获最多的可以说是…

谷粒商城学习笔记-13-配置git-ssh-配置代码免密提交

文章目录 一&#xff0c;安装配置Git客户端1&#xff0c;下载git客户端安装包2&#xff0c;安装3&#xff0c;配置3.1&#xff0c;配置用户名3.2&#xff0c;配置邮箱3.3&#xff0c;配置详解 二&#xff0c;配置Git免密1&#xff0c;生成SSH密钥对2&#xff0c;Git配置公钥3&a…