CVPR2025国际学术会议中国实时人像视频生成研究成果入选CVPR

2025-06-24 13:13:57 1

封面新闻记者欧阳宏宇。

近日，IEEE国际计算机视觉与模式识别会议（ Conference on Computer Vision and Pattern Recognition）CVPR 2025年发表论文录用结果，其中一篇来自中国的论文将AI应用于社交平台案例研究《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》(基于自回归动作生成的实时流式音频驱动人像动画系统)被接收。

据报道，研究小组在论文中提出了一个新的实时音频驱动肖像动画(即Talking) Head）自回归框架不仅解决了视频屏幕生成耗时的行业挑战，而且实现了说话时头部生成和人体各部位运动的自然性和现实性。

该论文的动机是解构diffusion-base模型的关键步骤，重构LLM和1step-diffusion，集成视频模式，使soulx大模型成为同时生成文本、语音和视频的unified Model。

具体来说，Soul来自Soul app的研究团队将talking head任务分为FMLG(面部Motion生成)、ETM(高效身体Movement生成)模块。FMLG基于自回归语言模型，利用大模型强大的学习能力和高效的多样性采样能力，生成准确多样的面部Motion。另一方面，ETM利用一步扩散来产生逼真的身体肌肉、饰品的运动效果。

实验结果表明，与扩散模型相比，该方案的视频生成效率显著提高，在生成质量、微妙动作、面部身体动作协调性和自然性方面表现良好。这证明了国内社会领域的互联网技术在促进多模态能力建设，特别是视觉能力突破方面取得了阶段性成果。

谈到研究团队关注的视觉交互逻辑，该平台首席技术官陶明解释说，从交互信息的复杂性来看，人与人之间的面对面交流是最快、最有效的信息传播方式。“因此，我们认为在网上人机交互的过程中，需要有这样的表达方式。”。

在他看来，该方案的提出将有助于人工智能构建实时生成的“数字世界”，并能够以生动的数字形象与用户自然互动。

根据公开信息，CVPR是人工智能领域最具学术影响力的顶级会议之一，也是中国计算机学会（CCF）推荐A类国际学术会议。CVPR在2024年谷歌学术指标列出的世界上最具影响力的科学期刊/会议中排名第二，仅次于Nature。根据会议的官方统计，这次CVPR 2025年会议总共投稿13008篇，录用2878篇，录用率仅为22.1%。

本文地址：http://cdn.baiduyun.im/video/www.bfzx365.com/video/972b40698621.html

版权声明

本文仅代表作者观点，不代表本站立场。
本文系作者授权发表，未经许可，不得转载。

全站热门

ADI发布扩展版Codefusion Studio解决方案有助于加快产品开发，确保数据安全

在JavaScript中实现页面跳转的各种方法[通俗易懂]

飞利浦墨韵黑高速固态U盘：256GB大容量，Type

单机游戏开发中常见的问题及解决方案

什么是单机多人游戏？十大必玩单机多人游戏推荐

狼蛛F2088PRO机械键盘：满减只需129元！

【算法一周目】位间流转，数字律动——洞察 C++ 位运算中的精妙与哲思

华凌神机二代Pro新品上市优惠力度前所未有！

CVPR2025国际学术会议中国实时人像视频生成研究成果入选CVPR

本文地址：http://cdn.baiduyun.im/video/www.bfzx365.com/video/972b40698621.html

版权声明

热门文章

热门标签

全站热门

热门文章

CVPR2025国际学术会议中国实时人像视频生成研究成果入选CVPR

本文地址：http://cdn.baiduyun.im/video/www.bfzx365.com/video/972b40698621.html

版权声明

相关文章

热门文章

热门标签

全站热门

热门文章