EN
http://cdn.baiduyun.im/video/28129494.html

有点有趣!腾讯 ARC Lab 最新发布的MiraData数据集用于长视频生成,并从这些方面对clip进行了分层描述...

2025-06-24 12:08:53 来源: 新华社
字号:默认超大|打印|

最近小编在网上冲浪时,被腾讯 PCG ARC Lab 新开源的文本-视频数据集-。MiraData。 吸引眼球。

图片

这个数据集有多新?一天前刚更新的Readme,而且数据集有一个特点,是。专为长视频生成任务设计的大规模视频数据集。,不仅仅是提供。时长更长。数据,还从视频主体、背景、风格等不同维度进行了非常详细的介绍。文本“分层”描述。,关注视频生成的小伙伴不容错过!相信能激励你,赶快和小编一起看一看。

MiraData项目地址:https://github.com/mira-space/MiraData。

一、数据集概览。

视频数据集在sora等大型视频生成模型中起着至关重要的作用。但是,现有文本-视频数据集。处理长视频序列。和。捕捉镜头过渡。这方面往往存在不足。为了解决这些限制,腾讯 PCG ARC Lab 介绍了研究人员。MiraData。Mi。 ni-So 。ra。 Data),这是专门为长视频生成任务设计的大规模视频数据集。

(MiraData 官方Demo video截图,来源:https://www.youtube.com/watch?v=3G0p7Jo3GYM)

 MiraData 主要特点。

1. 长视频时长:与之前的数据集不同,之前的数据集视频剪辑通常非常短(通常小于 6 秒),MiraData 专注于时长从。 1 到 2 分钟不等。的。视频片段未编辑。。这种延长的持续时间允许对视频内容进行更全面的建模。

2. #xff1结构化描述a;MiraData 每个视频都附有。结构化描述。。这些标题从不同的角度提供详细描述,增强了数据集的丰富性。描述平均长度为。349字。,确保视频内容的全面呈现。

构成数据集。

＀在这个初始版本中发布c;MiraData 包含 。57,803。 视频片段󿀌总时长 。1,754。 小时,主要提供。游戏。和。探索城市/风景。两个场景。clip的数量和视频时间如下所示a;

图片

两种场景内容。

● 游戏场景。:相关视频࿱包含丰富的游戏体验b;

● 城市或自然景观场景。:通过视频捕捉各种城市风貌和自然美景。

六种类型的描述。

MiraData 每个视频都附有结构化描述,从以下六个不同的角度详细描述,增强了数据集的丰富性:

● 。主体描述。(Main Object Description):描述视频中的主要目标或主体,包括它们在整个视频中的属性、动作、位置和运动。

● 。背景。(Background):提供关于环境或场景的信息,包括物体、地点、天气和时间。

● 。风格。(Style):涵盖艺术风格、视觉和摄影,比如写实,赛博朋克,电影风格。

● 。相机运动。(Camera Movement):详细说明相机的平移、变焦或其它运动。

● 。简短描述。(Short Caption):一个简单的摘要,描述视频的精髓,使用Panda-70M字幕模型生成。

● 。密集描述。(Dense Caption):对上述五种类型的描述进行了更详细和详细的总结。

举个“栗子”。

看一个官方提供的例子,我明白了,比如这个游戏视频。

(开头画面冲击力强,#xff0c;注意仔细观看#xff09;

描述内容:

主体描述。

从玩家的角度,第一次和对手战斗,这一点可以从机械部件和玩家手中的特写镜头中得到证实。然后,焦点转移到一位老妇人身上�她最初表现出攻击性或防御性,高举铲子,似乎随时准备攻击。然后她转身�带领玩家绕过木结构的侧面,那可能是她的家。随着时间的推移,她的态度变得柔和,看起来像是在和玩家说话,因为她放下了手中的铲子,姿势变得更加放松。

背景描述。

背景描绘了郁郁葱葱的乡村环境,有一个木屋或棚屋,绿色的植物、岩石和红色的花朵被包围着。环境有自然主义的感觉,晴朗的天空和阳光表明这是白天的环境。背景中没有可见的其他角色或移动元素,这说明这是一个与世隔绝却平静的地方。

风格描述。

视觉风格是现实主义的,具有详细的角色模型、自然光和高度的环境细节,共同营造沉浸式、令人信服的乡村环境,适用于电子游戏的背景设置。

镜头描述。

在整个序列中,相机视角始终与第一人称视角一致。初始画面显示了一场动态的斗争,伴随着快速动作,随后的图片显示了玩家与女性互动时更稳定的相机。镜头跟随女性移动󿀌保持她的焦点,而且拍摄角度会随着玩家视角的变化而变化,保持女性的视野,尤其是当她移动和转身的时候。

简短描述。

站在房子前面的电子游戏角色。

密集描述。

视频序列显示了农村环境中不可玩的视频游戏角色 (NPC) 互动的第一人称视角。最初,玩家的角色似乎在与敌人或生物战斗#xff0c;如特写斗争和火花或余烬的存在所示。场景切换到玩家角色,站在一位老妇人面前󿀌她以防御或威胁的姿势挥舞着铲子。该女子的表情和姿势表明她对玩家持警惕或对抗态度。随着视频的进展,这个女人似乎有点放松了一点,放下铲子,与玩家交谈,从她不断变化的面部表情和肢体语言可以看出这一点。

二、数据采集和标注。

为了收集MiraData研究团队首先手动选择不同场景下的YouTube频道。然后,使用。PySceneDetect。下载并分割相应频道中的所有视频。之后,在1到2分钟之间选择视频片段。超过2分钟的视频片段,它们被分成多个2分钟的片段。最后,使用 GPT-4V 添加视频编辑的描述。

GPT-4V 描述。

研究小组测试了现有的开源视觉LLM方法和GPT-4V,发现。GPT-4V。对时间序列语义理解的描述表现出更好的准确性和连贯性。它还可以更准确地描述主体和背景对象,减少物体遗漏和幻觉问题。所以,它们由GPT-4V生成。密集描述。、。主体描述。、。背景描述。、。镜头描述。和。风格描述。

Panda-70M 描述。

为了平衡标记成本和描述准确性󿀌它们为每个视频统一采样 8 帧,并将它们排列成大图像 2x4 网格。然后,使用Panda-70m的描述模型为每个视频添加一个句子描述,提示࿰作为主要内容c;并将其输入他们的微调 prompt 中。

微调提示和 2x4 大图像输入 GPT-4V,在一轮对话中,他们可以有效地输出多维描述。具体提示内容可在。caption_gpt4v.py。࿰在中找到c;欢迎您贡献更多高质量的文本视频数据。

caption_gpt4v.py链接:https://github.com/mira-space/MiraData/blob/main/caption_gpt4v.py。

三、统计。

数据集信息统计如下:a;

图片

密集字幕总文本长度统计。

图片

六种类型字幕的总文本长度统计。

简短描述词云。

图片

词云密集描述。

四、。下载数据集。

作者提供的描述元文件,除上述6个维度描述外,#xff00c;还提供YouTube视频ID等相关信息:

● 元文件字段:

· index。 : 视频片段索引󿀌由以下部分组成{ download_idx}_{ video_id}-{ clip_id}。

· video_id 。: YouTube 视频 ID。

· start_frame。 : YouTube 视频编辑开始帧。

· end_frame 。: YouTube 视频编辑结束帧。

· main_object_caption。:视频中的主要描述。

· background_caption。 : 视频背景描述。

· style_caption。:视频风格描述。

· camera_caption。 : 镜头描述。

· Short_caption。:简短描述。

· dend_caption。:密集描述。

· fps。:视频帧率用于提取帧。

*你可以使用 start_frame/fps 或 end_frame/fps 获取开始和结束时间戳。

另外,作者提供了下载和分割视频的脚本:

python download_data.py --meta_csv miradata_v0.csv --video_start_id 0 --video_end_id 10631 --raw_video_save_dir miradata/raw_video --clip_video_save_dir miradata/clip_video。

其中。其中。--video_start_id。并表示要下载的元文件。--video_end_id。开始值和结束值。游戏场景范围为0-7416,7417-10631的城市/景观探索范围。

download_idxindex。更多的数据集󿼌访问OpenDatalab:

https://opendatalab.org.cn/。

【我要纠错】责任编辑:新华社