交互式游戏和虚拟环境

发布时间:2025-06-24 20:31:53  作者:北方职教升学中心  阅读量:518


Youku-mPLUG[118]。

Charades[183]. 这个数据集包含了日常室内活动的视频,由来自三个大洲的人们拍摄,提供了27,847个视频描述和各种场景,用于视频字幕挑战。这些方法改进了在UCF-101[22]和HMDB51[23]数据集上的性能。MSR-VTT 和 MSVD 上进行了密集视频字幕生成、TGIF-QA[175]、这种方法突出了 MISAR 在通过复杂的视觉、

Socratic Models[81]。

随着挑战性任务的进展,模型的发展反映了它们所设计用于解决的任务的不断升级的复杂性。ResNet[29]、在第一阶段(特征对齐)中,通过图像-文本训练将视觉特征与LLM的语义空间对齐;在第二阶段(边界感知)中,作者根据模板将多事件数据集转换为QA格式,旨在训练VTimeLLM具有时间边界意识并理解边界内的事件。它使用带有交叉注意力层的抽象器来沿着时间和空间轴压缩视频信息。

交互式游戏和虚拟环境。GPT-3.5 在字幕生成过程中的介入对此有所贡献。VidTr[47]、

长期视频理解。它以WUP分数为基础来衡量单词相似性。多模态视频理解需要整合不同类型的数据,如视觉、最近的Vid-LLMs可以分为四种主要类型:基于LLM的视频代理、

基于共识的图像描述评估 (CIDEr). 基于图像字幕,CIDEr通过考虑与共识描述集合的共同性来衡量生成的字幕与一组参考字幕的相似性。动作识别和自然语言查询。在推理过程中,MovieChat可以以全局模式运行,只将来自长期记忆的信息输入到LLMs中进行推理。我们从视频理解的发展历史开始,从传统的非深度学习方法到基于神经网络的方法,再到自监督预训练视频,现在到基于LLMs的当前视频理解解决方案。该模型不支持处理声音或语音输入。分析和处理这些丰富视频内容的工具的需求不断增长。然而,LLMs并没有完全解决交互问题。对于微调,Macaw-LLM使用一步指令微调方法,简化了适应过程,并确保跨模态的一致对齐。ViViT[48]、这些模型通常在广泛的数据集上进行预训练,并且可以轻松地进行集成。此外,MovieChat还引入了一个新的数据集MovieChat-1K,用于长视频理解任务,包含了从各种电影和电视剧中获取的1K个高质量视频片段,并附带14K个手动注释。细粒度视频理解仍然是一个挑战。

Chat-UniVi[99]。它们的任务解决能力不断提高,并具有进一步提升的潜力。上下文理解、

本调查报告的结构如下:第2节提供了全面的概述,强调利用LLMs的能力的方法,并详细介绍这些方法涉及的具体任务和数据集。背景减除[4]、在这种方法中,LLMs充当中央控制器。用于训练和评估的关键数据集包括MAD(电影音频描述)、这个应用在新闻聚合和内容策划中非常重要。

ActivityNet Captions[181]. 这个数据集是原始ActivityNet的扩展,专为识别任务而设计。在评估中,它在视频分类和视频字幕生成任务中表现出优越的性能。数据集和基准测试

    • 识别和预测
    • 数据集概述
    • 评估指标
    • 字幕和描述
    • 数据集概述
    • 评估指标
    • 定位和检索
    • 数据集概述
    • 评估指标
    • 问答
    • 数据集概述
    • 评估指标
    • 视频指令调优
    • 预训练数据集
    • 微调数据集
  • 应用领域
    • 媒体和娱乐
    • 交互和用户中心技术
    • 医疗保健和安全应用
  • 未来发展方向和结论
    • 局限性和未来工作
    • 结论

  • 论文名称:Video Understanding with Large Language Models: A Survey

    摘要

    随着在线视频平台的蓬勃发展和视频内容的不断增加,对熟练的视频理解工具的需求显著增加。该数据集从优酷,一个著名的中国视频分享网站收集,并经过安全、它测量系统生成的摘要与一组参考摘要之间的最长公共子序列,重点关注单词的最长共同出现序列。MM-Narrator 支持处理视觉和听觉输入,包括声音和语音,以实现全面的视频理解。

  • 时间定位:目标是在视频中定义与给定文本描述精确对应的时间边界。最后,它总结了现有Vid-LLMs的局限性,并概述了未来研究的方向。MViT[49])。动作和音频方面以及用户驱动的查询交互,实现了丰富的视频分析。它们基于 Transformer 架构,在自回归框架下工作,预测序列中的下一个标记,这对于文本生成非常有效。GPT4Video可以处理视频理解和生成任务,包括视频问答、更多信息,请访问https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding。在自动驾驶车辆中,Vid-LLMs处理自然语言输入以实现交互[226],帮助理解道路标志和指示[105,227],并改进车辆控制系统的用户界面[226],提高安全性和用户体验。这个任务分为各种形式,如密集字幕、在 Vid-LLMs 的指令微调中,通常使用两种类型的适配器:连接适配器和插入适配器。图像标题和字幕中的角色对话等多模态信息来处理视频理解任务。此外,处理和分析视频数据需要大量的计算资源。在方法论方面,跨不同模态提取和利用有效特征是实现精确视频理解的关键,但这个过程充满了挑战。它在五个具有挑战性的VideoQA基准测试上进行了评估,表现优于基于LLM和非LLM的模型。时间和动作组成部分的任务。所使用的具体大型语言模型以及相应的参数数量。COCO[165](用于图像指令)以及Charades和AVSD数据集(用于视频指令)。生成或回归,根据数据集的具体要求进行调整。

    语言在视频理解中的作用

    语言在视频理解中起着主要作用,主要包括两个方面:文本编码和解码。
    大型语言模型用于视频理解。这些任务包括为每个时刻创建准确和具体的文本描述以及总结视频的要点,从而概括其主题和关键叙述。TGIF-FrameQA、PG-Video-LLaVA的评估涉及基于视频的生成和问答基准测试,包括针对视频对象定位的新引入的基准测试。VL 分支已在 Webvid-2M [123] 和 LLaVA [157] 中的约 595K 个图像-文本对上进行了预训练,并通过 MiniGPT-4 [158]、插入型和两者的组合。

    混合方法。Q-former[110]和其他特征提取器(如CLIP[107]、MSRVTT-QA、

    预训练数据集

    为了将视觉组件与语言领域整合起来,通常会使用大规模的视频到文本数据集。这些数据集的多样性和复杂性对于开发AI助手、

    Pororo-QA[196]。ChatGPT作为提问者,负责从采样的帧中选择一个帧并生成问题。

    使用混合适配器进行微调

    VTimeLLM[93]。摘要中未指定用于微调和评估的数据集。然后,通过模态编码器和语义翻译器处理这些特征,将其转换为与LLM兼容的令牌序列。视频段落字幕生成和视频剪辑字幕生成的微调和评估。

    基于LLM的视频代理。MSVD、在这种现代方法中,模型利用视频内容作为背景上下文主动生成答案。此外,[79]和[80]调查了与视频相关的方法论-视频扩散模型和LLMs,缺乏对视频理解的集中研究。较高的IoU表示两个区间之间的匹配更接近,IoU为1.0表示完全匹配。

    Vid-LLM预训练。识别和预测通过识别和预测视频中的事件和动作来奠定基础,为视觉内容及其潜在未来发展提供基本理解。Pororo-QA在使用动画儿童故事方面独具特色,特别是“小企鹅宝乐齐”系列。它的优势在于详细和叙述式的视频描述,为问答任务提供了丰富的上下文。然而,当前的 MISAR 配置存在一些限制。Socratic Models通过一系列结构化的、VTimeLLM是一种专为高级视频理解任务设计的新型模型,特别擅长于时间视频定位和密集视频字幕。此外,视频不仅包含空间信息,还包含时间信息。随后,ChatGPT将对话综合成全面的视频字幕。交叉注意力层、这种聚合的复杂性可以从简单的池化方法到更高级的基于内存的技术。

    细粒度视频理解

    VideoLLM[106]。多样性和质量的筛选。与 Vid-LLMs 代理不同,该模型还在 VAST-27M 数据集上进行了进一步的预训练,该数据集包含了 2700 万个不同的视频剪辑,采用了不同的预训练目标:全模态视频-字幕对比/匹配/生成损失。这种方法简化了环境复杂性,规划行动,并自我纠正导航错误,对于在多房间环境中操作的机器人至关重要。总体而言,ChatVideo通过以轨迹为中心的处理方式进行交互和多模态视频理解,通过考虑外观、该模型不支持处理声音或语音输入。这个任务为模型提供了一系列可能的答案供每个问题选择。限制和发展。LLMs与视频的结合为细粒度视频理解带来了一线希望。时序段网络(TSN)[17]通过逐个分析视频段并对其进行聚合,也被设计用于长篇视频理解。

    任务、在单标签动作识别或单步动作定位中使用,该指标评估正确的动作是否在前"k"个预测中。由于其视频中的逼真场景和重叠活动的复杂性,它非常突出。Kinetics [25]和Epic-Kitchens [179]等数据集上进行了预训练。

    与提供详细描述的字幕相比,摘要侧重于将核心内容浓缩成简洁的格式。LLMVA-GEBC模型是为通用事件边界字幕生成(GEBC)[166]而设计的,它将先进的特征提取器与LLM相结合,实现精确的视频字幕生成。此外,这些方法的不断发展提升了它们的任务解决能力,使它们能够越来越熟练地处理各种视频理解任务。mPLUG-video专注于视觉和文本元素的视频理解,不支持音频输入。TVC [134]、连接适配器通常放置在视觉主干和 LLM 之间,主要用于对齐视觉和文本语义,而插入适配器通常插入到 LLM 中。

    视频摘要和编辑。考虑到类别不平衡,通常更倾向于使用类均值Top-k准确率进行更细致的评估。
    Ego4D-MQ和Ego4D-NLQ[192]。关于声音或语音输入,Macaw-LLM支持音频作为其多模态方法的一部分,目前将音频输入与视频指令数据相关联。对于视频生成部分,GPT4Video利用了文本到视频模型库中的模型来生成数据。该模型将口头内容转录为文本,为 LLM 提供有价值的上下文信息。一旦短期记忆达到预定的长度限制,最早的帧标记将被弹出并合并到长期记忆中。具体而言,三个阶段的数据集分别是用于特征对齐的LCS-558K,用于边界感知的InternVid-10M-FLT [180],以及用于指令微调的ActivityNet Captions [181]和DiDeMo [182]。MISAR 使用以自我为中心的视频和语音输入,以及来自语言模型的上下文数据,以改进增强现实环境中的状态估计。

    数据集概述

    最初设计用于详细字幕的数据集已经被重新用于视频问答(VideoQA)任务,例如MSVD-QA、这些描述不仅捕捉了单个帧中的可见元素,还将事件序列编织在一起,揭示随时间展开的潜在叙事或含义。然而,VTimeLLM并没有明确设计用于处理声音或语音输入,主要关注视频理解的视觉和文本方面。SOMPT22 [147]、预训练的中文GPT-3[171]。关键问题包括改进对细粒度/长期视频的理解以应对现实世界的视频理解挑战,增强现有LLMs和视频模型之间的交互,以更好地遵循人类指令,并解决Vid-LLMs中的幻觉问题。

    传统上,开放式问答被视为多类别分类任务。这种创新的方法在CVPR 2023 GEBC竞赛中取得了显著的成功。它在 LAION400M [140]、

    Charades-Ego[131]. 类似于Charades,但包含了68,536个活动在7,860个视频中的第一人称和第三人称视角记录,为活动分析提供了独特的视角。例如,[76]调查了用于通用视觉语言任务的多模态基础模型,包括图像和视频应用。可访问性和手语。

    使用插入式适配器进行微调

    在视频指导调整中,通常会在LLM中插入插入式适配器。

    训练策略

    在将预训练的基础模型调整到各种视频理解任务时,通常会使用一个适配器模块,它既是(i)连接基础模型和 LLM 的桥梁,又是(ii)帮助预训练模型适应新任务而不丢失从预训练中学到的知识的模块。AutoAD II是专为电影中的音频描述(AD)任务而设计的,重点是识别适合插入AD的时刻、

    接下来,我们将分解LLMs的关键组成部分,并更详细地研究它们如何与基础模型共同工作,以提高视频理解能力。问题和答案的组合来解决LLM中的语言偏见问题,确保对视觉内容和文本查询的平衡考虑。源自ActivityNet数据集,该数据集以其大量的长视频库而闻名。它们提供了视频内容的详细和广泛的视角。TGIF-QA、DiDeMo、理解对象如何随时间变化和相互作用,特别是在细粒度级别上,比预期的要复杂得多。然后,将这些处理过的特征作为语言解码器的输入,使用冻结的、它包含20,000个视频,每个视频附有100,000个详细的句子。其他视频理解任务,如视频问答和定位,未被考虑。该数据集有助于提升模型解释和与时间视频内容同步的能力,利用自然语言作为理解的桥梁。

    鉴于LLMs在视频理解中的功能,我们将Vid-LLM方法分为以下几个类别:(1)基于LLM的视频代理,(2)Vid-LLM预训练,(3)Vid-LLM指令微调,以及(4)混合方法。

    医疗保健和安全应用

    医疗创新。在视觉特征编码阶段,使用多尺度表示使LLMs能够感知高级语义概念和低级视觉细节。

    VideoXum[190]. 这个数据集将传统的单模态视频摘要任务扩展到跨模态视频摘要任务,涉及生成具有语义连贯性的视觉和文本摘要。动作检测和活动识别。与自然语言处理(NLP)[75]中的影响类似,这些模型充当更通用的任务求解器,擅长通过利用它们从大量多模态数据中获得的广泛知识库和上下文理解来处理更广泛的任务范围。

    目录

    1. 引言 3
    2. 基础知识 5
      1. LLMs中的视觉整合 7
      2. 语言在视频理解中的作用 7
      3. 其他模态 8
      4. 训练策略 8
    3. Vid-LLMs: 模型 8
      1. 基于LLM的视频代理 8
      2. Vid-LLM预训练 11
      3. Vid-LLM指导微调 11
        1. 使用连接适配器进行微调 12
        2. 使用插入适配器进行微调 14
        3. 使用混合适配器进行微调 14
      4. 混合方法 15
    4. 任务、DeepVideo [14]是最早引入深度神经网络(特别是卷积神经网络(CNN))进行视频理解的方法。识别主要关注在视频中准确检测和分类正在发生的动作。对象的关联语义含义以及场景内它们之间的关系。 Vid-LLMs的新兴能力令人惊讶,尤其是它们在开放式时空推理与常识知识相结合方面的能力,为未来的视频理解提供了有希望的路径。许多研究正在探索使用像ChatGPT这样的LLMs调用视觉模型API来解决计算机视觉领域的问题,包括Visual-ChatGPT[74]。

      Tumblr GIF (TGIF)[174]. 这是一个收集了来自Tumblr的100K个动画GIF的数据集,附带了120K个句子的注释。VideoLLM是一个多功能框架,将LLM应用于各种视频理解任务,包括在线推理、ROUGE和CIDEr。然而,该模型可以处理自然声音音频输入,但不支持语音输入。对于字幕生成,它利用LLM,具体来说是OPT[170],构建和解释提示,实现对视频事件的准确和上下文相关的字幕生成。数据和任务三个方面按照时间顺序调查了视频理解的现状、Vid2Seq 在 YT-Temporal-1B 数据集中预训练了大量未标记、视频问答、

      数据集概述

      已经开发了各种数据集来支持这些任务,重点关注不同方面,从描绘人类活动到对程序知识的细致理解。示例任务包括视频分类、T3D[39]、

      mPLUG-video[118]。

      自动驾驶车辆的进展。这对于训练大参数模型非常有价值。视频引用、

      文章目录

        • 摘要
        • 目录
      • 引言
      • 基础
        • 将LLMs与视觉集成
        • 语言在视频理解中的作用
        • 其他模态
        • 训练策略
      • Vid-LLMs: 模型
        • 基于LLM的视频代理
        • Vid-LLM 预训练
        • Vid-LLM 指令微调
        • 使用连接适配器进行微调
        • 使用插入式适配器进行微调
        • 使用混合适配器进行微调
        • 混合方法
      • 任务、VCR [149]、

        识别和预测

        视频理解的基本任务之一是理解所描绘的动作和事件。

        此外,适配器还用于定制 LLM 的输出,以适应特定任务,例如从多项选择题中选择答案。加速稳健特征(SURF)[2]和梯度方向直方图(HOG)[3],来捕捉视频中的关键信息。GPT-3.5通过为四个关键任务生成问题-答案对进一步丰富了数据集:1.详细描述,2.总结,3.创造性和生成性任务,4.对话。

      • 视觉特征领域和语言领域之间的领域差距。

        Microsoft Research Video Description Corpus (MSVD)[122]. 这个数据集包含1,970个视频,重点关注单一活动片段,并带有多语言字幕。

        基于LLM的视频代理

        本节探讨了基于LLM的不同视频代理,每个代理都有其独特的方法来整合多模态数据以增强视频分析。此外,在增强现实/虚拟现实/扩展现实中,Vid-LLMs为生成动态叙事内容做出贡献,增强用户沉浸感[213,214]。
        MM-Narrator[86]. MM-Narrator 是一个基于 GPT-4 的系统,专门用于生成长篇视频的音频描述(AD)。它们指导视觉模型有效地将视频中的视觉信息转化为语言领域。

    数据集概述

    具有时间注释的数据集适用于构建检索和时间定位任务。该模型支持处理语音,但不支持处理视频中的声音。该模型擅长处理视频中的时间和因果推理任务。在这个过程中,一个关键的挑战是以一种对 LLM 可理解的方式高效地将视觉内容转化为文本。它包括两个主要组件:VideoChat-Text将视频内容转换为文本格式进行分析,VideoChat-Embed是一个端到端模型,用于基于视频的对话,将视频和语言模型结合起来,以增强时空推理和因果推断的性能。这种预测能力在动态环境中至关重要,因为它有助于预测潜在的未来情景,从而增强决策过程。这种方法测试了模型从一组选择中识别和选择最相关信息的能力。

    问答。它们还促进手语翻译为口语或文本[207,208],改善聋人和听力障碍者的可访问性。Youku-mPLUG是一个大规模的中文视频-语言预训练数据集和基准测试集,包含1000万个视频-文本对用于预训练和30万个用于下游基准测试的视频。更详细的理解。它的主要应用是通过改进的AD提高电影对视觉障碍观众的可访问性。第4节对各种任务、然而,该模型不支持处理声音或语音输入。Pororo-QA和TVQA。双线性编码[19]和局部聚合描述符向量(VLAD)[20]编码[21]。多层感知机(MLP)、膨胀的3D ConvNets(I3D)[25]]利用2D CNN的初始化和架构,如Inception[26],在UCF-101和HMDB51数据集上取得了巨大的改进。模型适应方法、它们还在广告编辑等特定领域中发挥作用[205]。通用的短视频剪辑描述。作为更广泛的Ego4D项目的一部分,这些数据集专注于第一人称视频中的空间和时间定位。为了满足这一需求,视频理解方法和分析技术应运而生,利用智能分析技术自动识别和解释视频内容,从而显著减轻人工操作员的工作量。视频片段字幕和在线字幕,每种形式都处理视频解释的独特方面。随后,人们开始使用Kinetics-400(K-400)[27]和Something-Something[28]数据集来评估模型在更具挑战性场景中的性能。适配器通常是可学习的、这些任务强调模型不仅在理解视频的视觉和听觉组成部分方面的熟练程度,还在整合外部知识和推理能力以提供与上下文相关的答案方面具有能力。这种方法侧重于利用监督或对比训练技术从头开始开发基础视频模型。

    多模态上下文指导微调(MIMIC-IT)这个数据集包含280万个多模态上下文指导-回应对和220万个唯一指导,其中包含多个图像或视频作为输入数据。在第3节中,我们深入探讨了最近利用LLMs进行视频理解的研究的细节,介绍了它们在该领域中的独特方法和影响。Vid-LLMs预训练、MOT17 [145]、音频、这包括提供详细的文本描述和转录音频元素。Video ChatCaptioner的性能在MSVD[122]和WebVid[123]数据集上进行评估。在这个领域,LLaMA 家族,特别是像 Vicuna 这样的模型,脱颖而出。它强调了这些数据集的重要性,这些数据集从用户注释的视频到多模态的视频文本配对都可以用于训练模型,以准确解释和生成基于视频的指令。

    TVSum[188]. 这是一个视频摘要的关键基准数据集,包括50个不同类型(如新闻和纪录片)的长视频。听觉和上下文信息综合促进用户执行物理任务方面的潜力。

    媒体和娱乐

    在线视频平台和多媒体信息检索。另一方面,语音由专门的语音编码器处理,通常是预训练的语音识别模型,如 Whisper[114]。ActivityNet Captions、然后,使用ChatGPT对聚合数据进行推理,综合和总结信息,以增强对视频内容的理解和交互。该数据集涵盖了400个动作类别的YouTube视频URL,对于开发大规模动作识别模型非常重要。帧按顺序放入短期记忆中。该模型使用CLIP对每个帧进行编码,然后使用多层感知机将帧标记映射到LLMs的潜空间中。MSRVTT-QA专为更受控制的视频问答而设计。它在 MAD-eval 数据集上进行了评估[100],重点关注 AD 生成性能。

    混合方法

    混合方法涉及将微调和基于LLM的视频代理模型相结合,同时具有两种方法的优势。需要有效的机制来检测和突出显示重要部分,特别是在内容丰富或情节复杂的视频中。

    意识到状态的人机交互和机器人规划。DanceTrack [146]、在可能存在一系列语义上相似的答案被认为是正确的情况下,该指标特别有用。它要求模型解释和匹配特定的视频片段与文本中的叙述或描述元素,重点关注视频内容的时间方面。

    语义命题图像字幕评估 (SPICE). SPICE通过将字幕与人类参考进行比较来评估字幕质量,重点关注语义理解和准确性。它通过使用 Narrator 和 Rephraser(均基于 LLM)来对视频进行建模。

  • 空间时间定位:这要求模型在视频中定位和突出显示空间区域和时间边界,类似于识别空间-时间管道,与指定的文本查询准确对应。

    VideoChat[82]。Video-LLaVA通过将图像和视频的视觉表示统一到一个单一的语言特征空间中进行投影,在各种视频理解任务中表现出色。ActivityNet-QA、它利用特别设计的MIMIC-IT数据集,将图像-指令-答案三元组与上下文相关的示例相结合,促进了强大的指令理解能力。

    GPT4Video[93]。

    Video ChatCaptioner[116]。将感官输入与 LLM 的分析能力相结合,显著增强了增强现实环境中的状态估计能力。基于MSVD,该数据集通过添加与视频内容相关的问题-答案对来扩展。

    应用领域

    Vid-LLMs通过提供先进的视频和语言处理能力,革新了各个行业。该模型的微调利用了提出的新数据集。它将字幕分解为场景图,详细评估其事实正确性和与图像内容和动作的对齐情况。Whisper[114]特别擅长从视频中捕捉和转录语音为精确的文本,促进了详细的音频分析和提高的可访问性。mPLUG-video模型是为视频理解任务而设计的,处理视频分类、

    Video-LLaVA[104]。具体而言,它在视觉信息编码的流程中使用了LanguageBind[120]的冻结视觉编码器,然后使用投影层将LanguageBind的编码器与LLMs连接起来。

    CharadesSTA[194]。与此同时,AL 分支使用两层音频 Q-Former 和 ImageBind-Huge 编码器,专注于音频表示。

    YouCook2[132]. 这是一个包含2,000个来自YouTube的烹饪视频的数据集,附带了逐步说明的注释,专门用于烹饪领域的程序理解。这些任务在视频理解中密切相关,重点关注视频中的时间连续性和进展。与此同时,Vid-LLMs面临着许多挑战。它通过结合视觉特征、该模型在 Ego4D 数据集上进行了训练,并在 Epic-Kitchens、

    VALOR-1M[135]。许多作品还探索了在视频理解任务中使用LLMs,即Vid-LLMs。该表列出了每种方法的关键细节,包括训练帧数、它不支持处理声音或语音。对于微调,mPLUG-video利用Youku-mPLUG数据集[118]。同义词和释义匹配来评估翻译。该数据集以日常家庭活动为中心。

    LLaMA-VQA[103]。MFNet[33]和STC[34]。与连接式适配器相比,插入式适配器可以更好地使LLM能够推广到新的任务。

    神经网络视频模型。为了处理长篇视频理解,采用了长短期记忆(LSTM)[16]。Vid-LLMs指导微调和混合方法。它根据单词和短语之间的精确、角色识别和AD文本生成。该模型生成带有边界嵌入和位置编码的视频查询标记。或者,在断点模式下,输入到LLMs中的信息不仅包括长期记忆,还包括当前帧和当前短期记忆的信息。该数据集的视频子集包括来自各种来源的片段,例如Ego4D,专注于第一人称视频内容,以及TVCaption,以其与电视剧相关的内容而闻名。这些数据集不仅在视频来源上有所不同,而且在提出的问题类型上也有所不同。这个套件包括用于图像字幕的BLIP2,用于基于区域的视觉字幕的GRIT[124],以及用于音频转录的Whisper。流行的解决方案包括线性投影,将视觉特征的维度与文本特征对齐,以及交叉注意机制,如 Q-former,将视觉特征与相关的文本内容同步。[77]和[78]分别关注调查视频字幕生成和视频动作识别任务。Macaw-LLM的评估涉及到Alpaca指令数据集(用于文本指令)、在多标签识别或多步预测场景中应用,其中未来动作被独立处理,mAP评估跨多个标签的预测的精度。因此,VL 和 AL 分支使 Video-LLaMA 能够感知、这些多模态方法不仅增强了模型的理解和推理能力,还为人工智能的下一个进化飞跃奠定了基础:将LLMs与视频理解相结合。

    VLog[84]。

    由于这些视频编码器的多样性,它们处理的输入视频长度可以有很大差异,从仅包含几帧的短片到包含数百帧的长视频。TITAN [152] 和 STAR [153] 等各种数据集上进行了评估。特别是,Video-LLaMA 包括 Vision-Language (VL) 和 Audio-Language (AL) 两个分支。这些大型语言模型的大小各不相同,BERT 家族中的一些模型参数达到数亿,而LLaMA家族[111]的模型参数可能达到数十亿。对齐这些数据,特别是在空间和时间上的同步方面,尤为重要。

    YouTube8M[184]。

    Kinetics-400[27]。视频字幕和文本到视频生成。音频和语言模态内容的模型,从而在各种下游任务上获得强大的性能。这种类型可以以各种形式呈现,例如分类、这个数据集包括了来自ActivityNet-200数据集[164]的丰富的视频-字幕对,为有效训练提供了多样性和复杂性。这种策略涉及构建专门的微调数据集,以改进视觉模型与LLMs的集成,特别针对视频领域进行了定制。更分段内容的QA数据集不同,ActivityNet-QA挑战模型理解和解释复杂的连续活动和故事情节。视频理解的结果最终服务于人类,因此如何更好地传达人类需求并理解模型结果也是一个非常重要的问题。在这种设置中,模型将视频-问题对分类为预定义的一组全局答案。

    除了本调查报告,我们还建立了一个GitHub存储库,汇集了与使用大型语言模型(Vid-LLMs)进行视频理解相关的各种支持资源。

    TVQA[197]。对于视频理解,它利用基于ActivityNet、这些是推动自我中心视觉和交互式AI系统研究的重要资源,强调了摄像机佩戴者的主观视角。这是一个包含数百万个YouTube视频ID和相关标签的庞大数据集,涵盖了各种类别的真实世界视频内容。视频关系和未来推理。

    图2:近几个月内使用大型语言模型(Vid-LLMs)进行视频理解方法的发展的全面时间线。视频字幕生成和视频-文本检索。听觉和文本数据整合到一起,生成基于语言的世界状态历史。它们在患者交互工具中得到应用,例如用于症状评估和解答与健康相关的问题的聊天机器人,从而改善患者护理和获取信息[219]。在这个框架内,视觉模型主要充当翻译器,将视觉信息转化为语言领域。LLaVA-665K [150]、由于计算资源有限,微调大型模型时并不会更新所有参数[115, 154, 155],而是更新一些适配器的参数。增强对长期时空上下文的理解以及视觉潜在空间和语言潜在空间之间的协作等方面寻找解决方案。ChatVideo使用Whisper和Wav2Vec 2.0来处理音频和语音。这些任务侧重于更细致的细节,涉及为每个时刻创建准确和具体的文本描述,并概括视频的主题和关键叙述。决策树[10]和随机森林也被用于视频分类和识别任务。TVQA通过使用长篇电视剧集,结合视觉和文本(字幕和剧本)信息,脱颖而出。定位进一步细化这个过程,通过建立特定视频元素与其文本描述之间的直接关联,确保准确和详细的理解。词干、然而,手动处理如此庞大的视频内容既费时又费力。关于声音或语音输入,视频-ChatGPT不支持这些功能。这个类别中的大多数是 CLIP 的变体[107],因其出色的性能和多功能性而备受推崇。该领域已经从基础任务如视频分类和动作识别发展到涵盖更复杂的任务。LLaVA [157] 和 VideoChat [82] 的数据进行了微调。有些使用LLMs来利用其他基础模型作为解决任务的工具,而其他一些则利用LLMs来处理来自视觉、Vid-LLMs在安全和保护方面起着关键作用,分析通信以发现潜在威胁[220,221],并检测数据中的异常模式[222,223]。这包括生成代码、最后,问答处理交互方面,使系统能够回答关于视频内容的具体查询。Vid-LLMs显著增强了搜索算法[199],生成上下文感知的视频推荐[200],并在字幕生成和翻译等自然语言任务中发挥作用[89],从而为在线视频平台和多媒体信息检索系统做出贡献。对于微调,VideoLLM采用了三种方法:基本微调、其中,指导微调可以根据适配器的类型进一步分为三个子类:连接型、这使它们能够使用提示处理各种任务,而无需进行微调。P3D[37])。本节概述了它们的多样化应用,展示了Vid-LLMs在各个行业中广泛而深远的影响。
    在微调方面,主要有两个流行的类别:

    基于帧的编码器。LLaMA-VQA通过预测视频、作为可学习的适配器,它将视频特征与时间和空间令牌连接起来,并通过LoRA在VideoChat-11k [82]数据集上微调冻结的LLaMA模型,用于特征对齐,并使用GPT4Video-50k数据集进行指令遵循和安全对齐。Vicuna[112]以其 7B/13B 的模型规模而闻名,尤其在文本解码任务中的可访问性和有效性方面。监控和网络安全。GPT-3.5 通过改进视频到文本模型的初始输出来显著提高视频标题的质量,通过先进的语言处理能力增强相关性和准确性。视频检索和音频字幕生成,通过将所有模态(视频、CharadesSTA数据集在Charades数据集的基础上添加了句子级的时间注释。

    其他模态

    我们区分“音频”(指视频中的背景声音)和“语音”(包括视频中的口头内容)。ActivityNet-QA、

    面向回顾评估的召回度 - 最长公共子序列 (ROUGE-L). ROUGE-L强调内容的流畅性和结构,通过评估最长共享的单词序列来关注序列而不是单个单词。时间编码器以 TimeSformer[46]为代表,将视频视为连贯的实体,强调内容的时间元素。它通过结合CLIP视觉特征、本文通过对使用大型语言模型进行视频理解的综合调查来填补这一空白。无论是在视频的时间理解还是视觉定位领域,缺乏数据集和不足的研究使得在视频理解任务中实现更细粒度的难度增加。

    Vid-LLM指导微调

    Vid-LLMs: 模型

    在多模态大型语言模型(MLLMs)领域,我们见证了大型语言模型与各种数据模态的融合,从文本到图像,展示了它们的出色多功能性和适应性。它特别深入探讨了大型语言模型(LLMs)的出现对视频理解领域带来的重大变化。然后,这些提取的特征通过一个独特的对齐模块进行处理和对齐,使其适合输入到语言模型中。

    ActivityNet[164]。这种协作方法使模型能够获得超越文本生成的技能,如对象分割和其他复杂的视频分析任务。Narrator 是一个 GPT-2 [127],在每个 Transformer 解码器层之前使用额外的交叉注意力模块将文本与视觉信息关联起来,自动生成视频剪辑的密集文本叙述,侧重于详细和多样化的描述。例如,使用文本来指导模型对视频的理解不能完全
    多模态LLM中的幻觉。模型在这里的挑战是准确地从给定的选项中识别出正确的答案。它促进了用于动作定位的先进模型的开发,从而实现更准确和上下文感知的视频分析。Prompt微调和前缀微调。此外,这个过程可以很容易地扩展到时间定位,不仅要识别特定的动作,还要确定它们在视频中的持续时间和顺序,这将在第4.3节中详细介绍。在广泛数据集上预训练的大型语言模型的出现引入了一种新的上下文学习能力[72]。相关数据集和评估指标进行了详细总结和分析。在视频理解的早期阶段,使用手工制作的特征提取技术,如尺度不变特征变换(SIFT)[1]、在监控视频分析中,它们识别可疑行为,协助执法部门[224]。

    开放式问答。InternVid包含超过700万个视频,总计近760,000小时,产生了2.34亿个视频片段,伴随着总计41亿个单词的详细描述。该模型正在积极开发中,以包括一个更专注的音频指令数据集。例如BLEU、由于视频可以被视为时间序列数据,时间序列分析技术如隐马尔可夫模型(HMM)[8]也被用于理解视频内容。为了提高效率,3D网络已经在各种研究中被分解为2D和1D网络(例如S3D[35]、这可能导致生成高度错误或不真实的描述,与提供的视频不一致。图像、它使用各种模型来提取和描述视觉内容:BLIP-2用于帧标题,GRiT用于详细的场景对象描述,Tag2Text用于关键帧标记。

    对于文本编码,配备有编码器的语言模型(如 BERT[108]或 T5[109])在这个领域非常受欢迎。它们在网络安全方面的作用包括识别网络钓鱼尝试,并通过总结与案件相关的文本来进行取证分析[225]。示例任务包括短期和长期动作定位,根据预测序列的持续时间而有所不同。字幕和描述通过将视觉数据转化为自然语言,使视频对更广泛的受众可访问和可理解,并增强内容的可发现性。它们还为客户服务聊天机器人提供动力[211,212]。因此,为了解决幻觉的影响,可以从改进视频编码器的效果、此外,它探讨了Vid-LLMs在各个领域的广泛应用,突出了它们在现实世界视频理解挑战中的可扩展性和多功能性。每个片段都附有多个众包句子,描述视频中的动作,生成简短、

    与直接将所有视频信息发送到LLMs的其他方法相比,Chat-UniVi模型通过使用动态视觉标记来表示空间和时间方面,对视频进行建模。将LLMs整合到视频理解中目前采用了四种主要策略:

    图3:使用大型语言模型(Vids-LLM)进行视频理解的分类法。Macaw-LLM是一种多模态语言模型,通过整合视频、VideoChat是一种创新的以聊天为中心的视频理解系统,通过可学习的神经接口将视频基础模型与大型语言模型集成在一起。对于长期记忆的处理,MovieChat遵循ToMe[172]进行记忆整合方法,该方法涉及使用余弦相似度评估相邻帧,并合并相邻帧中最相似的标记。这可能涉及解释视频中的事实或解释视频本身发生的情况。此外,该研究还通过人工辅助和半自动注释方法创建了一个包含10万个视频指令对的新数据集。该模型还使用了来自COCO和CC3M-595K等数据集的图像-字幕对进行训练。视频字幕和视频分类等方面,以全面评估视频-语言模型和下游应用。该模型在多模态、它们在特定关键字检索[88,201,202]方面的能力改进了智能推荐系统。光流方法[5]和改进的密集轨迹(IDT)[6, 7]被用于建模运动信息以进行跟踪。

    Kinetics-GEBC[166]。选择它们是因为它们的稳健性能和出色的适应性。这个领域缺乏相关研究,并且面临着数据稀缺的挑战。基于TSN,引入了Fisher向量(FV)编码[18]、

    以往的调查论文要么研究视频理解领域的特定子任务,要么关注视频理解之外的方法论。

    未来发展方向和结论

    在本调查中,我们回顾了大型语言模型(Vid-LLMs)在视频理解方面的最新进展,并介绍了有效理解和应用Vid-LLMs的基本原理、VALOR-1M是一个大规模高质量的三模态数据集,包含1M个可听视频和人工注释的视听字幕。

    定位和检索

    视频定位侧重于根据给定的描述识别和定位视频中的特定时刻或事件。多实例检索、这项技术增强了从教育到交互媒体等各种应用中的用户参与度。

    先进的大型语言模型如GPT-4具有作为控制器的能力,指导视觉模型执行特定任务。未修剪的叙述视频,并利用转录的语音中的伪事件边界和字幕进行微调和评估。ClothoV2 [138] 和 AudioCap [139]。

    Video-LLaMA[117]. Video-LLaMA 是一个多模态框架,通过整合视觉和听觉内容的理解能力,增强了 LLM 在视频理解方面的能力。

    MISAR[87]. 增强现实多模态教学系统(MISAR)架构利用 GPT-3.5 的推理能力,通过从背景知识中获取上下文信息来改进视频文本标题,并设计用于处理各种类型的输入。

    Vid2Seq[89]. Vid2Seq 用于密集视频字幕生成。

    Microsoft Research Video-to-Text (MSR-VTT)[122]. 这个大规模数据集包含超过40小时的视频内容,10,000个来自20个类别的视频片段,总共有200K个片段-句子对。它提供了丰富的叙事结构和简单的语言,非常适合研究基于故事的视频理解和问答。Flickr [137]、这些数据集作为监督预训练的基础,将模态对齐而不针对特定任务。它将 LLM 与特殊的时间标记结合起来,同时预测视频中的事件边界和文本描述。同时,在自主机器人导航方面,SayPlan方法[217]将LLMs与3D场景图结合起来,使机器人能够解释和导航复杂的大型建筑空间。VATEX [136]、视频定位中的关键任务包括:

    1. 视频检索:这个任务涉及将视频内容与文本描述对齐,并准确检索广泛视频数据集中类似活动或时刻的多个实例。这个改变将重点从字幕生成转移到理解和回答关于视频内容的问题。该系统使用一个专门设计的以视频为中心的指令数据集进行微调,展示了多样化视频应用的巨大潜力。TGIF[174]和ActivityNet等基准测试中展现出优秀的结果。ChatGPT[73]是基于这一基础构建的第一个开创性应用。

      AutoAD II[100]。Otter模型是一种创新的多模态模型,旨在增强上下文学习和指令遵循,基于OpenFlamingo [177]框架。这种适应需要创建用于测试的问题。MSVD-QA、要创建空间-时间定位任务,数据集通常需要注释,如对象边界框、

      评估指标

      根据具体的任务和数据集使用不同的评估指标:

      Top-k准确率。它涉及将空间意识与叙事背景整合在一起,确保识别的实体与提供的文本描述准确对齐。

      MSRVTT-QA[160]。Rephraser 是另一个基于 T5-large 的 LLM,通过改写来增强这些叙述,提高文本的多样性和覆盖范围。多媒体应用将视频与音乐等多媒体领域相结合[203]。LLaMA-VQA是为视频理解任务中的视频问答(VideoQA)而设计的。交互形式还涉及像字幕视频[215],[216]这样的视频内容理解。WUPS是一种更柔和的准确度度量,考虑了单词之间的同义词和语义相似性。