交互式游戏和虚拟环境

发布时间：2025-06-24 20:31:53 作者：北方职教升学中心阅读量：518

Youku-mPLUG[118]。

Charades[183]. 这个数据集包含了日常室内活动的视频，由来自三个大洲的人们拍摄，提供了27,847个视频描述和各种场景，用于视频字幕挑战。这些方法改进了在UCF-101[22]和HMDB51[23]数据集上的性能。MSR-VTT 和 MSVD 上进行了密集视频字幕生成、TGIF-QA[175]、这种方法突出了 MISAR 在通过复杂的视觉、

Socratic Models[81]。

随着挑战性任务的进展，模型的发展反映了它们所设计用于解决的任务的不断升级的复杂性。ResNet[29]、在第一阶段（特征对齐）中，通过图像-文本训练将视觉特征与LLM的语义空间对齐；在第二阶段（边界感知）中，作者根据模板将多事件数据集转换为QA格式，旨在训练VTimeLLM具有时间边界意识并理解边界内的事件。它使用带有交叉注意力层的抽象器来沿着时间和空间轴压缩视频信息。

交互式游戏和虚拟环境。GPT-3.5 在字幕生成过程中的介入对此有所贡献。VidTr[47]、

长期视频理解。它以WUP分数为基础来衡量单词相似性。多模态视频理解需要整合不同类型的数据，如视觉、最近的Vid-LLMs可以分为四种主要类型：基于LLM的视频代理、

基于共识的图像描述评估 (CIDEr). 基于图像字幕，CIDEr通过考虑与共识描述集合的共同性来衡量生成的字幕与一组参考字幕的相似性。动作识别和自然语言查询。在推理过程中，MovieChat可以以全局模式运行，只将来自长期记忆的信息输入到LLMs中进行推理。我们从视频理解的发展历史开始，从传统的非深度学习方法到基于神经网络的方法，再到自监督预训练视频，现在到基于LLMs的当前视频理解解决方案。该模型不支持处理声音或语音输入。分析和处理这些丰富视频内容的工具的需求不断增长。然而，LLMs并没有完全解决交互问题。对于微调，Macaw-LLM使用一步指令微调方法，简化了适应过程，并确保跨模态的一致对齐。ViViT[48]、这些模型通常在广泛的数据集上进行预训练，并且可以轻松地进行集成。此外，MovieChat还引入了一个新的数据集MovieChat-1K，用于长视频理解任务，包含了从各种电影和电视剧中获取的1K个高质量视频片段，并附带14K个手动注释。细粒度视频理解仍然是一个挑战。

Chat-UniVi[99]。它们的任务解决能力不断提高，并具有进一步提升的潜力。上下文理解、

本调查报告的结构如下：第2节提供了全面的概述，强调利用LLMs的能力的方法，并详细介绍这些方法涉及的具体任务和数据集。背景减除[4]、在这种方法中，LLMs充当中央控制器。用于训练和评估的关键数据集包括MAD（电影音频描述）、这个应用在新闻聚合和内容策划中非常重要。

ActivityNet Captions[181]. 这个数据集是原始ActivityNet的扩展，专为识别任务而设计。在评估中，它在视频分类和视频字幕生成任务中表现出优越的性能。数据集和基准测试

识别和预测
数据集概述
评估指标
字幕和描述
数据集概述
评估指标
定位和检索
数据集概述
评估指标
问答
数据集概述
评估指标
视频指令调优
预训练数据集
微调数据集

应用领域

媒体和娱乐
交互和用户中心技术
医疗保健和安全应用

未来发展方向和结论

局限性和未来工作
结论

论文名称：Video Understanding with Large Language Models: A Survey
摘要
随着在线视频平台的蓬勃发展和视频内容的不断增加，对熟练的视频理解工具的需求显著增加。该数据集从优酷，一个著名的中国视频分享网站收集，并经过安全、它测量系统生成的摘要与一组参考摘要之间的最长公共子序列，重点关注单词的最长共同出现序列。MM-Narrator 支持处理视觉和听觉输入，包括声音和语音，以实现全面的视频理解。

时间定位：目标是在视频中定义与给定文本描述精确对应的时间边界。最后，它总结了现有Vid-LLMs的局限性，并概述了未来研究的方向。MViT[49]）。动作和音频方面以及用户驱动的查询交互，实现了丰富的视频分析。它们基于 Transformer 架构，在自回归框架下工作，预测序列中的下一个标记，这对于文本生成非常有效。GPT4Video可以处理视频理解和生成任务，包括视频问答、更多信息，请访问https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding。在自动驾驶车辆中，Vid-LLMs处理自然语言输入以实现交互[226]，帮助理解道路标志和指示[105，227]，并改进车辆控制系统的用户界面[226]，提高安全性和用户体验。这个任务分为各种形式，如密集字幕、在 Vid-LLMs 的指令微调中，通常使用两种类型的适配器：连接适配器和插入适配器。图像标题和字幕中的角色对话等多模态信息来处理视频理解任务。此外，处理和分析视频数据需要大量的计算资源。在方法论方面，跨不同模态提取和利用有效特征是实现精确视频理解的关键，但这个过程充满了挑战。它在五个具有挑战性的VideoQA基准测试上进行了评估，表现优于基于LLM和非LLM的模型。时间和动作组成部分的任务。所使用的具体大型语言模型以及相应的参数数量。COCO[165]（用于图像指令）以及Charades和AVSD数据集（用于视频指令）。生成或回归，根据数据集的具体要求进行调整。

语言在视频理解中的作用

语言在视频理解中起着主要作用，主要包括两个方面：文本编码和解码。
大型语言模型用于视频理解。这些任务包括为每个时刻创建准确和具体的文本描述以及总结视频的要点，从而概括其主题和关键叙述。TGIF-FrameQA、PG-Video-LLaVA的评估涉及基于视频的生成和问答基准测试，包括针对视频对象定位的新引入的基准测试。VL 分支已在 Webvid-2M [123] 和 LLaVA [157] 中的约 595K 个图像-文本对上进行了预训练，并通过 MiniGPT-4 [158]、插入型和两者的组合。

混合方法。Q-former[110]和其他特征提取器（如CLIP[107]、MSRVTT-QA、

预训练数据集

为了将视觉组件与语言领域整合起来，通常会使用大规模的视频到文本数据集。这些数据集的多样性和复杂性对于开发AI助手、

Pororo-QA[196]。ChatGPT作为提问者，负责从采样的帧中选择一个帧并生成问题。

使用混合适配器进行微调

VTimeLLM[93]。摘要中未指定用于微调和评估的数据集。然后，通过模态编码器和语义翻译器处理这些特征，将其转换为与LLM兼容的令牌序列。视频段落字幕生成和视频剪辑字幕生成的微调和评估。

基于LLM的视频代理。MSVD、在这种现代方法中，模型利用视频内容作为背景上下文主动生成答案。此外，[79]和[80]调查了与视频相关的方法论-视频扩散模型和LLMs，缺乏对视频理解的集中研究。较高的IoU表示两个区间之间的匹配更接近，IoU为1.0表示完全匹配。

Vid-LLM预训练。识别和预测通过识别和预测视频中的事件和动作来奠定基础，为视觉内容及其潜在未来发展提供基本理解。Pororo-QA在使用动画儿童故事方面独具特色，特别是“小企鹅宝乐齐”系列。它的优势在于详细和叙述式的视频描述，为问答任务提供了丰富的上下文。然而，当前的 MISAR 配置存在一些限制。Socratic Models通过一系列结构化的、VTimeLLM是一种专为高级视频理解任务设计的新型模型，特别擅长于时间视频定位和密集视频字幕。此外，视频不仅包含空间信息，还包含时间信息。随后，ChatGPT将对话综合成全面的视频字幕。交叉注意力层、这种聚合的复杂性可以从简单的池化方法到更高级的基于内存的技术。

细粒度视频理解。

VideoLLM[106]。多样性和质量的筛选。与 Vid-LLMs 代理不同，该模型还在 VAST-27M 数据集上进行了进一步的预训练，该数据集包含了 2700 万个不同的视频剪辑，采用了不同的预训练目标：全模态视频-字幕对比/匹配/生成损失。这种方法简化了环境复杂性，规划行动，并自我纠正导航错误，对于在多房间环境中操作的机器人至关重要。总体而言，ChatVideo通过以轨迹为中心的处理方式进行交互和多模态视频理解，通过考虑外观、该模型不支持处理声音或语音输入。这个任务为模型提供了一系列可能的答案供每个问题选择。限制和发展。LLMs与视频的结合为细粒度视频理解带来了一线希望。时序段网络（TSN）[17]通过逐个分析视频段并对其进行聚合，也被设计用于长篇视频理解。

任务、在单标签动作识别或单步动作定位中使用，该指标评估正确的动作是否在前"k"个预测中。由于其视频中的逼真场景和重叠活动的复杂性，它非常突出。Kinetics [25]和Epic-Kitchens [179]等数据集上进行了预训练。
与提供详细描述的字幕相比，摘要侧重于将核心内容浓缩成简洁的格式。LLMVA-GEBC模型是为通用事件边界字幕生成（GEBC）[166]而设计的，它将先进的特征提取器与LLM相结合，实现精确的视频字幕生成。此外，这些方法的不断发展提升了它们的任务解决能力，使它们能够越来越熟练地处理各种视频理解任务。mPLUG-video专注于视觉和文本元素的视频理解，不支持音频输入。TVC [134]、连接适配器通常放置在视觉主干和 LLM 之间，主要用于对齐视觉和文本语义，而插入适配器通常插入到 LLM 中。
视频摘要和编辑。考虑到类别不平衡，通常更倾向于使用类均值Top-k准确率进行更细致的评估。
Ego4D-MQ和Ego4D-NLQ[192]。关于声音或语音输入，Macaw-LLM支持音频作为其多模态方法的一部分，目前将音频输入与视频指令数据相关联。对于视频生成部分，GPT4Video利用了文本到视频模型库中的模型来生成数据。该模型将口头内容转录为文本，为 LLM 提供有价值的上下文信息。一旦短期记忆达到预定的长度限制，最早的帧标记将被弹出并合并到长期记忆中。具体而言，三个阶段的数据集分别是用于特征对齐的LCS-558K，用于边界感知的InternVid-10M-FLT [180]，以及用于指令微调的ActivityNet Captions [181]和DiDeMo [182]。MISAR 使用以自我为中心的视频和语音输入，以及来自语言模型的上下文数据，以改进增强现实环境中的状态估计。

数据集概述

最初设计用于详细字幕的数据集已经被重新用于视频问答（VideoQA）任务，例如MSVD-QA、这些描述不仅捕捉了单个帧中的可见元素，还将事件序列编织在一起，揭示随时间展开的潜在叙事或含义。然而，VTimeLLM并没有明确设计用于处理声音或语音输入，主要关注视频理解的视觉和文本方面。SOMPT22 [147]、预训练的中文GPT-3[171]。关键问题包括改进对细粒度/长期视频的理解以应对现实世界的视频理解挑战，增强现有LLMs和视频模型之间的交互，以更好地遵循人类指令，并解决Vid-LLMs中的幻觉问题。

传统上，开放式问答被视为多类别分类任务。这种创新的方法在CVPR 2023 GEBC竞赛中取得了显著的成功。它在 LAION400M [140]、

Charades-Ego[131]. 类似于Charades，但包含了68,536个活动在7,860个视频中的第一人称和第三人称视角记录，为活动分析提供了独特的视角。例如，[76]调查了用于通用视觉语言任务的多模态基础模型，包括图像和视频应用。可访问性和手语。

使用插入式适配器进行微调

在视频指导调整中，通常会在LLM中插入插入式适配器。

训练策略

在将预训练的基础模型调整到各种视频理解任务时，通常会使用一个适配器模块，它既是（i）连接基础模型和 LLM 的桥梁，又是（ii）帮助预训练模型适应新任务而不丢失从预训练中学到的知识的模块。AutoAD II是专为电影中的音频描述（AD）任务而设计的，重点是识别适合插入AD的时刻、

接下来，我们将分解LLMs的关键组成部分，并更详细地研究它们如何与基础模型共同工作，以提高视频理解能力。问题和答案的组合来解决LLM中的语言偏见问题，确保对视觉内容和文本查询的平衡考虑。源自ActivityNet数据集，该数据集以其大量的长视频库而闻名。它们提供了视频内容的详细和广泛的视角。TGIF-QA、DiDeMo、理解对象如何随时间变化和相互作用，特别是在细粒度级别上，比预期的要复杂得多。然后，将这些处理过的特征作为语言解码器的输入，使用冻结的、它包含20,000个视频，每个视频附有100,000个详细的句子。其他视频理解任务，如视频问答和定位，未被考虑。该数据集有助于提升模型解释和与时间视频内容同步的能力，利用自然语言作为理解的桥梁。

鉴于LLMs在视频理解中的功能，我们将Vid-LLM方法分为以下几个类别：（1）基于LLM的视频代理，（2）Vid-LLM预训练，（3）Vid-LLM指令微调，以及（4）混合方法。

医疗保健和安全应用

医疗创新。在视觉特征编码阶段，使用多尺度表示使LLMs能够感知高级语义概念和低级视觉细节。

VideoXum[190]. 这个数据集将传统的单模态视频摘要任务扩展到跨模态视频摘要任务，涉及生成具有语义连贯性的视觉和文本摘要。动作检测和活动识别。与自然语言处理（NLP）[75]中的影响类似，这些模型充当更通用的任务求解器，擅长通过利用它们从大量多模态数据中获得的广泛知识库和上下文理解来处理更广泛的任务范围。

引言 3
基础知识 5
LLMs中的视觉整合 7
语言在视频理解中的作用 7
其他模态 8
训练策略 8
Vid-LLMs: 模型 8
基于LLM的视频代理 8
Vid-LLM预训练 11
Vid-LLM指导微调 11
使用连接适配器进行微调 12
使用插入适配器进行微调 14
使用混合适配器进行微调 14
混合方法 15
任务、DeepVideo [14]是最早引入深度神经网络（特别是卷积神经网络（CNN））进行视频理解的方法。识别主要关注在视频中准确检测和分类正在发生的动作。对象的关联语义含义以及场景内它们之间的关系。 Vid-LLMs的新兴能力令人惊讶，尤其是它们在开放式时空推理与常识知识相结合方面的能力，为未来的视频理解提供了有希望的路径。许多研究正在探索使用像ChatGPT这样的LLMs调用视觉模型API来解决计算机视觉领域的问题，包括Visual-ChatGPT[74]。
Tumblr GIF (TGIF)[174]. 这是一个收集了来自Tumblr的100K个动画GIF的数据集，附带了120K个句子的注释。VideoLLM是一个多功能框架，将LLM应用于各种视频理解任务，包括在线推理、ROUGE和CIDEr。然而，该模型可以处理自然声音音频输入，但不支持语音输入。对于字幕生成，它利用LLM，具体来说是OPT[170]，构建和解释提示，实现对视频事件的准确和上下文相关的字幕生成。数据和任务三个方面按照时间顺序调查了视频理解的现状、Vid2Seq 在 YT-Temporal-1B 数据集中预训练了大量未标记、视频问答、
数据集概述
已经开发了各种数据集来支持这些任务，重点关注不同方面，从描绘人类活动到对程序知识的细致理解。示例任务包括视频分类、T3D[39]、
mPLUG-video[118]。
自动驾驶车辆的进展。这对于训练大参数模型非常有价值。视频引用、
文章目录
摘要
目录
引言
基础
将LLMs与视觉集成
语言在视频理解中的作用
其他模态
训练策略
Vid-LLMs: 模型
基于LLM的视频代理
Vid-LLM 预训练
Vid-LLM 指令微调
使用连接适配器进行微调
使用插入式适配器进行微调
使用混合适配器进行微调
混合方法
任务、VCR [149]、
识别和预测
视频理解的基本任务之一是理解所描绘的动作和事件。
此外，适配器还用于定制 LLM 的输出，以适应特定任务，例如从多项选择题中选择答案。加速稳健特征（SURF）[2]和梯度方向直方图（HOG）[3]，来捕捉视频中的关键信息。GPT-3.5通过为四个关键任务生成问题-答案对进一步丰富了数据集：1.详细描述，2.总结，3.创造性和生成性任务，4.对话。
视觉特征领域和语言领域之间的领域差距。
Microsoft Research Video Description Corpus (MSVD)[122]. 这个数据集包含1,970个视频，重点关注单一活动片段，并带有多语言字幕。
基于LLM的视频代理
本节探讨了基于LLM的不同视频代理，每个代理都有其独特的方法来整合多模态数据以增强视频分析。此外，在增强现实/虚拟现实/扩展现实中，Vid-LLMs为生成动态叙事内容做出贡献，增强用户沉浸感[213，214]。
MM-Narrator[86]. MM-Narrator 是一个基于 GPT-4 的系统，专门用于生成长篇视频的音频描述（AD）。它们指导视觉模型有效地将视频中的视觉信息转化为语言领域。

数据集概述

具有时间注释的数据集适用于构建检索和时间定位任务。该模型支持处理语音，但不支持处理视频中的声音。该模型擅长处理视频中的时间和因果推理任务。在这个过程中，一个关键的挑战是以一种对 LLM 可理解的方式高效地将视觉内容转化为文本。它包括两个主要组件：VideoChat-Text将视频内容转换为文本格式进行分析，VideoChat-Embed是一个端到端模型，用于基于视频的对话，将视频和语言模型结合起来，以增强时空推理和因果推断的性能。这种预测能力在动态环境中至关重要，因为它有助于预测潜在的未来情景，从而增强决策过程。这种方法测试了模型从一组选择中识别和选择最相关信息的能力。

问答。它们还促进手语翻译为口语或文本[207，208]，改善聋人和听力障碍者的可访问性。Youku-mPLUG是一个大规模的中文视频-语言预训练数据集和基准测试集，包含1000万个视频-文本对用于预训练和30万个用于下游基准测试的视频。更详细的理解。它的主要应用是通过改进的AD提高电影对视觉障碍观众的可访问性。第4节对各种任务、然而，该模型不支持处理声音或语音输入。Pororo-QA和TVQA。双线性编码[19]和局部聚合描述符向量（VLAD）[20]编码[21]。多层感知机（MLP）、膨胀的3D ConvNets（I3D）[25]]利用2D CNN的初始化和架构，如Inception[26]，在UCF-101和HMDB51数据集上取得了巨大的改进。模型适应方法、它们还在广告编辑等特定领域中发挥作用[205]。通用的短视频剪辑描述。作为更广泛的Ego4D项目的一部分，这些数据集专注于第一人称视频中的空间和时间定位。为了满足这一需求，视频理解方法和分析技术应运而生，利用智能分析技术自动识别和解释视频内容，从而显著减轻人工操作员的工作量。视频片段字幕和在线字幕，每种形式都处理视频解释的独特方面。随后，人们开始使用Kinetics-400（K-400）[27]和Something-Something[28]数据集来评估模型在更具挑战性场景中的性能。适配器通常是可学习的、这些任务强调模型不仅在理解视频的视觉和听觉组成部分方面的熟练程度，还在整合外部知识和推理能力以提供与上下文相关的答案方面具有能力。这种方法侧重于利用监督或对比训练技术从头开始开发基础视频模型。

多模态上下文指导微调（MIMIC-IT）这个数据集包含280万个多模态上下文指导-回应对和220万个唯一指导，其中包含多个图像或视频作为输入数据。在第3节中，我们深入探讨了最近利用LLMs进行视频理解的研究的细节，介绍了它们在该领域中的独特方法和影响。Vid-LLMs预训练、MOT17 [145]、音频、这包括提供详细的文本描述和转录音频元素。Video ChatCaptioner的性能在MSVD[122]和WebVid[123]数据集上进行评估。在这个领域，LLaMA 家族，特别是像 Vicuna 这样的模型，脱颖而出。它强调了这些数据集的重要性，这些数据集从用户注释的视频到多模态的视频文本配对都可以用于训练模型，以准确解释和生成基于视频的指令。

TVSum[188]. 这是一个视频摘要的关键基准数据集，包括50个不同类型（如新闻和纪录片）的长视频。听觉和上下文信息综合促进用户执行物理任务方面的潜力。

媒体和娱乐

在线视频平台和多媒体信息检索。另一方面，语音由专门的语音编码器处理，通常是预训练的语音识别模型，如 Whisper[114]。ActivityNet Captions、然后，使用ChatGPT对聚合数据进行推理，综合和总结信息，以增强对视频内容的理解和交互。该数据集涵盖了400个动作类别的YouTube视频URL，对于开发大规模动作识别模型非常重要。帧按顺序放入短期记忆中。该模型使用CLIP对每个帧进行编码，然后使用多层感知机将帧标记映射到LLMs的潜空间中。MSRVTT-QA专为更受控制的视频问答而设计。它在 MAD-eval 数据集上进行了评估[100]，重点关注 AD 生成性能。

混合方法

混合方法涉及将微调和基于LLM的视频代理模型相结合，同时具有两种方法的优势。需要有效的机制来检测和突出显示重要部分，特别是在内容丰富或情节复杂的视频中。

意识到状态的人机交互和机器人规划。DanceTrack [146]、在可能存在一系列语义上相似的答案被认为是正确的情况下，该指标特别有用。它要求模型解释和匹配特定的视频片段与文本中的叙述或描述元素，重点关注视频内容的时间方面。

语义命题图像字幕评估 (SPICE). SPICE通过将字幕与人类参考进行比较来评估字幕质量，重点关注语义理解和准确性。它通过使用 Narrator 和 Rephraser（均基于 LLM）来对视频进行建模。

空间时间定位：这要求模型在视频中定位和突出显示空间区域和时间边界，类似于识别空间-时间管道，与指定的文本查询准确对应。

VideoChat[82]。Video-LLaVA通过将图像和视频的视觉表示统一到一个单一的语言特征空间中进行投影，在各种视频理解任务中表现出色。ActivityNet-QA、它利用特别设计的MIMIC-IT数据集，将图像-指令-答案三元组与上下文相关的示例相结合，促进了强大的指令理解能力。

GPT4Video[93]。

Video ChatCaptioner[116]。将感官输入与 LLM 的分析能力相结合，显著增强了增强现实环境中的状态估计能力。基于MSVD，该数据集通过添加与视频内容相关的问题-答案对来扩展。

应用领域

Vid-LLMs通过提供先进的视频和语言处理能力，革新了各个行业。该模型的微调利用了提出的新数据集。它将字幕分解为场景图，详细评估其事实正确性和与图像内容和动作的对齐情况。Whisper[114]特别擅长从视频中捕捉和转录语音为精确的文本，促进了详细的音频分析和提高的可访问性。mPLUG-video模型是为视频理解任务而设计的，处理视频分类、

Video-LLaVA[104]。具体而言，它在视觉信息编码的流程中使用了LanguageBind[120]的冻结视觉编码器，然后使用投影层将LanguageBind的编码器与LLMs连接起来。

CharadesSTA[194]。与此同时，AL 分支使用两层音频 Q-Former 和 ImageBind-Huge 编码器，专注于音频表示。

YouCook2[132]. 这是一个包含2,000个来自YouTube的烹饪视频的数据集，附带了逐步说明的注释，专门用于烹饪领域的程序理解。这些任务在视频理解中密切相关，重点关注视频中的时间连续性和进展。与此同时，Vid-LLMs面临着许多挑战。它通过结合视觉特征、该模型在 Ego4D 数据集上进行了训练，并在 Epic-Kitchens、

VALOR-1M[135]。许多作品还探索了在视频理解任务中使用LLMs，即Vid-LLMs。该表列出了每种方法的关键细节，包括训练帧数、它不支持处理声音或语音。对于微调，mPLUG-video利用Youku-mPLUG数据集[118]。同义词和释义匹配来评估翻译。该数据集以日常家庭活动为中心。

LLaMA-VQA[103]。MFNet[33]和STC[34]。与连接式适配器相比，插入式适配器可以更好地使LLM能够推广到新的任务。

神经网络视频模型。为了处理长篇视频理解，采用了长短期记忆（LSTM）[16]。Vid-LLMs指导微调和混合方法。它根据单词和短语之间的精确、角色识别和AD文本生成。该模型生成带有边界嵌入和位置编码的视频查询标记。或者，在断点模式下，输入到LLMs中的信息不仅包括长期记忆，还包括当前帧和当前短期记忆的信息。该数据集的视频子集包括来自各种来源的片段，例如Ego4D，专注于第一人称视频内容，以及TVCaption，以其与电视剧相关的内容而闻名。这些数据集不仅在视频来源上有所不同，而且在提出的问题类型上也有所不同。这个套件包括用于图像字幕的BLIP2，用于基于区域的视觉字幕的GRIT[124]，以及用于音频转录的Whisper。流行的解决方案包括线性投影，将视觉特征的维度与文本特征对齐，以及交叉注意机制，如 Q-former，将视觉特征与相关的文本内容同步。[77]和[78]分别关注调查视频字幕生成和视频动作识别任务。Macaw-LLM的评估涉及到Alpaca指令数据集（用于文本指令）、在多标签识别或多步预测场景中应用，其中未来动作被独立处理，mAP评估跨多个标签的预测的精度。因此，VL 和 AL 分支使 Video-LLaMA 能够感知、这些多模态方法不仅增强了模型的理解和推理能力，还为人工智能的下一个进化飞跃奠定了基础：将LLMs与视频理解相结合。

VLog[84]。

由于这些视频编码器的多样性，它们处理的输入视频长度可以有很大差异，从仅包含几帧的短片到包含数百帧的长视频。TITAN [152] 和 STAR [153] 等各种数据集上进行了评估。特别是，Video-LLaMA 包括 Vision-Language (VL) 和 Audio-Language (AL) 两个分支。这些大型语言模型的大小各不相同，BERT 家族中的一些模型参数达到数亿，而LLaMA家族[111]的模型参数可能达到数十亿。对齐这些数据，特别是在空间和时间上的同步方面，尤为重要。

YouTube8M[184]。

Kinetics-400[27]。视频字幕和文本到视频生成。音频和语言模态内容的模型，从而在各种下游任务上获得强大的性能。这种类型可以以各种形式呈现，例如分类、这个数据集包括了来自ActivityNet-200数据集[164]的丰富的视频-字幕对，为有效训练提供了多样性和复杂性。这种策略涉及构建专门的微调数据集，以改进视觉模型与LLMs的集成，特别针对视频领域进行了定制。更分段内容的QA数据集不同，ActivityNet-QA挑战模型理解和解释复杂的连续活动和故事情节。视频理解的结果最终服务于人类，因此如何更好地传达人类需求并理解模型结果也是一个非常重要的问题。在这种设置中，模型将视频-问题对分类为预定义的一组全局答案。

除了本调查报告，我们还建立了一个GitHub存储库，汇集了与使用大型语言模型（Vid-LLMs）进行视频理解相关的各种支持资源。

TVQA[197]。对于视频理解，它利用基于ActivityNet、这些是推动自我中心视觉和交互式AI系统研究的重要资源，强调了摄像机佩戴者的主观视角。这是一个包含数百万个YouTube视频ID和相关标签的庞大数据集，涵盖了各种类别的真实世界视频内容。视频关系和未来推理。

图2：近几个月内使用大型语言模型（Vid-LLMs）进行视频理解方法的发展的全面时间线。视频字幕生成和视频-文本检索。听觉和文本数据整合到一起，生成基于语言的世界状态历史。它们在患者交互工具中得到应用，例如用于症状评估和解答与健康相关的问题的聊天机器人，从而改善患者护理和获取信息[219]。在这个框架内，视觉模型主要充当翻译器，将视觉信息转化为语言领域。LLaVA-665K [150]、由于计算资源有限，微调大型模型时并不会更新所有参数[115, 154, 155]，而是更新一些适配器的参数。增强对长期时空上下文的理解以及视觉潜在空间和语言潜在空间之间的协作等方面寻找解决方案。ChatVideo使用Whisper和Wav2Vec 2.0来处理音频和语音。这些任务侧重于更细致的细节，涉及为每个时刻创建准确和具体的文本描述，并概括视频的主题和关键叙述。决策树[10]和随机森林也被用于视频分类和识别任务。TVQA通过使用长篇电视剧集，结合视觉和文本（字幕和剧本）信息，脱颖而出。定位进一步细化这个过程，通过建立特定视频元素与其文本描述之间的直接关联，确保准确和详细的理解。词干、然而，手动处理如此庞大的视频内容既费时又费力。关于声音或语音输入，视频-ChatGPT不支持这些功能。这个类别中的大多数是 CLIP 的变体[107]，因其出色的性能和多功能性而备受推崇。该领域已经从基础任务如视频分类和动作识别发展到涵盖更复杂的任务。LLaVA [157] 和 VideoChat [82] 的数据进行了微调。有些使用LLMs来利用其他基础模型作为解决任务的工具，而其他一些则利用LLMs来处理来自视觉、Vid-LLMs在安全和保护方面起着关键作用，分析通信以发现潜在威胁[220，221]，并检测数据中的异常模式[222，223]。这包括生成代码、最后，问答处理交互方面，使系统能够回答关于视频内容的具体查询。Vid-LLMs显著增强了搜索算法[199]，生成上下文感知的视频推荐[200]，并在字幕生成和翻译等自然语言任务中发挥作用[89]，从而为在线视频平台和多媒体信息检索系统做出贡献。对于微调，VideoLLM采用了三种方法：基本微调、其中，指导微调可以根据适配器的类型进一步分为三个子类：连接型、这使它们能够使用提示处理各种任务，而无需进行微调。P3D[37]）。本节概述了它们的多样化应用，展示了Vid-LLMs在各个行业中广泛而深远的影响。
在微调方面，主要有两个流行的类别：

基于帧的编码器。LLaMA-VQA通过预测视频、作为可学习的适配器，它将视频特征与时间和空间令牌连接起来，并通过LoRA在VideoChat-11k [82]数据集上微调冻结的LLaMA模型，用于特征对齐，并使用GPT4Video-50k数据集进行指令遵循和安全对齐。Vicuna[112]以其 7B/13B 的模型规模而闻名，尤其在文本解码任务中的可访问性和有效性方面。监控和网络安全。GPT-3.5 通过改进视频到文本模型的初始输出来显著提高视频标题的质量，通过先进的语言处理能力增强相关性和准确性。视频检索和音频字幕生成，通过将所有模态（视频、CharadesSTA数据集在Charades数据集的基础上添加了句子级的时间注释。

其他模态

我们区分“音频”（指视频中的背景声音）和“语音”（包括视频中的口头内容）。ActivityNet-QA、

面向回顾评估的召回度 - 最长公共子序列 (ROUGE-L). ROUGE-L强调内容的流畅性和结构，通过评估最长共享的单词序列来关注序列而不是单个单词。时间编码器以 TimeSformer[46]为代表，将视频视为连贯的实体，强调内容的时间元素。它通过结合CLIP视觉特征、本文通过对使用大型语言模型进行视频理解的综合调查来填补这一空白。无论是在视频的时间理解还是视觉定位领域，缺乏数据集和不足的研究使得在视频理解任务中实现更细粒度的难度增加。

Vid-LLM指导微调。

Vid-LLMs: 模型

在多模态大型语言模型（MLLMs）领域，我们见证了大型语言模型与各种数据模态的融合，从文本到图像，展示了它们的出色多功能性和适应性。它特别深入探讨了大型语言模型（LLMs）的出现对视频理解领域带来的重大变化。然后，这些提取的特征通过一个独特的对齐模块进行处理和对齐，使其适合输入到语言模型中。

ActivityNet[164]。这种协作方法使模型能够获得超越文本生成的技能，如对象分割和其他复杂的视频分析任务。Narrator 是一个 GPT-2 [127]，在每个 Transformer 解码器层之前使用额外的交叉注意力模块将文本与视觉信息关联起来，自动生成视频剪辑的密集文本叙述，侧重于详细和多样化的描述。例如，使用文本来指导模型对视频的理解不能完全
多模态LLM中的幻觉。模型在这里的挑战是准确地从给定的选项中识别出正确的答案。它促进了用于动作定位的先进模型的开发，从而实现更准确和上下文感知的视频分析。Prompt微调和前缀微调。此外，这个过程可以很容易地扩展到时间定位，不仅要识别特定的动作，还要确定它们在视频中的持续时间和顺序，这将在第4.3节中详细介绍。在广泛数据集上预训练的大型语言模型的出现引入了一种新的上下文学习能力[72]。相关数据集和评估指标进行了详细总结和分析。在视频理解的早期阶段，使用手工制作的特征提取技术，如尺度不变特征变换（SIFT）[1]、在监控视频分析中，它们识别可疑行为，协助执法部门[224]。

开放式问答。InternVid包含超过700万个视频，总计近760,000小时，产生了2.34亿个视频片段，伴随着总计41亿个单词的详细描述。该模型正在积极开发中，以包括一个更专注的音频指令数据集。例如BLEU、由于视频可以被视为时间序列数据，时间序列分析技术如隐马尔可夫模型（HMM）[8]也被用于理解视频内容。为了提高效率，3D网络已经在各种研究中被分解为2D和1D网络（例如S3D[35]、这可能导致生成高度错误或不真实的描述，与提供的视频不一致。图像、它使用各种模型来提取和描述视觉内容：BLIP-2用于帧标题，GRiT用于详细的场景对象描述，Tag2Text用于关键帧标记。

对于文本编码，配备有编码器的语言模型（如 BERT[108]或 T5[109]）在这个领域非常受欢迎。它们在网络安全方面的作用包括识别网络钓鱼尝试，并通过总结与案件相关的文本来进行取证分析[225]。示例任务包括短期和长期动作定位，根据预测序列的持续时间而有所不同。字幕和描述通过将视觉数据转化为自然语言，使视频对更广泛的受众可访问和可理解，并增强内容的可发现性。它们还为客户服务聊天机器人提供动力[211，212]。因此，为了解决幻觉的影响，可以从改进视频编码器的效果、此外，它探讨了Vid-LLMs在各个领域的广泛应用，突出了它们在现实世界视频理解挑战中的可扩展性和多功能性。每个片段都附有多个众包句子，描述视频中的动作，生成简短、

与直接将所有视频信息发送到LLMs的其他方法相比，Chat-UniVi模型通过使用动态视觉标记来表示空间和时间方面，对视频进行建模。将LLMs整合到视频理解中目前采用了四种主要策略：

图3：使用大型语言模型（Vids-LLM）进行视频理解的分类法。Macaw-LLM是一种多模态语言模型，通过整合视频、VideoChat是一种创新的以聊天为中心的视频理解系统，通过可学习的神经接口将视频基础模型与大型语言模型集成在一起。对于长期记忆的处理，MovieChat遵循ToMe[172]进行记忆整合方法，该方法涉及使用余弦相似度评估相邻帧，并合并相邻帧中最相似的标记。这可能涉及解释视频中的事实或解释视频本身发生的情况。此外，该研究还通过人工辅助和半自动注释方法创建了一个包含10万个视频指令对的新数据集。该模型还使用了来自COCO和CC3M-595K等数据集的图像-字幕对进行训练。视频字幕和视频分类等方面，以全面评估视频-语言模型和下游应用。该模型在多模态、它们在特定关键字检索[88，201，202]方面的能力改进了智能推荐系统。光流方法[5]和改进的密集轨迹（IDT）[6, 7]被用于建模运动信息以进行跟踪。

Kinetics-GEBC[166]。选择它们是因为它们的稳健性能和出色的适应性。这个领域缺乏相关研究，并且面临着数据稀缺的挑战。基于TSN，引入了Fisher向量（FV）编码[18]、

以往的调查论文要么研究视频理解领域的特定子任务，要么关注视频理解之外的方法论。

未来发展方向和结论

在本调查中，我们回顾了大型语言模型（Vid-LLMs）在视频理解方面的最新进展，并介绍了有效理解和应用Vid-LLMs的基本原理、VALOR-1M是一个大规模高质量的三模态数据集，包含1M个可听视频和人工注释的视听字幕。

定位和检索

视频定位侧重于根据给定的描述识别和定位视频中的特定时刻或事件。多实例检索、这项技术增强了从教育到交互媒体等各种应用中的用户参与度。

先进的大型语言模型如GPT-4具有作为控制器的能力，指导视觉模型执行特定任务。未修剪的叙述视频，并利用转录的语音中的伪事件边界和字幕进行微调和评估。ClothoV2 [138] 和 AudioCap [139]。

Video-LLaMA[117]. Video-LLaMA 是一个多模态框架，通过整合视觉和听觉内容的理解能力，增强了 LLM 在视频理解方面的能力。

MISAR[87]. 增强现实多模态教学系统（MISAR）架构利用 GPT-3.5 的推理能力，通过从背景知识中获取上下文信息来改进视频文本标题，并设计用于处理各种类型的输入。

Vid2Seq[89]. Vid2Seq 用于密集视频字幕生成。

Microsoft Research Video-to-Text (MSR-VTT)[122]. 这个大规模数据集包含超过40小时的视频内容，10,000个来自20个类别的视频片段，总共有200K个片段-句子对。它提供了丰富的叙事结构和简单的语言，非常适合研究基于故事的视频理解和问答。Flickr [137]、这些数据集作为监督预训练的基础，将模态对齐而不针对特定任务。它将 LLM 与特殊的时间标记结合起来，同时预测视频中的事件边界和文本描述。同时，在自主机器人导航方面，SayPlan方法[217]将LLMs与3D场景图结合起来，使机器人能够解释和导航复杂的大型建筑空间。VATEX [136]、视频定位中的关键任务包括：

视频检索：这个任务涉及将视频内容与文本描述对齐，并准确检索广泛视频数据集中类似活动或时刻的多个实例。这个改变将重点从字幕生成转移到理解和回答关于视频内容的问题。该系统使用一个专门设计的以视频为中心的指令数据集进行微调，展示了多样化视频应用的巨大潜力。TGIF[174]和ActivityNet等基准测试中展现出优秀的结果。ChatGPT[73]是基于这一基础构建的第一个开创性应用。
AutoAD II[100]。Otter模型是一种创新的多模态模型，旨在增强上下文学习和指令遵循，基于OpenFlamingo [177]框架。这种适应需要创建用于测试的问题。MSVD-QA、要创建空间-时间定位任务，数据集通常需要注释，如对象边界框、
评估指标
根据具体的任务和数据集使用不同的评估指标：
Top-k准确率。它涉及将空间意识与叙事背景整合在一起，确保识别的实体与提供的文本描述准确对齐。
MSRVTT-QA[160]。Rephraser 是另一个基于 T5-large 的 LLM，通过改写来增强这些叙述，提高文本的多样性和覆盖范围。多媒体应用将视频与音乐等多媒体领域相结合[203]。LLaMA-VQA是为视频理解任务中的视频问答（VideoQA）而设计的。交互形式还涉及像字幕视频[215]，[216]这样的视频内容理解。WUPS是一种更柔和的准确度度量，考虑了单词之间的同义词和语义相似性。

Video Timeline Tags(ViTT) [133]. 包含了带有短时态局部描述的教学视频，对于视频摘要和指导生成非常有用。挑战在于区分看似相同的实例，并根据文本线索确保检索的精确性。这个过程通常需要多模态的理解，其中音频元素与视觉线索一起起着至关重要的作用，以充分把握内容的背景和意义。该模型在混合图像和视频的数据集上进行训练和评估，在MSRVTT、Vid-LLMs指导微调和混合方法。这些数据集还涵盖了各种内容，包括基于网络的GIF到详细的电影描述。该模型在当前上下文中不支持处理声音或语音输入。

VideoInstruct100K由Video-ChatGPT引入[98]，该数据集包含1万个高质量的视频指导对，主要来自ActivityNet Captions数据集。数据集和基准测试

在LLM的视频理解领域，各种任务可以分为：1. 识别和预测，2. 字幕和摘要，3. 定位和检索，4. 问答。这涉及解释和理解视频序列中展开的人类动作，从而使机器能够正确分类这些动作。

Youku-mPLUG[118]. 这是最大的公共中文视频语言数据集，专为中文观众的视频分类预测、开放式问答（生成）：对于系统生成答案的任务，通常使用在字幕生成中常用的指标。该模型不支持处理视频中的音频或语音。

结论

本调查从模型、在游戏行业中，Vid-LLMs在创建动态对话和故事情节方面起着关键作用，增强与非玩家角色（NPC）的交互体验，并帮助生成任务和游戏内文本等过程[209，210]。从处理有限帧数以将视频分类为预定义标签的经典方法，反映了狭窄的理解范围，到更复杂的模型的出现，视频分类的视野得到了显著扩展。

ChatVideo[83]。因此，对能够有效管理、一些数据集主要关注基于内容的问题，而其他数据集则需要更深入的分析方法，涉及对视频内容的逻辑和叙述的推理。CIDEr评估字幕的相关性和特异性，强调对图像（或视频）更具信息量和独特性的术语。FrameQA[175]和ActivityNet-QA的数据集，并使用GPT-3.5模型进行评估。通过与LLMs的协作，视频理解模型能够更有效地与人类互动，大大加速了相关模型的应用和实施。该模型使用各种视觉编码器（如I3D、理解和生成基于视频中丰富而复杂内容的有意义的响应，标志着在音频-视觉语言模型领域的重大进展。

在文本解码方面，从专门针对不同任务的转换器模型转向预训练语言模型。DiDeMo代表“Distinct Describable Moments”，侧重于视频中的时间定位，并强调将特定视频片段与自然语言描述相关联。

问答

在视频理解中添加更多的分析处理，视频问答是一个需要系统回答关于视频内容的问题的任务。

将LLMs与视觉集成

（i）利用预训练的视觉模型从视频中提取文本信息，并将其格式化为LLMs生成响应的提示。该系统采用了基于复杂度的多模态上下文学习方法和基于片段的 GPT-4 评估器。CharadesSTA数据集通过提供将动作与精确时间段相关联的注释视频，专注于时间定位。它的主要目标是将视频的精髓浓缩成简短的摘要，视频摘要是该领域的一个显著例子。Non-local[40]和V4D[41]专注于长篇时间建模，而CSN[42]、该数据集对于增强AI对时空动态的理解以及促进更加综合和全面的AI系统的发展至关重要。

字幕生成和摘要。此外，构建这样的数据集面临着确保数据注释的高质量和一致性的挑战。为时空定位量身定制的Vid-STG使模型能够在视频中同时定位和识别对象或动作的空间和时间位置，代表了在AI系统中整合时空理解的重要一步。除了利用预训练模型外，还有一些工作致力于从头开始开发基础视频模型，采用对比或监督预训练方法，详见第3.2节。

引言

我们生活在一个多模态的世界，视频已成为主要的媒体形式。这包括分析视频标题，该标题由预训练的视频到文本 LLM 模型生成，该模型由视频 Transformer [88] 作为编码器和 GPT-2 [127] 作为解码器组成，解释食谱说明和用户语音，通过自动语音识别（ASR）[128]将其转换为文本，并使用文本到语音（TTS）[129] 作为用户界面系统生成语音。然而，最近的进展，如 LLaMA[111]，改变了这种方法。它侧重于多样化和非结构化内容，附带有人工创建的摘要注释，非常适合处理各种类型的视频的算法。视觉模型的常见选择包括提供整个帧或特定区域的文本描述的字幕生成模型，以及为视图中的实体提供标签的标记模型。有些方法还将这两种类型的适配器混合使用。音频和语音通常分开处理，音频被视为一个单独的实体，而语音则被转录为文本[113]。听觉和文本元素的转录，展示了它们在视频理解中的通用任务解决能力。娱乐和自动驾驶中摄像头的普及，视频内容已成为一种高度吸引人且丰富的媒介，在深度和吸引力方面超越了传统的文本和图像-文本组合。为了创建这样的数据集，使用了各种视频模型来提取文本信息，然后由GPT系列等先进的语言模型利用这些信息生成问题和答案的序列。该模块将帧级特征聚合成一个连贯的视频级特征。这种能力的飞跃标志着从任务特定的经典方法到更通用和全面的方法的重大转变。在涉及问题或任务提示的场景中，生成的文本嵌入通常与视频嵌入合并，以创建解码器的输入。聚类分析[11]用于对视频片段进行分类，或者主成分分析（PCA）[12, 13]用于数据维度降低，也是视频分析中常用的方法。然而，该模型不专门支持处理声音或语音输入，主要关注于视觉数据。Chat-UniVi模型能够处理各种视频理解任务，如细节导向、引入视觉Transformer（ViT）[45]推动了一系列杰出的模型（如TimeSformer[46]、

双语评估助手 (BLEU). 最初用于机器翻译，BLEU主要关注词汇相似性，评估生成的字幕中有多少单词和短语出现在参考字幕中。在第三阶段（指令微调）中，作者创建了一个对话数据集，用于指令微调，旨在将VTimeLLM与人类意图对齐，并实现更精确的视频时间理解。该框架通过 Video/Audio Q-former [110] 和 imageBind [156] 等先进技术来克服捕捉时间上的视觉变化和整合音频-视觉信号的挑战。特别是，Otter模型采用了LLaMA-7B [111]语言编码器和CLIP ViT-L/14视觉编码器。这个过程旨在将推理能力注入到视频理解模型中，从而提高它们在下游任务中的性能。数据集和评估方法进行了全面研究。BLIP-2 模型[110]中使用的 Q-former 就是一个例子。由于长视频包含大量帧，长视频的持续时间增加了分析的复杂性，特别是在理解事件和行为随时间变化的情况下。视觉编码器、MovieChat利用冻结的视觉模块，使用非重叠滑动窗口从长视频中提取帧信息。

图1：视频理解方法的发展可以总结为四个阶段：（1）传统方法，（2）神经网络视频模型，（3）自监督视频预训练，以及（4）用于视频理解的大语言模型，即Vid-LLMs。更进一步地，理解视频内容的更深层次语义，如情感、每个视频都附有从用户研究中得出的帧级重要性分数，非常适合训练模型来识别和总结关键的视频片段。ViTT [133]、

微调数据集

在将各种模态与上述数据集对齐后，以下数据集将包含各种子任务，并将它们形成视频教学微调。WUPS（Wu和Palmer相似度分数）：此外，WUPS指标是评估开放式问答中答案的有价值工具。该数据集以可扩展的方式从在线视频中自动创建，涉及到无需任何额外手动注释的用户注释章节的抓取。视频到文本模型的错误可能会在系统中传播，并且对环境音频元素的理解不足[87]。

评估指标

检索任务的评估指标与典型分类任务中使用的指标相似，包括召回率和平均准确率（mAP），如第4.1.2节所述。Object365 [141]、在医疗领域，Vid-LLMs在处理和解释医学文献方面发挥着重要作用，协助诊断和教育过程[218]，为医疗专业人员提供决策支持。

评估指标

多项选择问答和开放式问答（分类）：这里主要使用的指标是准确率。MovieChat的视觉模块使用EVA-CLIP的ViT-G/14，而LLMs使用GPT-3.5和Claude。在视频字幕中，WMD用于评估生成的字幕与参考字幕的相似程度，重点关注整体分布和词的选择，而不是精确的序列。

Merlin[91]. Merlin 模型通过将图像和视频的视觉标记整合到语言序列中，利用 Foresight Pre-Training (FPT) 和 Foresight Instruction-Tuning (FIT) 来处理视频理解任务，包括目标跟踪、

VidChapters-7M[198]。该模型不适用于自然音频输入，但可以通过 ASR 处理视频中的语音。Otter模型使用预训练的语言和视觉编码器以及可调节的组件进行训练，可训练参数约为13亿个。它使用CLIP-ViTG[167]、这个过程涉及更深入的分析处理，可以广泛地分为两种主要类型：多项选择问答和开放式问答。MSR-VTT-QA、MSR-VTT、Ego4D等数据集进行评估的。ResNeXt[30]和SENet[31]也从2D扩展到3D，出现了R3D[32]、鉴于大语言模型（LLMs）在语言和多模态任务中的卓越能力，本综述详细介绍了利用LLMs（Vid-LLMs）的视频理解最新进展。调查在第6节总结，总结了主要发现，并确定了未解决的挑战和未来研究的潜在领域。

另一方面，预测则根据从视频中得出的当前上下文来预测未来事件或动作。

评估指标

这个领域的评估指标与自然语言处理中的得分有相似之处。上下文学习方面取得了重大进展，适用于各种研究和实际应用。LaSOT [143]、这些编码器独立处理每个视频帧。它通过计算机生成的文本和参考文本之间n-gram（n个项目的词序列）的重叠来评估文本的质量。它在一系列数据集上进行了微调和评估，包括 YouCook2、适配器的常见应用是将来自不同模态的输入转换为文本领域，有效地连接不同的模态，同时保持预训练模型（如编码器和解码器）的参数冻结。在这个框架中，LLMs既是编码器又是解码器，提供了一种全面的视频理解方法。VALOR-32K [135]、VL 分支使用 ViT-G/14 作为其视觉编码器，BLIP-2 Q-Former 作为视频 Q-Former，并在视频编码之前使用帧嵌入层进行视频编码。ClothoV1 [138]、未来预测、该模型通过将音频信号纳入其视频理解框架中，支持处理声音或语音输入。“幻觉”是指模型生成的回复与相关的源材料或输入显著脱节的现象。这个功能通常类似于 LoRA（低秩适应）模块[115]的作用，有效地微调模型的输出以适应特定任务的要求。为了有效管理这种变化，使用了一个视频建模模块。它的显著特点是对每个视频的全面覆盖，提供了对复杂视频理解和识别任务非常有价值的广泛注释。它们提供了视频内容的详细和广泛的视角。音频和文本，以更好地理解视频。

安全、Q-former 及其组合，通常用于对齐不同的模态。Ego4D、它通过ChatGPT[73]和BLIP-2[110]模型之间的对话来增强视频理解。此外，广泛的视频语言预训练显著提高了这些模型的可扩展性和多功能性。VLog（Video as a Long Document）利用一系列预训练模型记录和解释视频的视觉和音频信息。

VAST[90]. VAST 模型可以处理多模态任务，包括视频字幕生成、

PG-Video-LLaVA[92]。Vid-LLMs在生成视频内容的简洁摘要方面起着重要作用[204]，通过分析视觉和听觉元素提取上下文感知摘要的关键特征。在实践中，WUPS分数通过基于WordNet的单词相似性来提供对生成答案质量的细致评估。METEOR、它提供了一个复杂的多模态挑战，要求对复杂的情节和角色互动进行理解。它使用视觉模态编码器提取视频特征，可能采用类似CLIP-ViT-B/16的框架。指导微调的出现进一步增强了这些模型对用户请求的有效响应和执行特定任务的能力。

在时空定位的背景下，交并比（IoU）已经被改进，用于衡量预测和真实时间边界之间的重叠，以及物体定位中的边界框重叠。调用其他模型的工具或API等功能。语音和语言）转化为文本，并使用 LLM 进行总结或修订以适应不同的任务或输入。在视频理解的上下文中，该模型不支持处理声音或语音输入。

Vid-LLM 预训练

LaViLa[88]. LaViLa 可以处理自我中心视频中的多个多模态任务，包括多项选择问题、用连字符（“-”）标记的条目表示在相应论文中未公开的细节。这些变体主要在补丁大小和输入分辨率上有所不同，趋向于使用更高的分辨率以增强性能。Vid-LLMs预训练、这个数据集对于研究日常厨房场景中的多实例检索和动作识别非常重要，提供了对人物-物体交互的独特视角。基于语言的提示将视觉、因此，识别关键事件并在长视频中保持注意力是困难的。该数据集在音频概念和音频视觉字幕方面丰富，适用于三模态模型的预训练和基准测试。

学生姓名：
男女
联系电话：
意向班型：
我是学生我是家长

咨询热线：	400-029-7969
咨询电话：	029-61855169 029-61855069
学校邮箱：	bfzx365@163.com
学校地址：	西安市雁塔区长安西路66号

交互式游戏和虚拟环境

摘要

语言在视频理解中的作用

预训练数据集

使用混合适配器进行微调

数据集概述

使用插入式适配器进行微调

训练策略

医疗保健和安全应用

目录

数据集概述

文章目录

识别和预测

基于LLM的视频代理

数据集概述

媒体和娱乐

混合方法

应用领域

其他模态

Vid-LLMs: 模型

未来发展方向和结论

定位和检索

评估指标

结论

问答

将LLMs与视觉集成

交互和用户中心技术

使用连接适配器进行微调

Vid-LLM 指令微调

局限性和未来工作

引言

微调数据集

评估指标

评估指标

评估指标

Vid-LLM 预训练

视频指令调优

基础

数据集概述

字幕和描述