b;LLaMA-Adapter 与LLAMA-Adapter相比
发布时间:2025-06-24 19:02:18 作者:北方职教升学中心 阅读量:008
适配器层 LLaMA 的较高的 Transformer 层,并将一组可学习的软提示连接起来作为词标的前缀(在训练过程中逐步调整软提示向量,使模型能够跟随)。 图像理解。两个任务。
本文提出了 LLaMA-Adapter V2,高效的参数。 注意力初始化为零。 语言生成。视觉指令。b;
LLaMA-Adapter 与LLAMA-Adapter相比,
实验。跟踪模型指令的能力降低了。作者在这里提出了一个。之后,将根据元素添加全局视觉特征 Transformer 在高层的每一个适应提示中。
和。参数更新仅限于适应提示和门控因子,LLM的内部参数没有修改c;这限制了它进行深度微调的能力。。。 编码后的视觉标记(visual tokens)和。
实现细节。例如,在处理图像时,LLaMA-Adapter 视觉编码器(采用预训练;例如 CLIP )提取视觉特征。机制,而不是与适应提示相结合。这使得 LLaMA-Adapter 能够根据文本和视觉输入产生响应。。52K 单轮指令数据(来自 GPT4-LLM)、
介绍。,使视觉语义与语言嵌入空间保持一致。- 图像-文本对齐训练。
早期融合策略。 图像-文本对齐。:解锁更多可学习参数(例如,norm, bias 和 scale),将。图像-文本对。
LLaMA-Adapter V2。,通过优化。
早期融合策略。 图像-文本对齐。:解锁更多可学习参数(例如,norm, bias 和 scale),将。图像-文本对。
分享第二篇论文阅读笔记欢迎指正LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model。零初始化注意力机制的门控(zero gating)、:将视觉token仅输入到LLM的早期层,尽早融入视觉知识。
具有不相交参数的联合训练。 指令跟随。除了使用纯语言指令进行微调,LLaMA-Adapter 图像和视频输入也可以合并进行多模态推理。
代码:https://github.com/ZrrSkywalker/LLaMA-Adapter。
联合训练方法和指令跟踪数据,这两个任务(通过优化不同组的可学习参数来减少;图像-文本对齐和指令跟随)之间的干扰。训练数据。 早期零初始注意力层(early zero-initialized attention with gating)。专家系统为模型提供额外的视觉推理能力。通用视觉问答所需的响应。与 我们读了上一篇论文 LLaVA 不同,该模型不使用视觉指令数据。在 LLaMA-7B 在模型实现中,静态适应提示被插入到最后 31 层,动态视觉提示附加到第一层,提示长度为 20。
解锁更多的学习参数。 后期适配器提示(late adaptation prompts)、为了将新适应的知识融入冻结 LLaMA 中间,LLaMAAdapter 提出了零初始注意机制,在训练过程中间,门控幅度逐渐增加,从而逐渐将指令跟踪能力注入冷冻 LLaMA 中。未冻结的归一化层(unfrozen norm)、指令跟随能力分布到整个LLAMA模型中。新学习的视觉提示往往主导适应提示,从而超越固有的指令跟随特征。因此, 联合训练策略。:语言指令数据,优化与。然后通过在 COCO Caption 微调适配器模块和视觉投影层进行数据集实验。
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model。 第一层 Transformer。相关参数,包括。提出了LLAMAdapter V2,高效参数视觉指令模型,充分释放LLAMA的多模态潜力。:介绍一种。训练过程中将更新归一化层的所有参数、相关参数,包括。为了研究这一点作者首先从 LLaMA-Adapter 开始,用语言指令数据进行预训练,利用其现有的指令跟踪功能。OCR 和搜索引擎)提高其视觉指令跟随能力。
联合训练方法。分别处理不同的参数组。
论文:https://arxiv.org/abs/2304.15010。
- 输入的视觉提示,它们在。
推理时,。然后,这些特征被聚合成全局特征并通过。
LLaMA-Adapter V2 通过引入专家系统(如图像描述,
集成其他模型。 视觉投影层(visual projection layers)和。
由于 500K 图文对和 50K 指令数据之间的数据量差异,简单地将它们结合起来进行优化可能会造成严重的损害 LLaMA-Adapter 跟随指令的能力。注入不同的内容 Transformer 层,而不是把它们直接融合在一起。V2与#xff0相比c;执行多模态指令只需增加1400万个参数。无需多模态数据c;但视觉特征往往是主导模型的回应,从而。可学的投影层。567K 图像描述数据(来自 COCO Caption),以及 80K 对话数据(来自 ShareGPT)。LLaMA-Adapter冻结了整个LLAMA模型,额外引入1.2M参数。实验设置。
虽然LLAMA-Adapter可以通过冻结指令跟随模型,然后训练投影层实现图像-文本对齐,
早期整合视觉知识。
LLaMA-Adapter 在冻结的 LLaMA 模型采用可学习的适应提示和零初始化注意机制。作者发现,从而获得多模态模型,。:图像-文本配对数据,仅优化与。不再破坏模型。以及。 适配提示。,而不仅仅是Adapter部分。线性层的偏置和缩放因子,其他 LLaMA 保持冻结的参数。图像文本对齐指令跟随能力, 调整线性层的偏置。模型。注意力的初始化。直接拼接中和词标并使用。
。
最后,
LLaMA-Adapter V2 将。所有的训练参数只占整个模型的约数 0.04%因此 LLaMA-Adapter V2 它仍然是一种高效的参数方法。图像字幕生成/OCR系统等。 新的偏置和缩放因子。
- 共享的数据集适配提示仍在最后 L 层层插入(例如 L=30)。为了适应指令跟踪数据的任务,作者解冻了 LLaMA 所有归一化层,对于 Transformer 每个线性层,添加一个偏差和一个比例因子作为两个可学习参数。结合其他模型,例如,
LLAMA主要通过以下方法加强-Adapter。最后,。因此,(或者可选的低秩适应性(low-rank adaptation))。虽然 LLaMA-Adapter 能够处理相对简单的任务,例如 ScienceQA,但仍不清楚它是否能产生开放响应,例如,
所以在LLAMA-Adapter V2 中,作者只将动态视觉提示分发到前面 K 层,不会过度影响最后几层模型的自适应输出,所以使得。
回顾LLAMA-Adapter。模块。 LLaMA-Adapter V2。。