Flickr30K Entities for Phrase Grounding

发布时间:2025-06-24 20:45:54  作者:北方职教升学中心  阅读量:191


在这里插入图片描述

这里使用的mark都是真正的价值 mark。P和F1的精度 score。

总之,过去的工作不能兼顾grounding和chat,bbox坐标框ÿ只能提供c;grouning和refering无法实现像素级。
在这里插入图片描述
这一阶段使用的数据是Grounded Visual Chat,不包括视觉提示。
在这里插入图片描述

对话数据:问题来自一堆预设问题的随机选择,答案是数据集中图像的captain。R、
  • Grounding-Bench,用于评估grounded chat,并且可以使用GPT4辅助评估。(注意区分GPT4࿰是什么c;什么是LLAVA)。框等(visual prompt,SAM的做法),

    输出自然语言回答#43;Box/Mask等目标对应。
    与此同时,

    值得注意的是,以下流程如下::

  • iou的选择和gt不小于0.5的预测框;
  • groundeded由预测框和模型输出的chat组成 response,下图;
  • 在这里插入图片描述

    使用GPT-4计算TP࿰与GT的语义匹配度c;下图正确匹配4个refer和3个实体;

    计算得分P、
    在这里插入图片描述
    GPT-4生成࿰只使用语言对话c;来自COCO的图像和grounding标记。

    LLM:Vicuna7b v1.3。为了训练没有grounding的对话能力。

    论文链接:https://arxiv.org/pdf/2304.08485。

    Flickr30K Entities for Phrase Grounding。

    1. Evaluate Chat Scores: 去掉grounding和box࿰的特殊标记c;计算纯chat的语言分数。

      项目链接:https://llava-vl.github.io/llava-grounding/。直接在目标上标记数字编号:

      训练数据会变成这样:
      6. Grounding-Bench。
      LLAVA架构+prompt encoder+grounding model。

      在这里插入图片描述
      7.3 Traditional Grounding Benchmarks。
      在这里插入图片描述
      训练的三个阶段。

      以下是预设问题:
      Feature and granularity alignment for grounding model。 clicks, and boxes。

      本阶段训练的参数包括:
      5.2 Stage 2: Instruction tuning for grounded visual chat。在这个阶段,冻结 CLIP 视觉编码器󿀌训练其他部分。

      1. background&motivation。c;传统bench也很有竞争力。

      训练任务:

      只有绿色部分参与计算自回归损失。所有LMM都使用了自己的prompt。

      7.5 可视化。

      除了自然语言答案࿰外,
      在这里插入图片描述
      全模型输入图像Ʊ用户标的点、主要问题是:缺少grounded visual chat dataset(GVC)。LLM的输出c;grounding࿰将输出一个特性Xgc;这些特征在LLM输出中,<seg>标记最后一层的特征。这是两种数据的集成,以下是最终输出的数据格式:
      在这里插入图片描述

      object短语将在每个句子中使用 <gs><ge>识别,和一个特殊的token在一起<seg>。

    2. Evaluate Grounded Response Scores:包括召回率R、绿、

      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

      验证模型支持各种visuall 包括marks的prompts,
      为了加强grounding功能RefCOCO/+/g, COCO 2017train,7.6 消融。buboGPT model获取grounding能力,但是grounding languageel在model中 encoder会影响模型的整体性能。

      RefCOCO/+/g for Referring Expression Comprehension (REC,框选图中的目标根据详细描述) and Referring Expression Segmentation (RES,像素级分割目标的详细描述)。

      keypoints。
      4.2 Grounding model。本文构建了GVC数据集,同时提出了Grounding-Bench。

      精读。
      4.1 Prompt encoder。

      stage1:训练grounding model, prompt encoder, and projection layers,lr:1e-4。GT的visual用于训练数据 将prompt作为输入来预测captions。
      Grounding-Bench左侧1000张图的评估结果,右边是LLAVA Bench 30张图片的结果。

    3. LLAVAGrounding࿰,

      值得注意的是,
      在这里插入图片描述
      REC弱于CogVLM-Grounding-LMM࿰除17B以外c;作者说是因为他们使用了更大的visual encoder和连接器。F。
      5.1 Stage 1: Pretraining for alignment.。

      stage2:LLM和projection训练 layers,lr:2e-5。
      在这里插入图片描述
      关注视觉编码器的特征对齐和grounding模型的粒度对齐。
      LLaVA 585K and Flickr30K包含图像-caption对,用于训练投射矩阵W。
      3. Grounded Visual Chat Data Creation。
      在这里插入图片描述
      GVC数据的生成过程如下:

      图中,Context type1(bbox的对象和坐标框;type2(caption)图像描述;GPT4将被输入到上下文学习࿰中c;在type2的句子中,

      7.2 Grounding-Bench。输入语言embedding中有特殊的tokeng <obj> 作为占位符󿀌Prompt encoder的输出将取代它。端到端模型c;MLLM主要连接grounding model获取grounding能力,grounding࿰支持对象级和像素级c;支持各种视觉提示包括:mark, click, box, and scribble,上图是与其他工作的对比。,Xp(输入视觉提示)Xg(Grounding输出特性)是可选的。MiniGPT-v2、二阶段和三阶段。

      本文结构的基准,用于测量模型的grounded visual chat能力󿀌想弄清楚这里的意思,不仅仅是对话能力,也不是ground能力。

      7 实验。例如,
      在这里插入图片描述

      5.3 Stage 3: Extension to visual prompt.。

      在这里插入图片描述
      模型输入图像和用户指令c;输出带边界框的图像描述,每个边界框对应一个短语。Grounded用于LLAVA-G最终输入外部 在model中,输出相应的框架或盖子。
      在这里插入图片描述

      总之,过去的工作不能兼顾grounding和chat,bbox坐标框ÿ只能提供c;grouning和refering无法实现像素级。局限性:语义范围有局限性,未来的工作可以探索将数据集和数据标记方法扩展到开放词汇设置。

      ground࿰是用户提问中的对象c;object在提问中也会被标记,作为grounded 输入model,因此GVC问答数据的最终格式如下:
      4. Network Architectures。
      7 实验。

      语言自回归损失与LLAVA相同,包括answer tokens和stop tokens,

      ground损失包括box、Grounded用于LLAVA-G最终输入外部 在model中,输出相应的框架或盖子。

      论文名称:Visual Instruction Tuning。
      Semanticc用于预训练-SAM。
      在这里插入图片描述
      对话结构不同:
      RefCOCO/+/g and Visual Genome,从以下问题中选择󿀌答案仅仅是<seg>。

      包括两个主要方面:聊天分数和ground response分数。

      在自建数据集GVC上进行实验。

      使用的数据集如下:

      蓝、这些模型很难。
      Feature alignment for vision encoder.。

      1. 2. Contribution。
        评估分数。
        该模块将从原始图像和用户提供的visual中提供 从prompt中提取视觉特征。 Visual Genome, and Flickr30K Entities。LaVA的一些模型-PLUS / 通过外部grounding,
        grounding model:the vision part of an OpenSeeD Tiny model pretrained on COCO and Object365。使用数据为 LLAVA 158K 跟踪数据的指令。
        在这里插入图片描述
        可选༚Set-of-Mark (SoM) prompts。

        使用MSCOCO val中的数据,使用本文前面提到的数据结构方法,获得1000张图+7000实体。
        在这里插入图片描述

        Grounding࿰使用LLM最后一个隐藏层的特征c;其中<seg>相应的Xg被矩阵Wg映射到grounding modelvocabulary space。

        7.4 Visual Prompts。为了保证最佳性能,

        虽然目前的多模态模型可以支持grounding的能力,但grounding能力和chat能力是分开的,当模型被问及grounding的能力时,它们的chat能力明显下降。
        在这里插入图片描述

        不同于视觉提示,这是直接在图像上标记目标,例如,这是由于缺乏数据和模型架构不合理造成的。评估算法如下:。

        特征Xg首先用训练矩阵投射到grounding space,然后输入预训练模型OpenSeed,用于输出最终bbox和mask。

        这一阶段是支持训练模型的视觉提示,只训练visual prompt encoder及其投射矩阵Wp。
        模型在主流bench上也很有竞争力a;RefCOCO/+/g and Flickr30K。
        7.1 实验设置。红分别用于一阶段、

        认识到视觉grounding能力在多模态模型中的重要性,许多现有的团队开始研究grounding和refering的能力。mask和匹配损失󿼌box和mask损失仅用于训练ground模型󿀌匹配损失也会传播到语言模型中。
        interactive encoder:Semantic-SAM Tiny model pretrained on COCO with three granularities。GPT4将在type1中找到object,并在句子中标出。CogVLM-Grounding,当前模型处理grounding问题时,将其作为一项独特的任务,需要使用独特的提示,只能生成相对较短的caption(Flickr30k导致的训练数据集),同时兼顾grounding和chat,
        使用LLAVA instruction tuning data格式,参考:
        http://t.csdnimg.cn/u1qm4。

      2. 引入一个标有pipeline和xff的数据c;手动标记的数据(coco等。
        这一阶段的损失包括自回归损失和grounding损失。;结合GPYT-4的对话生成能力,可用于生成高质量的Groundeded Visual Chat (GVC) data,成功获得了包含150K实例的成功 GVC数据。
        5. Training。
        在这里插入图片描述
        grounding训练 model,lr:1e-4。

        任务定义。

      Grounding-Bench,用于评估grounded chat,并且可以使用GPT4辅助评估

      在这里插入图片描述
      在这个Grounding-Bench上明显优于其他MLLM࿰。用于对齐LLM输出Xg和grounding model的词表。

      然后用一个简单的线性投影层将视觉特征映射到与语言模型相同维度的embedding中 tokens。