此对象继承自 PreTrainedTokenizer

发布时间:2025-06-24 19:14:59  作者:北方职教升学中心  阅读量:102


三、当存在歧义时,单词将简单地使用单词的第一个标记的标签。仅当 return_text设置为 True 时才有意义。
  • tokenizer ( PreTrainedTokenizer ) — 管道将使用其对模型的数据进行编码的 tokenizer。仅当标记器中的偏移量可用时才存在
  • endint可选)— 句子中相应实体的结尾索引。一些流行的标记分类子任务是命名实体识别 (NER) 和词性 (PoS) 标记。引言 

    二、模型排名等方面进行介绍,读者可以基于pipeline使用文中的2行代码极简的使用NLP中的令牌分类(token-classification)模型。

  • 2.3.2 pipeline对象使用参数 

    • text_inputsstrList[str],List[Dict[str, str]],或List[List[Dict[str, str]]])— 需要完成的一个或多个提示(或一个提示列表)。

      RoBERTa 是一个以自监督方式在大型语料库上进行预训练的 transformers 模型。总结


      一、

    • batch_sizeint可选,默认为 1)— 当管道将使用DataLoader(传递数据集时,在 Pytorch 模型的 GPU 上)时,要使用的批次的大小,对于推理来说,这并不总是有益的,请阅读使用管道进行批处理。它已在包含 100 种语言的 2.5TB 经过筛选的 CommonCrawl 数据上进行了预训练。仅适用于快速标记器,与aggregation_strategy不同NONE

      2.3 pipeline参数

      2.3.1 pipeline对象实例化参数

      • model(PreTrainedModel或TFPreTrainedModel)— 管道将使用其进行预测的模型。
      • strideint可选)— 如果提供了 stride,则管道将应用于所有文本。将其设置为 -1 将利用 CPU,设置为正数将在关联的 CUDA 设备 ID 上运行模型。
      • aggregation_strategystr可选,默认为"none")—根据模型预测融合(或不融合)标记的策略。
      • startint可选)— 句子中相应实体的起始索引。 对于 PyTorch,这需要从PreTrainedModel继承;对于 TensorFlow,这需要从TFPreTrainedModel继承。

        目录

        一、

      • “average” :(仅适用于基于单词的模型)将使用SIMPLE除单词之外的策略,不能以不同的标签结束。令牌分类(token-classification)

        2.1 概述

        2.2 Facebook AI/XLM-RoBERTa

        2.3 pipeline参数

        2.3.1 pipeline对象实例化参数

        2.3.2 pipeline对象使用参数 

        2.3.3 pipeline返回参数 ​​​​​​​​​​​​​​

        2.4 pipeline实战

        2.5 模型排名

        三、

        如果未指定框架,则默认为当前安装的框架。共计覆盖32万个模型

        今天介绍NLP自然语言处理的第八篇:令牌分类(token-classification),在huggingface库内有2万个文本生成(text-generation)模型。这些缓解措施只对真实的词语起作用,“纽约”可能仍然被标记为两个不同的实体。

        二、

      • grouped_entities ( bool可选,默认为False) — 已弃用,请使用aggregation_strategy。您可以传递本机torch.devicestr
      • torch_dtypestrtorch.dtype可选) - 直接发送model_kwargs(只是一种更简单的快捷方式)以使用此模型的可用精度(torch.float16,,torch.bfloat16...或"auto"
      • binary_outputbool可选,默认为False)——标志指示管道的输出是否应以序列化格式(即 pickle)或原始输出数据(例如文本)进行。

        2.2 Facebook AI/XLM-RoBERTa

        XLM-RoBERTa 是 RoBERTa 的多语言版本。 寻找 FIRST、这意味着它只在原始文本上进行预训练,没有任何人工标记(这就是它可以使用大量公开数据的原因),并有一个自动流程从这些文本中生成输入和标签。 在基于单词的语言中,我们可能会不合需要地拆分单词:想象一下 Microsoft 被标记为 [{“word”: “Micro”, “entity”: “ENTERPRISE”}, {“word”: “soft”, “entity”: “NAME”}]。多模态(Multimodal)等4大类,28小类任务(tasks)。总结

    本文对transformers之pipeline的令牌分类(token-classification)从概述、

  • return_tensors ( bool可选,默认为False) — 是否在输出中返回预测的张量(作为标记索引)。 (A, B-TAG), (B, I​​-TAG), (C, I-TAG), (D, B-TAG2) (E, B-TAG2) 最终将变为 [{“word”: ABC, “entity”: “TAG”}, {“word”: “D”, “entity”: “TAG2”}, {“word”: “E”, “entity”: “TAG2”}] 请注意,两个连续的 B 标签最终将成为不同的实体。名词和标点符号。令牌分类(token-classification)

    2.1 概述

    标记分类是一种自然语言理解任务,其中为文本中的某些标记分配标签。可以训练 NER 模型来识别文本中的特定实体,例如日期、这与通常一个接一个地看到单词的传统循环神经网络 (RNN) 或内部屏蔽未来标记的 GPT 等自回归模型不同。换句话说,模型将tokenizer.model_max_length - stride每一步向前移动标记。此参数的值定义块之间重叠标记的数量。

  • return_full_textbool可选,默认为True)— 如果设置为,False则仅返回添加的文本,否则返回全文。传递聊天时,将使用模型的聊天模板对其进行格式化,然后再将其传递给模型。它允许模型学习句子的双向表示。
  • return_textbool可选,默认为True)— 是否在输出中返回解码后的文本。pipeline参数、
  • handle_long_generationstr可选)— 默认情况下,此管道不处理长生成(以某种形式超出模型最大长度的生成)。
  • args_parser(ArgumentHandler,可选) - 引用负责解析提供的管道参数的对象。如果设置为 True,则不返回解码后的文本。
  • “first” :(仅适用于基于单词的模型)将使用SIMPLE除了单词之外的策略,不能以不同的标签结尾。"none"
  • indexint,仅当存在时aggregation_strategy="none")——句子中对应标记的索引。此对象继承自 PreTrainedTokenizer。如果您想要获得原始句子中的精确字符串,请使用startend
  • ignore_labelsList[str],默认为["O"])— 要忽略的标签列表。自然语言处理(NLP)、
  • scorefloat)—— 的对应概率entity
  • deviceint可选,默认为 -1)— CPU/GPU 支持的设备序号。
  • clean_up_tokenization_spacesbool可选,默认为True)—是否清理文本输出中可能出现的额外空格。技术原理、
    • “none” :不会进行任何聚合,仅返回模型的原始结果
    • “simple” :将尝试按照默认模式对实体进行分组。是否在预测中将与同一实体相对应的标记分组在一起。
    • generate_kwargsdict可选)——传递给模型的生成方法的附加关键字参数(请参阅此处与您的框架相对应的生成方法)。

      通过这种方式,模型可以学习 100 种语言的内部表征,然后可以使用这些表征提取对下游任务有用的特征:例如,如果您有一个带标签的句子数据集,则可以使用 XLM-RoBERTa 模型生成的特征作为输入来训练标准分类器。计算机视觉(Computer vision)、

    • frameworkstr可选)— 要使用的框架,"pt"适用于 PyTorch 或"tf"TensorFlow。分数将首先在标记之间取平均值,然后应用最大标签。个人和地点;而 PoS 标记可以识别文本中的哪些词是动词、

      更准确地说,它是使用掩码语言建模 (MLM) 目标进行预训练的。引言 

       pipeline(管道)是huggingface transformers库中一种极简方式使用大模型推理的抽象,将所有大模型分为音频(Audio)、

    • prefixstr可选)— 添加到提示的前缀。如果未指定框架且安装了两个框架,则默认为 的框架model,如果未提供模型,则默认为 PyTorch。

      期待您的3连+关注,如何还有时间,欢迎阅读我的其他文章:

      《Transformers-Pipeline概述》

      【人工智能】Transformers之Pipeline(概述):30w+大模型极简应用

      《Transformers-Pipeline 第一章:音频(Audio)篇》

      【人工智能】Transformers之Pipeline(一):音频分类(audio-classification)

      【人工智能】Transformers之Pipeline(二):自动语音识别(automatic-speech-recognition)

      【人工智能】Transformers之Pipeline(三):文本转音频(text-to-audio/text-to-speech)

      【人工智能】Transformers之Pipeline(四):零样本音频分类(zero-shot-audio-classification)

      《Transformers-Pipeline 第二章:计算机视觉(CV)篇》

      【人工智能】Transformers之Pipeline(五):深度估计(depth-estimation)

      【人工智能】Transformers之Pipeline(六):图像分类(image-classification)

      【人工智能】Transformers之Pipeline(七):图像分割(image-segmentation)

      【人工智能】Transformers之Pipeline(八):图生图(image-to-image)

      【人工智能】Transformers之Pipeline(九):物体检测(object-detection)

      【人工智能】Transformers之Pipeline(十):视频分类(video-classification)

      【人工智能】Transformers之Pipeline(十一):零样本图片分类(zero-shot-image-classification)

      【人工智能】Transformers之Pipeline(十二):零样本物体检测(zero-shot-object-detection)​​​​​​​

      《Transformers-Pipeline 第三章:自然语言处理(NLP)篇》

      【人工智能】Transformers之Pipeline(十三):填充蒙版(fill-mask)​​​​​​​

      【人工智能】Transformers之Pipeline(十四):问答(question-answering)

      【人工智能】Transformers之Pipeline(十五):总结(summarization)

      【人工智能】Transformers之Pipeline(十六):表格问答(table-question-answering)

      【人工智能】Transformers之Pipeline(十七):文本分类(text-classification)

      【人工智能】Transformers之Pipeline(十八):文本生成(text-generation)​​​​​​​

      【人工智能】Transformers之Pipeline(十九):文生文(text2text-generation)

      【人工智能】Transformers之Pipeline(二十):令牌分类(token-classification)

      【人工智能】Transformers之Pipeline(二十一):翻译(translation)

      【人工智能】Transformers之Pipeline(二十二):零样本文本分类(zero-shot-classification)

      《Transformers-Pipeline 第四章:多模态(Multimodal)篇》

      【人工智能】Transformers之Pipeline(二十三):文档问答(document-question-answering)

      【人工智能】Transformers之Pipeline(二十四):特征抽取(feature-extraction)

      【人工智能】Transformers之Pipeline(二十五):图片特征抽取(image-feature-extraction)

      【人工智能】Transformers之Pipeline(二十六):图片转文本(image-to-text)

      【人工智能】Transformers之Pipeline(二十七):掩码生成(mask-generation)

      【人工智能】Transformers之Pipeline(二十八):视觉问答(visual-question-answering)

  • 必须安装指定的框架。
  • num_workersint可选,默认为 8)— 当管道将使用DataLoader(传递数据集时,在 Pytorch 模型的 GPU 上)时,要使用的工作者数量。pipeline实战、仅当标记器中的偏移量可用时才存在
  • 2.4 pipeline实战

    基于pipeline的token-classification任务,使用FacebookAI/xlm-roberta模型:

    import osos.environ["HF_ENDPOINT"] = "https://hf-mirror.com"os.environ["CUDA_VISIBLE_DEVICES"] = "2"from transformers import pipelineclassifier = pipeline("ner", model= "xlm-roberta-large-finetuned-conll03-english" )output=classifier("Alya told Jasmine that Andrew could pay with cash..")print(output)

    执行后,自动下载模型文件并进行识别:

    2.5 模型排名

    在huggingface上,我们将令牌分类(token-classification)模型按下载量从高到低排序,总计2万个模型,文中FacebookAI的xlm-roberta排名第一。以一个句子为例,该模型随机屏蔽输入中的 15% 的单词,然后通过模型运行整个被屏蔽的句子,并必须预测被屏蔽的单词。

  • “max” :(仅适用于基于单词的模型)将使用SIMPLE除单词之外的策略,不能以不同的标签结尾。

  • taskstr,默认为"")— 管道的任务标识符。
  • modelcardstrModelCard可选) — 属于此管道模型的模型卡。文本被拆分为大小为 model_max_length 的块。单词实体将只是具有最高分数的标记。
  • 2.3.3 pipeline返回参数 ​​​​​​​​​​​​​​

    • word ( str) — 分类的标记/单词。或者,可以传递“聊天”(以带有“role”和“content”键的字典列表的形式),或传递此类聊天的列表。MAX、这是通过解码选定的标记获得的。如果传递了字符串或字符串列表,则此管道将继续每个提示。AVERAGE 来缓解这种情况并消除单词歧义(在支持该含义的语言上,基本上是用空格分隔的标记)。
    • entity ( str) — 为该标记/单词预测的实体(当 aggregation_strategy不是时,它被命名为entity_group)