您现在的位置是:Stable Diffusion 3 文本生成图像 在线体验 原理分析 >>正文

Stable Diffusion 3 文本生成图像 在线体验 原理分析

德薄能鲜网3人已围观

简介前言。本文分享使用Stablele的使用 Diffusion 实现文本生成图像,࿰可通过在线网页免费使用c;还有API等访问方式。同时,分析论文和开源代码,了解它...

前言。

本文分享使用Stablele的使用 Diffusion 实现文本生成图像,࿰可通过在线网页免费使用c;还有API等访问方式。

同时,分析论文和开源代码,了解它的原理。

Stable Diffusion 三是Stability 最新、最先进的人工智能开发。文本生成图像。模型,在。图像保真度、多主体处理和文本匹配。方。表面取得了显著进步。

利用新的。多模态扩散变换器。(MMDiT)结构,Stable具有独立的图像和语言表示 Diffusion 3权重。

目录。

前言。

1、Stablele在线体验 Diffusion 3。

2、Stable Diffusion 3生成图像。

3、Stable Diffusion 3原理分析。


1、Stablele在线体验 Diffusion 3。

官方网站地址:https:/stabledifffusion3.net/zh-CN。

如下图所示,生成的图片相当清晰,不错不错 :

点击图片󿀌能看到“提示器”,图像比󿀌还可以下载原图:

当然,用中文作为提示词󿀌也可以,效果也很好。

不同的画风和场景: 。

感觉生成的图像非常接近真实:

 。

“提示词”更详细地描述了,会有更多的细节:

2、Stable Diffusion 3生成图像。

 思路流程󿄚

  1. 输入提示󿀌可以是中文或英文。
  2. 选择模型�包括:Realistic。写实、。Tamarin。插图风格,。Super Anime 。超级动画,。visiCanvas。可视画布,。Realistic。 写实、。Anime。动漫、。3D Animation。3D动画。
  3. 选择生成图像的数量,默认情况下,一个,可选2张或4张。
  4. 选择图像的比例,包括1:1、3:4、4:3。

例如,如下图所示,#xff00c;选择了。Super Anime。模型,同时生成两个图像,图像比例是1:1。

3、Stable Diffusion 3原理分析。

Stable Diffusion3使用扩散变压器(DiT)结构,结合噪声预测和采样技术,生成高质量的图像。

  • 该模型使用不同的Stable 图像和语言表达的Diffusion3权重c;确保图像中文本生成的准确性和连贯性。
  • Stable Diffusion3提供从800M到8B参数的模型,以满足各种硬件能力和性能需求。
  • 使用Stable Difffusion3 API,用户可以输入文本提示,该模型将其转换为详细准确的图像,严格遵循提供的描述。

开源地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium。

论文地址:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis 。

模型的关键结构,如下图所示,#xff1a;

主要包括(a)扩散模型框架组件的多模态数据,(b)MM-Dit块的细节,

 (a)扩散模型框架组件的多模态数据。

  • 1、Caption 输入。

    • “Caption“是输入的文本描述,用于指导生成的图像内容。
  • 2、特征提取模型。

    • CLIP-G/14 和 CLIP-L/14。:这是两种处理文本和图像的模型,它们将文本和图像转化为向量表示。
    • T5 XXL。:处理文本的模型,将输入的文本转换为向量。
  • 3、合并特征。

    • 从这些模型中提取的特征合并在一起,形成大向量,它包含了输入信息的多个方面。
  • 4、潜在噪声变量(Noised Latent)

    • 这是模型生成图像的起点,是最初的噪声图像。
  • 5、位置编码(Positional Embedding)

    • 添加位置信息给输入数据#xff0c;让模型知道每个数据的位置。
  • 6、MM-DiT 块。

    • 这些都是模型的核心部分,噪声图像通过多层处理逐步转换为目标图像。
  • 7、输出处理。

    • 最后,将处理后的特征向量转换回图像,输出最终生成图像。

(b)MM-Dit块(Multimodal Diffusion Transformer)

  • 1、输入。

    • 输入为 y 和 x 向量的两个特征。
  • 2、SiLU 激活函数和线性层。

    • 使用 SiLU(Sigmoid Linear Unit)激活函数和线性层改变输入特性。
  • 3、Layernorm 和谐调制(Modulation)

    • 使用 Layernorm 层归一化。
    • 调制(Modulation)部分通过 α 和 β 特征调整参数。
  • 4、Attention 机制。

    • 采用 Q(Query)、K(Key)、V(Value)注意力计算中有三个矩阵。
  • 5、MLP(多层感知器)

    • 特征的非线性变换是通过多层传感器进行的。
  • 6、残差连接(Residual Connections)

    • 使用残差连接来保持信息的流动,避免梯度消失。

该框架将文本和图像特征与#xff0相结合c;利用扩散模型逐步生成高质量的图像。

关键在于多模态 Transformer 块(MM-DiT block),处理特征通过注意力机制和非线性变化,从而在生成过程中保持数据的复杂性和一致性。

分享完成~。

Tags:

相关文章



友情链接