您现在的位置是:Stable Diffusion 3 文本生成图像 在线体验 原理分析 >>正文
Stable Diffusion 3 文本生成图像 在线体验 原理分析
德薄能鲜网3人已围观
简介前言。本文分享使用Stablele的使用 Diffusion 实现文本生成图像,可通过在线网页免费使用c;还有API等访问方式。同时,分析论文和开源代码,了解它...
前言。
本文分享使用Stablele的使用 Diffusion 实现文本生成图像,可通过在线网页免费使用c;还有API等访问方式。
同时,分析论文和开源代码,了解它的原理。
Stable Diffusion 三是Stability 最新、最先进的人工智能开发。文本生成图像。模型,在。图像保真度、多主体处理和文本匹配。方。表面取得了显著进步。
利用新的。多模态扩散变换器。(MMDiT)结构,Stable具有独立的图像和语言表示 Diffusion 3权重。
目录。
前言。
1、Stablele在线体验 Diffusion 3。
2、Stable Diffusion 3生成图像。
3、Stable Diffusion 3原理分析。
1、Stablele在线体验 Diffusion 3。
官方网站地址:https:/stabledifffusion3.net/zh-CN。
如下图所示,生成的图片相当清晰,不错不错 :
点击图片能看到“提示器”,图像比还可以下载原图:
当然,用中文作为提示词也可以,效果也很好。
不同的画风和场景: 。
感觉生成的图像非常接近真实:
。
“提示词”更详细地描述了,会有更多的细节:
2、Stable Diffusion 3生成图像。
思路流程
- 输入提示可以是中文或英文。
- 选择模型包括:Realistic。写实、。Tamarin。插图风格,。Super Anime 。超级动画,。visiCanvas。可视画布,。Realistic。 写实、。Anime。动漫、。3D Animation。3D动画。
- 选择生成图像的数量,默认情况下,一个,可选2张或4张。
- 选择图像的比例,包括1:1、3:4、4:3。
例如,如下图所示,#xff00c;选择了。Super Anime。模型,同时生成两个图像,图像比例是1:1。
3、Stable Diffusion 3原理分析。
Stable Diffusion3使用扩散变压器(DiT)结构,结合噪声预测和采样技术,生成高质量的图像。
- 该模型使用不同的Stable 图像和语言表达的Diffusion3权重c;确保图像中文本生成的准确性和连贯性。
- Stable Diffusion3提供从800M到8B参数的模型,以满足各种硬件能力和性能需求。
- 使用Stable Difffusion3 API,用户可以输入文本提示,该模型将其转换为详细准确的图像,严格遵循提供的描述。
开源地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium。
论文地址:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis 。
模型的关键结构,如下图所示,#xff1a;
主要包括(a)扩散模型框架组件的多模态数据,(b)MM-Dit块的细节,
(a)扩散模型框架组件的多模态数据。
1、Caption 输入。:
- “Caption“是输入的文本描述,用于指导生成的图像内容。
2、特征提取模型。:
- CLIP-G/14 和 CLIP-L/14。:这是两种处理文本和图像的模型,它们将文本和图像转化为向量表示。
- T5 XXL。:处理文本的模型,将输入的文本转换为向量。
3、合并特征。:
- 从这些模型中提取的特征合并在一起,形成大向量,它包含了输入信息的多个方面。
4、潜在噪声变量(Noised Latent):
- 这是模型生成图像的起点,是最初的噪声图像。
5、位置编码(Positional Embedding):
- 添加位置信息给输入数据#xff0c;让模型知道每个数据的位置。
6、MM-DiT 块。:
- 这些都是模型的核心部分,噪声图像通过多层处理逐步转换为目标图像。
7、输出处理。:
- 最后,将处理后的特征向量转换回图像,输出最终生成图像。
(b)MM-Dit块(Multimodal Diffusion Transformer)
1、输入。:
- 输入为 y 和 x 向量的两个特征。
2、SiLU 激活函数和线性层。:
- 使用 SiLU(Sigmoid Linear Unit)激活函数和线性层改变输入特性。
3、Layernorm 和谐调制(Modulation):
- 使用 Layernorm 层归一化。
- 调制(Modulation)部分通过 α 和 β 特征调整参数。
4、Attention 机制。:
- 采用 Q(Query)、K(Key)、V(Value)注意力计算中有三个矩阵。
5、MLP(多层感知器):
- 特征的非线性变换是通过多层传感器进行的。
6、残差连接(Residual Connections):
- 使用残差连接来保持信息的流动,避免梯度消失。
该框架将文本和图像特征与#xff0相结合c;利用扩散模型逐步生成高质量的图像。
关键在于多模态 Transformer 块(MM-DiT block),处理特征通过注意力机制和非线性变化,从而在生成过程中保持数据的复杂性和一致性。
分享完成~。
Tags:
相关文章
哪一个是好的酒店门锁系统?科裕酒店锁让酒店好评率飙升90%?
Stable Diffusion 3 文本生成图像 在线体验 原理分析随着酒店业竞争的日益激烈,从 2019 - 2023 年,酒店业上市公司整体营业收入呈现先降后升的趋势 2023 年后开始回暖 ,各大酒店都在努力提高竞争力。在众多影响因素中,酒店门锁虽小,但起着不可...
阅读更多
Web Components — Web 组件
Stable Diffusion 3 文本生成图像 在线体验 原理分析前言在重学 JavaScript 过程中,了解到了 Web 组件,而其中的一些知识点总感觉和 vuejs 中的某些概念很相似,比如 Web 组件中涉及的内容&...
阅读更多
【探寻C++之旅】第一章:C++入门
Stable Diffusion 3 文本生成图像 在线体验 原理分析请君浏览前言1. c++的发展历史2. c++的第一个程序3. namespace(命名空间)3.1 namespace的价值3.2 nam...
阅读更多