业界动态
通俗易懂的Stable Diffusion模型结构介绍
2024-10-31 10:58

目录

通俗易懂的Stable Diffusion模型结构介绍

SD的发展历程

SD 模型的网络结构

ClipText 文本编码器

文本向量输入Unet

VAE模型

总结图


Stable Diffusion是一个的文本条件隐式扩散模型(text-conditioned latent diffusion model),可以根据文字描述生成效果极好的图像。

2021年12月提出了隐式扩散模型(Latent Diffusion Models,LDMs)的text-to-image模型。这个研究使得用扩散模型进行文字生成图片任务可以在普通显卡上执行,并且耗时较短。为一年后现象级的稳定扩散(Stable Diffusion)诞生奠定了基础。

主要包括三个部分

ClipText 文本编码器

ClipText 文本编码器:用于解析提示词的 Clip 模型

文本编码器负责将提示词转换成电脑可以识别的文本向量

Diffusion 扩散模型

Diffusion 扩散模型:用于生成图像的 U-Net 和 Scheduler

扩散模型负责根据文本向量生成图像

VAE 模型

VAE 模型:用于压缩和恢复的图像解码器

而图像编码器则用于将生成的图像信息进行解码,以生成最终的图像输出

简化网络结构图

详细网络结构图

为了导入提示词,我们首先需要为文本创建数值表示形式。

为此,Stable Diffusion使用了一个名为CLIP的预训练Transformer模型。

CLIP的文本编码器会将文本描述转换为特征向量,该特征向量可用于与图像特征向量进行相似度比较。

因此CLIP非常适合从文本描述中为图像创建有用的表征信息。输入的文本提示语首先会被分词(也就是基于一个很大的词汇库,将句子中的词语或短语转换为一个一个的token,然后被输入CLIP的文本编码器,从而为每个token(分词)产生一个768维(针对Stable Diffusion 1.x版本)或1024维(针对Stable Diffusion 2.x版本)的向量。

CLIP模型

CLIP模型是一个基于对比学习的多模态模型,主要包含Text Encoder和Image Encoder两个模型。

其中Text Encoder用来提取文本的特征,可以使用NLP中常用的text transformer模型作为Text Encoder

而Image Encoder主要用来提取图像的特征,可以使用CNN/vision transformer模型(ResNet和ViT)作为Image Encoder。与此同时,他直接使用4亿个图片与标签文本对数据集进行训练,来学习图片与本文内容的对应关系。

文本提示词转换为向量后将被输入扩散模型,用于引导图像的生成,这里使用的扩散模型是Unet网络。

文本向量如何输入UNet进行预测

交叉注意力(cross-attention)机制

交叉注意力层贯穿了整个UNet结构,UNet中的每个空间位置都可以“注意”到文字条件中不同的token,以便从文本提示语中获取不同位置的相互关联信息。

下图展示了UNet不同层之间信息的传递

以文本为生成条件

将提示信息输入UNet,实现对图像生成的定向引导,这种方法称为条件生成

UNet的原理

在预测过程中,通过反复调用UNet迭代降噪,将UNet预测输出的noise slice从原有的噪声中去除,从而生成高质量图像。(具体细节可以看:扩散模型思想及数学原理-CSDN博客

对于给定的“带噪”图像,可以使模型基于提示信息来预测“去噪”后的图像。在推理阶段,我们可以输入期望图像的文本描述,并将纯噪声数据作为起点,然后模型便开始全力对噪声输入进行“去噪”,从而生成能够匹配文本描述的图像。

具体到Stable Diffusion模型中,在推理阶段,我们可以输入期望图像的文本描述,并将纯噪声数据作为起点,然后模型便开始全力对噪声输入进行“去噪”,从而生成能够匹配文本描述的图像。

文本编码过程:将输入的文本提示语转换为一系列的文本嵌入(即图中的ENCODER_HIDDEN_STATES,然后输入UNet作为生成条件。

由Latent Diffusion提出

当输入图像尺寸变大,生成图片所需的计算能力也会随之增加。这种现象在自注意力(self-attention)机制下的影响尤为突出,因为操作数会随着输入量的增加以平方关系增加。

例如:一张128×128像素的正方形图片拥有的像素数量是一张64×64像素的正方形图片的4倍,因此在自注意力层就需要16倍(42)于后者的内存和计算量。

这是高分辨率图像生成任务存在的普遍问题

为了解决这个问题,隐式扩散(Latent Diffusion)使用了一个独立的模型——VAE来压缩图片到一个更小的空间维度,VAE全称是 Variational Auto Encoder 变分自动编码器

VAE原理

图片通常包含大量冗余信息,因此我们可以训练一个VAE(对其使用大量的图片数据进行训练,使其可以将图片映射到一个较小的隐式表征,并将这个较小的隐式表征映射到原始图片

简单来说,它的作用就是将高维数据(像素空间)映射到低维空间(潜空间,从而实现数据的压缩和降维

VEA组成

它由**编码器(Encoder解码器(Decoder)**两部分组成。 编码器用于将图像信息降维并传入潜空间中,解码器将潜在数据表示转换回原始图像,而在潜在扩散模型的推理生成过程中我们只需用到 VAE 的解码器部分。

SD对VAE的应用

Stable Diffusion中的VAE能够接收一张三通道图片作为输入,从而生成一个4通道的隐式表征,同时每一个空间维度都将减少为原来的八分之一。

例如,一张512×512像素的正方形图片将被压缩到一个4×64×64的隐式表征上。

作用

通过在隐式表征(而不是完整图像)上进行扩散,我们可以在使用更少的内存的同时减少UNet层数并加速图片的生成。与此同时,我们仍能把结果输入VAE的解码器,从而解码得到高分辨率图像。隐式表征极大降低了训练和推理成本

关于AI绘画技术储备

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助

👉[[CSDN大礼包《StableDiffusion安装包&AI绘画入门学习资料》免费分享]]安全链接,放心点击

对于0基础小白入门

如果你是零基础小白,想快速入门AI绘画是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括:stable diffusion安装包、stable diffusion0基础入门全套PDF,视频学习教程。带你从零基础系统性的学好AI绘画

👉stable diffusion新手0基础入门PDF👈

(全套教程文末领取哈
在这里插入图片描述

👉AI绘画必备工具👈

在这里插入图片描述

👉AI绘画基础+速成+进阶使用教程👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉大厂AIGC实战案例👈

    以上就是本篇文章【通俗易懂的Stable Diffusion模型结构介绍】的全部内容了,欢迎阅览 ! 文章地址:http://www78564.xrbh.cn/news/26320.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 迅博思语移动站 http://www78564.xrbh.cn/mobile/ , 查看更多   
最新文章
中交地产1元“退房”:战略转型与债务困境下的断臂求生
中交地产的这次“断臂求生”,不仅是企业自救的手段,更是一种行业趋势的缩影。中房报记者 梁笑梅丨北京报道7月25日,深陷退市危
邛崃市2025年7月招聘信息第四期共30家企业
四川金忠食品股份有限公司(邛崃市新邛路517号)1.研发工艺员 1名要求:40岁以下,大专以上学历,食品类专业,具备食品(肉制品
浙江义乌“大企帮小店”探索共富新路径
方静“张大酥是专门经营养生糕点的店铺,今年初才进驻李祖。当时‘大企’主动帮我们设计了具有李祖特色的糕点套装,义乌市市场监
北京移动应急通信保障恢复怀柔区72座基站,抢通40个行政村
7月28日北京青年报记者从北京移动了解到,截至18时,北京移动已抢通怀柔区雁栖开发区至汤河口48芯光缆一条,恢复汤河口、宝山、
小猫看伤花5000元,宠主质疑:诊所每天对小猫进行抽血检查等诊疗行为属于“过度医疗”
近日,芜湖繁昌区法院参考专家辅助人的意见,引导双方申请司法鉴定。调解过程中,专家辅助人详细分析了小猫病历,明确指出检查报
克莱斯勒300C 2.7汽车配件前羊角轴头刹车盘
克莱斯勒300C/2.7三元催化器 峰哲汽车尾灯后保险杠 切诺基大灯 我公司是一家专业从事别克与克莱斯勒汽车配件销售与服务的汽配企
他们是CS上海Major的“幕后功臣”,完美电竞合作伙伴联盟成立
从2019年的第九届DOTA2国际邀请赛(TI9),到2020年的英雄联盟全球总决赛(S10)、2024年的反恐精英世界锦标赛(CS上海Major),
军事资讯AI速递:昨夜今晨军事热点一览 丨2025年8月21日
  军事领域动态复杂,事件可能迅速改变全球安全格局。我们整理了昨夜今晨最重要的军事新闻,包括关键行动和政策变化,让您清晰
刚出炉!上海崇明成功认证“国际湿地城市”,将迎来什么发展机遇?
《湿地公约》第十五届缔约方大会于7月23日至31日在津巴布韦维多利亚瀑布城举行。全球共16个国家31个城市获得第三批“国际湿地城
疑似OPPO Find X9 Pro核心硬件曝光:搭载天玑9500 主频突破4GHz
【TechWeb】去年10月,OPPO推出了OPPO Find X8 Pro,这是全球首款配备双潜望长焦的天玑旗舰,拥有一颗5000万像素3倍索尼LYT-600