视觉生成模型

本文主要总结了当前主要的视觉生成的工作

May 12, 2026 - 1 minute read -
research

CLIP

20年openAI训练了两个encoder,目标是将图片和其标题得到的hidden state最相似(余弦相似度),使用的对比学习方法

C:contrastive L:language I:image P:pretrain

CLIP的得到的picture embedding具有线性语义性质同时可以很好的被应用在分类任务上

Denoising Diffusion Probability Model

DDPM

image-20260512165007528

基本算法就是在训练的时候随机取一张照片,得到其在第t步时的加噪图像,然后预测其噪声(这里预测的噪声永远是相较于原始干净的图片所加的噪声)

在生成的时候就是一步步将完全的噪声逆向为原始图片,但是会在每一步生成的时候添加噪声z

可以将加噪过程视作在高维空间中的布朗运动,而学习到的噪声其实学到的是一个向量场,这个向量场让随机的数据指向实际的数据流形

直接让模型学习到指向原始数据会大大降低训练数据的方差,使得训练更加高效,但是实际上训练模型学习上一步的噪声是等效的

同时将时间步传入可以让模型在低时间步上预测更小的噪声,在更大的时间步上预测更大的噪声

在生成的时候,如果不加入随机噪声,所有的原始噪声图像都会跑到真实数据流形的中心,这是由于这相当于永远取均值而不添加方差,这会抹去鲜明的特点,偏离实际数据流形

Loading...