Cross Attention Based Style Distribution for Controllable Person Image Synthesis基于交叉注意力的风格分布用于可控的人物图像合成ECCV-2022-8图1. 左:给定源图像和目标位姿,我们的模型能够根据需要进行位姿传递并生成目标解析图。注意,对于目标解析图,我们只有一个训练阶段,没有独立生成。然而,我们的模型仍然通过基于交叉注意力的风格分布模块精确地合成它。右:我们的模型还通过显式控制源图像和参考图像的姿势和身体部位外观来实现虚拟试戴和头部(身份)交换。摘要:可控人物图像合成任务通过对身体姿势和外观的明确控制实现了广泛的应用。在本文中,我们提出了一种基于交叉注意力的风格分布模块,该模块在源语义风格和目标姿态之间进行计算以进行姿势转移。该模块有意选择每个语义所代表的风格,并根据目标姿势分配它们。交叉注意力中的注意力矩阵表达了目标姿势和所有语义的源风格之间的动态相似性。因此,它可以用来路由源图像的颜色和纹理,并进一步受到目标解析图的约束,以达到更清晰的目标。同时,为了准确编码源外观,还添加了不同语义风格之间的自我
神经网络中权值初始化的方法权值初始化的方法主要有:常量初始化(constant)、高斯分布初始化(gaussian)、positive_unitball初始化、均匀分布初始化(uniform)、xavier初始化、msra初始化、双线性初始化(bilinear)、数学方法 Kaiming初始化、orthogonal正交初始化。常量初始化(constant)把权值或者偏置初始化为一个常数,具体是什么常数,可以自己定义高斯分布初始化(gaussian)需要给定高斯函数的均值与标准差positive_unitball初始化让每一个神经元的输入的权值和为 1,例如:一个神经元有100个输入,让这100个输入的权值和为1. 首先给这100个权值赋值为在(0,1)之间的均匀分布,然后,每一个权值再除以它们的和就可以啦。这么做,可以有助于防止权值初始化过大,从而防止激活函数(sigmoid函数)进入饱和区。所以,它应该比较适合simgmoid形的激活函数均匀分布初始化(uniform)将权值与偏置进行均匀分布的初始化,用min 与 max 来控制它们的的上下限,默认为(0,1)xavier初始化(
pytorch的 torchvision transformstorchvision是pytorch的数据集,也包含常用数据处理工具,包含几个模块:datasets(包含常用的数据集:minist,COCO等)models(包含常用的著名网络结构:AlexNet,VGG,ResNet等等,你可以使用随机初始化的网络结构,也可以使用已经训练好的网络)transforms(对PIL.Image进行变换处理:Scale(缩放)、CenterCrop(中心切割)、Pad(填充)等),PIL(Python Imaging Library)是python对图形处理的库。下面具体讲一下transforms中常用函数的使用transforms.Scale(size)将输入的PIL.Image重新改变大小成给定的size,size是最小边的边长。举个例子,如果原图的height>width,那么改变大小后的图片大小是(size*height/width, size),若是height<width,那么就是(size, size*width/height)。例:from PIL import
torch.cuda.FloatTensor 与 torch.FloatTensor(torch.Tensor)--CPU和GPU上的数据类型torch.cuda.FloatTensor 与torch.FloatTensor Pytorch中的tensor又包括CPU上的数据类型和GPU上的数据类型,一般GPU上的Tensor是CPU上的Tensor加cuda()函数得到的。一般系统默认是torch.FloatTensor类型(即CPU上的数据类型)。例如data = torch.Tensor(2,3)是一个2*3的张量,类型为FloatTensor; data.cuda()就转为GPU的张量类型,torch.cuda.FloatTensor类型。torch.Tensor与torch.tensor torch.Tensor:torch.Tensor()是Python类,更明确的说,是默认张量类类型torch.FloatTensor()的别名,torch.Tensor([1,2]) 会调用Tensor类的构造函数__init__,生成单一精度浮点类的张量。torch.tensor():
anchor机制讲解什么是anchor boxesanchor boxes是一组提前预定义的边框,这些框的宽高和数据集中目标物体的宽高大体是一致的,换句话说,数据集中的绝绝大多数物体都能找到与其大小一致的anchor box。举例来说,如果数据集中包含苹果、猫,那么这组anchor boxes中就需要有和苹果、猫大小相仿的边框。为了尽可能多的覆盖数据集中可能出现的目标推的宽高,这些边框具有不同的宽高比(aspect ratio)和尺度(scale)。边框可以反应一个物体的大致信息,边框的位置反应物体的大致位置,宽高比反应物体的身材比例,尺度反应物体的大小。为什么需要anchor boxes其实,物体检测方法是非常直观的,就是在图片上,截一小块,检测这一小块包不包含物体,如果包含物体,该物体的位置就是刚刚截取的这个小块的位置,同时再预测一下它的类别是什么。那这种检测方法和anchor box又有什么关系呢? 其实,刚刚截取的这个小块就是一个anchor box。往往,图片上的每一处位置都有可能出现目标物体,并且目标的大小是不确定的。那有什么办法能检出所有的物体呢?最容易想到的办法就是,以
论文题目(英)SCAM! Transferring humans between images with Semantic Cross Attention Modulation论文题目(中)SCAM! 基于语义交叉注意调制的图像间人转移发表时间22-10-10论文方向给定一个源和一个目标主体,主体转移的思想是让源主体无缝地替换目标图像中的目标主体。目标图像应该保持相同的背景,相同的主体和对象之间的相互作用,和相同的空间配置,以考虑可能的遮挡。论文创新点1. 提出了语义交叉注意(SCA),它在一组潜在的(每个都链接到一个语义区域)和一个图像特征图之间执行注意。 SCA 限制了注意力,例如潜在的只关注图像特征图上与相关语义标签相对应的区域。2. 引入了 SAT 操作和编码器(Semantic Attention Transformer),它依赖于交叉注意力来决定在图像中收集哪些信息以及哪些潜在信息,从而允许对更丰富的信息进行编码。 3. 提出SCAM-Generator(以 SCAM 命名),它使用 SCAM-Operation 调制特征图,允许每个像素关注语义上有意义的潜在。论文方法
一只胖橘