英伟达超快StyleGAN回归,比StableDiffusion快30多2023-02-02 12:50:54 来源:IT之家 阅读量:8902
导读:扩散模型的图像生成主导权终于要被GAN夺回来了。
就在所有人都在庆祝新年的时候,英伟达的一群科学家悄悄升级了StyleGAN系列,生产出了StyleGAN—T...
扩散模型的图像生成主导权终于要被GAN夺回来了。 就在所有人都在庆祝新年的时候,英伟达的一群科学家悄悄升级了StyleGAN系列,生产出了StyleGAN—T的PLUS版本,顿时在网上走红。 无论是在星云爆炸中制造软木塞: 或者基于虚幻引擎风格渲染的森林: 生成只需要将近0.1秒! 很多网友的第一反应是: 甘,一个久违的名字。 在低质量图像生成方面,StyleGAN—T优于扩散模型。 但他也表示,在256×256图像的生成中,仍然是扩散模型的天下。 那么,新的StyleGAN质量如何,它在哪些领域重新具有竞争力。 StyleGAN—T长什么样。 与扩散模型和自回归模型相比,GAN最大的优势是速度。 因此,StyleGAN—T这次也重点研究了大规模文本图像合成,即如何在短时间内由文本生成大量图像。 StyleGAN—T是在StyleGAN—XL的基础上改进而来的。 StyleGAN—XL的参数是StyleGAN3的三倍基于ImageNet训练,可以生成1024×1024的高分辨率图像,并借鉴了StyleGAN2和StyleGAN3的一些架构设计 其总体结构如下: 只有控制参数ψ,才能在剪辑分数变化不大的情况下,提高生成图像的风格多样性。 那么它的产生效果如何呢。 低分辨率图像的超快速生成 在微软的MS COCO数据集上,StyleGAN—T在64×64分辨率下实现了最高的FID。 但是在256×256的更高分辨率的一代中,StyleGAN—T仍然比不过过扩散模型,但是比同样使用GAN的拉菲好很多: 如果进一步将生成时间和FID分别作为纵轴和横轴,在同一个图上进行比较,可以更直观地比较生成质量和速度。 可以看出,StyleGAN—T可以以10FPS的速度生成256×256分辨率的图像,FID值接近LDM,GLIDE等扩散模型。 添加或更改特定形容词后,生成的图像确实符合描述: 即使是快速生成的图像,也能快速控制风格,如梵高风格绘画或动画, 当然也有偶尔失败的情况,最典型的就是生成有文字要求的图像时,无法显示正常的文字: 阿克塞尔·绍尔,图宾根大学博士生,卡尔斯鲁厄理工学院硕士目前感兴趣的研究方向有深度生成模型,神经网络架构和实证研究 但在这波GAN掀起的复兴浪潮下,也出现了StyleGAN时代即将结束的声音。 有网友感慨: 在此之前,最新的StyleGAN生成的图像总是让我们感到惊讶,而现在它只给我们快的印象。 你觉得甘还能撼动扩散模型的霸主地位吗。 纸张地址: 项目地址: 声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。 下一篇:返回列表
推荐产品
经典回顾
|
||
网站地图 备案号:京ICP备19048932号-2 中国最专业的房产家居、装修建材行业资讯网络平台 本站部分资源来自网友上传,如果无意之中侵犯了您的版权,请联系本站,本站将在3个工作日内删除。 |