习气了 Stable Diffusion ,苹果如今终于又迎来一个俄罗斯套娃式(Matryoshka)Diffusion 模子,文生仍是图大套娃苹果做的。
在天生式 AI 时期,模亮漫反散漫模子已经成为图像、相俄视频、式散说率3D、对于音频以及文本天生等天生式 AI 运用的苹果盛行工具 。可是文生将散漫模子拓展到高分说带规模依然面临重大挑战,这是图大套娃由于模子必需在每一个步骤重新编码所有的高分说率输入。处置这些挑战需要运用带有留意力块的模亮漫反深层架构,这使患上优化更难题 ,相俄破费的式散说率算力以及内存也更多 。
奈何样办呢?最近的对于一些使命专一于钻研用于高分说率图像的高效收集架构。可是苹果现有措施都不揭示出逾越 512×512 分说率的下场 ,而且天生品质落伍于主流的级联或者 latent 措施 。
咱们以 OpenAI DALL-E 二