InstructPix2Pix: Learning to Follow Image Editing Instructions:
我们提出了一种根据人类instruction编辑图像的方法:
给定input image和一段written instruction,模型会根据这些指令编辑图像。
为了获取此问题的训练数据,我们结合了两个大型预训练模型的知识——一个语言模型(GPT-3)和一个文本到图像模型(Stable Diffusion)——生成了大量图像编辑示例数据集。我们的条件扩散模型InstructPix2Pix在生成的数据上进行训练,尽管我们的模型完全在合成示例(即生成的书面指令和生成的图像)上进行训练,但它在面对任意真实图像和自然人类书写的指令时,能够实现zero-shot generalization。我们的模型使直观的图像编辑成为可能,可以根据人类指令执行各种编辑操作:替换对象、更改图像风格、更改场景、艺术媒介等。**由于它在前向传播中执行编辑,不需要针对每个示例进行微调或反演,我们的模型能够快速编辑图像,只需几秒钟。**我们展示了在各种输入图像和书面指令下的令人信服的编辑结果。
笔记链接:
https://fir-pufferfish-b8d.notion.site/InstructPix2Pix-Learning-to-Follow-Image-Editing-Instructions-ca06695597f34e9a866c8cca38fdb2f4