SPIRE: 基于语义提示驱动的图像修复

论文SPIRE: Semantic Prompt-Driven Image Restoration介绍了一种新的图像修复框架,利用自然语言提示来控制图像修复任务的语义和强度。该论文研究成果解决了使用自然语言提示进行精细级别图像处理任务(如去噪、超分辨率和去模糊)的挑战,这些任务传统上需要单独的模型。SPIRE(基于语义和修复提示的图像修复)的动机是创建一个通用模型,该模型可以通过用户友好的文本提示来实现所需的图像修复结果。这种方法特别具有创新性,因为它允许使用同一个模型同时进行语义级别和任务特定的修复,提供了更大的控制和灵活性。

论文作者为Chenyang Qi, Zhengzhong Tu, Keren Ye, Mauricio Delbracio, Peyman Milanfar, Qifeng Chen, Hossein Talebi,来自Google Research和HKUST(香港科技大学)。

SPIRE: Semantic Prompt-Driven Image Restoration

论文内容概要如下:

一、论文贡献

该论文做出了几项关键贡献:

  • 统一模型:SPIRE是第一个将语义提示和修复指令整合在一起的模型,允许同时控制图像的语义和修复细节。
  • 修复灵活性:用户可以提示SPIRE进行盲修复、语义修复或任务特定的修复,而无需多个模型。
  • 新型融合机制:论文引入了一种新的融合机制,增强了现有的ControlNet架构,通过学习重新调整生成先验,提升修复的保真度。
  • 全面评估:大量实验表明,与最先进的模型相比,SPIRE在修复质量和灵活性方面具有优越性。
二、方法论

SPIRE基于潜在扩散模型(Latent Diffusion Models,LDMs),并引入了一个解耦语义提示和修复提示学习的框架:

  • 基于文本驱动的图像修复:模型使用内容提示(cs)进行语义引导,并使用修复提示(cr)执行特定的修复任务。退化过程通过合成数据进行模拟,模型学习根据这些提示修复图像。
  • ControlNet适配器:模型的关键组成部分是ControlNet适配器,该适配器通过微调学习修复条件,同时保留文本到图像的先验。这个适配器使模型能够有效处理语义和退化的歧义。
三、实验结果

论文提供了大量的定量和定性比较,证明SPIRE在修复性能上优于基线模型:

  • 性能指标:SPIRE在包括FID、LPIPS、PSNR和SSIM在内的各种指标上都显示出改进,特别是在同时利用语义和修复提示时。
  • 实际应用:模型的灵活性通过实际图像修复任务得以展示,模型适应不同的修复强度和语义提示,产生视觉上令人满意的结果。
四、结论

SPIRE通过引入支持语义和任务特定修复提示的统一框架,代表了图像修复领域的显著进步。模型能够通过单一架构处理多种修复任务,并且其用户友好的提示界面使其成为学术研究和实际应用中的一个有前途的工具。


SPIRE Project: https://chenyangqiqi.github.io/tip/

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注