01.前言

 

尽管最新的基于大规模预训练视觉语言模型(VLMs)的研究在少样本异常识别领域取得了一些进展,但这些方法通常依赖于少量正常样本与查询样本的直接特征匹配。这种匹配方式由于没有深入探索其细微的特征,往往很难实现精确的特征比较,容易导致不稳定的结果,因为查询图像和正常参考图像的非异常区域之间的差异可能会非常大,导致严重影响预测精度。除此之外,由于小样本正常参考图像的数量有限,也使其预测精度不足。
 

论文地址:

https://arxiv.org/abs/2502.01201
 

模型链接:

https://modelscope.cn/models/liyiyue/One-to-Normal9
 

02.论文方法

算法框架图

在这项工作中,我们假设:

1)为了获得更准确的预测结果,有必要将查询图像与其对应或最相似的正常图像进行比较。理想情况下,这种比较应该将查询图像一对一地转换为正常对应图像;
 

2)此外,我们还希望以更加稳定和鲁棒的结果作为目标,需要一个全面的方法来从多个角度准确预测结果。为此,我们提出了一种One-to-Normal Anomaly Personalization的方法。为了实现更准确、个性化的比较预测,如1)所述,我们的方法采用了一个扩散模型来创建一个无异常定制diffusion模型。接着通过一系列精心设计的文本提示,这些提示包含了图像可能处于的正常物理状态的所有描述,模型可以生成尽可能接近正常状态的图像版本,将查询图像转化为与正常流形对齐的个性化版本,从而实现更精细的one-to-normal转化。
 

此外,为了增强2)中所述的稳定性和鲁棒性,该方法还提出了“多维度异常特征比较”策略,进一步使病灶检测更加稳定和鲁棒。该策略通过多层次的CLIP特征比较,具体来说,这一策略包括三个主要的对比维度,分别是查询图像与个性化生成图像的对比、非病变样本池的对比、以及提示词信息的对比。这种多层次、多维度的推理策略确保了模型能够从不同角度对查询图像进行全面评估。


 

03.论文实验

实验结果在医疗和工业等领域的数据集上进行了实验,验证了该方法在多样化场景中的有效性。


 

我们的方法在像素级异常定位的结果可视化:

Personalized images的可视化,query image的红色框表示异常区域:

同时,将生成的正样本加入到现有方法中时,现有方法模型结果在大部分数据集上都有提升,证明了该方法的灵活性。


 

点击阅读原文, 即可跳转模型链接~

https://modelscope.cn/models/liyiyue/One-to-Normal9

 

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐