How-to-inject-prior-information-like-ROI-region-into-the-model

给定某个需求,如希望对图像中指定位置(rect)的内容进行分类,类别如自行车、船等,即输入包括图像以及图像内ROI区域,输出是类别。

一般的思路是把ROI区域crop出来然后用resnet等网络进行分类,但我们进一步分析会发现ROI区域之外的信息其实对于分类的效果提升也是有帮助的,比如船一般周围是水面或者码头等而自行车一般不会在水里。

方案一:image => ROI crop => feature extractor => classifier;
方案二:image + mask_image => feature extractor => classifier;
方案三:image => feature_extractor => ROI crop => classifier;(Conv or ViT)