细粒度视觉分类(FGVC)一直是计算机视觉中一项基本而重要的任务,意在将一张图片从其下级类别中区分出来。它在现实世界中有着广泛的应用,如人脸重识别、智慧农业和超市零售。由于类内差异大,类间差异小,FGVC长期以来被认为是一项具有挑战性的任务。受益于深度学习的发展,近年来,FGVC的性能也取得了持续稳定的进步。为了避免大量注释数据造成的高强度劳动,业界主要集中在只使用图像信息的弱监督FGVC的研究上。王崎团队提出了一个带有信息熵选择器的核心注意力聚集transformer,用于细粒度的视觉分类,命名为AA-Trans,在Pattern Recognition发表论文“AA-Trans: Core Attention Aggregating Transformer with the Information Entropy Selector for Fine-grained Visual Classification”,研究生王建军和导师王崎为共同第一作者。
原文链接:https://doi.org/10.1016/j.patcog.2023.109547