图像描述任务是多模态研究领域的重要任务,要求深度学习模型以人类能够理解的凝练语句描述给定的图片,是其他多模态任务的研究基础。但现有方法在描述图片时无法完整表述文字信息,针对这种问题,基于文本的图像描述任务(Text-based Image Captioning, TextCap)被提出。目前TextCap任务的相关方法大多具有一些缺陷。一方面,大部分方法在建模图像内容和文本信息间关系时,往往忽视了一些次重要的信息,导致生成的描述质量不高;另一方面,部分方法为了强化模型的理解能力,滥用了大规模复杂的网络结构,虽然一定程度提高了模型的性能,但也面临着占用计算资源大、运行时间长等问题。针对上述两大问题,王崎团队提出了一种兼顾效率和性能的轻量级模型,LCM-Captioner,在Neural Networks发表论文“LCM-Captioner: A Lightweight Text-based Image Captioning method with Collaborative Mechanism between Vision and Text”,研究生邓宏宇和导师王崎为共同第一作者。
原文链接:https://doi.org/10.1016/j.neunet.2023.03.010