公共大数据国家重点实验室王崎老师团队在计算机顶级期刊Neural Networks（IF=9.66, SCI 1）发表高水平论文

当前位置:

热度排行

来源：公共大数据国家重点实验室 作者： 发布时间：2023-04-19 浏览次数：10

图像描述任务是多模态研究领域的重要任务，要求深度学习模型以人类能够理解的凝练语句描述给定的图片，是其他多模态任务的研究基础。但现有方法在描述图片时无法完整表述文字信息，针对这种问题，基于文本的图像描述任务（Text-based Image Captioning, TextCap）被提出。目前TextCap任务的相关方法大多具有一些缺陷。一方面，大部分方法在建模图像内容和文本信息间关系时，往往忽视了一些次重要的信息，导致生成的描述质量不高；另一方面，部分方法为了强化模型的理解能力，滥用了大规模复杂的网络结构，虽然一定程度提高了模型的性能，但也面临着占用计算资源大、运行时间长等问题。针对上述两大问题，王崎团队提出了一种兼顾效率和性能的轻量级模型，LCM-Captioner，在Neural Networks发表论文“LCM-Captioner: A Lightweight Text-based Image Captioning method with Collaborative Mechanism between Vision and Text”，研究生邓宏宇和导师王崎为共同第一作者。

原文链接：https://doi.org/10.1016/j.neunet.2023.03.010

友情链接